Skip to content

xiaopangxia/DS_CTT

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

11 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

DS_CTT

Distant supervision for Chinese Temporal Tagging

利用CN-DBPedia的triples做远程监督,进行中文时间表达式标注。
序列标注模型采用BiLSTM+CRF。

DS_CTT介绍

百科语料经来自CN-DBPedia的时间相关三元组远程监督标注,作为序列标注模型BiLSTM+CRF的训练集。

raw_pages来源:

  百度百科随机页面3万条

Bike_triples.txt文件:

  来自知识工场2015年dump文件,http://openkg.cn/dataset/cndbpedia

代码使用:

数据准备部分用python2.7写的,序列标注模型python3.5+Tensorflow

总体框架图

框架图

训练集标注示意图(两轮标注):

第一轮较长时间属性值文本匹配

训练集标注示意图

第二轮加入jieba词性标注的结果

pos tagging

序列标注模型框架图:

序列标注模型BiLSTM+CRF

About

Distant supervision for Chinese Temporal Tagging

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages