DS_CTT Distant supervision for Chinese Temporal Tagging 利用CN-DBPedia的triples做远程监督,进行中文时间表达式标注。 序列标注模型采用BiLSTM+CRF。 DS_CTT介绍 百科语料经来自CN-DBPedia的时间相关三元组远程监督标注,作为序列标注模型BiLSTM+CRF的训练集。 raw_pages来源: 百度百科随机页面3万条 Bike_triples.txt文件: 来自知识工场2015年dump文件,http://openkg.cn/dataset/cndbpedia 代码使用: 数据准备部分用python2.7写的,序列标注模型python3.5+Tensorflow 总体框架图 训练集标注示意图(两轮标注): 第一轮较长时间属性值文本匹配 第二轮加入jieba词性标注的结果 序列标注模型框架图: