转载

Neural Chinese Named Entity Recognition via CNN-LSTM-CRF and Joint Training with Word Segmentation

Neural Chinese Named Entity Recognition via CNN-LSTM-CRF and Joint Training with Word Segmentation

概述

中文与英文相比,词之间没有明显的分隔符,所以很难确定实体的边界,另外中文命名实体识别任务的标注语料也很少。所以文章中作者提出了CNN-LSTM-CRF架构去获得短距离和长距离的内容依赖。同时为了提高识别实体边界的准确率,作者提出命名实体识别任务和分词任务联合学习。由于中文命名实体识别的语料较少,作者利用相同实体类型替换的方法,扩增语料。

总体框架图


相比于传统的BiLSTM-CRF开始端加入了CNN,提取短距离特征,并且CNN的输出作为分词任务的输入,达到命名实体识别任务和分词任务联合学习的效果,有效得提高了命名实体识别的准确率

扩增语料

作者提出从预先标注的语料中,产生伪语料,用于扩展语料,提高模型效果,具体

李刚
B-PER I-PER O B-ORG I-ORG O O

可以用相同类型的实体进行替换,替换后符合语义合理,符合规范。

B-PER I-PER I-PER O B-ORG I-ORG O O

打标签的时候,进行相应的替换就可以。

正文到此结束
本文目录