转载

CAN-NER Convolutional Attention Network for Chinese Named Entity Recognition

CAN-NER: Convolutional Attention Network for Chinese Named Entity Recognition

总结

作者提出了基于注意力机制的卷积神经网络架构,用于中文命名实体识别。

主要的框架是CNN with the local-attentionBi-GRU with global self-attention

总体的框架图如下:

Convolutional Attention Layer

字符的嵌入输入 x x

x = [ x c h ; x p o s ; x s e g ] x = [x_{ch}; x_{pos};x_{seg}]
x c h x_{ch} 代表word2vec的词向量
x p o s x_{pos} : 代表local context position。CNN的windows size是 k k , x p o s x_{pos} 的维度为 k k ,独热编码表示
x s e g x_{seg} :作者说是由BMES模式编码的分词信息,没有具体解释
  • local attention步骤

    cnn windows有k个元素, x j ? k ? 1 2 , . . . x j . . . . x j + k + 1 2 x_{j-\frac{k-1}{2}}, ...x_j....x_{j+\frac{k+1}{2}}

    s ( x j , x k ) = v T t a n h ( W 1 x j + W 2 x k ) s(x_j,x_k) = v^{T} tanh(W_1x_j + W_2x_k)

    v R d h W 1 ; W 2 R d h ; d e v \in R^{d_h} W_1; W_2 \in R^{{d_h};de}

    α m = e x p s ( x j , x m ) n { j ? k ? 1 2 , . . . , j ? k + 1 2 } e x p   s ( x j ; x n ) α_m = \frac {exp s(x_j,x_m)}{\sum_{n \in \{j-\frac{k-1}{2},...,j-\frac{k+1}{2} \}} exp \ s(x_j; x_n)}

    h m = α m x m h_m = α_mx_m

  • 卷积步骤

    h j c = k [ W c ? h j ? k ? 1 2 , . . . , j ? k + 1 2 + b c ] h^c_j = \sum_k[W^c ? h_{j-\frac{k-1}{2},...,j-\frac{k+1}{2}}+b_c]

    典型的卷积操作,只不过是最后sum pooling layer

BiGRU_CRF with global Attention

跟BiLSTM+CRF没有什么区别,主要是加了一个中间加了一个global attention

与上面的local attention类似,只不过范围不再是cnn的windows size,而是针对

整个序列

正文到此结束
本文目录