转载

Attention-Based Bidirectional Long Short-Term Memory Networks for

Attention-Based Bidirectional Long Short-Term Memory Networks for Relation Classification

概述

作者提出了一种基于注意力机制的双向LSTM框架用于关系抽取。方法的主要创新点引入了注意力机制。

神经网络框架

框架非常简单,也是作者一直强调的。Embedding Layer、LSTM layer、Attention Layer。Embedding Layer,跟通常的Embedding没有什么区别,首先使用训练好的word vector初始化,然后在训练过程中微调。

LSTM Layer

文章中使用的是LSTM的变体,其与LSTM的区别如下图,思想是各个门也将上一个记忆单元考虑上。

计算公式如下

Attention Layer

attention层详细可以完全通过公式说明

H是BILSTM的输出,size为 v × T v\times T , v是词向量的维度, T是序列的长度,H首先通过tanh函数激活得到M

再通过全连接层+softmax层得到 α \alpha , w的size是 v × 1 v\times 1 , 所以 α \alpha 的size是 1 × T 1\times T 。最后H乘以权重,得到

的输出r, size为 v × 1 v \times 1 。最后经过tanh函数激活得到最后输出h, size为 v × 1 v \times 1 。得到输出后,直接作为

softmax层的输入,就可以得到相应预测标签的输出。

说明

作者嵌入实体位置信息,是通过改变原始序列。在实体的开始和结尾加入分隔符。

参考

基于注意力机制的双向LSTM关系抽取理解

正文到此结束
本文目录