转载

Distant Supervision for Relation Extraction via Piecewise

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

总体概述

文章提出了一种PCNN+多示例学习的方法用于远程监督的实体抽取。其中多示例学习的方法主要是

克服远程标注中存在的错误标签问题。而PCNN(Piecewise Convolutional Neural Networks),主要是

克服传统基于特征关系抽取方法中存在的错误传播问题。

远程监督存在的问题

远程监督的假设太强。远程监督假设,只要一个句子里面包含知识库(类似Freebase)中的两个实体,那么句子中两实体的关系一定是知识库中定义的关系。假设太强,会造成很多误标数据。比如下图,第二个句子两个实体就没有表达founders的关系。所以文中希望通过多示例学习来克服这个问题。

PCNN(分段卷积)

总体的框架结构图如下

  1. 词嵌入:

    word2vec

  2. 位置嵌入:

    位置嵌入说明

  3. 卷积

    向量表示的维度为 s × d s\times d , s s 是句子长度, d d 是嵌入维度, 文中将向量表示的输入通过部分组合方式,分为 s + w ? 1 s+w-1 w × d w\times d 个向量(主要是为了适应卷积的要求,卷积必须是二维的),假设卷积核的数量为n,则卷积层的输出为 n × ( s + w ? 1 ) n\times (s+w-1)

  4. 多段最大池化
    一个句子中有两个实体,可以通过两个实体将句子分为三段,同样在得到卷积层的输出 n × ( s + w ? 1 ) n\times (s+w-1)

    的基础上,对每个卷积核的输出,按照实体的位置切分为三段,分别对切分出来的三段进行池化,得到输出

    3 n 3n 这里面其实有一点没有讲清楚,原来的长度是 s s ,可以找到对应实体的位置,但是现在长度是 s + w ? 1 s+w-1

    怎么找到对应实体的位置,完成切分,文章没有详细说明

  5. softmax层:

    3 n × 1 3n \times 1 的输出映射到预定义好的关系标签集中,经过softmax层,得到各个关系标签的概率。

多示例学习

一个通俗点的讲法

多示例学习举例:假如一段视频由很多张图组成,假如10000张,那么我们要判断视频里是否包含某一物体,比如气球。单张标注每一帧是否有气球太耗时,通常人们看一遍说这个视频里是否有气球,就得到了多示例学习的数据。10000帧的数据不是每一个都有气球出现,只要有一帧有气球,那么我们就认为这个数据包是有气球的。只有当所有的视频帧都没有气球,才是没有气球的。从这里面学习哪一段视频(10000张)是否有气球出现就是多实例学习的问题。

专业点的定义

原始数据分为T个包, { M 1 , M 2 , . . . , M T } \{M_1, M_2, ..., M_T\} ,第i个包包含 q i q_i 个示例, M i = { m i 1 , m i 2 , . . . m i q i } M_i=\{m_i^1,m_i^2,...m_i^{q_i}\}

进过softmax层,每个包中每个示例都会有一个概率输出。(预测关系集中每个关系出现的概率)

下面的公式是,第i个包中第j的示例预测出是关系r的概率(很明显经过了一个softmax层的操作)

下面的公式是框架的目标函数 J ( θ ) J(\theta) 和目标函数中 j j 的定义

解释一下就是j是i包中预测为 y i y_i (包对应的真实标签)概率最大的示例。

然后目标函数就是每个包中所有示例预测为包的真实标签概率的最大值的连乘。

模型就是要极大化这一目标函数

When a trained PCNN is used for prediction, a bag is positively labeled if and only if the output of the network on at least one of its instances is assigned a positive label.

最后作者说明了一下预测的标准,只有包中至少有一个示例被预测为正确标签,才能说预测包标签正确。

参考

Relation Classification via Convolutional Deep Neural Network

Distant Supervision for Relation Extraction via Piecewise Convolutional Neural Networks

正文到此结束
本文目录