Abstract
Sememes are minimum semantic units of word meanings, and the meaning of each word sense is typically composed by several sememes.
义原是人为标记的,标记义原后最终形成语义常识知识库。word representation learning(WRL)就是把词语映射到低维空间中。本文提出了三种义原编码模型来学习义原、意识、词语的表示,再结合attention机制来发现词语意识。
Related Work
ono-hot:数据稀疏,忽视词语关系
提出分布式表示,所有词语投射到低维语义环境,将每个词都考虑为向量。
随着文本语料呈指数增长,模型效率很重要,所以提出的CBOW和Skip-Gram两种模型。
这两种模型都是通过最大化词和上下文的预测概率,进一步在word affinity matrix上,利用矩阵分解来学习词表示。但没有考虑一词多义,提出一种对每个单词进行non-parametric的Skip-Gram模型。提出了用来联合学习词语、语义和近义词表示的自编码器。
Word Sense Disambiguation and Representation learning
WSD:在确定的上下文中计算上的识别出词语的词义和意识。
[^WSD:supervised and kowledge-based methods]:
Methodology
framework:SE-WRL(Sememe-Encoded WRL义原编码词语表示学习)
[^该框架为词语语义消歧和表示学习任务,考虑了义原信息。]:
Knowledege
Semems,Sesens and words in Hownet
[^第一层表示词语“苹果”,第二层表示苹果的两个语义“电脑”与”水果“。第三层表示第一个语义有三个义原“电脑、携带和特定牌子。]:
Conventional Skip-Gram Model
[^义原、语义、词语集合为X,S,W]:
对于每一条纯文本序列中的目标字w,C(w)代表它的上下词语集合
SE-WRL model
SE-WRL model的三种应用义原信息的不同策略,包括SSA,SAC,SAT.
1.SSA(Simple Sememe Aggregation Model)简单义原聚集模型
SSA把所有词语的语义的义原一同考虑进来,用目标词的所有上下文的义原嵌入的平均值来表示。
2.SAC(Sememe Attention over Context Model)基于上下文的义原注意力模型
SSA模型用聚集的义原嵌入来代替目标词词嵌入,用义原信息编码来进行词表示学习。
但是不能处理大多数词的多义词现象。SAC利用注意力机制,根据当前词自动选择上下文合适的语义。
3.SAT(Sememe Attention over Target Model)基于目标词的义原注意力模型
与SAC模型不同,SAT为上下文词语学习原始的词嵌入,但是为目标词学习义原嵌入。
Word Similarity词汇相似度
通过比较在给定的数据集上,通过词语表示学习模型计算出的词对相似度来衡量词语表示的质量。词语表示学习模型在语义空间中,根据词语的距离来计算词语相似度。
Word Analogy词语类推
词语类比推理是用来评价模型词语表示学习质量的任务。
Conclusion
利用义原信息来表示每一个词各种各样的语义,提出了可以自动地上下文中选取合适的语义的义原注意力。
Reference
File:https://arxiv.org/pdf/1504.00548.pdf
Translation:https://www.cnblogs.com/fengyubo/p/9365824.html