Word Representation-Sememes


Abstract

Sememes are minimum semantic units of word meanings, and the meaning of each word sense is typically composed by several sememes.

义原是人为标记的,标记义原后最终形成语义常识知识库。word representation learning(WRL)就是把词语映射到低维空间中。本文提出了三种义原编码模型来学习义原、意识、词语的表示,再结合attention机制来发现词语意识。

ono-hot:数据稀疏,忽视词语关系

提出分布式表示,所有词语投射到低维语义环境,将每个词都考虑为向量。

随着文本语料呈指数增长,模型效率很重要,所以提出的CBOW和Skip-Gram两种模型。

这两种模型都是通过最大化词和上下文的预测概率,进一步在word affinity matrix上,利用矩阵分解来学习词表示。但没有考虑一词多义,提出一种对每个单词进行non-parametric的Skip-Gram模型。提出了用来联合学习词语、语义和近义词表示的自编码器。

Word Sense Disambiguation and Representation learning

WSD:在确定的上下文中计算上的识别出词语的词义和意识。

[^WSD:supervised and kowledge-based methods]:

Methodology

framework:SE-WRL(Sememe-Encoded WRL义原编码词语表示学习)

[^该框架为词语语义消歧和表示学习任务,考虑了义原信息。]:

Knowledege

Semems,Sesens and words in Hownet

image-20200813104751621

[^第一层表示词语“苹果”,第二层表示苹果的两个语义“电脑”与”水果“。第三层表示第一个语义有三个义原“电脑、携带和特定牌子。]:

Conventional Skip-Gram Model

[^义原、语义、词语集合为X,S,W]:

对于每一条纯文本序列中的目标字w,C(w)代表它的上下词语集合

image-20200813110339351

SE-WRL model

SE-WRL model的三种应用义原信息的不同策略,包括SSA,SAC,SAT.

1.SSA(Simple Sememe Aggregation Model)简单义原聚集模型

SSA把所有词语的语义的义原一同考虑进来,用目标词的所有上下文的义原嵌入的平均值来表示。

image-20200813111950211

2.SAC(Sememe Attention over Context Model)基于上下文的义原注意力模型

SSA模型用聚集的义原嵌入来代替目标词词嵌入,用义原信息编码来进行词表示学习。

但是不能处理大多数词的多义词现象。SAC利用注意力机制,根据当前词自动选择上下文合适的语义。

3.SAT(Sememe Attention over Target Model)基于目标词的义原注意力模型

与SAC模型不同,SAT为上下文词语学习原始的词嵌入,但是为目标词学习义原嵌入。

Word Similarity词汇相似度

通过比较在给定的数据集上,通过词语表示学习模型计算出的词对相似度来衡量词语表示的质量。词语表示学习模型在语义空间中,根据词语的距离来计算词语相似度。

Word Analogy词语类推

词语类比推理是用来评价模型词语表示学习质量的任务。

Conclusion

利用义原信息来表示每一个词各种各样的语义,提出了可以自动地上下文中选取合适的语义的义原注意力。

Reference

File:https://arxiv.org/pdf/1504.00548.pdf

Translation:https://www.cnblogs.com/fengyubo/p/9365824.html


Author: Weiruohe
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source Weiruohe !
  TOC