Word Representation-Sememes

PaperLookThrough

Publish Date: 2020-08-12

Update Date: 2020-10-16

Word Count: 890

Read Times: 3 Min

Read Count:

Abstract

Sememes are minimum semantic units of word meanings, and the meaning of each word sense is typically composed by several sememes.

义原是人为标记的，标记义原后最终形成语义常识知识库。word representation learning(WRL)就是把词语映射到低维空间中。本文提出了三种义原编码模型来学习义原、意识、词语的表示，再结合attention机制来发现词语意识。

ono-hot:数据稀疏，忽视词语关系

提出分布式表示，所有词语投射到低维语义环境，将每个词都考虑为向量。

随着文本语料呈指数增长，模型效率很重要，所以提出的CBOW和Skip-Gram两种模型。

这两种模型都是通过最大化词和上下文的预测概率，进一步在word affinity matrix上，利用矩阵分解来学习词表示。但没有考虑一词多义，提出一种对每个单词进行non-parametric的Skip-Gram模型。提出了用来联合学习词语、语义和近义词表示的自编码器。

Word Sense Disambiguation and Representation learning

WSD:在确定的上下文中计算上的识别出词语的词义和意识。

[^WSD:supervised and kowledge-based methods]:

Methodology

framework:SE-WRL(Sememe-Encoded WRL义原编码词语表示学习)

[^该框架为词语语义消歧和表示学习任务，考虑了义原信息。]:

Knowledege

Semems,Sesens and words in Hownet

[^第一层表示词语“苹果”，第二层表示苹果的两个语义“电脑”与”水果“。第三层表示第一个语义有三个义原“电脑、携带和特定牌子。]:

Conventional Skip-Gram Model

[^义原、语义、词语集合为X,S,W]:

对于每一条纯文本序列中的目标字w，C(w)代表它的上下词语集合

SE-WRL model

SE-WRL model的三种应用义原信息的不同策略，包括SSA,SAC,SAT.

1.SSA(Simple Sememe Aggregation Model)简单义原聚集模型

SSA把所有词语的语义的义原一同考虑进来，用目标词的所有上下文的义原嵌入的平均值来表示。

2.SAC(Sememe Attention over Context Model)基于上下文的义原注意力模型

SSA模型用聚集的义原嵌入来代替目标词词嵌入，用义原信息编码来进行词表示学习。

但是不能处理大多数词的多义词现象。SAC利用注意力机制，根据当前词自动选择上下文合适的语义。

3.SAT(Sememe Attention over Target Model)基于目标词的义原注意力模型

与SAC模型不同，SAT为上下文词语学习原始的词嵌入，但是为目标词学习义原嵌入。

Word Similarity词汇相似度

通过比较在给定的数据集上，通过词语表示学习模型计算出的词对相似度来衡量词语表示的质量。词语表示学习模型在语义空间中，根据词语的距离来计算词语相似度。

Word Analogy词语类推

词语类比推理是用来评价模型词语表示学习质量的任务。

Conclusion

利用义原信息来表示每一个词各种各样的语义，提出了可以自动地上下文中选取合适的语义的义原注意力。

Reference

File：https://arxiv.org/pdf/1504.00548.pdf

Translation：https://www.cnblogs.com/fengyubo/p/9365824.html

Weiruohe

https://weiruohe.github.io/2020/08/12/word-representation-sememes/

All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source Weiruohe !

NLP WRL - WSD

Wuenda's class(2)

p1.Train/dev/test sets Train：训练集，用来训练各种模型 dev：验证集(development set)/Hold-out cross validation set，评估这些模型，通过迭代选出最优模型 test：

2020-08-20 VideoClass

deep-learning

sequence-wuenda

1.2数学符号创建词表（UNK表示未知词）2.represent word(ono-hot) [^use x<1>,x<2>,…,x,tx表示sequence length]: 1.3RNN(Recurren

2020-08-01 VedioLearning

sequence model NLP

Abstract

Related Work

Word Sense Disambiguation and Representation learning

Methodology

Knowledege

Conventional Skip-Gram Model

SE-WRL model

1.SSA(Simple Sememe Aggregation Model)简单义原聚集模型

2.SAC(Sememe Attention over Context Model)基于上下文的义原注意力模型

3.SAT(Sememe Attention over Target Model)基于目标词的义原注意力模型

Word Similarity词汇相似度

Word Analogy词语类推

Conclusion

Reference

你的赏识是我前进的动力