sequence-wuenda


1.2数学符号

  1. 创建词表(UNK表示未知词)2.represent word(ono-hot)

    [^use x<1>,x<2>,…,x,tx表示sequence length]:

1.3RNN(Recurrent Netrual Network)

Why not choose standard Network?

-Reason:

  1. Input and output’s length is differrent.(use pad is not good)
  2. can’t share features in the different positions of text.

RNN

RNN计算输出只考虑了之前的输入,没有考虑之后的输入。

image-20200801172800273

[^a<0>一般是空向量,Wya表示乘a类型的向量,计算出y类型的向量。]:

Simplified RNN notation

image-20200801174401617

1-4通过时间的方向传播

正相传递与反向传递(更新参数)

1-5Examples of RNN

  1. one to one:标准类型
  2. one to many:音乐分类/序列输入
  3. many to one:情感
  4. many to many(Tx=Ty):NER
  5. many to many(Tx不等于Ty):机器翻译

1-6语言模型和序列生成

Training set:large corpus of language

语言模型会告诉你下一个出现的词语的概率。先将序列的词汇标记

image-20200801194059269

使用条件概率计算整个句子的概率。

image-20200801194531781

1-7对新序列采样

基于字符的语言模型相比于基于词汇的语言模型而言,不太能关注到文本的上下文关系,而且计算的时间也较长。

1-8 Vanishing gradientes with RNNs

RNN不擅长处理长期依赖的问题,反向传播较为困难。提出了GRU来解决这个问题

GRU

加入新的变量具有记忆能力,即记忆细胞,c记录记忆细胞的值,GRU门记录

决定了哪个向量与更新记忆细胞有关。

Γu表示GRU门

1-10长短期记忆

[^Γu更新门,Γf遗忘门,Γo输出门]:

image-20200802221536662

1-11双向神经网络

BRNN

构成无向图

image-20200802222930856

前向的激活值a<3>与反向的激活值共同决定y<3>

1-12深层循环神经网络

image-20200802224119713

NLP and word representation

image-20200802230012280

Visualizing word embedding

降维观察

使用词嵌入

1.在大量文本集中使用词向量表示文本(或下载预训练的嵌入模型)

2.使用one-hot表示词向量

3在含有少量标签的数据集中继续训练

2.3词嵌入的特性

Analogies using word vectors

t-SNE:300D->2D

image-20200804100405784

因为women-man,king-queen相差的都是gender

Word2vec

skip-grams:抽取上下文、选择目标词

分别在上下文的一定范围内选择代表词,构造监督学习问题

分级softmax:哈夫曼思想

上下文采样:1.根据语料库均匀随机的采样(无关词出现的频率太高)

2.使用启发式找到常出现并且含有有效信息的词

2.7负采样(Negative sample)

用content预测word,结果为1/0(正样本/负样本)

k=5-20 small data set

k=2-5 big data set(k:skip-window)

Glove算法

Xij表示i-j在上下文出现的次数

sentiment classification

情绪分类需要借助RNN来判断good和not good的区别

消除偏差时需要


Author: Weiruohe
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source Weiruohe !
  TOC