1.2数学符号
创建词表(UNK表示未知词)2.represent word(ono-hot)
[^use x<1>,x<2>,…,x
,tx表示sequence length]:
1.3RNN(Recurrent Netrual Network)
Why not choose standard Network?
-Reason:
- Input and output’s length is differrent.(use pad is not good)
- can’t share features in the different positions of text.
RNN
RNN计算输出只考虑了之前的输入,没有考虑之后的输入。
[^a<0>一般是空向量,Wya表示乘a类型的向量,计算出y类型的向量。]:
Simplified RNN notation
1-4通过时间的方向传播
正相传递与反向传递(更新参数)
1-5Examples of RNN
- one to one:标准类型
- one to many:音乐分类/序列输入
- many to one:情感
- many to many(Tx=Ty):NER
- many to many(Tx不等于Ty):机器翻译
1-6语言模型和序列生成
Training set:large corpus of language
语言模型会告诉你下一个出现的词语的概率。先将序列的词汇标记
使用条件概率计算整个句子的概率。
1-7对新序列采样
基于字符的语言模型相比于基于词汇的语言模型而言,不太能关注到文本的上下文关系,而且计算的时间也较长。
1-8 Vanishing gradientes with RNNs
RNN不擅长处理长期依赖的问题,反向传播较为困难。提出了GRU来解决这个问题
GRU
加入新的变量具有记忆能力,即记忆细胞,c
决定了哪个向量与更新记忆细胞有关。
Γu表示GRU门
1-10长短期记忆
[^Γu更新门,Γf遗忘门,Γo输出门]:
1-11双向神经网络
BRNN
构成无向图
前向的激活值a<3>与反向的激活值共同决定y<3>
1-12深层循环神经网络
NLP and word representation
Visualizing word embedding
降维观察
使用词嵌入
1.在大量文本集中使用词向量表示文本(或下载预训练的嵌入模型)
2.使用one-hot表示词向量
3在含有少量标签的数据集中继续训练
2.3词嵌入的特性
Analogies using word vectors
t-SNE:300D->2D
因为women-man,king-queen相差的都是gender
Word2vec
skip-grams:抽取上下文、选择目标词
分别在上下文的一定范围内选择代表词,构造监督学习问题
分级softmax:哈夫曼思想
上下文采样:1.根据语料库均匀随机的采样(无关词出现的频率太高)
2.使用启发式找到常出现并且含有有效信息的词
2.7负采样(Negative sample)
用content预测word,结果为1/0(正样本/负样本)
k=5-20 small data set
k=2-5 big data set(k:skip-window)
Glove算法
Xij表示i-j在上下文出现的次数
sentiment classification
情绪分类需要借助RNN来判断good和not good的区别
消除偏差时需要