End2EndASR-SL2SSL

PaperLookThrough

Publish Date: 2020-10-14

Update Date: 2020-10-18

Word Count: 722

Read Times: 3 Min

Read Count:

Source

https://arxiv.org/abs/1911.08460

title

《END-TO-END ASR: FROM SUPERVISED TO SEMI-SUPERVISED

LEARNING WITH MODERN ARCHITECTURES》

Abstract

We study pseudo-labeling for the semi-supervised training of ResNet, Time-Depth Separable ConvNets, and Transformers for speech recognition, with either CTC or Seq2Seq loss functions.

[^CTC是针对语音输入和输出序列因为输入音频语速不同导致的无法匹配提出的算法。并且输入输出序列的长度和长度比都在变化。]: eg：CTC对一段语音序列进行映射，比如需要对输入序列进行去重，假如输入是：’heelllo’,直接去重的结果是’helo‘而非’hello‘。 CTC引入空白占位符用于输出对齐。

CTC特性：

条件独立：CTC假设每个时间片独立，可以加入语言模型
单调对齐:在OCR和语音识别,这种约束成立
多对一映射：lX>lY

Seq2Seq：Encoder,Decoder,c.每一个box代表一个RNN单元

[^pseudo-labeling：伪标签]: 学习分为三种，supervised learning,semi-supervised learning,unsupervised learning.因为获取标记样本需要耗费人力和时间，所以对于半监督学习，我们要将标记样本和被标记样本同时使用。

使用标记数据训练模型（model）
用1生成的model对未标记的数据进行预测分类生成pseudo-labeling，再使用pseudo-labeling和标记数据在对模型进行训练优化

[^end-to-end learning:可以直接将输入的x,y映射成输出。不用通过中间件，但是需要大量数据集来进行训练，如果数据数量不足，可以借助中间件。]:
[^交叉熵：信息论中的一个概念]: 概率越小的事件发生，信息量越大，用I(x0)=−log(p(x0))定义事件X=x0的信息量。用熵来表示所有信息量的期望H(X)=−∑p(xi)log(p(xi))

相对熵（KL散度）：