Source
https://arxiv.org/abs/1911.08460
title
《END-TO-END ASR: FROM SUPERVISED TO SEMI-SUPERVISED
LEARNING WITH MODERN ARCHITECTURES》
Abstract
We study pseudo-labeling for the semi-supervised training of ResNet, Time-Depth Separable ConvNets, and Transformers for speech recognition, with either CTC or Seq2Seq loss functions.
[^CTC是针对语音输入和输出序列因为输入音频语速不同导致的无法匹配提出的算法。并且输入输出序列的长度和长度比都在变化。]: eg:CTC对一段语音序列进行映射,比如需要对输入序列进行去重,假如输入是:’heelllo’,直接去重的结果是’helo‘而非’hello‘。 CTC引入空白占位符用于输出对齐。

CTC特性:
- 条件独立:CTC假设每个时间片独立,可以加入语言模型
- 单调对齐:在OCR和语音识别,这种约束成立
- 多对一映射:lX>lY
Seq2Seq:Encoder,Decoder,c.每一个box代表一个RNN单元
[^pseudo-labeling:伪标签]: 学习分为三种,supervised learning,semi-supervised learning,unsupervised learning.因为获取标记样本需要耗费人力和时间,所以对于半监督学习,我们要将标记样本和被标记样本同时使用。
- 使用标记数据训练模型(model)
- 用1生成的model对未标记的数据进行预测分类生成pseudo-labeling,再使用pseudo-labeling和标记数据在对模型进行训练优化
[^end-to-end learning:可以直接将输入的x,y映射成输出。不用通过中间件,但是需要大量数据集来进行训练,如果数据数量不足,可以借助中间件。]:
[^交叉熵:信息论中的一个概念]: 概率越小的事件发生,信息量越大,用I(x0)=−log(p(x0))定义事件X=x0的信息量。用熵来表示所有信息量的期望H(X)=−∑p(xi)log(p(xi))
相对熵(KL散度):
In the context of machine learning, DKL(P‖Q) is often called the information gain achieved if P is used instead of Q.
KL散度计算公式:
变形得到
后一部分为交叉熵,因为前一部分基本不变所以用交叉熵来评估模型。
Q:
基于Transformer的声学模型只使用监督数据集有很好的表现,但是不同模型间存在差异
S:
提出了几种评价未标记音频特性的方法
C:
我们实现了一种新的先进的端到端声学模型解码,基于标准监督学习的外部语言模型和一个新的先进的半监督训练
Reference
https://blog.csdn.net/qq_32241189/article/details/81591456
https://blog.csdn.net/liuxiaoheng1992/article/details/83660557