语音识别技术三本书

  |   0 评论   |   0 浏览

概况

第一本书的第2,3,4章没有什么用。

知识点:

  • 第一本:偏应用,FSA, FST, WFST, nnet3, KenLM
  • 第二本:偏原理,HMM, DNN, RNN, GMM, SVM
  • 第三本:有俄语

目录

《深度学习:语音识别技术实践 柳若边》

目录

1章 语音识别技术 1

1.1 总体结构 1

1.2 Linux基础 2

1.3 安装Micro编辑器 4

1.4 安装Kaldi 5

1.5 yesno例子 6

1.5.1 数据准备 7

1.5.2 词典准备 8

1.6 构建一个简单的ASR 12

1.7 Voxforge例子 21

1.8 数据准备 23

1.9 加权有限状态转换 34

1.9.1 FSA 35

1.9.2 FST 35

1.9.3 WFST 37

1.9.4 Kaldi对OpenFst的改进 38

1.10 语音识别语料库 39

1.10.1 TIMIT语料库 39

1.10.2 LibriSpeech语料库 40

1.10.3 中文语料库 40

1.11 Linux shell脚本基础 40

1.11.1 Bash 41

1.11.2 AWK 44

第2章 C#开发语音识别 46

2.1 准备开发环境 46

2.2 计算卷积 47

2.3 记录语音 48

2.4 读入语音信号 52

2.5 离散傅里叶变换 53

2.6 移除静音 54

第3章 Perl开发语音识别 58

3.1 变量 58

3.1.1 数字 58

3.1.2 字符串 59

3.1.3 数组 60

3.1.4 散列表 60

3.2 多维数组 62

3.3 常量 62

3.4 操作符 63

3.5 控制流 66

3.6 文件与目录 67

3.7 例程 68

3.8 执行命令 69

3.9 正则表达式 69

3.9.1 基本类型 69

3.9.2 正则表达式模式 70

3.10 命令行参数 72

第4章 Python开发语音识别 73

4.1 Windows操作系统下安装Python 73

4.2 Linux操作系统下安装Python 75

4.3 选择版本 76

4.4 开发环境 76

4.5 注释 77

4.6 变量 77

4.6.1 数值 77

4.6.2 字符串 79

4.7 数组 80

4.8 列表 80

4.9 元组 80

4.10 字典 81

4.11 控制流 81

4.11.1 条件判断 81

4.11.2 循环 82

4.12 模块 83

4.13 函数 84

4.14 读写文件 86

4.15 面向对象编程 87

4.16 命令行参数 88

4.17 数据库 90

4.18 日志记录 90

4.19 异常处理 92

4.20 测试 92

4.21 语音活动检测 93

4.22 使用numpy 93

第5章 Java开发语音识别 94

5.1 实现卷积 95

5.2 KaldiJava 96

5.2.1 使用Ant 97

5.2.2 使用Maven 99

5.2.3 使用Gradle 100

5.2.4 概率分布函数 102

5.3 TensorFlow的Java接口 104

5.3.1 在Windows操作系统下使用TensorFlow 104

5.3.2 在Linux操作系统下使用TensorFlow 106

第6章 语音信号处理 109

6.1 使用FFmpeg 109

6.2 标注语音 110

6.3 时间序列 112

6.4 端点检测 113

6.5 动态时间规整 114

6.6 傅里叶变换 117

6.6.1 离散傅里叶变换 117

6.6.2 快速傅里叶变换 120

6.7 MFCC特征 124

6.8 说话者识别 125

6.9 解码 125

第7章 深度学习 132

7.1 神经网络基础 132

7.1.1 实现多层感知器 135

7.1.2 计算过程 143

7.2 卷积神经网络 150

7.3 搭建深度学习开发环境 156

7.3.1 使用Cygwin模拟环境 156

7.3.2 使用CMake 157

7.3.3 使用Keras 158

7.3.4 安装TensorFlow 161

7.3.5 安装TensorFlow的Docker容器 162

7.3.6 使用TensorFlow 164

7.3.7 一维卷积 208

7.3.8 二维卷积 210

7.3.9 扩张卷积 213

7.3.10 TensorFlow实现简单的语音识别 214

7.4 nnet3实现代码 216

7.4.1 数据类型 217

7.4.2 基本数据结构 219

7.5 编译Kaldi 230

7.6 端到端深度学习 232

7.7 Dropout解决过度拟合问题 232

7.8 矩阵运算 235

第8章 语言模型 238

8.1 概率语言模型 238

8.1.1 一元模型 240

8.1.2 数据基础 240

8.1.3 改进一元模型 249

8.1.4 二元词典 251

8.1.5 完全二叉树数组 257

8.1.6 三元词典 261

8.1.7 N元模型 262

8.1.8 生成语言模型 264

8.1.9 评估语言模型 265

8.1.10 平滑算法 266

8.2 KenLM语言模型工具包 271

8.3 ARPA文件格式 275

8.4 依存语言模型 278

语音信号处理 第3版

1章绪论

1.1语音信号处理的发展

1.2语音信号处理的应用

1.3语音信号处理的总体结构

参考文献

2章语音信号的声学基础及产生模型

2.1语音信号的产生

2.1.1语音的发音器官

2.1.2语音的声学特征

2.1.3语音信号在时域和频域的表示

2.1.4汉语中语音的分类

2.1.5汉语语音的韵律特性

2.2语音信号的感知

2.2.1听觉系统

2.2.2听觉特性

2.2.3掩蔽效应

2.3语音信号的线性产生模型

2.3.1激励模型

2.3.2声道模型

2.3.3辐射模型

2.4语音信号的非线性产生模型

2.4.1调频调幅模型的基本原理

2.4.2Teager能量算子

2.4.3能量分离算法

2.4.4调频调幅模型的应用

参考文献

3章语音信号的特征分析

3.1语音信号数字化

3.1.1语音信号的采样和量化

3.1.2短时加窗处理

3.2语音信号的时域分析

3.2.1短时能量分析

3.2.2短时平均过零率

3.2.3短时自相关函数和短时平均幅度差函数

3.2.4端点检测和语音分割

3.3语音信号的频域分析

3.3.1滤波器组方法

3.3.2傅里叶频谱分析

3.4传统傅里叶变换缺点及时频分析的思想

3.4.1信号的时频表示

3.4.2不确定原理

3.5Gabor变换

3.6小波变换在语音信号分析中的应用

3.6.1小波的数学表示及意义

3.6.2小波分析特点

3.6.3小波变换的多分辨分析

3.6.4小波变换在语音处理中的应用

3.7语音信号的同态解卷积

3.7.1同态信号处理的基本原理

3.7.2语音信号的复倒谱

3.7.3避免相位卷绕的算法

3.7.4基于听觉特性的Mel频率倒谱系数

3.8语音信号特征应用

3.8.1基音周期估计

3.8.2共振峰的估计

参考文献

4章语音信号的线性预测分析

4.1线性预测的基本原理

4.2线性预测方程组的解法

4.2.1自相关法

4.2.2协方差法

4.2.3格型法

4.2.4几种求解线性预测方法的比较

4.3线性预测的几种推演参数

4.3.1归一化自相关函数

4.3.2反射系数

4.3.3预测器多项式的根

4.3.4LPC倒谱

4.3.5全极点系统的冲激响应及其自相关函数

4.3.6预测误差滤波器的冲激响应及其自相关函数

4.3.7对数面积比系数

4.4线谱对分析法

4.4.1线谱对分析的原理

4.4.2线谱对参数的求解

4.5感知线性预测PLP系数

参考文献

5章语音编码

5.1波形编码

5.1.1均匀量化PCM

5.1.2非均匀量化 PCM

5.1.3自适应量化PCM

5.1.4差分脉冲编码

5.1.5自适应差分脉冲编码

5.1.6增量调制和自适应增量调制

5.1.7子带编码

5.1.8自适应变换域编码

5.2参数编码和混合编码

5.2.1参数编码

5.2.2基于全极点语音产生模型的混合编码

5.2.3基于正弦模型的混合编码

5.3极低速率语音编码技术

5.3.1400bps~1.2Kbps的声码器

5.3.2识别型声码器

5.4语音编码器的性能指标和质量评测方法

5.4.1编码速率

5.4.2顽健性

5.4.3时延

5.4.4计算复杂度和算法的可扩展性

5.4.5语音质量及其评价方法

5.5语音编码国际标准

5.6感知音频编码

5.6.1感知编码的一般框架

5.6.2心理声学模型

5.6.3常用的感知编码标准

参考文献

6章语音识别

6.1概述

6.2基于矢量量化的识别技术

6.2.1Kmeans矢量量化算法

6.2.2LBG算法

6.3动态时间归正的识别技术

6.3.1DTW基本原理

6.3.2模板训练算法

6.4隐马尔可夫模型技术

6.4.1HMM基本思想

6.4.2HMM基本算法

6.4.3HMM算法实现中的问题

6.4.4关于HMM训练的几点考虑

6.5连接词语音识别技术

6.5.1连接词识别问题的一般描述

6.5.2二阶动态规划算法

6.5.3分层构筑方法

6.6大词表连续语音识别中的声学模型和语言学模型

6.6.1声学模型

6.6.2统计语言学模型

6.6.3统计语言学模型平滑技术

6.6.4语言学模型自适应技术

6.7大词表连续语音识别中的解码技术

6.7.1图的基本搜索算法

6.7.2面向语音识别的搜索算法

6.8大词表连续语音识别后处理技术

6.8.1语音识别中间结果的表示形式

6.8.2错误处理

6.8.3小字错误率解码方法

6.9基于HMM的自适应技术

6.9.1基于Bayesian理论的自适应方法

6.9.2基于变换的自适应方法

6.10基于深度学习的语音识别技术

6.10.1基于DNNHMM的语音识别技术

6.10.2基于RNN的语音识别技术

6.10.3端到端的语音识别技术

6.11关键词检出技术

6.11.1问题描述

6.11.2关键词检出系统的组成

6.11.3垃圾模型建模方法

6.11.4语音解码器的设计

6.11.5关键词确认过程

6.11.6关键词检出系统性能优化

6.12语音识别的应用技术

6.12.1语音信息检索

6.12.2发音学习技术

6.12.3基于语音的情感处理

6.12.4网络环境下的语音识别

6.12.5嵌入式语音识别技术

6.13HTK工具介绍

6.13.1数据准备阶段

6.13.2模型训练阶段

6.13.3识别阶段

6.14Kaldi工具介绍

6.14.1Kaldi工具简介

6.14.2Kaldi工具安装

6.14.3数据准备

6.14.4特征提取

6.14.5模型训练

6.14.6性能评测

参考文献

7章说话人识别

7.1概述

7.2基于GMM与GMMUBM说话人识别

7.2.1GMM的说话人识别

7.2.2GMMUBM的说话人识别

7.3基于SVM的说话人识别

7.3.1SVM说话人识别

7.3.2基于GMM均值矢量的SVM说话人识别

7.3.3基于GMM得分的SVM说话人识别

7.4复杂信道下的说话人识别

7.4.1特征映射

7.4.2说话人模型

7.4.3扰动属性投影

7.4.4联合因子分析

7.5基于ivector的说话人识别

7.5.1基于GMMUBM的ivector说话人识别

7.5.2基于DNN的ivector说话人识别

7.6得分规整

7.6.1零规整

7.6.2测试规整

7.6.3说话人自适应的测试规整

7.6.4TZnorm

7.6.5Hnorm

7.6.6Cnorm

参考文献

8章顽健语音识别技术

8.1概述

8.2影响语音识别性能的环境变化因素

8.3噪声环境下的顽健语音识别技术

8.3.1基于语音增强的方法

8.3.2通道畸变的抑制方法

8.3.3基于模型的补偿方法

8.4变异语音识别方法

8.4.1变异语音的分析

8.4.2变异语音的分类

8.4.3变异语音的识别

参考文献

9章语音

9.1语音的基本原理

9.2参数方法

9.2.1线性预测方法

9.2.2共振峰方法

9.3波形拼接技术

9.3.1TDPSOLA算法

9.3.2FDPSOLA算法

9.4汉语按规则

9.4.1韵律规则

9.4.2多音节协同发音规则

9.4.3轻声音节规则

9.4.4儿化音节的规则

9.5基于HMM的参数化语音技术

9.5.1基于HMM参数语音系统的训练

9.5.2基于HMM参数语音系统的阶段

参考文献

新一代人工智能与语音识别

目录
第0章绪论1
0.1研究依据1
0.2研究对象与研究目标2
0.3研究方法3
0.4研究意义3
0.5本书的创新点4
0.6语料来源4
0.7本书的结构5
章语音识别技术研究综述7
1.1语音识别的定义与分类7
1.1.1语音识别的定义7
1.1.2语音识别的分类8
1.2语音识别技术的研究进展9
1.2.1语音识别技术的发展概况9
1.2.2国外俄语语音识别技术的研究进展
1.2.3中国俄语语音识别技术的研究进展13
1.3语音识别的基本原理14
1.3.1特征提取15
1.3.2声学模型16
1.3.3语言模型17
1.3.4解码18
1.4语音识别技术研究所关注的关键问题19
本章小结21〖4〗新一代人工智能与语音识别〖2〗目录〖4〗第2章语音数据的加工处理22
2.1问题描述22
2.2众的定义及内涵23
2.2.1众的基本概念23
2.2.2众的基本流程24
2.2.3众的关键问题24
2.3解决方案25
2.3.1质量控制25
2.3.2语音标注平台的架构27
2.3.3标注平台的设计与实现28
2.4语音标注31
2.4.1语音有效性判断31
2.4.2语音转写规范32
2.4.3语音标注规范32
2.5实验设计与结果分析33
2.5.1实验设计33
2.5.2结果分析34
2.5.3结论36
本章小结36
第3章俄语声学模型的建立37
3.1连续语音识别37
3.1.1连续语音识别的整体模型38
3.1.2声学模型训练的HMMGMM方法40
3.1.3声学模型训练中的HMMDNN方法48
3.2俄语语音学概述52
3.2.1俄语的使用及分布情况52
3.2.2俄语语音的基本特点55
3.2.3俄语音素的发音特征56
3.2.4俄语元音音素的随位变化58
3.2.5俄语辅音音素的随位变化60
3.3俄语声学单元的选择61
3.3.1俄语SAMPA音素集61
3.3.2俄语音系表64
3.4实验设计与结果分析64
3.4.1实验设计65
3.4.2结果分析66
本章小结67
第4章俄语语言模型的建立68
4.1文本语料的准备与清洗68
4.1.1数据来源的筛选69
4.1.2数据爬取71
4.1.3数据的去重与清洗71
4.1.4格式化处理74
4.2语言模型简述75
4.2.1语言模型的平滑技术77
4.2.2语言模型的剪枝算法81
4.3语言模型的训练流程84
4.3.1语言模型的训练实现84
4.3.2词典的选择85
4.3.3LM的剪枝与优化87
4.4实验结果分析89
4.4.1词典规模测试89
4.4.2语料规模测试89
4.4.3语言模型剪枝测试90
本章小结91
第5章基于Kaldi的俄语语音识别原型92
5.1设计的目标与原则92
5.1.1设计的目标92
5.1.2设计的原则92
5.2的开发环境与整体架构93
5.2.1的开发环境93
5.2.2的整体架构93
5.3Kaldi环境的搭建94
5.3.1Kaldi及实验环境94
5.3.2Kaldi训练服务器的搭建96
5.3.3AM训练数据及参数设置98
5.3.4LM训练数据及参数设置7
5.4Kaldi训练优化111
5.4.1Kaldi声学建模111
5.4.2GPU加速113
5.5语音识别原型的设计114
5.5.1GUI的设计114
5.5.2在线识别功能114
5.5.3离线识别功能117
5.6实验设计与结果分析119
5.6.1实验设计119
5.6.2实验结果119
5.6.3结果分析120
本章小结121
第6章总结与展望122
6.1本书的主要成果122
6.2未来的研究计划123
附录A英汉术语对照表124
附录B其他相关资料126
B.1俄语发音词典(76277个词形)示例126
B.2俄语解码词表(189971个词形)示例127
B.3俄语字符Unicode编码对照表128
B.4俄语语音格式化程序(转换为16KB、16b)128
B.5俄语文本转Unicode编码程序129
B.6从https: //twitter.com网站上下载的部分网页文件
(json格式)示例131
B.7从http: //www.interfax.ru网站上下载的部分网页
文件(json格式)示例131
B.8俄语拉丁字母转写表132
参考文献134