智能音箱 ======== 主要涉及技术:: 1. 拾音: 通过麦克风获取你的语音 麦克风阵列(Mic Array) 2. 前端信号处理: 处理技术包括: a) 回声消除(Acoustic Echo Cancellaction, AEC) b) 噪音抑制(Noise Suppression,NS) c) 语音检测(Voice Activity Detection,VAD) d) 声源定位(Direction of Arrival estimation,DOA) e) 波束成型(Beamforming) f) 混响消除(Speech Dereverberation) 3. 语音唤醒: 语音唤醒(Keyword Spotting,KWS) 4. 语音识别: 语音识别(Automatic Speech Recognition,ASR) 主要完成的任务是将语音转换成文本,所以也被称为 STT(Speech to Text) 5. 自然语言理解: 自然语言生成(Natural Language Generation,NLG),就是将各种技能的响应结果组织成文本语言 自然语言生成和自然语言理解都属于自然语言处理(Natural Language Processing,NLP)的范畴 6. 语音合成: 语音合成(Speech Synthesis),就是将自然语言生成的文本转换为语音的形式, 提供给智能音箱播放出来,给人的感觉就像和音箱在对话 因此,这个过程也叫做 TTS(Text to Speech)。 .. figure:: https://img.zhaoweiguo.com/knowledge/images/iots/mic_array.png Amazon Echo 由 7 个麦克风组成的阵列(绿色圆圈部分) .. figure:: https://img.zhaoweiguo.com/knowledge/images/iots/mic_array2.jpeg 提高语音识别的准确率的处理技术