搞定音频技术¶

美国芝加哥的 Illinois Institute of Technology，攻读了硕士和博士学位。

https://img.zhaoweiguo.com/uPic/2023/06/jSvFvL.jpg

音频基础 (4 讲)¶

01| 声音是如何保存成数字信号的¶

https://img.zhaoweiguo.com/uPic/2023/06/Rdplvz.jpg — 音频数字信号的生成：首先，声波通过空气传播到麦克风的振膜。然后，振膜随空气抖动的振幅大小产生相应的电学信号。我们把这种带有声学表征的电学信号叫做模拟信号（Analog Signal）。最后，通过 A/DC（模数转换器）将模拟信号转换成数字信号（Digital Signal）。即通过 PCM（Pulse Code Modulation）脉冲编码调制对连续变化的模拟信号进行抽样、量化和编码转换成离散的数字信号。¶

基本概念¶

采样位深:

采样位深也就是每个采样点用多少 bit 来表示
从物理意义上来说，位深代表的是振动幅度的表达精确程度或者说粒度。
        一般在网络电话中用的就是 16bit 的位深
        8bit 时失真就比较严重了。早期受到音频技术条件限制，很多音频都是 8bit 的，声音会显得比较模糊

采样率:

采样率就是 1 秒内采集到的采样点的个数，一般用赫兹 Hz 来表示
根据奈奎斯特采样定理在进行模拟 / 数字信号的转换过程中:
        当采样频率 fs 大于信号中最高频率 fmax 的 2 倍时（fs > 2fmax），采样之后的数字信号才可以完整地保留原始信号中的信息。
例:
        8kHz（比如打电话)
        16kHz 或者 32kHz(网络音视频会议场景)
        44.1kHz 或者 48kHz(线上音乐会或者音乐直播)
        96kHz 甚至更高(音乐制作录音)

https://img.zhaoweiguo.com/uPic/2023/06/aQrwGb.jpg — 不同采样率（ 48kHz (上) 和 16kHz (下) ）的频谱能量分布。16kHz 采样率的音频在 8kHz 以上的频谱基本是没有能量的（黑色），也就是说这部分高频的信息由于采样率不够已经丢失了。从听感上来说人耳可以听到的频率范围大概是 50～20kHz 之间。如果采样率不够，那么和实际听感比起来声音就会显得 “低沉” 或者说 “闷”。¶

通道数:

播放
        2.1 声道中的 2 指的是左右两个音箱，1 指的是中间一个低音音箱
        左右耳朵听到声音是不一样的，能够感觉到声音是从不同方向传过来的，就说明这个音频是双声道。我们通常也把这种双声道音频叫做立体声（Stereo）
采集
        麦克风阵列采集到的原始信号，有多少个麦克风就会有多少个通道的音频信号。
        因此，这里通道数的物理含义其实就是同一时间采集或播放的音频信号的总数。

https://img.zhaoweiguo.com/uPic/2023/06/O1QDH2.jpg — 2.0 声道音箱 (左)、立体声耳机 (中)、2.1 声道音箱 (右)¶

1 分 40 秒的采样率为 48kHz 的音频、采样位深是 16bit:

存储空间 = 采样位深 × 采样率 × 通道数 × 时长 =16×48000×2×100=1.53*10^8bit=18.31MB
比特带宽 = 采样位深 × 采样率 × 通道数 =16×48000×2=1.53*10^6bps=1500kbps

音频的封装¶

有损音频格式比如 MP3 一般可以达到 1:10 的压缩比
无损音频封装则采用可完美还原的压缩算法，比如 FLAC 和 APE 等编码封装格式。其中 FLAC 的压缩比为 58.70%，而 APE 的压缩能力则要更高一些，压缩比为 55.50%。无损封装甚至还可以不压缩编码，直接加个文件头作为封装，比如 WAVE 格式的封装。

https://img.zhaoweiguo.com/uPic/2023/06/jJfG9e.jpg — 常见的无损和有损音频编码封装¶

WAVE 文件的封装格式十分简单。WAVE 文件由 WAVE 文件头部分和 WAVE 文件数据体部分组成，其中 0～43 字节存放采样率、通道数、数据部分的标识符等头信息，44 字节以后的就是数据部分。简单地理解就是 PCM 文件加一个文件头描述文件的基本信息。

https://img.zhaoweiguo.com/uPic/2023/06/z0S1Ez.jpg — WAVE 文件头每个字节的含义¶

MIDI 全称是 Musical Instrument Digital Interface 顾名思义是一种音乐乐器的记录格式。以钢琴为例，MIDI 文件记录了时间序列中每个钢琴音的起止位置、按键力度等信息。很显然光有 MIDI 文件你是听不到声音的还需要有一个记录了乐器各种音的音调的音源库配套使用，比如文件记录在第 3 秒要弹一个 C4 的音，然后就去音源库把 C4 的音源按时间拼接上去，最后依次把所有的乐器音都拼接起来就成了可播放的音频文件。起初各大厂商 MIDI 文件格式都不太统一。直到后来 MIDI1.0 标准的发布各家厂商遍都遵循了相同的标准。现在已经发展到 MIDI2.0 了。

02| 如何量化分析语音信号¶

语音和音乐是最常见的音频信号类型

浊音和清音¶

第一类是声带振动作为声源产生的声音，我们把它们叫做浊音。比如拼音中的 “a，o，e” 等。
第二类是由气体在经过唇齿等狭小区域由于空气与腔体摩擦而产生的声音，我们把它们叫做清音。比如拼音中的 “shi、chi、xi” 等。

https://img.zhaoweiguo.com/uPic/2023/06/RIF6Ey.jpg — 语音的频谱图时域图 (上) 和频域图 (下)：时域就是信号幅度和时间的关系，而频域指的是能量与时间和频率的关系。¶

可以看到浊音，比如最后两个字 “互动” 是明显的有规律的能量分布，即低频能量大于高频且有明显的能量比较集中的地方，如频谱图中的亮线。而 “实时” 和 “视” 这几个字，都有 “sh” 这个由牙齿间高速气流产生的清音。清音在频谱上显示为比较均匀的分布。在 13kHz 的高频，清音也有不少的能量。
根据这个简单的分布规律我们已经可以从频谱上分辨清浊音了。

基频¶

在发浊音的时候，声带会振动从而产生一个声波，我们把这个声波叫做``基波``，并且把基波的频率叫做``基频``（一般用 F0 来表示）。这个基频其实就可以对应到我们平时所说的音调。比如，你唱歌音调比较高，其实就是你的声音基频比较高。
一般来说，男生的正常说话基频在 100～200Hz 之间，而女生的则会高一些，在 140～240Hz 之间。小孩的基频比较高，可以达到 300Hz
基频的能量对应的是浊音频谱中频率最低的亮线。

谐波¶

声带振动产生的基波，在传输过程中会在声道表面反复碰撞反射，从而产生许多频率倍数于基频的声波，我们通常把这些声波叫做谐波。按照谐波频率从低到高，我们依次叫 1 次谐波，2 次谐波等等。
谐波频率和基频是浊音能量集中的地方

https://img.zhaoweiguo.com/uPic/2023/06/rY7Efm.jpg

03| 如何分析与处理音乐信号¶

具体实现需要时看

04| 如何评价音频质量的好与坏¶

具体实现需要时看

02音频降噪 (2 讲)¶

05| 音频降噪如何对症下药¶

具体实现需要时看

06| 如何将 AI 技术运用到降噪中¶

具体实现需要时看

03回声消除 (2 讲)¶

07| 如何通过算法自动快速地消除回声¶

具体实现需要时看

08| 回声消除算法实践指南¶

具体实现需要时看

04音频网络传输 (3 讲)¶

09| 音频编解码器是如何工作的¶

具体实现需要时看

10| 如何选择一个适合你的编解码器¶

具体实现需要时看

11| 网络差怎么办, 音频网络传输与抗弱网策略¶

具体实现需要时看

05空间音频 (2 讲)¶

12| 空间音频入门: 如何实现 “声临其境”¶

具体实现需要时看

13| 如何利用 HRTF 实现听音辨位¶

具体实现需要时看

06音频特效生成与算法 (3 讲)¶

14| 音效三剑客: 变调,均衡器,混响¶

15| AI变声: 音频AI技术的集大成者¶

加餐| 音频技术漫谈之好声音是怎么炼成的¶