嵌入式音视频开发——压缩编码基础概念

音视频压缩技术通过消除空间、时间、感知和编码冗余，解决原始数据体量庞大的传输存储问题。核心是在码率、失真度和复杂度之间取得平衡，采用帧内/帧间预测、变换编码、量化和熵编码等技术，实现高达10:1以上的压缩比。有损压缩利用人眼/耳感知特性舍弃不敏感信息，无损压缩则完全保留原始数据。现代编码标准（如H.264/H.265）采用混合编码框架，通过DCT变换、运动补偿等关键技术，显著降低数据量（如1080

叶子卍

1262人浏览 · 2025-08-06 17:02:05

叶子卍 · 2025-08-06 17:02:05 发布

1、为何要进行压缩？

因为⾳视频原始数据的体量过于庞大，会导致数据的传输和存储变得困难。

存储困难：一张 DVD 只能存储几秒钟的未压缩的数字视频；

传输困难 : 1 兆的带宽传输一秒的数字视频需要大约 4 分钟；

⼀个1920x1080分辨率的视频，每帧包含约207万个像素，如果每个像素使⽤24位（8位/通道）⾊彩深度，那么单帧图像的数据量就超过6 MB。当帧率达到30帧/秒时，仅视频部分每秒产⽣的数据量就⾼达180多 MB，⼀分钟的视频数据量将超过11 GB。⾳频数据虽然相对较⼩，但未经压缩的PCM（脉冲编码调制）⾳频，以48 kHz采样率、16位位深、双声道计算，每分钟的数据量也超过10 MB。

1920x1080x30x24 = 1492992000bits/8 ≈ 186MB /s

2、压缩的核心目标：质量、码率与复杂度的权衡

音视频压缩编码的核心目标，是在可接受的计算资源消耗内，实现尽可能高的压缩比，同时保证重建后的音视频质量。主要涉及三个关键指标：

码率 (Rate)：单位时间内处理的数据量，直接影响文件大小和传输带宽占用

失真 (Distortion)：压缩后与原始信号的差异程度，衡量重建质量的核心指标

复杂度 (Complexity)：编码解码所需的计算资源，包括CPU/GPU处理能力和内存占用

3、有损与无损压缩

特性	无损压缩 (Lossless)	有损压缩 (Lossy)
数据还原	完全还原，与原始数据一致	无法完全还原，存在信息损失
压缩率	较低 (通常 2:1 ~ 3:1)	非常高 (可达 10:1 / 20:1 / 更高)
主要原理	消除统计冗余 (如霍夫曼编码)	利用感知冗余，丢弃不敏感信息
应用场景	专业制作、母带处理、档案保存	流媒体、数字广播、消费级存储

4、关键术语解析

视频参数

分辨率 (Resolution): 视频图像的尺寸，如1920×1080，决定细节丰富程度

帧率 (Frame Rate): 每秒显示的帧数，如24fps、30fps，影响视频流畅度

码率 (Bitrate): 单位时间传输的比特数，决定文件大小和质量

色彩空间 (YCbCr): 亮度与色度分离，便于色度子采样压缩

音频参数

采样率 (Sample Rate): 每秒采样次数，如44.1kHz、48kHz，决定频率范围

位深 (Bit Depth): 每个采样点的量化精度，如16位、24位，决定动态范围

声道数 (Channels): 独立声音通道数量，如立体声、5.1环绕声

封装格式与编码标准的区别

编码标准 (Codec)
- 编码标准，如H.264、H.265、AAC等，定义了如何将原始的⾳视频数据进⾏压缩编码和解码的算法和规则。
- 关注“如何压缩内容”，关注的是数据如何被压缩以减⼩体积，以及如何被还原以供播放
封装格式 (Container)
- 封装格式，如MP4、MKV、AVI、FLV等，则是⼀个“容器”或“外壳”，它的作⽤是将已经编码压缩好的视频流、⾳频流、字幕、元数据等多种媒体数据按照特定的结构打包到⼀个单独的⽂件中。
- 关注"如何组织内容"，封装格式负责管理这些不同流的同步、索引和存储⽅式，使得播放器能够正确地解析和播放⽂件