STM32串口DMA发送原理与工程实践指南

DMA（直接内存访问）是嵌入式系统中实现高效外设数据传输的核心机制，其本质是通过硬件控制器接管内存与外设间的数据搬运，从而解除CPU在字节级I/O中的耦合依赖。基于总线矩阵架构的DMA控制器支持多通道并行调度，结合地址自增、数据宽度对齐、单次/循环模式等关键参数，可精准适配USART等串口外设的DR寄存器写入时序。该技术显著降低CPU占用率（<1%），提升系统实时性与吞吐能力，广泛应用于工业通信、

Nokia

666人浏览 · 2026-02-21 13:16:07

Nokia · 2026-02-21 13:16:07 发布

1. DMA在嵌入式串口通信中的工程定位与价值

在嵌入式系统开发中，串口（USART/UART）是最基础、最广泛使用的外设之一。然而，当数据吞吐量提升或系统实时性要求增强时，传统的轮询（Polling）和中断（Interrupt）模式迅速暴露出其固有瓶颈。轮询方式持续占用CPU周期，导致系统效率低下；中断方式虽释放了CPU，但在高频率数据发送场景下，频繁的中断上下文切换开销巨大，且发送逻辑本身仍需CPU参与数据搬运。正是在这种背景下，DMA（Direct Memory Access，直接内存访问）成为串口数据传输的工业级标准方案。

DMA的核心价值不在于“替代”CPU，而在于 解耦数据搬运与业务逻辑 。它将CPU从繁重的字节级数据搬运任务中彻底解放出来，使其专注于更高层次的控制决策、算法运算或多任务调度。一个典型的串口通信系统中，DMA承担的是“物流运输队”的角色：CPU只需下达一次指令——“将内存中地址0x20001000起始的11个字节，搬运至USART1的DR寄存器”，随后即可投入其他工作。DMA控制器则独立接管总线，在后台自动完成全部11次数据读取、地址递增、写入外设寄存器的全过程。整个过程无需CPU干预，仅在全部11字节搬运完毕后，通过一个轻量级的传输完成（Transfer Complete, TC）中断通知CPU“任务已就绪”。这种分工协作模式，是构建高吞吐、低延迟、高可靠嵌入式通信系统的基石。

2. STM32 DMA控制器架构与通道绑定机制

STM32系列MCU的DMA控制器并非一个孤立的模块，而是深度集成于其总线矩阵（Bus Matrix）架构之中。理解其物理位置与连接关系，是正确配置DMA的前提。在STM32F103等主流型号中，DMA1和DMA2均挂载于AHB（Advanced High-performance Bus）总线上，这决定了它们拥有与CPU核心同等的总线访问优先级和带宽。因此，第一步必须使能DMA外设的时钟，否则DMA控制器将处于完全断电状态，任何配置都将无效。

// 使能DMA1和DMA2时钟（AHB总线）
RCC->AHBENR |= RCC_AHBENR_DMA1EN | RCC_AHBENR_DMA2EN;

关键在于，STM32的DMA通道（Channel）与外设之间存在严格的 硬件绑定关系 ，这是由芯片内部布线决定的，无法通过软件随意更改。例如，查阅《STM32F103xx参考手册》第10章“DMA控制器”中的“DMA请求映射表”，可以明确查到：USART1的TX（发送）功能固定映射至DMA1_Channel4。这意味着，若试图将USART1_TX配置为DMA1_Channel1，硬件上根本不会产生任何DMA请求，程序将永远阻塞。同理，USART2_TX绑定于DMA1_Channel7，USART3_TX则绑定于DMA2_Channel2。这种硬绑定机制杜绝了配置错误的可能性，但也要求开发者必须在编码前精确查阅对应芯片的手册，这是嵌入式工程师的基本功。

3. 串口DMA发送链路的完整参数解析

配置一条从内存到USART DR寄存器的DMA发送链路，本质上是为DMA控制器定义一套精确的“搬运指令集”。这些指令以结构体形式封装，每个字段都对应着一个不可妥协的硬件约束。

3.1 数据源与目标地址

内存源地址（Memory Address） ：指向待发送数据在SRAM中的起始位置。例如， uint8_t tx_buffer[] = "Hello World"; ，其源地址即为 (uint32_t)&tx_buffer[0] 。该地址必须是32位整数，因为DMA控制器的地址总线宽度为32位。
外设目标地址（Peripheral Address） ：指向USART外设的数据寄存器（Data Register, DR）。对于USART1，其DR寄存器的基地址为 0x40013804 （根据《参考手册》第27章“USART寄存器映射”）。此地址是固定的硬件映射，绝非可变值。

// USART1_DR寄存器地址（F103系列）
#define USART1_DR_BASE    ((uint32_t)0x40013804)

3.2 地址自增模式（Memory/Peripheral Increment）

内存地址自增（MemInc） ：必须设置为 ENABLE 。因为发送“Hello World”需要依次搬运 H 、 e 、 l …共11个字节，每次搬运后，内存地址需自动+1，指向下一个字节。若禁用，DMA将反复搬运 tx_buffer[0] 这个字节11次。
外设地址自增（PeriphInc） ：必须设置为 DISABLE 。USART的DR寄存器是一个“单点入口”，所有待发送数据都写入同一个地址。硬件设计上，向该地址写入一个字节后，会自动触发发送时序，无需也不能改变写入地址。若错误启用，DMA将尝试向 0x40013804 、 0x40013805 …等非法地址写入，导致总线错误（Bus Fault）。

3.3 数据宽度与传输次数

数据宽度（Memory Data Size / Peripheral Data Size） ：必须统一设置为 DMA_MDATAALIGN_BYTE （8位）。这与USART的帧格式严格匹配。当USART配置为8N1（8位数据位、无校验、1位停止位）时，其DR寄存器仅接受一个字节（8位）的有效数据。若配置为半字（16位），DMA会尝试一次性写入16位数据，但USART DR寄存器只识别低8位，高8位被丢弃，导致数据错乱。
传输次数（Number of Data） ：即待发送数据的字节数，由 sizeof(tx_buffer) 计算得出。这是一个绝对计数值，DMA控制器内部有一个硬件计数器，每完成一次搬运，该计数器减1。当计数器归零时，自动触发TC中断并停止搬运。此值必须精确，多一少一都会导致数据截断或溢出。

3.4 传输方向与模式

传输方向（Direction） ：设置为 DMA_DIR_PERIPHERALDST （外设为目的地），清晰表明数据流向是从内存（Source）到外设（Destination）。
传输模式（Mode） ：选择 DMA_NORMAL （单次模式）。这是串口发送的默认且最安全的模式。它确保DMA在完成指定次数的搬运后即停止，避免因误配置为 DMA_CIRCULAR （循环模式）而导致数据被无限重复发送，造成通信协议混乱。

3.5 优先级与通道选择

通道优先级（Priority） ：在DMA1_Controller管理的多个通道（如Channel1-Channel7）中，为本通道（Channel4）分配一个合适的优先级（如 DMA_PRIORITY_HIGH ）。当多个通道同时发出请求时，高优先级通道将优先获得总线使用权。对于实时性要求高的串口发送，通常赋予较高优先级。
通道选择（Channel） ：最终选定 DMA1_Channel4 ，这是由前述硬件绑定规则决定的唯一合法选择。

4. 基于HAL库的DMA串口发送实现流程

虽然裸机寄存器操作能提供最底层的控制，但HAL库凭借其标准化的API和完善的错误处理，已成为现代STM32开发的主流。以下流程基于HAL库，展示了从初始化到启动的完整闭环。

4.1 初始化阶段：配置与使能

初始化是DMA链路的“奠基仪式”，所有静态参数在此设定。

// 1. 定义DMA句柄（全局或静态）
DMA_HandleTypeDef hdma_usart1_tx;

// 2. 配置DMA初始化结构体
hdma_usart1_tx.Instance = DMA1_Channel4; // 硬件通道
hdma_usart1_tx.Init.Direction = DMA_MEMORY_TO_PERIPH; // 方向
hdma_usart1_tx.Init.PeriphInc = DMA_PINC_DISABLE;      // 外设地址不自增
hdma_usart1_tx.Init.MemInc = DMA_MINC_ENABLE;          // 内存地址自增
hdma_usart1_tx.Init.PeriphDataAlignment = DMA_PDATAALIGN_BYTE; // 外设数据宽度：字节
hdma_usart1_tx.Init.MemDataAlignment = DMA_MDATAALIGN_BYTE;     // 内存数据宽度：字节
hdma_usart1_tx.Init.Mode = DMA_NORMAL;                 // 单次模式
hdma_usart1_tx.Init.Priority = DMA_PRIORITY_HIGH;    // 高优先级

// 3. 初始化DMA句柄
HAL_DMA_Init(&hdma_usart1_tx);

// 4. 将DMA句柄与USART句柄关联（关键！）
__HAL_LINKDMA(&huart1, hdmatx, hdma_usart1_tx);

// 5. 使能USART的DMA发送请求
__HAL_USART_ENABLE_IT(&huart1, USART_IT_TC); // 启用传输完成中断（非必须，但推荐）
__HAL_USART_ENABLE_TX_DMA(&huart1);           // 启用USART1的TX DMA功能

4.2 启动阶段：触发数据搬运

启动是DMA链路的“发令枪”，一旦执行，搬运即自动开始。

// 在需要发送数据时调用
uint8_t tx_data[] = "Hello World\r\n";
uint16_t tx_size = sizeof(tx_data) - 1; // 减去字符串末尾的'\0'

// 启动DMA传输（非阻塞）
HAL_UART_Transmit_DMA(&huart1, tx_data, tx_size);

HAL_UART_Transmit_DMA() 函数内部完成了三件事：
1. 将 tx_data 的地址和 tx_size 加载到DMA控制器的相应寄存器。
2. 清除DMA的传输完成（TC）标志位。
3. 使能DMA通道（ DMA1_Channel4->CCR |= DMA_CCR_EN ），正式启动搬运。

此时，CPU可立即返回执行其他任务，例如点亮LED、读取传感器或处理用户输入，完全无需关心数据是否已发送完毕。

4.3 完成阶段：中断回调与状态同步

DMA搬运完成后，硬件自动触发TC中断。在中断服务函数（ISR）中，HAL库会调用用户注册的回调函数，这是实现状态同步的关键。

// 用户定义的传输完成回调函数
void HAL_UART_TxCpltCallback(UART_HandleTypeDef *huart)
{
    if (huart->Instance == USART1) {
        // 此处可执行发送完成后的业务逻辑
        // 例如：置位发送完成标志位、启动下一轮发送、唤醒等待任务等
        tx_complete_flag = SET;
    }
}

// 主循环中等待发送完成（轮询方式，适用于简单裸机系统）
while (tx_complete_flag != SET) {
    // 等待，可加入超时机制
}
tx_complete_flag = RESET; // 清除标志位，为下次发送准备

此处的 tx_complete_flag 是一个 volatile 修饰的全局变量。 volatile 关键字至关重要，它强制编译器每次读取该变量时都从内存中获取最新值，而非使用可能已过期的CPU寄存器缓存值。这是因为该变量可能在中断上下文中被修改（ SET ），而在主循环上下文中被读取（ RESET ），两个上下文共享同一块内存，必须保证可见性。

5. 工程实践中的常见陷阱与规避策略

在实际项目中，DMA配置看似简单，却隐藏着诸多极易被忽视的“深坑”。这些陷阱往往导致数据丢失、系统死锁或难以复现的偶发故障。

5.1 缓冲区生命周期陷阱

问题：将局部数组（栈上分配）作为DMA源地址。

void send_message(void) {
    uint8_t local_buf[] = "Hello"; // 局部变量，函数返回后栈空间被回收
    HAL_UART_Transmit_DMA(&huart1, local_buf, sizeof(local_buf)-1);
    // 函数返回，local_buf所在栈空间失效，DMA继续搬运垃圾数据！
}

规避：DMA缓冲区必须具有 静态存储期 。应声明为全局变量、静态局部变量或在堆（Heap）上动态分配（需确保堆足够且管理得当）。

// 正确：全局静态缓冲区
static uint8_t tx_buffer[64];

5.2 中断标志位未清除陷阱

问题：在DMA TC中断服务函数中，未调用 HAL_DMA_IRQHandler() 或手动清除TC标志位。导致中断被重复触发，形成中断风暴，CPU陷入无限中断循环。

规避：严格遵循HAL库的中断处理范式。在 HAL_UART_TxCpltCallback() 中，HAL库已自动调用 HAL_DMA_IRQHandler() 来清除相关标志位。切勿在回调函数中再次手动清除，否则可能破坏HAL库的内部状态。

5.3 多次启动未检查状态陷阱

问题：在前一次DMA传输尚未完成时，再次调用 HAL_UART_Transmit_DMA() 。HAL库会返回 HAL_BUSY 错误，但若忽略此返回值，强行启动，将导致DMA控制器状态异常，后续传输完全失败。

规避：在启动新传输前，必须检查当前DMA状态。

if (HAL_UART_GetState(&huart1) == HAL_UART_STATE_READY) {
    HAL_UART_Transmit_DMA(&huart1, new_data, size);
} else {
    // 处理忙状态，例如排队、丢弃或等待
}

5.4 时钟配置遗漏陷阱

问题：仅使能了USART的时钟（ RCC_APB2ENR_USART1EN ），却遗漏了DMA的AHB时钟（ RCC_AHBENR_DMA1EN ）。结果是USART可以正常工作（轮询/中断模式），但DMA始终无法启动，调试时发现 HAL_UART_Transmit_DMA() 函数卡在等待状态。

规避：建立一个完整的“外设使能清单”。对于DMA+USART组合，必须同时使能：
- RCC->AHBENR 中的 DMA1EN
- RCC->APB2ENR 中的 USART1EN
- RCC->APB2ENR 中的 GPIOAEN （假设USART1引脚在GPIOA）

6. DMA与中断协同的高级应用模式

在裸机系统中，简单的TC中断回调已能满足大部分需求。但当系统复杂度提升，特别是引入RTOS（如FreeRTOS）后，DMA与中断的协同模式将迎来质的飞跃。

6.1 信号量同步模式（RTOS环境）

在FreeRTOS中，将TC中断回调与信号量（Semaphore）结合，是实现高效、无阻塞同步的黄金法则。它彻底消除了主任务中“忙等待”（Busy-Waiting）的CPU浪费。

// 1. 创建一个二进制信号量
SemaphoreHandle_t xTxCompleteSemaphore;

void UART_Init(void) {
    xTxCompleteSemaphore = xSemaphoreCreateBinary();
    // ... 其他初始化
}

// 2. TC中断回调中释放信号量
void HAL_UART_TxCpltCallback(UART_HandleTypeDef *huart) {
    if (huart->Instance == USART1) {
        xSemaphoreGiveFromISR(xTxCompleteSemaphore, NULL); // 从中断中给出信号量
    }
}

// 3. 主任务中等待信号量（无CPU占用）
void vUartTask(void *pvParameters) {
    const TickType_t xDelay = pdMS_TO_TICKS(1000);
    for(;;) {
        // 发送数据
        HAL_UART_Transmit_DMA(&huart1, tx_data, tx_size);

        // 等待发送完成，任务进入阻塞态，CPU可执行其他任务
        if (xSemaphoreTake(xTxCompleteSemaphore, portMAX_DELAY) == pdTRUE) {
            // 发送完成，执行后续逻辑
            vTaskDelay(xDelay); // 延迟1秒
        }
    }
}

此模式下，CPU资源得到极致利用。当UART发送时，任务阻塞，调度器自动切换到其他就绪任务；当TC中断到来，信号量被释放，任务被唤醒，无缝衔接后续处理。这是工业级产品追求的“零空转”设计哲学。

6.2 循环缓冲区（Ring Buffer）与双缓冲（Double Buffer）模式

对于需要持续、高速、不间断数据流的应用（如音频播放、实时日志记录），单缓冲区的 NORMAL 模式会因“搬运-等待-再搬运”的间隙而产生数据断点。此时， DMA_CIRCULAR 模式配合精心设计的缓冲区结构是唯一解。

循环缓冲区（Ring Buffer） ：DMA配置为循环模式，数据指针在缓冲区内循环移动。CPU负责维护“生产者”（写入新数据）和“消费者”（读取已发送数据）的索引，通过比较索引差值判断可用空间与已发送数据量。这种方式实现了真正的流水线作业。
双缓冲（Double Buffer） ：DMA配置为双缓冲模式（ DMA_DOUBLE_BUFFER ），拥有两个独立的缓冲区（Buffer0和Buffer1）。当DMA正在搬运Buffer0时，CPU可安全地向Buffer1填充新数据；反之亦然。DMA在完成一个缓冲区的搬运后，自动切换到另一个，并通过 HAL_DMA_XferCpltCallback() 通知CPU切换已完成。这提供了最大的灵活性和最小的CPU干预。

7. 性能实测与调试技巧

理论终需实践验证。在STM32F103C8T6（72MHz）上，对“Hello World”（11字节）进行实测，可清晰量化DMA带来的性能跃升。

模式	CPU占用率（估算）	发送11字节耗时（us）	实时性影响
轮询（Polling）	~95%	~110	严重阻塞其他任务
中断（Interrupt）	~15%	~120	中断频繁，抖动大
DMA（Normal）	<1%	~110	几乎无感知

关键调试技巧 ：
- 逻辑分析仪（Logic Analyzer） ：将USART的TX引脚接入LA，可直观看到数据波形。DMA模式下，11字节数据以连续、紧凑的波形发出，中间无间隔；而轮询模式下，字节间存在明显的、长度不一的空闲时间（Idle Time），这是CPU在查询状态寄存器所耗费的时间。
- Keil MDK的Event Recorder ：启用此功能，可在调试时精确记录DMA启动、TC中断触发、回调函数执行等事件的时间戳，形成时序图，是分析系统时序瓶颈的利器。
- 内存查看窗口（Memory Window） ：在调试状态下，打开内存窗口，观察DMA的 CMAR （Current Memory Address Register）和 CNDTR （Current Number of Data to Transfer Register）寄存器的实时变化。 CNDTR 从11递减至0的过程，就是DMA搬运的“心跳”。

8. 从DMA到系统级设计思维的跃迁

掌握DMA的配置只是起点，真正的工程师成长，在于将单一外设的技能，升华为系统级的设计思维。这体现在三个维度：

第一维度：资源权衡思维 。DMA虽好，但并非万能。一个DMA通道被USART1_TX独占后，便无法再用于SPI或ADC。在资源紧张的MCU上，必须通盘考虑所有外设的DMA需求，进行优先级排序与通道分配。例如，将高实时性的电机PWM输出（TIMx_CHy）置于最高优先级，而将低速的I2C EEPROM读写置于最低优先级。

第二维度：错误处理思维 。生产环境中的系统必须健壮。DMA传输可能因总线错误（Bus Fault）、内存保护单元（MPU）违规或电源波动而失败。HAL库提供了 HAL_DMA_ErrorCallback() ，应在其中加入日志记录、错误计数、甚至系统复位等防御性措施。一个没有错误处理的DMA系统，在现场运行数月后突然崩溃，是所有工程师的噩梦。

第三维度：抽象封装思维 。在大型项目中，不应在每个.c文件里重复粘贴DMA初始化代码。应将其封装为一个独立的 uart_dma_driver.c/h 模块，对外只暴露 UART_DMA_Init() , UART_DMA_SendAsync() , UART_DMA_RegisterCallback() 等简洁API。模块内部隐藏所有HAL句柄、中断向量、缓冲区管理等细节。这种“面向接口编程”的思想，是代码可维护性与可扩展性的生命线。

我在一个工业网关项目中曾踩过一个深坑：为节省RAM，将DMA缓冲区大小设为刚好容纳一帧Modbus RTU报文（256字节）。当现场出现电磁干扰导致USART接收错误，触发了DMA的“传输错误”（TE）中断，但错误处理函数中因缓冲区已满而无法记录错误详情，最终导致故障无法追溯。后来我们增加了独立的错误日志环形缓冲区，并将DMA缓冲区扩大为512字节，才彻底解决了这个问题。这个教训让我深刻体会到，嵌入式开发的终极战场，永远不在代码行数，而在对物理世界不确定性的敬畏与应对之中。

openvela

openvela 操作系统专为 AIoT 领域量身定制，以轻量化、标准兼容、安全性和高度可扩展性为核心特点。openvela 以其卓越的技术优势，已成为众多物联网设备和 AI 硬件的技术首选，涵盖了智能手表、运动手环、智能音箱、耳机、智能家居设备以及机器人等多个领域。

更多推荐

小米开源声音克隆大模型OmniVoice完整使用指南｜3秒克隆人声｜支持600多种语言和中文方言｜比ElevenLabs还准的词错率｜Apache-2.0免费商用｜整合包一键启动无需配环境｜附详细安装

openvela

RISC-V车规专委会成立、AI模型集中开源、半导体产能加速爬坡

openvela

小米开源大模型 MiMo 登顶全球第一，还白送百万亿 Token？手把手教你薅羊毛

小米开源大模型 MiMo 登顶全球第一，还白送百万亿 Token？手把手教你薅羊毛小米这次不是「年轻人的第一台SUV」，而是「开发者的第一个免费AI大脑」。 📌 导读：小米突然开源了自家最强AI大模型 MiMo V2.5，登顶全球开源第一，MIT协议随便商用。更狠的是，同步上线百万亿Token免费送活动，最高价值659元。活动5月28日截止，手慢无。一、小米突然放大招 4月28日，雷军亲自