内存与存储

概述

内存和存储系统是机器人计算平台的数据基础设施。从高速缓存到持久化存储，不同层级的存储介质在容量、速度和成本之间实现平衡。理解内存层次结构对于优化机器人系统的数据吞吐至关重要。

SRAM vs DRAM

SRAM（静态随机存取存储器）

SRAM使用6个晶体管（6T）构成一个存储单元：

特性	值
晶体管/位	6
访问速度	1-2ns
是否需要刷新	否
功耗	低（静态）
密度	低
成本	高
用途	CPU缓存（L1/L2/L3）

DRAM（动态随机存取存储器）

DRAM使用1个晶体管+1个电容（1T1C）：

特性	值
晶体管/位	1 + 1电容
访问速度	50-100ns
是否需要刷新	是（~64ms一次）
功耗	较高（刷新）
密度	高
成本	低
用途	主存（RAM）

DRAM类型演进

类型	带宽	电压	特点	应用
DDR4	25.6 GB/s	1.2V	成熟稳定	PC、服务器
DDR5	51.2 GB/s	1.1V	更高带宽	新一代PC
LPDDR4X	34.1 GB/s	0.6V	低功耗	Jetson、手机
LPDDR5	51.2 GB/s	0.5V	低功耗+高带宽	Jetson Orin
LPDDR5X	67.2 GB/s	0.5V	最新	高端移动SoC

机器人平台的内存选择

Jetson Orin: LPDDR5，统一内存（CPU和GPU共享）
Raspberry Pi 5: LPDDR4X，4/8GB
STM32H7: 内置1MB SRAM，无需外部DRAM

缓存一致性

多核缓存问题

当多个CPU核心各自拥有L1缓存时，同一数据可能存在多个副本：

Core 0               Core 1
┌────────┐           ┌────────┐
│L1: X=5 │           │L1: X=5 │
└────┬───┘           └────┬───┘
     │    ┌──────────┐    │
     └────┤ L2: X=5  ├────┘
          └────┬─────┘
               │
          ┌────┴─────┐
          │ DRAM: X=5│
          └──────────┘

Core 0 写入 X=10，Core 1 的缓存中 X 仍为 5 → 不一致！

MESI协议

MESI是最常用的缓存一致性协议，每个缓存行有四种状态：

状态	含义	说明
Modified	已修改	仅此核心有效，与主存不一致
Exclusive	独占	仅此核心有效，与主存一致
Shared	共享	多个核心有效，与主存一致
Invalid	无效	缓存行无效

graph TD
    I[Invalid] -->|"本地读(Bus Read)"| S[Shared]
    I -->|"本地读(无其他副本)"| E[Exclusive]
    E -->|"本地写"| M[Modified]
    S -->|"本地写(Invalidate)"| M
    M -->|"远程读(Write Back)"| S
    E -->|"远程读"| S
    S -->|"远程写(Invalidate)"| I
    M -->|"远程写(Write Back)"| I

对机器人软件的影响

在ROS2多线程节点中，多个线程共享数据时需注意：

频繁写入共享变量会导致缓存行乒乓（Cache Line Bouncing）
使用std::atomic或锁来保证正确性
False Sharing：不同变量恰好在同一缓存行（64字节），一个线程写入会导致另一个线程的缓存失效

内存层次结构

完整的存储层次

\[ \text{寄存器} \xrightarrow{<1\text{ns}} \text{L1} \xrightarrow{2\text{ns}} \text{L2} \xrightarrow{10\text{ns}} \text{L3} \xrightarrow{50\text{ns}} \text{DRAM} \xrightarrow{100\mu\text{s}} \text{SSD} \xrightarrow{5\text{ms}} \text{HDD} \]

平均访问时间

多级缓存的平均内存访问时间（AMAT）：

\[ \text{AMAT} = T_{L1} + m_{L1} \times (T_{L2} + m_{L2} \times (T_{L3} + m_{L3} \times T_{\text{DRAM}})) \]

其中 $m_i$ 是第 $i$ 级缓存的未命中率。

计算示例

假设 $T_{L1}=1\text{ns}$，$m_{L1}=5\%$，$T_{L2}=5\text{ns}$，$m_{L2}=20\%$，$T_{\text{DRAM}}=50\text{ns}$：

\[\text{AMAT} = 1 + 0.05 \times (5 + 0.20 \times 50) = 1 + 0.05 \times 15 = 1.75\text{ns}\]

局部性原理

缓存有效的理论基础：

时间局部性（Temporal Locality）：最近访问的数据可能很快再次被访问
空间局部性（Spatial Locality）：访问某地址后，附近地址也可能被访问

// 好的空间局部性（行优先遍历）
for (int i = 0; i < rows; i++)
    for (int j = 0; j < cols; j++)
        process(image[i][j]);  // 连续内存访问

// 差的空间局部性（列优先遍历）
for (int j = 0; j < cols; j++)
    for (int i = 0; i < rows; i++)
        process(image[i][j]);  // 跳跃式内存访问

DMA（直接内存访问）

DMA原理

DMA控制器允许外设直接与内存交换数据，无需CPU参与：

graph LR
    A[传感器/外设] -->|DMA传输| B[内存 DRAM]
    C[CPU] -.->|配置DMA| D[DMA控制器]
    D -->|管理传输| A
    D -->|管理传输| B
    D -->|传输完成中断| C

DMA在机器人中的应用

场景	数据源	目标	数据量	说明
相机采集	CSI接口	帧缓冲区	~6MB/帧(1080p)	ISP+DMA流水线
LiDAR数据	SPI/Ethernet	点云缓冲	~100KB/帧	高频率传输
ADC采样	ADC外设	环形缓冲区	~几KB/批次	STM32的DMA+ADC
音频	I2S接口	音频缓冲	~192KB/s	双缓冲机制

STM32 DMA配置示例

// STM32 HAL: ADC通过DMA连续采集
HAL_ADC_Start_DMA(&hadc1, (uint32_t*)adc_buffer, BUFFER_SIZE);

// DMA传输完成回调
void HAL_ADC_ConvCpltCallback(ADC_HandleTypeDef* hadc) {
    // 处理采集到的数据
    process_sensor_data(adc_buffer, BUFFER_SIZE);
}

存储介质对比

eMMC vs NVMe

特性	eMMC 5.1	NVMe SSD
接口	并行MMC	PCIe Gen3/4
顺序读	~400 MB/s	~3500 MB/s
顺序写	~200 MB/s	~3000 MB/s
随机读(IOPS)	~15K	~500K
功耗	~0.5W	~3-5W
价格(64GB)	~$10	~$30
用途	嵌入式系统	高性能需求

机器人存储需求

数据类型	数据率	存储需求(1小时)	推荐存储
日志文件	~1 MB/s	~3.6 GB	eMMC
720p视频	~5 MB/s	~18 GB	NVMe
1080p视频	~15 MB/s	~54 GB	NVMe
点云数据	~10 MB/s	~36 GB	NVMe
rosbag录制	~50 MB/s	~180 GB	NVMe

内存映射I/O（MMIO）

原理

在ARM架构中，外设寄存器映射到内存地址空间，CPU通过读写特定地址来控制硬件：

内存地址空间:
0x0000_0000 - 0x1FFF_FFFF : Flash (程序代码)
0x2000_0000 - 0x3FFF_FFFF : SRAM (数据)
0x4000_0000 - 0x5FFF_FFFF : 外设寄存器 (MMIO)
    0x4000_0000 : TIM2 (定时器)
    0x4000_1000 : TIM3
    0x4000_4400 : USART2
    0x4001_0000 : GPIOA
    ...
0xE000_0000 - 0xFFFF_FFFF : 系统外设 (NVIC, SysTick)

在Linux中访问硬件

// Linux下通过mmap访问物理地址
#include <sys/mman.h>
#include <fcntl.h>

int fd = open("/dev/mem", O_RDWR | O_SYNC);
volatile uint32_t* gpio = (uint32_t*)mmap(
    NULL, 4096, PROT_READ | PROT_WRITE, MAP_SHARED,
    fd, GPIO_BASE_ADDR
);

// 设置GPIO输出
gpio[GPIO_SET_OFFSET/4] = (1 << pin);

安全注意事项

直接访问/dev/mem需要root权限且存在安全风险。在生产系统中应通过设备驱动或sysfs接口操作硬件。

Jetson统一内存架构

Jetson平台采用统一内存架构（Unified Memory）：

┌─────────────────────────────┐
│        LPDDR5 内存           │
│    (CPU和GPU共享，无需拷贝)   │
├─────────────┬───────────────┤
│   CPU视图   │    GPU视图     │
│ (缓存一致)   │ (缓存一致)     │
└─────────────┴───────────────┘

优势：

零拷贝（Zero-Copy）：CPU和GPU可以直接访问同一块内存
简化编程：无需显式的cudaMemcpy
降低延迟：避免了数据传输的开销

# PyTorch on Jetson: 使用统一内存
import torch

# 直接在CUDA上创建张量，CPU也可以访问
tensor = torch.zeros(1000, 1000, device='cuda')

# 使用pin_memory加速主机到设备的传输
dataloader = DataLoader(dataset, pin_memory=True)

内存优化策略

机器人系统内存预算

组件	内存占用	说明
Linux内核 + 系统服务	~500MB	基础开销
ROS2运行时	~200MB	DDS + 节点管理
深度学习模型	500MB-4GB	取决于模型大小
相机帧缓冲	~100MB	多帧缓冲
点云缓冲	~200MB	LiDAR数据
导航地图	100MB-1GB	取决于地图大小
总计	~2-6GB	8GB通常足够

内存泄漏检测

# 监控进程内存使用
watch -n 1 'ps aux --sort=-rss | head -10'

# 使用valgrind检测C++内存泄漏
valgrind --leak-check=full ./robot_node

# Python内存分析
python -m memory_profiler robot_script.py

小结

SRAM快但贵用于缓存，DRAM慢但大用于主存
缓存一致性协议（MESI）保证多核数据一致
DMA释放CPU，让传感器数据直接写入内存
NVMe SSD是数据密集型机器人（如自动驾驶）的必备
Jetson统一内存简化了CPU-GPU数据共享
合理的内存预算确保系统稳定运行

参考资料

Patterson, D. A., & Hennessy, J. L. Computer Organization and Design
STM32 Reference Manual (DMA章节)
NVIDIA Jetson Memory Architecture Guide
Linux Kernel Documentation: Memory Management