计算平台
机器人系统的计算需求跨越多个层次:从微秒级实时控制到秒级 AI 推理。本文梳理嵌入式 AI 计算平台、边缘推理加速器、云端训练资源以及异构计算架构。
计算需求分层
graph LR
subgraph RT["实时控制层"]
MCU[MCU / FPGA<br/>1kHz - 10kHz<br/>电机控制、传感器读取]
end
subgraph Edge["边缘推理层"]
JETSON[Jetson / 边缘 AI<br/>30-100Hz<br/>感知、规划、推理]
end
subgraph Cloud["云端训练层"]
GPU[GPU 集群<br/>A100 / H100<br/>模型训练、大规模仿真]
end
MCU -- "EtherCAT / CAN<br/>< 1ms" --> JETSON
JETSON -- "WiFi / 5G<br/>10-100ms" --> GPU
style RT fill:#ffebee
style Edge fill:#e8f5e9
style Cloud fill:#e3f2fd
| 层次 |
延迟要求 |
计算类型 |
典型硬件 |
| 实时控制 |
<1ms (>1kHz) |
固定算法、PID、状态机 |
MCU (STM32), FPGA |
| 感知推理 |
10-100ms (10-100Hz) |
神经网络推理、SLAM |
Jetson, 边缘 AI |
| 高级规划 |
100ms-1s |
运动规划、任务规划 |
Jetson AGX, 工控机 |
| 模型训练 |
小时~天 |
大规模 RL/VLA 训练 |
GPU 集群 |
NVIDIA Jetson 系列
Jetson 是机器人 AI 计算的事实标准。当前主力产品线是 Orin 系列。
Orin 系列对比
| 型号 |
GPU |
CPU |
AI 算力 |
内存 |
存储接口 |
功耗 |
参考价格 |
| Orin Nano 4GB |
512 CUDA |
6核 A78AE |
20 TOPS |
4GB LPDDR5 |
NVMe |
7-15W |
~$199 |
| Orin Nano 8GB |
1024 CUDA |
6核 A78AE |
40 TOPS |
8GB LPDDR5 |
NVMe |
7-15W |
~$299 |
| Orin NX 8GB |
1024 CUDA |
6核 A78AE |
70 TOPS |
8GB LPDDR5 |
NVMe |
10-25W |
~$399 |
| Orin NX 16GB |
1024 CUDA |
8核 A78AE |
100 TOPS |
16GB LPDDR5 |
NVMe |
10-25W |
~$599 |
| AGX Orin 32GB |
1792 CUDA |
8核 A78AE + 4核 A78 |
200 TOPS |
32GB LPDDR5 |
NVMe |
15-50W |
~$999 |
| AGX Orin 64GB |
2048 CUDA |
12核 A78AE |
275 TOPS |
64GB LPDDR5 |
NVMe |
15-60W |
~$1,599 |
Jetson Nano (旧型号)
初代 Jetson Nano(128 CUDA Maxwell, 472 GFLOPS FP16, 4GB LPDDR4, 5-10W, ~$149)已逐步被 Orin Nano 取代,但仍在教育场景中广泛使用。
JetPack SDK
JetPack 是 Jetson 的完整 SDK,包含:
| 组件 |
说明 |
| L4T |
Linux for Tegra (Ubuntu-based) |
| CUDA |
GPU 计算 |
| cuDNN |
深度学习加速 |
| TensorRT |
推理优化引擎(FP16/INT8 量化,层融合) |
| VPI |
视觉编程接口 |
| Multimedia API |
硬件编解码 |
| DeepStream |
视频分析流水线 |
| Isaac ROS |
机器人专用 ROS 2 加速包 |
版本对应
| JetPack |
L4T |
CUDA |
支持硬件 |
| 5.1.x |
R35.x |
11.4 |
Orin 全系列 |
| 6.0+ |
R36.x |
12.2+ |
Orin 全系列 |
部署优化
# 设置高性能模式
sudo nvpmodel -m 0 # MAXN 模式(最高性能)
sudo jetson_clocks # 锁定最高频率
# TensorRT 优化模型
trtexec --onnx=model.onnx \
--saveEngine=model.engine \
--fp16 \ # FP16 量化
--workspace=4096 # 4GB workspace
# Python TensorRT 推理示例
import tensorrt as trt
import pycuda.driver as cuda
# 加载 engine
runtime = trt.Runtime(trt.Logger())
with open("model.engine", "rb") as f:
engine = runtime.deserialize_cuda_engine(f.read())
context = engine.create_execution_context()
# 绑定输入输出、分配内存、执行推理
# 典型延迟:~5ms on Orin NX (INT8), ~20ms on Orin Nano (FP16)
Jetson 选型建议
| 应用场景 |
推荐型号 |
理由 |
| 教学/入门 |
Orin Nano 8GB |
低成本、够用 |
| 服务机器人 (导航+避障) |
Orin NX 16GB |
平衡性能与功耗 |
| 机械臂操作 (VLA 推理) |
AGX Orin 32GB |
大模型需要大内存 |
| 人形机器人 |
AGX Orin 64GB |
多模态感知 + 全身控制 |
| 自动驾驶原型 |
AGX Orin 64GB |
多传感器融合 |
下一代:Jetson Thor
NVIDIA 预告的下一代机器人计算平台,基于 Blackwell GPU 架构:
| 指标 |
AGX Orin |
Thor (预期) |
| AI 算力 |
275 TOPS |
800+ TOPS |
| 内存 |
64GB |
128GB |
| GPU 架构 |
Ampere |
Blackwell |
| 目标应用 |
通用机器人 |
人形机器人基础模型 |
其他边缘 AI 平台
Intel Movidius (已整合至 OpenVINO)
| 特性 |
说明 |
| 芯片 |
Myriad X VPU |
| 算力 |
~4 TOPS |
| 功耗 |
~1W |
| 特点 |
超低功耗,USB 加速棒形态 |
| SDK |
Intel OpenVINO |
| 状态 |
已不再生产独立芯片,整合到 Intel 平台 |
Google Coral TPU
| 特性 |
说明 |
| 芯片 |
Edge TPU |
| 算力 |
4 TOPS (INT8) |
| 功耗 |
~2W |
| 形态 |
USB 加速棒 / Dev Board / M.2 模块 |
| SDK |
TensorFlow Lite |
| 特点 |
INT8 专用,推理延迟极低 |
对比
| 平台 |
算力 |
功耗 |
生态 |
灵活性 |
价格 |
| Jetson Orin Nano |
40 TOPS |
15W |
CUDA/TensorRT |
极高 |
$299 |
| Coral TPU |
4 TOPS |
2W |
TF Lite |
低 |
$60 |
| OpenVINO (Intel) |
~5 TOPS |
5W |
OpenVINO |
中 |
$80 |
| Hailo-8 |
26 TOPS |
3W |
Hailo SDK |
中 |
~$100 |
| Rockchip RK3588 |
6 TOPS |
5-10W |
RKNN |
中 |
~$100 |
机载计算 vs 云端计算
机器人系统中,不同任务对延迟的要求不同,需要合理划分本地与云端的计算边界。
延迟需求与计算位置
| 控制层级 |
频率要求 |
延迟容忍 |
计算位置 |
示例 |
| 底层电机控制 |
1-10 kHz |
<1 ms |
本地(FPGA/MCU) |
PID 力矩控制 |
| 中层运动控制 |
100-500 Hz |
2-10 ms |
本地(Jetson/MCU) |
轨迹跟踪 |
| 高层策略推理 |
10-50 Hz |
20-100 ms |
本地(Jetson) |
视觉策略推理 |
| 语言理解/规划 |
0.1-1 Hz |
100ms-数秒 |
云端/本地均可 |
VLM 任务规划 |
| 训练/微调 |
离线 |
不限 |
云端 |
策略模型训练 |
关键原则: 1kHz 级别的控制回路必须在本地运行,绝不能依赖网络;10Hz 级别的高层规划可以考虑云端辅助,但需要有本地 fallback 机制。
云端 / 工作站 GPU
训练卡对比
| GPU |
显存 |
FP16 TFLOPS |
互联 |
价格 |
典型用途 |
| RTX 4090 |
24GB |
330 |
PCIe |
~$1,600 |
个人研究 |
| A100 80GB |
80GB |
312 |
NVLink |
~$15,000 |
实验室训练 |
| H100 80GB |
80GB |
990 |
NVLink/NVSwitch |
~$30,000 |
大规模训练 |
| H200 |
141GB HBM3e |
990 |
NVLink |
~$35,000 |
VLA 大模型 |
机器人 AI 的 GPU 需求
| 任务 |
模型规模 |
最低 GPU |
推荐 GPU |
| 小型 RL 策略训练 |
<10M 参数 |
RTX 3060 |
RTX 4090 |
| Isaac Lab 并行训练 |
— |
RTX 3080 |
A100 |
| VLA 微调 (7B) |
7B 参数 |
A100 40GB |
2x A100 80GB |
| VLA 预训练 |
7B+ 参数 |
8x A100 |
8x H100 |
| 实时 VLA 推理 |
3B 参数 |
Jetson AGX Orin |
— |
| 实时小模型推理 |
<100M 参数 |
Jetson Orin NX |
— |
推理优化流程
在边缘端部署模型时,常用的优化手段:
- 量化: FP32 → FP16 → INT8,算力需求降低 2-8 倍
- 蒸馏: 大模型知识迁移到小模型
- 剪枝: 去除冗余权重
- TensorRT 优化: 层融合、内存优化,推理速度提升 2-5 倍
训练 (A100/H100, FP32)
↓ 导出 ONNX
↓ TensorRT 转换 (FP16/INT8)
↓ 部署到 Jetson
推理 (Jetson Orin, INT8): 50ms → 8ms, 400MB → 100MB
FPGA 在机器人中的应用
FPGA 用于需要微秒级确定性延迟的实时控制场景。
典型应用
| 应用 |
说明 |
延迟要求 |
| 电机 FOC 控制 |
磁场定向控制,PWM 生成 |
<10μs |
| EtherCAT 主站 |
实时工业通信 |
<1ms |
| 传感器预处理 |
编码器计数、ADC 采样 |
<1μs |
| 安全监控 |
力/位置限位、紧急停止 |
<10μs |
常用 FPGA 平台
| 平台 |
芯片 |
特点 |
价格 |
应用 |
| Xilinx Zynq-7000 |
ARM + FPGA |
SoC,嵌入式 + 逻辑 |
~$200 |
电机控制 |
| Intel Cyclone V |
ARM + FPGA |
低成本 SoC |
~$150 |
教学/原型 |
| Xilinx Kria KV260 |
Zynq UltraScale+ |
视觉 AI + 实时控制 |
~$250 |
机器人视觉 |
| Lattice iCE40 |
— |
超低功耗,开源工具链 |
~$50 |
简单控制逻辑 |
FPGA vs MCU 对比
| 特性 |
FPGA |
MCU (STM32等) |
| 延迟 |
<1 μs |
1-100 μs |
| 并行度 |
真正硬件并行 |
伪并行(中断) |
| 开发难度 |
高(HDL/Verilog) |
低(C/C++) |
| 灵活性 |
硬件可重配置 |
固定架构 |
| 成本 |
较高 |
低 |
| 典型场景 |
多轴同步控制 |
单轴 PID 控制 |
移动机器人的功耗预算
移动机器人的电池容量有限,计算平台的功耗直接影响续航时间。
典型功耗分配(移动操作机器人)
| 子系统 |
功耗占比 |
典型功耗 |
| 移动底盘电机 |
40-50% |
50-200 W |
| 机械臂电机 |
20-30% |
20-100 W |
| 计算平台 |
10-20% |
10-60 W |
| 传感器 |
5-10% |
5-20 W |
| 通信 |
2-5% |
2-10 W |
功耗优化策略
- 动态频率调节: 空闲时降低 GPU/CPU 频率(
nvpmodel 切换功耗模式)
- 模型按需加载: 不需要复杂推理时切换轻量模型
- 传感器休眠: 非必要传感器可间歇性采样
- 混合精度推理: 非关键任务使用更低精度(INT8 比 FP16 功耗降低约 40%)
异构计算架构
实际机器人系统通常采用异构计算架构,多层次硬件协同工作:
| 层次 |
硬件 |
通信 |
功能 |
| Level 0 |
MCU (STM32H7) |
CAN/SPI |
电机控制 (10kHz) |
| Level 1 |
FPGA (可选) |
EtherCAT |
实时安全监控 |
| Level 2 |
Jetson (Orin) |
Ethernet/USB3 |
AI 推理 + ROS2 |
| Level 3 |
云端 GPU |
WiFi/5G |
训练、远程监控 |
┌──────────────────────────────────────────┐
│ Cloud (GPU Cluster) │
│ 训练 VLA / 大规模仿真 │
└─────────────────┬────────────────────────┘
│ WiFi / 5G
┌─────────────────┴────────────────────────┐
│ Jetson AGX Orin (ROS2) │
│ 感知 │ SLAM │ 规划 │ VLA 推理 │
└────┬──────────┬──────────┬───────────────┘
│ USB3 │ Ethernet │ EtherCAT
┌────┴────┐ ┌───┴───┐ ┌───┴──────────────┐
│ Camera │ │ LiDAR │ │ MCU (STM32) │
│ D435i │ │ Mid360│ │ 电机FOC 10kHz │
└─────────┘ └───────┘ │ 编码器读取 │
│ 安全限位 │
└──────────────────┘
选型决策流程
- 确定推理模型大小:参数量决定最低内存需求
- 确定推理频率:控制 >100Hz 需要高算力,感知 30Hz 相对宽松
- 功耗预算:移动机器人严格受限,固定安装宽松
- ROS2 支持:Jetson 生态最完善
- 成本约束:教学用 Orin Nano,研究用 AGX Orin
更详细的选型决策框架请参考 硬件选型指南。
相关链接