计算平台

机器人系统的计算需求跨越多个层次：从微秒级实时控制到秒级 AI 推理。本文梳理嵌入式 AI 计算平台、边缘推理加速器、云端训练资源以及异构计算架构。

计算需求分层

graph LR
    subgraph RT["实时控制层"]
        MCU[MCU / FPGA<br/>1kHz - 10kHz<br/>电机控制、传感器读取]
    end

    subgraph Edge["边缘推理层"]
        JETSON[Jetson / 边缘 AI<br/>30-100Hz<br/>感知、规划、推理]
    end

    subgraph Cloud["云端训练层"]
        GPU[GPU 集群<br/>A100 / H100<br/>模型训练、大规模仿真]
    end

    MCU -- "EtherCAT / CAN<br/>< 1ms" --> JETSON
    JETSON -- "WiFi / 5G<br/>10-100ms" --> GPU

    style RT fill:#ffebee
    style Edge fill:#e8f5e9
    style Cloud fill:#e3f2fd

层次	延迟要求	计算类型	典型硬件
实时控制	<1ms (>1kHz)	固定算法、PID、状态机	MCU (STM32), FPGA
感知推理	10-100ms (10-100Hz)	神经网络推理、SLAM	Jetson, 边缘 AI
高级规划	100ms-1s	运动规划、任务规划	Jetson AGX, 工控机
模型训练	小时~天	大规模 RL/VLA 训练	GPU 集群

NVIDIA Jetson 系列

Jetson 是机器人 AI 计算的事实标准。当前主力产品线是 Orin 系列。

Orin 系列对比

型号	GPU	CPU	AI 算力	内存	存储接口	功耗	参考价格
Orin Nano 4GB	512 CUDA	6核 A78AE	20 TOPS	4GB LPDDR5	NVMe	7-15W	~$199
Orin Nano 8GB	1024 CUDA	6核 A78AE	40 TOPS	8GB LPDDR5	NVMe	7-15W	~$299
Orin NX 8GB	1024 CUDA	6核 A78AE	70 TOPS	8GB LPDDR5	NVMe	10-25W	~$399
Orin NX 16GB	1024 CUDA	8核 A78AE	100 TOPS	16GB LPDDR5	NVMe	10-25W	~$599
AGX Orin 32GB	1792 CUDA	8核 A78AE + 4核 A78	200 TOPS	32GB LPDDR5	NVMe	15-50W	~$999
AGX Orin 64GB	2048 CUDA	12核 A78AE	275 TOPS	64GB LPDDR5	NVMe	15-60W	~$1,599

Jetson Nano (旧型号)

初代 Jetson Nano（128 CUDA Maxwell, 472 GFLOPS FP16, 4GB LPDDR4, 5-10W, ~$149）已逐步被 Orin Nano 取代，但仍在教育场景中广泛使用。

JetPack SDK

JetPack 是 Jetson 的完整 SDK，包含：

组件	说明
L4T	Linux for Tegra (Ubuntu-based)
CUDA	GPU 计算
cuDNN	深度学习加速
TensorRT	推理优化引擎（FP16/INT8 量化，层融合）
VPI	视觉编程接口
Multimedia API	硬件编解码
DeepStream	视频分析流水线
Isaac ROS	机器人专用 ROS 2 加速包

版本对应

JetPack	L4T	CUDA	支持硬件
5.1.x	R35.x	11.4	Orin 全系列
6.0+	R36.x	12.2+	Orin 全系列

部署优化

# 设置高性能模式
sudo nvpmodel -m 0    # MAXN 模式（最高性能）
sudo jetson_clocks     # 锁定最高频率

# TensorRT 优化模型
trtexec --onnx=model.onnx \
        --saveEngine=model.engine \
        --fp16 \                    # FP16 量化
        --workspace=4096             # 4GB workspace

# Python TensorRT 推理示例
import tensorrt as trt
import pycuda.driver as cuda

# 加载 engine
runtime = trt.Runtime(trt.Logger())
with open("model.engine", "rb") as f:
    engine = runtime.deserialize_cuda_engine(f.read())

context = engine.create_execution_context()
# 绑定输入输出、分配内存、执行推理
# 典型延迟：~5ms on Orin NX (INT8), ~20ms on Orin Nano (FP16)

Jetson 选型建议

应用场景	推荐型号	理由
教学/入门	Orin Nano 8GB	低成本、够用
服务机器人 (导航+避障)	Orin NX 16GB	平衡性能与功耗
机械臂操作 (VLA 推理)	AGX Orin 32GB	大模型需要大内存
人形机器人	AGX Orin 64GB	多模态感知 + 全身控制
自动驾驶原型	AGX Orin 64GB	多传感器融合

下一代：Jetson Thor

NVIDIA 预告的下一代机器人计算平台，基于 Blackwell GPU 架构：

指标	AGX Orin	Thor (预期)
AI 算力	275 TOPS	800+ TOPS
内存	64GB	128GB
GPU 架构	Ampere	Blackwell
目标应用	通用机器人	人形机器人基础模型

其他边缘 AI 平台

Intel Movidius (已整合至 OpenVINO)

特性	说明
芯片	Myriad X VPU
算力	~4 TOPS
功耗	~1W
特点	超低功耗，USB 加速棒形态
SDK	Intel OpenVINO
状态	已不再生产独立芯片，整合到 Intel 平台

Google Coral TPU

特性	说明
芯片	Edge TPU
算力	4 TOPS (INT8)
功耗	~2W
形态	USB 加速棒 / Dev Board / M.2 模块
SDK	TensorFlow Lite
特点	INT8 专用，推理延迟极低

对比

平台	算力	功耗	生态	灵活性	价格
Jetson Orin Nano	40 TOPS	15W	CUDA/TensorRT	极高	$299
Coral TPU	4 TOPS	2W	TF Lite	低	$60
OpenVINO (Intel)	~5 TOPS	5W	OpenVINO	中	$80
Hailo-8	26 TOPS	3W	Hailo SDK	中	~$100
Rockchip RK3588	6 TOPS	5-10W	RKNN	中	~$100

机载计算 vs 云端计算

机器人系统中，不同任务对延迟的要求不同，需要合理划分本地与云端的计算边界。

延迟需求与计算位置

控制层级	频率要求	延迟容忍	计算位置	示例
底层电机控制	1-10 kHz	<1 ms	本地（FPGA/MCU）	PID 力矩控制
中层运动控制	100-500 Hz	2-10 ms	本地（Jetson/MCU）	轨迹跟踪
高层策略推理	10-50 Hz	20-100 ms	本地（Jetson）	视觉策略推理
语言理解/规划	0.1-1 Hz	100ms-数秒	云端/本地均可	VLM 任务规划
训练/微调	离线	不限	云端	策略模型训练

关键原则: 1kHz 级别的控制回路必须在本地运行，绝不能依赖网络；10Hz 级别的高层规划可以考虑云端辅助，但需要有本地 fallback 机制。

云端 / 工作站 GPU

训练卡对比

GPU	显存	FP16 TFLOPS	互联	价格	典型用途
RTX 4090	24GB	330	PCIe	~$1,600	个人研究
A100 80GB	80GB	312	NVLink	~$15,000	实验室训练
H100 80GB	80GB	990	NVLink/NVSwitch	~$30,000	大规模训练
H200	141GB HBM3e	990	NVLink	~$35,000	VLA 大模型

机器人 AI 的 GPU 需求

任务	模型规模	最低 GPU	推荐 GPU
小型 RL 策略训练	<10M 参数	RTX 3060	RTX 4090
Isaac Lab 并行训练	—	RTX 3080	A100
VLA 微调 (7B)	7B 参数	A100 40GB	2x A100 80GB
VLA 预训练	7B+ 参数	8x A100	8x H100
实时 VLA 推理	3B 参数	Jetson AGX Orin	—
实时小模型推理	<100M 参数	Jetson Orin NX	—

推理优化流程

在边缘端部署模型时，常用的优化手段：

量化: FP32 → FP16 → INT8，算力需求降低 2-8 倍
蒸馏: 大模型知识迁移到小模型
剪枝: 去除冗余权重
TensorRT 优化: 层融合、内存优化，推理速度提升 2-5 倍

训练 (A100/H100, FP32)
    ↓ 导出 ONNX
    ↓ TensorRT 转换 (FP16/INT8)
    ↓ 部署到 Jetson
推理 (Jetson Orin, INT8): 50ms → 8ms, 400MB → 100MB

FPGA 在机器人中的应用

FPGA 用于需要微秒级确定性延迟的实时控制场景。

典型应用

应用	说明	延迟要求
电机 FOC 控制	磁场定向控制，PWM 生成	<10μs
EtherCAT 主站	实时工业通信	<1ms
传感器预处理	编码器计数、ADC 采样	<1μs
安全监控	力/位置限位、紧急停止	<10μs

常用 FPGA 平台

平台	芯片	特点	价格	应用
Xilinx Zynq-7000	ARM + FPGA	SoC，嵌入式 + 逻辑	~$200	电机控制
Intel Cyclone V	ARM + FPGA	低成本 SoC	~$150	教学/原型
Xilinx Kria KV260	Zynq UltraScale+	视觉 AI + 实时控制	~$250	机器人视觉
Lattice iCE40	—	超低功耗，开源工具链	~$50	简单控制逻辑

FPGA vs MCU 对比

特性	FPGA	MCU (STM32等)
延迟	<1 μs	1-100 μs
并行度	真正硬件并行	伪并行（中断）
开发难度	高（HDL/Verilog）	低（C/C++）
灵活性	硬件可重配置	固定架构
成本	较高	低
典型场景	多轴同步控制	单轴 PID 控制

移动机器人的功耗预算

移动机器人的电池容量有限，计算平台的功耗直接影响续航时间。

典型功耗分配（移动操作机器人）

子系统	功耗占比	典型功耗
移动底盘电机	40-50%	50-200 W
机械臂电机	20-30%	20-100 W
计算平台	10-20%	10-60 W
传感器	5-10%	5-20 W
通信	2-5%	2-10 W

功耗优化策略

动态频率调节: 空闲时降低 GPU/CPU 频率（nvpmodel 切换功耗模式）
模型按需加载: 不需要复杂推理时切换轻量模型
传感器休眠: 非必要传感器可间歇性采样
混合精度推理: 非关键任务使用更低精度（INT8 比 FP16 功耗降低约 40%）

异构计算架构

实际机器人系统通常采用异构计算架构，多层次硬件协同工作：

层次	硬件	通信	功能
Level 0	MCU (STM32H7)	CAN/SPI	电机控制 (10kHz)
Level 1	FPGA (可选)	EtherCAT	实时安全监控
Level 2	Jetson (Orin)	Ethernet/USB3	AI 推理 + ROS2
Level 3	云端 GPU	WiFi/5G	训练、远程监控

┌──────────────────────────────────────────┐
│              Cloud (GPU Cluster)          │
│         训练 VLA / 大规模仿真             │
└─────────────────┬────────────────────────┘
                  │ WiFi / 5G
┌─────────────────┴────────────────────────┐
│          Jetson AGX Orin (ROS2)          │
│    感知 │ SLAM │ 规划 │ VLA 推理         │
└────┬──────────┬──────────┬───────────────┘
     │ USB3     │ Ethernet │ EtherCAT
┌────┴────┐ ┌───┴───┐ ┌───┴──────────────┐
│ Camera  │ │ LiDAR │ │ MCU (STM32)      │
│ D435i   │ │ Mid360│ │ 电机FOC 10kHz    │
└─────────┘ └───────┘ │ 编码器读取        │
                      │ 安全限位          │
                      └──────────────────┘

选型决策流程

确定推理模型大小：参数量决定最低内存需求
确定推理频率：控制 >100Hz 需要高算力，感知 30Hz 相对宽松
功耗预算：移动机器人严格受限，固定安装宽松
ROS2 支持：Jetson 生态最完善
成本约束：教学用 Orin Nano，研究用 AGX Orin

更详细的选型决策框架请参考硬件选型指南。