跳转至

计算平台

机器人系统的计算需求跨越多个层次:从微秒级实时控制到秒级 AI 推理。本文梳理嵌入式 AI 计算平台、边缘推理加速器、云端训练资源以及异构计算架构。


计算需求分层

graph LR
    subgraph RT["实时控制层"]
        MCU[MCU / FPGA<br/>1kHz - 10kHz<br/>电机控制、传感器读取]
    end

    subgraph Edge["边缘推理层"]
        JETSON[Jetson / 边缘 AI<br/>30-100Hz<br/>感知、规划、推理]
    end

    subgraph Cloud["云端训练层"]
        GPU[GPU 集群<br/>A100 / H100<br/>模型训练、大规模仿真]
    end

    MCU -- "EtherCAT / CAN<br/>< 1ms" --> JETSON
    JETSON -- "WiFi / 5G<br/>10-100ms" --> GPU

    style RT fill:#ffebee
    style Edge fill:#e8f5e9
    style Cloud fill:#e3f2fd
层次 延迟要求 计算类型 典型硬件
实时控制 <1ms (>1kHz) 固定算法、PID、状态机 MCU (STM32), FPGA
感知推理 10-100ms (10-100Hz) 神经网络推理、SLAM Jetson, 边缘 AI
高级规划 100ms-1s 运动规划、任务规划 Jetson AGX, 工控机
模型训练 小时~天 大规模 RL/VLA 训练 GPU 集群

NVIDIA Jetson 系列

Jetson 是机器人 AI 计算的事实标准。当前主力产品线是 Orin 系列

Orin 系列对比

型号 GPU CPU AI 算力 内存 存储接口 功耗 参考价格
Orin Nano 4GB 512 CUDA 6核 A78AE 20 TOPS 4GB LPDDR5 NVMe 7-15W ~$199
Orin Nano 8GB 1024 CUDA 6核 A78AE 40 TOPS 8GB LPDDR5 NVMe 7-15W ~$299
Orin NX 8GB 1024 CUDA 6核 A78AE 70 TOPS 8GB LPDDR5 NVMe 10-25W ~$399
Orin NX 16GB 1024 CUDA 8核 A78AE 100 TOPS 16GB LPDDR5 NVMe 10-25W ~$599
AGX Orin 32GB 1792 CUDA 8核 A78AE + 4核 A78 200 TOPS 32GB LPDDR5 NVMe 15-50W ~$999
AGX Orin 64GB 2048 CUDA 12核 A78AE 275 TOPS 64GB LPDDR5 NVMe 15-60W ~$1,599

Jetson Nano (旧型号)

初代 Jetson Nano(128 CUDA Maxwell, 472 GFLOPS FP16, 4GB LPDDR4, 5-10W, ~$149)已逐步被 Orin Nano 取代,但仍在教育场景中广泛使用。

JetPack SDK

JetPack 是 Jetson 的完整 SDK,包含:

组件 说明
L4T Linux for Tegra (Ubuntu-based)
CUDA GPU 计算
cuDNN 深度学习加速
TensorRT 推理优化引擎(FP16/INT8 量化,层融合)
VPI 视觉编程接口
Multimedia API 硬件编解码
DeepStream 视频分析流水线
Isaac ROS 机器人专用 ROS 2 加速包

版本对应

JetPack L4T CUDA 支持硬件
5.1.x R35.x 11.4 Orin 全系列
6.0+ R36.x 12.2+ Orin 全系列

部署优化

# 设置高性能模式
sudo nvpmodel -m 0    # MAXN 模式(最高性能)
sudo jetson_clocks     # 锁定最高频率

# TensorRT 优化模型
trtexec --onnx=model.onnx \
        --saveEngine=model.engine \
        --fp16 \                    # FP16 量化
        --workspace=4096             # 4GB workspace
# Python TensorRT 推理示例
import tensorrt as trt
import pycuda.driver as cuda

# 加载 engine
runtime = trt.Runtime(trt.Logger())
with open("model.engine", "rb") as f:
    engine = runtime.deserialize_cuda_engine(f.read())

context = engine.create_execution_context()
# 绑定输入输出、分配内存、执行推理
# 典型延迟:~5ms on Orin NX (INT8), ~20ms on Orin Nano (FP16)

Jetson 选型建议

应用场景 推荐型号 理由
教学/入门 Orin Nano 8GB 低成本、够用
服务机器人 (导航+避障) Orin NX 16GB 平衡性能与功耗
机械臂操作 (VLA 推理) AGX Orin 32GB 大模型需要大内存
人形机器人 AGX Orin 64GB 多模态感知 + 全身控制
自动驾驶原型 AGX Orin 64GB 多传感器融合

下一代:Jetson Thor

NVIDIA 预告的下一代机器人计算平台,基于 Blackwell GPU 架构:

指标 AGX Orin Thor (预期)
AI 算力 275 TOPS 800+ TOPS
内存 64GB 128GB
GPU 架构 Ampere Blackwell
目标应用 通用机器人 人形机器人基础模型

其他边缘 AI 平台

Intel Movidius (已整合至 OpenVINO)

特性 说明
芯片 Myriad X VPU
算力 ~4 TOPS
功耗 ~1W
特点 超低功耗,USB 加速棒形态
SDK Intel OpenVINO
状态 已不再生产独立芯片,整合到 Intel 平台

Google Coral TPU

特性 说明
芯片 Edge TPU
算力 4 TOPS (INT8)
功耗 ~2W
形态 USB 加速棒 / Dev Board / M.2 模块
SDK TensorFlow Lite
特点 INT8 专用,推理延迟极低

对比

平台 算力 功耗 生态 灵活性 价格
Jetson Orin Nano 40 TOPS 15W CUDA/TensorRT 极高 $299
Coral TPU 4 TOPS 2W TF Lite $60
OpenVINO (Intel) ~5 TOPS 5W OpenVINO $80
Hailo-8 26 TOPS 3W Hailo SDK ~$100
Rockchip RK3588 6 TOPS 5-10W RKNN ~$100

机载计算 vs 云端计算

机器人系统中,不同任务对延迟的要求不同,需要合理划分本地与云端的计算边界。

延迟需求与计算位置

控制层级 频率要求 延迟容忍 计算位置 示例
底层电机控制 1-10 kHz <1 ms 本地(FPGA/MCU) PID 力矩控制
中层运动控制 100-500 Hz 2-10 ms 本地(Jetson/MCU) 轨迹跟踪
高层策略推理 10-50 Hz 20-100 ms 本地(Jetson) 视觉策略推理
语言理解/规划 0.1-1 Hz 100ms-数秒 云端/本地均可 VLM 任务规划
训练/微调 离线 不限 云端 策略模型训练

关键原则: 1kHz 级别的控制回路必须在本地运行,绝不能依赖网络;10Hz 级别的高层规划可以考虑云端辅助,但需要有本地 fallback 机制。


云端 / 工作站 GPU

训练卡对比

GPU 显存 FP16 TFLOPS 互联 价格 典型用途
RTX 4090 24GB 330 PCIe ~$1,600 个人研究
A100 80GB 80GB 312 NVLink ~$15,000 实验室训练
H100 80GB 80GB 990 NVLink/NVSwitch ~$30,000 大规模训练
H200 141GB HBM3e 990 NVLink ~$35,000 VLA 大模型

机器人 AI 的 GPU 需求

任务 模型规模 最低 GPU 推荐 GPU
小型 RL 策略训练 <10M 参数 RTX 3060 RTX 4090
Isaac Lab 并行训练 RTX 3080 A100
VLA 微调 (7B) 7B 参数 A100 40GB 2x A100 80GB
VLA 预训练 7B+ 参数 8x A100 8x H100
实时 VLA 推理 3B 参数 Jetson AGX Orin
实时小模型推理 <100M 参数 Jetson Orin NX

推理优化流程

在边缘端部署模型时,常用的优化手段:

  1. 量化: FP32 → FP16 → INT8,算力需求降低 2-8 倍
  2. 蒸馏: 大模型知识迁移到小模型
  3. 剪枝: 去除冗余权重
  4. TensorRT 优化: 层融合、内存优化,推理速度提升 2-5 倍
训练 (A100/H100, FP32)
    ↓ 导出 ONNX
    ↓ TensorRT 转换 (FP16/INT8)
    ↓ 部署到 Jetson
推理 (Jetson Orin, INT8): 50ms → 8ms, 400MB → 100MB

FPGA 在机器人中的应用

FPGA 用于需要微秒级确定性延迟的实时控制场景。

典型应用

应用 说明 延迟要求
电机 FOC 控制 磁场定向控制,PWM 生成 <10μs
EtherCAT 主站 实时工业通信 <1ms
传感器预处理 编码器计数、ADC 采样 <1μs
安全监控 力/位置限位、紧急停止 <10μs

常用 FPGA 平台

平台 芯片 特点 价格 应用
Xilinx Zynq-7000 ARM + FPGA SoC,嵌入式 + 逻辑 ~$200 电机控制
Intel Cyclone V ARM + FPGA 低成本 SoC ~$150 教学/原型
Xilinx Kria KV260 Zynq UltraScale+ 视觉 AI + 实时控制 ~$250 机器人视觉
Lattice iCE40 超低功耗,开源工具链 ~$50 简单控制逻辑

FPGA vs MCU 对比

特性 FPGA MCU (STM32等)
延迟 <1 μs 1-100 μs
并行度 真正硬件并行 伪并行(中断)
开发难度 高(HDL/Verilog) 低(C/C++)
灵活性 硬件可重配置 固定架构
成本 较高
典型场景 多轴同步控制 单轴 PID 控制

移动机器人的功耗预算

移动机器人的电池容量有限,计算平台的功耗直接影响续航时间。

典型功耗分配(移动操作机器人)

子系统 功耗占比 典型功耗
移动底盘电机 40-50% 50-200 W
机械臂电机 20-30% 20-100 W
计算平台 10-20% 10-60 W
传感器 5-10% 5-20 W
通信 2-5% 2-10 W

功耗优化策略

  1. 动态频率调节: 空闲时降低 GPU/CPU 频率(nvpmodel 切换功耗模式)
  2. 模型按需加载: 不需要复杂推理时切换轻量模型
  3. 传感器休眠: 非必要传感器可间歇性采样
  4. 混合精度推理: 非关键任务使用更低精度(INT8 比 FP16 功耗降低约 40%)

异构计算架构

实际机器人系统通常采用异构计算架构,多层次硬件协同工作:

层次 硬件 通信 功能
Level 0 MCU (STM32H7) CAN/SPI 电机控制 (10kHz)
Level 1 FPGA (可选) EtherCAT 实时安全监控
Level 2 Jetson (Orin) Ethernet/USB3 AI 推理 + ROS2
Level 3 云端 GPU WiFi/5G 训练、远程监控
┌──────────────────────────────────────────┐
│              Cloud (GPU Cluster)          │
│         训练 VLA / 大规模仿真             │
└─────────────────┬────────────────────────┘
                  │ WiFi / 5G
┌─────────────────┴────────────────────────┐
│          Jetson AGX Orin (ROS2)          │
│    感知 │ SLAM │ 规划 │ VLA 推理         │
└────┬──────────┬──────────┬───────────────┘
     │ USB3     │ Ethernet │ EtherCAT
┌────┴────┐ ┌───┴───┐ ┌───┴──────────────┐
│ Camera  │ │ LiDAR │ │ MCU (STM32)      │
│ D435i   │ │ Mid360│ │ 电机FOC 10kHz    │
└─────────┘ └───────┘ │ 编码器读取        │
                      │ 安全限位          │
                      └──────────────────┘

选型决策流程

  1. 确定推理模型大小:参数量决定最低内存需求
  2. 确定推理频率:控制 >100Hz 需要高算力,感知 30Hz 相对宽松
  3. 功耗预算:移动机器人严格受限,固定安装宽松
  4. ROS2 支持:Jetson 生态最完善
  5. 成本约束:教学用 Orin Nano,研究用 AGX Orin

更详细的选型决策框架请参考 硬件选型指南


相关链接


评论 #