跳转至

神经流形与 RL 策略

神经流形(neural manifold)强化学习策略的潜空间(policy latent) 是两个独立领域发现的同一抽象:高维神经状态在低维流形上运动,高维策略网络的激活也在低维表示中编码任务。这种同构让 BCI 与 RL 在数学层面对话成为可能。

一、神经流形回顾

详见 神经流形与动力学

核心事实

  • M1 ~96 神经元 → 典型任务真实维度 ~10
  • 神经状态在低维流形上演化
  • 流形结构在学习过程中保守

二、RL 策略的潜空间

深度 RL 网络

典型深度 RL 策略:

state → encoder (CNN) → latent → policy head → action

  • latent 通常 256/512 维
  • 实际信息远低——PCA 常发现 < 32 维

潜空间的结构

  • 相同状态聚类
  • 相似动作沿连续方向
  • 任务结构嵌入潜空间

这与 M1 神经流形惊人相似

三、同构的三个层次

1. 几何

  • 神经流形:PCA 后二维 / 三维平面显示结构
  • RL 潜空间:同样——task / action / state 沿某些方向分离

Sussillo 2015 发现训练 RNN 完成手部任务 → 隐藏流形与 M1 几乎相同。

2. 动力学

  • M1:旋转、吸引子、准备-执行分离
  • Meta-RL RNN:同样的旋转、吸引子

Wang 2018prefrontal meta-RL 工作:训练 RNN 在多任务 RL → 隐藏动力学复现前额叶

3. 学习

  • 神经可塑性:STDP 改连接 → 改动力学
  • RL 梯度:策略更新 → 改参数 → 改激活

两者都是"参数化动力系统"的优化

四、Gallego-Miller-Solla 范式

Gallego, Miller, Solla (2017, Neuron, 2020 Nat Rev Neurosci) 系列工作:

关键主张

  • 神经流形是计算的对象,不是副产物
  • 跨个体、跨时间流形保守
  • 跨任务流形共享结构

对 BCI 的启示

  • 解码应该在流形上做,而不是个别神经元
  • 迁移学习可行:流形级对齐,而非神经元级匹配

五、CEBRA 的角色

详见 CEBRA 与对比学习

对齐神经 + 行为

CEBRA 通过对比学习把 神经活动行为(或时间)共同映射到联合流形

  • 维度一致
  • 几何对齐
  • 便于解码

与 RL 的结合

  • CEBRA 的潜空间 = 策略的潜空间
  • 在 CEBRA 空间训练 RL → 可能比在神经元空间更高效
  • 2024 尚少工作,但正在发展

六、具身智能中的应用

BCI 控制机器人

  • M1 神经信号 → CEBRA → 意图 latent
  • LLM / RL policy → 机器人控制
  • 关键设计:神经 latent 与机器人 policy latent 对齐

共享表征学习

  • 训练 BCI + RL 联合
  • 共享中间表示
  • 从神经元到动作的端到端

世界模型桥接

  • 神经流形 = 生物"世界模型状态"
  • RL policy latent = 人工"世界模型状态"
  • BCI = 两者对齐的桥

七、潜空间的几何语义

欧几里得 vs 流形

  • 简单方法:假设欧氏(PCA、线性解码)
  • 正确方法:流形几何(LLE、t-SNE、UMAP、Isomap)
  • CEBRA 隐含非线性对齐

测地距离

  • 流形上两点距离不等于欧氏距离
  • 测地线 = 神经动力学路径
  • Riemannian policy gradient 在 RL 中有类似

八、BCI × RL 联合研究

Offline RL + BCI

  • 神经活动作为 observation
  • 用户意图作为 action
  • Offline RL 训练解码器,类似 behavior cloning

Online RL + BCI

  • Co-adaptation 是 RL 问题
  • SmoothBatchReFIT 与在线校准)= 策略梯度
  • 系统 + 用户 = 多智能体 RL

Meta-RL for BCI

  • 每用户一个任务
  • Meta-RL 从多用户学通用先验
  • NDT3 跨被试 = 隐式 meta-RL

九、类人智能的视角

World model = neural manifold

Human_Like_Intelligence world_model 章节: - 世界模型学习内部动力学 - 与神经流形一致

JEPA = 神经流形的目标

Yann LeCun 的 JEPA 思想: - 不预测像素,预测抽象表示 - 抽象表示 = 大脑实际的流形

Meta-Learning = 跨流形迁移

跨任务 meta-learning 发现"任务间的流形结构"——与 Gallego-Miller-Solla 跨个体流形保守相呼应。

十、未来:神经元级 → 流形级 BCI

传统 BCI

  • 每神经元分别处理
  • 解码器 = 神经元权重

流形级 BCI

  • 数据先映射到流形
  • 解码在流形坐标
  • 跨被试可迁移

NDT3 / POYO 的方向

神经基础模型实际上是在构建"通用神经流形": - 千被试预训练 - 流形结构共享 - 新被试快速适应

十一、逻辑链

  1. 神经流形 + RL 策略潜空间 = 同一抽象:低维动力学。
  2. 几何、动力学、学习三层面同构。
  3. Gallego-Miller-Solla 把流形提升为计算对象。
  4. CEBRA 对齐神经 + 行为流形,BCI × RL 的桥梁。
  5. 具身智能中:M1 流形 + 机器人 policy latent 对齐 = 自然控制。
  6. Meta-RL + NDT3 是跨被试流形迁移的方向。
  7. 类人智能的 world model、JEPA、meta-learning 都与这一视角呼应。

参考文献

  • Gallego et al. (2017). Neural manifolds for the control of movement. Neuron.
  • Gallego et al. (2020). Long-term stability of cortical population dynamics underlying consistent behavior. Nat Neurosci.
  • Wang et al. (2018). Prefrontal cortex as a meta-reinforcement learning system. Nat Neurosci.
  • Schneider et al. (2023). Learnable latent embeddings for joint behavioral and neural analysis. Nature.
  • Sussillo et al. (2015). A neural network that finds a naturalistic solution for the production of muscle activity. Nat Neurosci.

评论 #