强化学习与交易 强化学习在投资组合优化、订单执行与做市策略中的应用。 本章内容: 强化学习基础:MDP与策略梯度 — MDP框架、Q-learning与策略梯度方法 投资组合优化中的RL — 动态资产配置、风险约束与多目标优化 订单执行与做市策略 — 最优执行、TWAP/VWAP与RL做市 Sim-to-Real与回测框架 — 模拟环境、仿真差距与回测最佳实践