Skip to content
刘杰夫的人工智能学习笔记
元学习与自我改进
Initializing search
首页
日志
基础
机器学习
深度学习
强化学习
AI智能体
机器人
类人智能
AI工程
AI安全与可信
刘杰夫的人工智能学习笔记
首页
日志
日志
日记
日记
2026年
2025年
Alice Project
Alice Project
ALICE项目启动报告
基础
基础
计算机科学
计算机科学
计算理论
操作系统
计算机网络
软件工程
匿名通信
并行计算
算法
算法
算法基础
树算法
图算法
动态规划
字符串算法
leetcode天梯
古典人工智能
古典人工智能
古典人工智能介绍
搜索与元启发
对抗搜索与博弈
约束满足问题
命题逻辑
一阶逻辑
数学基础
数学基础
微积分
线性代数
概率论
信息论
统计学
自动微分
机器学习
机器学习
基础知识与总结
基础知识与总结
机器学习介绍
面试知识点整理
数据科学
数据科学
数据科学介绍
因果推断
经典机器学习
经典机器学习
监督学习
深度学习
深度学习
基础知识与总结
基础知识与总结
深度学习介绍
前馈神经网络
DL中的概统
损失函数
面试知识点整理
卷积神经网络
卷积神经网络
CNN原理
CNN架构
图像分割
目标检测
Meta Learning
循环神经网络
循环神经网络
RNN原理
LSTM
Seq2Seq
GRU
生成式模型
生成式模型
VAE
GAN
Diffusion
Flow Matching
图神经网络
图神经网络
GCN
大语言模型
大语言模型
传统NLP
注意力机制
Transformer架构
BERT架构
GPT架构
ViT架构
DiT架构
基座模型
基座模型
基座模型概论
预训练范式
表示学习
Scaling与架构
LLM基座
视觉基座
多模态大模型
生成式基座
安全与对齐
优化与正则
优化与正则
优化理论
Optimizer
Initialization
LR Scheduling
Normalization
Regularization
优化实验对比
强化学习
强化学习
经典强化学习
经典强化学习
经典强化学习介绍
多臂老虎机问题
有限MDP
动态规划
蒙特卡洛方法
TD(0)
N-step TD
学习与规划
近似方法
TD(λ)
策略梯度
深度强化学习
深度强化学习
深度强化学习基础
DQN
PPO
SAC
策略梯度进阶
策略梯度进阶
策略梯度方法全解
Offline RL
Offline RL
Offline强化学习
Model-based RL
Model-based RL
Model-based强化学习
RL工程
RL工程
SB3&Atari
RL工程实践
LLM后训练
LLM后训练
LLM后训练
AI智能体
AI智能体
AI Agent
AI Agent
AI智能体简介
Reasoning
生成式智能体
生成式智能体
生成式智能体
机器人
机器人
Robotics
Robotics
Robotics综述
坐标系
机器人开发
机器人开发
开发平台
硬件平台
扫地机器人
人形机器人
具身智能
具身智能
具身智能综述
直觉物理
类人智能
类人智能
类人智能导论
哲学基础
哲学基础
心智模型
意识与主观体验
涌现
神经科学启示
神经科学启示
大脑的先验知识
预测编码
自由能原理与主动推理
神经形态计算
世界模型
世界模型
世界模型
JEPA架构
空间智能与学习式仿真
因果与表示
因果与表示
因果学习
对象中心学习
神经符号AI
元学习与自我改进
元学习与自我改进
递归自我改进
AI工程
AI工程
模型开发(PyTorch)
模型开发(PyTorch)
项目初始化
PyTorch底层原理
搭建模型
超参数调整
数据工程
数据工程
数据清洗与预处理
数据增强
表示空间对齐
数据版本管理
经典数据集
模型适配
模型适配
Fine-tuning
模型压缩
推理工程
推理工程
本地推理部署
vLLM
KV Cache与长上下文
推理量化
TensorRT-LLM与TGI
MLOps
MLOps
Docker
TensorBoard
WB
MLflow
评估与监控
评估与监控
评估与监控
安全与合规
安全与合规
AI工程安全与合规
AI基础设施
AI基础设施
AI基础设施
AI安全与可信
AI安全与可信
对抗性安全
对抗性安全
对抗攻击与防御
FGSM & PGD
LLM越狱
视觉指令注入
红队测试
后门攻击
隐私攻击
可信AI
可信AI
可解释性与鲁棒性
真实性与隐私保护
首页
类人智能
元学习与自我改进
元学习与自我改进
元学习使模型能够"学会如何学习",而递归自我改进则探索智能体持续进化的可能性。
本章内容:
递归自我改进
— 自我修改、开放式学习、持续进化
评论
#
Back to top