Skip to content

刘杰夫的人工智能学习笔记

推理工程

推理工程

推理工程关注模型部署后的高效推理服务，包括推理加速、量化和服务化部署等技术。

本章内容：

本地推理部署 — ONNX Runtime、模型转换、边缘部署
vLLM — PagedAttention、连续批处理、高吞吐LLM服务
KV Cache与长上下文 — KV Cache管理、位置编码、长上下文优化
推理量化 — GPTQ、AWQ、GGUF、FP8 推理量化方法
TensorRT-LLM与TGI — NVIDIA与HuggingFace推理引擎

评论 #