推理工程
推理工程关注模型部署后的高效推理服务,包括推理加速、量化和服务化部署等技术。
本章内容:
- 本地推理部署 — ONNX Runtime、模型转换、边缘部署
- vLLM — PagedAttention、连续批处理、高吞吐LLM服务
- KV Cache与长上下文 — KV Cache管理、位置编码、长上下文优化
- 推理量化 — GPTQ、AWQ、GGUF、FP8 推理量化方法
- TensorRT-LLM与TGI — NVIDIA与HuggingFace推理引擎
推理工程关注模型部署后的高效推理服务,包括推理加速、量化和服务化部署等技术。
本章内容: