前言

配套资源
源码仓库 · github.com/diguike/book-llm-infra
在线阅读 · inferloop.dev/llm-infra

这本书是写给谁的

2024 年初，我在做一个 Agent 项目。用户反馈说”回复太慢了”，我看了看代码——前端没问题，API 调用也正常，延迟全在模型推理上。我打开 vLLM 的文档，看到 PagedAttention、Continuous Batching、KV Cache 这些词，一个都不认识。

那一刻我意识到，作为一个写了五年前端的工程师，我对自己每天调用的 LLM API 背后发生了什么，一无所知。

后来我花了大半年时间，从 Transformer（当下所有大模型的底层网络结构）论文读起，一路啃到 CUDA（NVIDIA 的 GPU 编程框架）编程、量化算法、分布式训练。这个过程很痛苦——不是因为内容难，而是因为没有一份材料是给”我这种人”写的。学术论文假设你会线性代数，MLSys（Machine Learning Systems，机器学习系统方向，研究怎么把模型高效跑起来）课程假设你懂 C++，开源项目的文档假设你已经知道它在解决什么问题。

这本书就是我当初希望存在的那本书。

目标读者：

前端/全栈工程师，正在或准备做 LLM 应用、Agent 开发
会 TypeScript/Python，但不懂 GPU、CUDA、分布式计算
不打算成为 ML 研究员，但需要理解 Infra 层面在发生什么
希望能自己部署模型、优化推理性能、控制成本

如果你是 ML 科班出身，这本书对你来说可能太基础了。如果你完全没写过代码，这本书对你来说可能太快了。但如果你是那种”API 调得很溜，但不知道底下跑的是什么”的工程师——这本书就是为你写的。

这本书不是什么

这不是一本学术教材。你不会在这里看到大段的数学推导和定理证明。

这也不是一本 API 教程。市面上教你调 OpenAI API 做 ChatBot 的书已经够多了。

这是一本工程指南。它关心的问题是：

一个 7B 模型（70 亿参数规模的模型，B 是 Billion）需要多少显存？为什么？怎么算？
vLLM 比朴素推理快 10 倍，它到底做了什么？
量化后模型质量会下降多少？什么时候该量化，什么时候不该？
微调一个模型需要多少钱？值不值？
生产环境怎么部署？怎么监控？怎么省钱？

每个问题都给你数字、代码、和可以直接用的配置文件。

怎么读这本书

全书分六个部分，建议按顺序读前三部分（第 0-8 章），后面的按需跳读。

第 0 章是给不熟悉 Python 的前端工程师准备的快速入门，会 Python 的直接跳过。

**第一部分（第 1-3 章）**建立基础认知：LLM 技术栈长什么样、Transformer 在工程层面怎么运作、GPU 的基本概念。这部分不需要 GPU，纯概念理解。

**第二部分（第 4-6 章）**进入推理引擎：从模型文件到 API 响应的完整链路，vLLM（UC Berkeley 开源的高吞吐推理引擎）的核心设计，以及如何在 vLLM、SGLang（专注结构化输出和复杂调度的推理引擎）、Ollama（本地一键运行模型的桌面级工具）等引擎之间做选型。

**第三部分（第 7-8 章）**讲模型优化：量化（用更低精度的数据类型存权重以省显存）技术和各种推理加速手段（FlashAttention、投机解码（用一个小模型先猜几个 token，大模型再批量验证）、Prefix Caching（相同前缀的请求复用已算好的 KV Cache）等）。

**第四部分（第 9-11 章）**覆盖微调和训练：LoRA（Low-Rank Adaptation，只训练一小撮低秩矩阵的轻量微调方法）/QLoRA（在 LoRA 基础上把基座模型量化以再省显存的版本）实战、RLHF（Reinforcement Learning from Human Feedback，基于人类反馈的强化学习对齐）/DPO（Direct Preference Optimization，绕开奖励模型直接用偏好数据优化的对齐方法）对齐、分布式训练基础。第 11 章是进阶内容，大多数读者可以先跳过。

**第五部分（第 12-14 章）**是生产化：Docker/K8s（Kubernetes，容器编排系统）部署、可观测性、成本优化、RAG（Retrieval-Augmented Generation，检索增强生成）基础设施。这部分有大量可以直接复制使用的配置文件。

**第六部分（第 15-16 章）**看趋势和规划方向：多模态基础设施、从 Agent 开发者到 Infra 工程师的职业路径。

每章的代码示例在 examples/ 目录下，大部分可以在 CPU 上跑模拟演示，需要 GPU 的会在章节开头标注。

源码仓库与在线阅读：

在线版（持续更新、含完整书系）：inferloop.dev
源码仓库：github.com/inferloop/llm-infra-book（如暂未公开，可先以在线版为准；勘误和问题请通过仓库 Issues 提交）

关于时效性

LLM Infra 是一个变化极快的领域。vLLM 半年一个大版本，GPU 一年一代，API 价格每个季度都在降。本书中涉及的具体版本号、价格数据和性能数字都标注了时间，仅供数量级参考。

但底层原理的保质期要长得多。Transformer 的 Attention 机制、KV Cache 的内存管理、量化的精度-性能权衡、分布式训练的通信拓扑——这些概念在可预见的未来不会过时。理解了原理，你就能自己判断新技术是在解决什么问题、值不值得跟进。

这也是本书的核心目标：不是给你一个会过期的答案，而是给你一个不会过期的思考框架。

本章来自《LLM Infra 从入门到实践》开源版 · 作者「递归客」
在线阅读完整书系：inferloop.dev

本书资源

源码仓库 · github.com/diguike/book-llm-infra
在线阅读 · inferloop.dev/llm-infra
所有书目 · inferloop.dev

继续阅读 · 同作者其他书

《Transformer 工程实战》
从注意力机制到生产部署
《自己动手写 AI Agent》
从 Claude Code 开源架构到你的第一个编程助手
《AI 时代的 CLI 工具开发实战》
用 TypeScript 构建现代 CLI 工具
《Hermes Agent 实战》
构建会成长的个人 AI Agent
《OpenClaw 源码解析》
现代 Agent 系统的架构设计与工程实践
《Agent Memory 工程实战》
从 claude-mem 源码到企业级记忆平台
《AI Token 中转站实战》
从 0 搭建企业级 LLM 网关
《LangChain.js Agent 开发权威指南》
从 1.x 抽象到生产级 Agent
《百万级 AI Agent 平台架构》
智能客服 SaaS 实战
《AI Agent 评测工程实战》
从 0 用 TypeScript 构建你的评测平台
《源码精读》
每章一个开源仓库 · 从架构到品味
《Claude Code Skill 指南》
《Claude 插件官方指南》