Forrest’s 博客

Ctrl+K

如果去做，还有一丝希望；但是不去做，就毫无希望

k8s

🧭 AI 时代下的 Kubernetes 调度器：架构、挑战与演进路径

🛑 Kubelet → CRI → containerd/CRI-O → runc/kata：Kubernetes 容器运行时完整调用链

🎎 CloudEvents

🏪 深入解析 Kubernetes Informer 架构

K8s网络深度解析：CNI、VXLAN与主流插件的实现差异

♦️ Kube-proxy 机制深度解析：API Server 交互与 iptables 规则生成

☄️ openEBS lvm_localpv

📱 CNI In k8s

🛻 k8s架构简介

🚓 Kind相关操作

knative

🌑 Knative Service 多版本管理指南

🌑 Knative + Istio 环境下的会话亲和性实现方案

🛻 Knative Architecture

🎻 Knative Hands-on

🎎 Knative-Overview

技术分享

🚡 深度学习模型架构解析：以Encoder-Decoder为核心的分类体系

⛓️ 阿里云核心服务概念梳理： FC / ECS /ECI / ACK /ACS

🧵 prometheus为代表的监控构建

🏹 kubebuilder 总结

🌚 版本控制规范

🕹️ kafka学习笔记

📽️ 如何构建一个短链系统

🎤 mac VMware Fusion 虚拟机安装

💈 MongoDB 总结

🎰 常见的网络设备

🚍 高可用的常见手段

🌇 基于Casbin的RBAC权限认证｜权限管理

🪩 从0到1，利用kubevirt构建ubuntu虚拟机

🧩 iptables in linux

🏓 在mac中，如何将标准输出保存到剪切板中

🌦️ nvidia驱动和cuda安装记录

🌞 正则表达式

🧮 内存对齐

👨‍💻 go中常见的内存泄露场景

🐒 常用限流组件及其实现

⛺ pprof的使用

🏁 sqlite内存模式下的性能测试

🌐 全局唯一ID生成方案

🌑 linux笔记

agentic

🎣 从模型视角看上下文工程

⚱️ Prompt Engineering

🥌 vLLM 初体验

个人总结

🔇 2025年终总结

🏐 我的MBTI

🎯 2024年终总结

istio

🩻 服务网格 | istio

HAMI

♦️ 在k8s环境中使用vgpu | HAMI

Golang

🎗️ Golang map

🔒 如何避免channel重复关闭

🪝 Golang channel

🔒 golang的单机锁

🔂 sync/atomic包

📂 Golang 内存分配与管理机制

转发

🧿 【转】如何阅读源码

计算机网络

📌 计算机网络-网络层

📌 计算机网络-传输层

📌 计算机网络-应用层

Redis

📌 Redis-内存过期和内存淘汰策略

🥎 Redis-大key问题

🛩️ Redis-高可用

📅 Redis-缓存

✨ Redis-持久化

⛑️ Redis-基础数据类型

MySQL

☃️ MySQL-日志

✂️ MySQL-事务

Mysql

⌚ MySQL-索引

⌚ MySQL-存储引擎

🥌vLLM 初体验

type

status

date

slug

summary

category

tags

icon

password

AI summary

Blocked by

Blocking

Category

vLLM

1. 传统内存分配的痛点（为什么浪费严重）

notion image

KV Cache 需要连续大块内存：自回归生成时，序列长度动态增长 → 必须提前预分配一大段连续显存。

两大碎片化问题：

内部碎片：预分配过多，实际用不完的部分空闲浪费。
外部碎片：请求结束释放后，显存出现很多小空洞 → 无法放入新的大请求，即使总空闲够。

结果：显存利用率常只有 20–40%，GPU 计算资源严重闲置 → 吞吐量（tokens/s）和并发能力很低。

2. vLLM 的两大革命性优化（直接解决以上两大痛点）

A. PagedAttention（分页注意力）—— 内存分配的“操作系统式革命”

借鉴 OS 虚拟内存 + 分页机制：

把整个 KV Cache 切成固定大小的 小块（block/page）（通常每块存 16–32 个 token 的 K 和 V）。
这些块 不需要连续，可以散落在 GPU 显存的任何地方。

核心数据结构：

每个请求维护一个 块表（block table）：逻辑序列号 → 物理块 ID 的映射表。
注意力计算时，通过块表间接访问（自定义 CUDA 内核支持），计算结果和传统连续方式完全等价。

带来的巨大收益：

近零浪费：内存利用率从 <40% 提升到 >90–95%（碎片几乎消除）。
支持 KV 缓存共享/复用（相同 prompt 前缀、prefix caching、多轮对话复用块）。
允许动态增长/释放块 → 完美支持变长序列和高并发。

B. Continuous Batching（连续批处理）—— 计算资源的“永不空闲”

传统静态批处理：凑够一批请求，一起跑完所有序列才结束 → 快完成的序列空闲 padding，GPU 浪费；必须等最慢的那个结束才能进新请求。

vLLM 的连续批处理：

每生成一个 token（每一步迭代）都 动态调整 batch：

已完成的请求 → 立即移除，释放其 Paged KV 块。
新请求 → 立即加入当前 batch（如果有空位）。

不需要 padding，GPU 始终满载。

必须依赖 PagedAttention：只有非连续块 + 块表，才能零开销地移除中间序列、插入新序列。

收益：

GPU 利用率接近 100%。
吞吐量提升 2–24×（视模型、硬件、负载）。
平均延迟更低（快请求不被慢请求拖累），p50/p90 显著改善。

3. vLLM 整体架构简图

notion image

API Server（FastAPI + Uvicorn）：OpenAI 兼容接口，高并发异步处理。

高性能推理内核（PagedAttention）：分页 KV Cache → 近零浪费 + 共享复用。

推理调度器（Scheduler）：Continuous Batching + 抢占式调度 → GPU 永不空闲、动态进出请求。

总结

vLLM 把操作系统经典的“虚拟内存分页”思想移植到 GPU KV Cache 上（PagedAttention），再配合“每步都动态重组 batch”的调度（Continuous Batching），彻底解决了传统推理的内存碎片 + GPU 空闲两大杀手，从而在相同硬件上实现数倍到数十倍的吞吐量提升，成为 2025–2026 年生产级 LLM 推理的事实标准。

You are viewing the latest developer preview docs. Click here to view docs for the latest stable release.

https://docs.vllm.ai/en/latest/

vLLM = 高性能推理内核 + 推理调度器 + API Server

「略」autoDL租赁机器

…

环境准备

conda准备

安装vllm和hf tools

模型下载

模型部署

最终效果

notion image

Loading...

Catalog

Last update: 2025-11-29

Article List

如果去做，还有一丝希望；但是不去做，就毫无希望

k8s

🧭 AI 时代下的 Kubernetes 调度器：架构、挑战与演进路径

🛑 Kubelet → CRI → containerd/CRI-O → runc/kata：Kubernetes 容器运行时完整调用链

🎎 CloudEvents

🏪 深入解析 Kubernetes Informer 架构

K8s网络深度解析：CNI、VXLAN与主流插件的实现差异

♦️ Kube-proxy 机制深度解析：API Server 交互与 iptables 规则生成

☄️ openEBS lvm_localpv

📱 CNI In k8s

🛻 k8s架构简介

🚓 Kind相关操作

knative

🌑 Knative Service 多版本管理指南

🌑 Knative + Istio 环境下的会话亲和性实现方案

🛻 Knative Architecture

🎻 Knative Hands-on

🎎 Knative-Overview

技术分享

🚡 深度学习模型架构解析：以Encoder-Decoder为核心的分类体系

⛓️ 阿里云核心服务概念梳理： FC / ECS /ECI / ACK /ACS

🧵 prometheus为代表的监控构建

🏹 kubebuilder 总结

🌚 版本控制规范

🕹️ kafka学习笔记

📽️ 如何构建一个短链系统

🎤 mac VMware Fusion 虚拟机安装

💈 MongoDB 总结

🎰 常见的网络设备

🚍 高可用的常见手段

🌇 基于Casbin的RBAC权限认证｜权限管理

🪩 从0到1，利用kubevirt构建ubuntu虚拟机

🧩 iptables in linux

🏓 在mac中，如何将标准输出保存到剪切板中

🌦️ nvidia驱动和cuda安装记录

🌞 正则表达式

🧮 内存对齐

👨‍💻 go中常见的内存泄露场景

🐒 常用限流组件及其实现

⛺ pprof的使用

🏁 sqlite内存模式下的性能测试

🌐 全局唯一ID生成方案

🌑 linux笔记

agentic

🎣 从模型视角看上下文工程

⚱️ Prompt Engineering

🥌 vLLM 初体验

个人总结

🔇 2025年终总结

🏐 我的MBTI

🎯 2024年终总结

istio

🩻 服务网格 | istio

HAMI

♦️ 在k8s环境中使用vgpu | HAMI

Golang

🎗️ Golang map

🔒 如何避免channel重复关闭

🪝 Golang channel

🔒 golang的单机锁

🔂 sync/atomic包

📂 Golang 内存分配与管理机制

转发

🧿 【转】如何阅读源码

计算机网络

📌 计算机网络-网络层

📌 计算机网络-传输层

📌 计算机网络-应用层

Redis

📌 Redis-内存过期和内存淘汰策略

🥎 Redis-大key问题

🛩️ Redis-高可用

📅 Redis-缓存

✨ Redis-持久化

⛑️ Redis-基础数据类型

MySQL

☃️ MySQL-日志

✂️ MySQL-事务

Mysql

⌚ MySQL-索引

⌚ MySQL-存储引擎