在开始部署操作之前,请务必检查以下CheckList中的条件是否满足
CheckList
适合阅读人群
- 有需要做本地化方案的人群
- AI开发者
新手建议直接上手线上API
- 运维
硬件
- 首先你得有显卡(nvidia),没有可以去租
显存>= 24g
软件
- 操作系统为Linux, 本次以Ubuntu 22.04 为例
- 正确得安装了显卡的驱动, 注意cuda版本应该>=12.4, 执行
nvidia-smi
可以看到如下界面
- 正确的安装了
docker
以及nvidia-docker
、docker-compose
使用docker就不用处理烦人的依赖啦
vllm
核心概念
vllm 是一个高效的大模型推理库
,通过PagedAttention
技术高效管理注意力键和值的内存使用,优化推理过程。
以下表格是vllm开发者对自己的介绍, 以及本人使用过程中的实际评价。
class="table-box">特点 | 描述 | 评价 |
---|---|---|
先进的吞吐量 | 提供卓越的服务性能,满足高需求的推理工作负载。 | 所言不虚 |
PagedAttention 技术 | 高效管理注意力键和值的内存使用,优化推理过程。 | 所言不虚 |
连续批处理 | 支持无缝批量处理传入请求,显著提升吞吐量,减少延迟。 | 所言不虚 |
快速模型执行 | 通过 CUDA/HIP 图形加速模型的执行效率。 | 所言不虚 |
多种量化选项 | 支持 GPTQ、AWQ、INT4、INT8 和 FP8 等多种量化技术,优化模型的大小和性能。 | 量化模型是显存不足情况下的无奈之举,部分情况下会出现模型抽风的现象(反复输出同样的内容) , 能上满血的满血还是尽量跑满血的模型 |
优化的 CUDA 内核 | 集成 FlashAttention 和 FlashInfer,进一步提升性能。 | 所言不虚 |
推测解码和分块预填充 | 采用先进的解码技术,提高响应速度。 | 确实很快 |
无缝集成 HuggingFace | 轻松引入流行的 HuggingFace 模型,适用于多种应用场景。 | 在国内的环境使用并不轻松,基本上是网络问题引起的,注意上网方式 |
高吞吐量解码算法 | 支持多种解码策略,如并行采样和束搜索,满足不同需求。 | 一张4090跑7B抗10个并发不是问题🐂 |
并行计算支持 | 提供张量并行和流水线并行,充分发挥分布式推理的优势。 | 如上 |
流式输出功能 | 支持实时应用的流式输出,提升用户体验。 | 实现打字机效果必备 🥳 |
兼容 OpenAI API | 提供与 OpenAI 框架兼容的 API,简化集成过程。 | 无缝接入, 接入时只需要改初始化的base_url地址即可 |
硬件兼容性 | 支持 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU、TPU,以及 AWS Trainium 和 Inferentia 加速器。 | 目前只尝试了N卡 |
前缀缓存与多 Lora 支持 | 通过前缀缓存和多 Lora 功能,进一步提升模型的性能与灵活性。 | 暂未尝试 |
评论记录:
回复评论: