资讯|看看你的电脑可以跑 AI 模型吗？

看看你的电脑可以跑 AI 模型吗？

25-02-21 21:01

9728

blog.csdn.net

id="article_content" class="article_content clearfix"> id="content_views" class="markdown_views prism-atom-one-dark">

随着大语言模型（LLM）在各个领域的应用快速普及，越来越多开发者想要尝试在本地运行这些模型。然而，这些模型对计算机硬件的要求极高，特别是在显存（VRAM）和推理速度方面。那么，如何评估你的设备是否合适？本文将帮助你了解模型的存储需求、推理平台选择和不同硬件的实际表现，助力你找到最适合的配置。

不废话，先上结论：
绝大多数电脑 (包括笔记本) 几乎可以跑 AI 模型，但是使用不同 AI 模型，不同平台，不同机器推理速度差异会很大。
如果你想要跑一个勉强可玩的 LLM (比如 Llamma3.2 1B 模型)，至少需要：

内存至少 16 GB
CPU 至少是 4核 (非硬性要求，只是为了保证 1 秒大概能生成 5 个字的速度) 及以上
CPU 至少 4GB 的显卡 (可选，如果不想用 llamma.cpp 跑模型)
优先推荐 vLLM 平台 (使用 GPU) 上跑模型，来获取最快的推理速度。

一、模型参数和存储需求计算

要高效运行大语言模型，我们首先需要了解模型的 参数量 和 比特量化（Bit Quantization）。模型的显存需求（VRAM）可以通过以下公式计算：
$$

M=\frac{P \times 4B}{32 / Q} \times 1.2

class="table-box">

符号	含义
$M$	显存大小需求，单位：GB
$P$	模型的参数量（Billion = 10 亿）
$Q$	量化位宽（如 16-bit、8-bit、4-bit），每个参数占用的存储
$4 B$	4 个字节 (原始模型用 32-bit 参数量化，占 4 个字节存储)
$1.2$	20% 的额外开销，用于加载辅助数据

示例：计算 70B 参数的模型所需显存

假设模型参数量为 70B （B 是指 billion，10亿参数量），采用 8-bit 量化模式，则显存需求为：

$$
在该公式中，位宽越小，占用显存越少，例如使用 4-bit 量化会显著降低存储需求。8-bit 表示每个参数占用 1 字节（Byte），1024 字节=1MB，1024MB=1GB。因此，在量化配置上选择合适的位宽非常重要，可以大幅度降低硬件资源需求。

如果你没有显卡的话，模型会在内存中跑，占用的存储会比显存少（对应公式不需要 × 1.2）。

二、推理平台对比：vLLM、Llama.cpp、Ollama

运行 LLM 有多种推理平台可选，下面是三个流行平台的特点分析：

平台	优势	劣势
vLLM	支持批处理、高吞吐量，适合高端 GPU	需较高硬件配置
Llama.cpp	支持灵活的 CPU/GPU 配置	GPU 优化不足
Ollama	内存管理优化、易用性强	灵活性稍逊

平台

优势

劣势

vLLM

支持批处理、高吞吐量，适合高端 GPU

需较高硬件配置

Llama.cpp

支持灵活的 CPU/GPU 配置

GPU 优化不足

Ollama

内存管理优化、易用性强

灵活性稍逊

GPU	速度 (t/s)	适用场景
RTX 4090	139	适合高性能需求和大型模型推理
RTX 4080	113	性价比较高，适合中型模型
RTX 3080 Ti	108	支持中等模型推理
RTX 2080 Ti	26	可满足小型模型运行需求
RTX 4060 Ti	22	入门级模型部署

GPU

速度 (t/s)

适用场景

RTX 4090

139

适合高性能需求和大型模型推理

RTX 4080

113

性价比较高，适合中型模型

RTX 3080 Ti

108

支持中等模型推理

RTX 2080 Ti

可满足小型模型运行需求

RTX 4060 Ti

入门级模型部署

CPU	速度 (t/s)	适用场景
AMD Ryzen 9 7950X	11.2	可支持较高效的推理需求
Intel Core i9-10900X	8.0	较高的推理速度，适合小型模型
AMD Ryzen 7 5800X	6.3	可支持中等规模模型推理
Intel Core i5-10400f	5.1	适合小型模型推理

CPU

速度 (t/s)

适用场景

AMD Ryzen 9 7950X

11.2

可支持较高效的推理需求

Intel Core i9-10900X

8.0

较高的推理速度，适合小型模型

AMD Ryzen 7 5800X

6.3

可支持中等规模模型推理

Intel Core i5-10400f

5.1

适合小型模型推理

Model_Name_Version	GPU RAM	GPU duration	GPU Perfor-mance	Main RAM	CPU Duration	CPU Perfor-mance	Perfor-mance diffe-rence
llama3:8b-instruct-q4_0	5.8GB	2.1s	80t/s	4.7GB	49s	4.6t/s	17.4x
llama3:8b-instruct-q8_0	9.3GB	3.4s	56t/s	8.3GB	98s	2.7t/s	20.7x
phi3:3.8b	4.5GB	3.6s	98t/s	3.0GB	83s	7.2t/s	13.6x
phi3:3.8b-mini-4k-instruct-q8_0	6.0GB	6.9s	89t/s	4.6GB	79s	5.3t/s	16.8x
phi3:3.8b-mini-instruct-4k-fp16	9.3GB	4.2s	66t/s	7.9GB	130s	2.9t/s	22.8x
phi3:14b	9.6GB	4.2s	55t/s	7.9GB	96s	2.7t/s	21.2x
phi3:14b-medium-4k-instruct-q6_K	12.5GB	8.9s	42t/s	11.1GB	175s	1.9t/s	21.8x
mistral:7b-instruct-v0.3-q4_0	5.4GB	2.1s	87t/s	4.1GB	36s	4.9t/s	17.8x
mistral:7b-instruct-v0.3-q8_0	8.7GB	2.3s	61t/s	7.5GB	109s	2.9t/s	21.0x
gemma:7b-instruct-v1.1-q4_0	7.4GB	1.8s	82t/s	7.5GB	25s	4.4t/s	18.6x
gemma:7b-instruct-v1.1-q6_K	9.1GB	1.6s	66t/s	7.5GB	40s	3.0t/s	22.0x

Model_Name_Version

GPU RAM

GPU duration

GPU Perfor-mance

Main RAM

CPU Duration

CPU Perfor-mance

Perfor-mance diffe-rence

llama3:8b-instruct-q4_0

5.8GB

2.1s

80t/s

4.7GB

49s

4.6t/s

17.4x

llama3:8b-instruct-q8_0

9.3GB

3.4s

56t/s

8.3GB

98s

2.7t/s

20.7x

phi3:3.8b

4.5GB

3.6s

98t/s

3.0GB

83s

7.2t/s

13.6x

phi3:3.8b-mini-4k-instruct-q8_0

6.0GB

6.9s

89t/s

4.6GB

79s

5.3t/s

16.8x

phi3:3.8b-mini-instruct-4k-fp16

9.3GB

4.2s

66t/s

7.9GB

130s

2.9t/s

22.8x

phi3:14b

9.6GB

4.2s

55t/s

7.9GB

96s

2.7t/s

21.2x

phi3:14b-medium-4k-instruct-q6_K

12.5GB

8.9s

42t/s

11.1GB

175s

1.9t/s

21.8x

mistral:7b-instruct-v0.3-q4_0

5.4GB

2.1s

87t/s

4.1GB

36s

4.9t/s

17.8x

mistral:7b-instruct-v0.3-q8_0

8.7GB

2.3s

61t/s

7.5GB

109s

2.9t/s

21.0x

gemma:7b-instruct-v1.1-q4_0

7.4GB

1.8s

82t/s

7.5GB

25s

4.4t/s

18.6x

gemma:7b-instruct-v1.1-q6_K

9.1GB

1.6s

66t/s

7.5GB

40s

3.0t/s

22.0x

看看你的电脑可以跑 AI 模型吗？

一、模型参数和存储需求计算

示例：计算 70B 参数的模型所需显存

二、推理平台对比：vLLM、Llama.cpp、Ollama

三、硬件性能对比：不同 GPU 和 CPU 的实际表现

1. 一些 GPU 性能对比（测试平台：Llama.cpp）

2. 一些 CPU 性能对比

四、实际配置建议

某个网友提供的多个模型在 4代 i5 和 4080 显卡的推理速度例子

不定期更新专业知识和有趣的东西，欢迎反馈、点赞、加星

参考

评论记录：