class="hide-preCode-box">

启动参数解释
–model 模型的路径,vllm会尝试本地有没有这个文件夹以及HF上有没有对应的repo,如果本地没有并且HF上有对应的repo则会自动下载模型
–served-model-name 模型的名称,api调用的时候需要保持一致
–gpu-memory-utilization 占用显存的上限,此参数会影响并发和模型上下文长度,后续本专栏将会提供vllm参数解析

执行命令, 启动vllm

sudo docker compose up -d
 class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}">

查看日志

sudo docker logs -f vllm
 class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}">

在这里插入图片描述
查看显存占用

nvidia-smi
 class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}">

在这里插入图片描述

使用

import openai

client = openai.OpenAI(
    base_url='http://127.0.0.1:8000/v1',
    api_key='NOT_NEED'

)
predict_ret = client.chat.completions.create(
    model='qwen2.5-7b-instruct', # 此处名称要和vllm中的served-model-name一致
    messages=[
        {'role': 'user', 'content': '你是谁'}
    ]
)
print(
    predict_ret.choices[0].message.content
)
 class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}"> class="hide-preCode-box">

输出如下:

我是阿里云开发的一种超大规模语言模型,我叫Qwen。作为一个AI助手,我的目标是帮助用户获得准确、有用的信息,解决他们的问题和困惑。我会不断学习和进步,不断提升自己的能力。如果您有任何问题或需要帮助,请随时告诉我。
 class="hljs-button signin active" data-title="登录复制" data-report-click="{"spm":"1001.2101.3001.4334"}">
data-report-view="{"mod":"1585297308_001","spm":"1001.2101.3001.6548","dest":"https://blog.csdn.net/kesanzz/article/details/143304110","extend1":"pc","ab":"new"}">>
注:本文转载自blog.csdn.net的赛博小钻风的文章"https://blog.csdn.net/kesanzz/article/details/143304110"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接

评论记录:

未查询到任何数据!