首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

从0到1本地部署2025年3月27日阿里开源的新一代旗舰多模态大模型Qwen2.5-Omni,实现无缝处理包括文本、图像、音频和视频在内的各种输入,同时支持流式的文本生成和自然语音合成输出

  • 25-04-25 07:21
  • 2497
  • 13865
blog.csdn.net

官方文档地址:

https://github.com/QwenLM/Qwen2.5-Omni/blob/main/README_CN.md#-docker

  1. 检查是否安装了 Anaconda/Miniconda:

    • 打开 Anaconda Prompt(如果安装了 Anaconda)。

    • 如果没有安装,请访问 Anaconda 官方网站 或 Miniconda 官方网站 下载并安装。

    • miniconda里只有conda和python,而anaconda里则集成了更多的科学计算库,这里我们已anaconda为例(请注意Anaconda下载包大约5G,接受不了就去下载miniconda,真的推荐Anaconda,因为后续你的miniconda里没的还是要下)

  2. 下载安装Anaconda

然后去你的邮箱里点击下载

https://www.anaconda.com/download/success

选择对应你操作系统的版本

下一步下一步

这里红线注意下!他不推荐我们在安装过程中,自动添加环境变量!但是我太懒了,所以我勾上

最后两个选项你没关,会出现这个,这个其实就是python生态的应用商店,关了就行了

安装完成后重新打开一个shell窗口,执行

conda --version

看到

就说明安装成功了!

创建conda环境

conda create -n Qwen2.5-Omni python=3.12

会看到这么一大坨,不要被吓到,下载依赖而已,输入y就完事了,虚拟环境,别担心

等待安装完成,其实他已经提示你怎么进入这个虚拟环境了

激活

conda activate Qwen2.5-Omni

验证环境激活情况

conda info --envs

在我们虚拟环境中开始安装相关依赖包

记得临时禁用下git的ssl,不然会报错

git config --global http.sslVerify false
  1. pip uninstall transformers
  2. pip install git+https://github.com/huggingface/transformers@f742a644ca32e65758c3adb36225aef1731bd2a8
  3. pip install accelerate

pip install qwen-omni-utils[decord]
pip install modelscope

这里会用到git,没的话自己下个安装,下一步下一步就完事了,年轻人胆子大一点儿

https://git-scm.com/

记得红线里勾上,省的配环境变量了

等待都安装完毕即可!

下载模型

 modelscope download 'Qwen/Qwen2.5-Omni-7B' --local_dir 'D:\model\Qwen2.5-Omni'

等待下载完成

记得安装ffmpeg,不管是大模型还是其他视频,音频转文本程序都需要

https://ffmpeg.org/download.html

安装请参考

http://iyenn.com/rec/1824538.html

执行官方演示代码

  1. import soundfile as sf
  2. from transformers import Qwen2_5OmniModel, Qwen2_5OmniProcessor
  3. from qwen_omni_utils import process_mm_info
  4. # default: Load the model on the available device(s)
  5. model = Qwen2_5OmniModel.from_pretrained("Qwen/Qwen2.5-Omni-7B", torch_dtype="auto", device_map="auto")
  6. # We recommend enabling flash_attention_2 for better acceleration and memory saving.
  7. # model = Qwen2_5OmniModel.from_pretrained(
  8. # "Qwen/Qwen2.5-Omni-7B",
  9. # torch_dtype="auto",
  10. # device_map="auto",
  11. # attn_implementation="flash_attention_2",
  12. # )
  13. processor = Qwen2_5OmniProcessor.from_pretrained("Qwen/Qwen2.5-Omni-7B")
  14. conversation = [
  15. {
  16. "role": "system",
  17. "content": "You are Qwen, a virtual human developed by the Qwen Team, Alibaba Group, capable of perceiving auditory and visual inputs, as well as generating text and speech.",
  18. },
  19. {
  20. "role": "user",
  21. "content": [
  22. {"type": "video", "video": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen2.5-Omni/draw.mp4"},
  23. ],
  24. },
  25. ]
  26. # Preparation for inference
  27. text = processor.apply_chat_template(conversation, add_generation_prompt=True, tokenize=False)
  28. audios, images, videos = process_mm_info(conversation, use_audio_in_video=True)
  29. inputs = processor(text=text, audios=audios, images=images, videos=videos, return_tensors="pt", padding=True)
  30. inputs = inputs.to(model.device).to(model.dtype)
  31. # Inference: Generation of the output text and audio
  32. text_ids, audio = model.generate(**inputs, use_audio_in_video=True)
  33. text = processor.batch_decode(text_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)
  34. print(text)
  35. sf.write(
  36. "output.wav",
  37. audio.reshape(-1).detach().cpu().numpy(),
  38. samplerate=24000,
  39. )

这个阶段是下载和读代码

下载完成,cpu开始启动模型分析视频

因为内存不足报错了!其实是c盘也快满了!

注:本文转载自blog.csdn.net的没用的阿吉bigdata的文章"https://blog.csdn.net/weixin_57736618/article/details/146660072"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

126
软件工程
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2024 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top