首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

智算基础设施底座,彩讯推出AI原生云计算解决方案Rich AICloud

  • 25-04-25 03:01
  • 4408
  • 6733
blog.csdn.net

f416194016e54a10145029e85224de78.jpeg

2024年10月11日,第12届中国移动全球合作伙伴大会在广州盛大开幕,彩讯股份AI原生云计算解决方案Rich AICloud在大会亮相,Rich AICloud致力于为大模型应用开发构建坚实的智算基础设施底座。


算力是大模型构建不可或缺的基石,算力直接关乎大模型训练的效率和成果。大模型的计算特性为:大数据、大计算,例如GPT4、Meta Llama3的训练都是基于几万卡GPU集群,然而当前国内智算集群的建设仍面临一定的困境:第一,算力可靠性几何式降低:一个任务在数十、数百台机器中运行,单台可靠性是99%,百台机器是99%^100=36.6%,GPU规模越大,则整体可靠性就越低;第二,系统优化配置复杂:构建稳定高效的大模型系统,需要对网络、框架、模型诸多参数进行调优;第三,工具少,生态弱:国外厂商封锁算力集群建设及优化技术,国内GPU厂商的软件生态尚在建设中,万卡集群建设仍面临一定的挑战。

如何控制算力成本,提升集群规模,高效管理集群,提升大模型训练推理速度,是各大企业及算力提供商面临的难题。

Rich AICloud

智算基础设施底座

针对当前算力的挑战,彩讯股份推出了AI原生(AI-Native)云计算解决方案,该方案是集合了下一代AI原生云计算网络架构、超大规模算力集群管理平台、高性能大模型训推平台的AI算力构建及大模型运营一体化解决方案,旨在帮助企业快速构建大规模算力集群、部署运营专属大模型,赋能智能化转型。

Rich AICloud分为三层:其底层是RichNet下一代AI原生云计算架构,中间层是可实现万卡集群管理的RichMoss超大规模算力集群管理平台,顶层是针对大语言模型/文生图/视频的RichBoost高性能大模型训推平台。通过将AICloud平台部署到 GPU算力集群硬件服务器上,可以低成本、高效率构建起高可用、高性能的 AI 算力集群。

d6b27a23654654700717ffcd681a7cce.jpeg

RichNet

下一代AI原生云计算架构

AI大模型对网络性能需求是大带宽、高负载、零丢包的无损网络。随着技术的发展,现在数据中心内的高性能网络传输机制,已经从TCP/IP逐步切换到RDMA,即远程直接内存访问。RoCE(RDMA over Converged Ethernet),是一种能在以太网上进行RDMA的集群网络通信协议,它可以大大降低以太网通信的延迟,提高带宽的利用率。

RichNet的RoCE网络交换机,聚焦于下一代高性能网络,提供先进的RoCE网络整体解决方案,提供端到端RDMA计算通信互联系统,基于RoCE以太网络带宽利用率可达到IB网络90-96%,All-Reduce基准测试稳定性提升20%+,AI-to-AI基准测试吞吐量提升20%+。


RichNet具备多重领先优势,在千卡集群中,方案可为客户节省超过一千五百万元的成本开支;方案通用性高,支持快速交付与响应,传统IB交货周期需要数月,而RichNet RoCE交货周期仅需数周;通过自研系统与算法,保证了较高的稳定性(传输抖动程度)和高性能(链路利用率)。

RichMoss

超大规模算力集群管理平台

RichMoss超大规模算力集群管理平台,支持云原生、容器化的部署方式,支持异构GPU设备。通过计算抽象能力+高级调度功能,连接AI工作负载与底层计算资源,并通过高效、灵活的调度机制和策略,优化地运行各种AI负载,最大化资源利用。

297960d43021e6b844207e986b9e7b8d.jpeg

先进的 AI 计算集群调度器,提供运行大规模工作负载所需的高级调度功能,支持根据业务目标灵活定义和设置调度策略;异构GPU调度,池化 GPU 等各种计算资源,支持不同厂商GPU,支持集群规模的动态扩展;弹性分配工作负载,自动回收闲置资源,优化现有计算资源利用率,允许在同一硬件上运行更多计算;灵活扩展的工作流系统,能够把复杂的计算步骤灵活地组合在一起,进行统一管理和调度,在集群中实现复杂大规模计算工作流自动化,支撑企业级、复杂、大规模的 AI 工作负载;全面可视化的监控能力,可视化的界面提供 CPU、Memory、GPU、网络、存储等硬件资源监控,达到对平台计算任务的全面观测和管理。

RichBoost

高性能大模型训推平台

彩讯股份提供高性能的大语言模型推理引擎RichLLM及高性能文生图/视频推理引擎RichDiff,从底层深度优化加速。


RichLLM是一款高效、易用、可扩展的大语言模型推理引擎,旨在为用户提供开箱即用的推理加速能力,大幅降低模型的部署成本。得益于底层的深度优化、高效的推理框架、创新的通信机制、深度优化的模型,平台加速比可达5倍以上,执行效率、显存利用效率、分布式通信效率得到充分优化。在各种推理场景中,最高效率可达同类开源产品的10倍;同时,经过对模型、机制、框架、算子等联合优化,可实现SOTA推理效率;平台也支持一键启动高效LLM推理服务。

aa7afd3c5430b71a286b2e7ab3559179.jpeg

RichDiff是一款高性能多模态推理加速引擎,专为图片和视频生成的推理加速设计。它凭借出色的性能,能实现高达基准引擎3倍的图像生成速度,同时保持图像质量与原生PyTorch一致。RichDiff具有灵活的对接能力,兼容多种深度学习引擎和前端应用框架,满足多样化需求。即插即用,无需做模型转换;加速模型的保存与加载耗时仅需几秒。RichDiff使SDXL端到端推理速度最快提升3倍, SVD端到端推理速度最快提升3倍 。

efdf62f1b498ff69f2278d90d5a3f4dc.jpeg

彩讯Rich AICloud AI原生(AI-Native)云计算解决方案目前已在多个千亿参数级别的大模型训练、大模型推理、AI工具加速等方面成功落地,大幅降低模型训推成本,加速AI产品的落地。面向未来,彩讯股份将持续深化AI智算领域技术和方案研究,推动AI技术的持续进步与革新,不断携手更多合作伙伴,赋能千行百业智能化变革。

注:本文转载自blog.csdn.net的彩讯股份300634的文章"https://blog.csdn.net/2401_87804235/article/details/144613250"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

116
云平台
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2024 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top