随着各行业对AI算力需求的迅猛增长,围绕智算产业,多家厂商招数频出。在不久前举行的腾讯全球数字生态大会上,腾讯云正式发布AI infra(人工智能基础设施)品牌“腾讯云智算”,并推出了RAG(检索增强生成)解决方案,进一步展示了其在AI计算基础设施和大模型应用定制上的能力。
智算性能的提升存在典型的“木桶效应”,即算力性能的提升无法简单通过扩大规模实现,而是要让计算、存储、网络以及上层框架等各个环节全面协调配合,才能够打造出高性能、高带宽、低延迟的计算集群。
腾讯集团副总裁、云与智慧产业事业群COO、腾讯云总裁邱跃鹏介绍,腾讯云智算集群从机器上架到开始训练可以做到只需1天,相比业界以月为单位大为缩短。他表示,在稳定性和性能上,腾讯云的集群千卡单日故障数已经刷新到0.16,是行业水平的1/3;1分钟就能完成万卡checkpoint写入(指在训练过程中保存模型当前状态的快照写入),数据读写效率是业界10倍;千卡集群的通信时间缩短到6%,是业界一半。
“我们在做的是在规模比较大的计算集群里面,把卡的利用率尽可能做到极致,减少闲置算力就是减少用户成本。”腾讯云副总裁沙开波透露,某模型厂商通过使用腾讯云智算大模型训练集群解决方案将千卡一年的模型训练成本降低了2000万元。
目前,腾讯云智算整合了腾讯云高性能计算集群、高性能网络星脉、高性能云存储、加速框架、容器、向量数据库、智算套件等腾讯云优势产品,具有能够为AI创新输出多芯兼容、灵活部署的智算产品能力。腾讯云智算的灵活性也体现在其支持多种云部署方式,包括公有云、私有云和分布式云,使其成为国内大模型厂商的优选解决方案。
此外,腾讯云智能搜索提供了从模型管理、向量生成、向量存储、混合搜索、结果重排到大模型集成的全链路RAG能力。该技术已经成功支持了微信读书的“AI问书”功能,为亿级用户提供毫秒级的检索服务,同时相比传统解决方案大幅降低了90%的机器成本。
而针对数据规模大、数据类型多样的企业,腾讯云的向量数据库提供2倍于行业平均水平的吞吐能力和毫秒级响应延迟,支持千亿级的单表存储规模,为企业构建强大的AI数据中台,打造RAG应用基础设施。