AI星球 | 邵延港 · 2023-04-14 23:04
挣大模型的钱,腾讯不是第一家。
ChatGPT引起的热度从去年底持续到现在,想要继续讲AI故事的参与者,被迫加入大模型(LLM)混战,国内企业的大模型发布会的排期快把近两个月的日期占满了。
目前,百度已经发布文心一言、阿里发布了通义千问,商汤也于日前发布了日日新,360、网易、科大讯飞等企业的大模型产品都已经提上日程。腾讯此前披露的在研项目“混元”大模型近期也备受关注。
混元大模型尚未正式上线,但腾讯却在大模型的基础设施加快布局。4月14日,腾讯面向大模型训练,发布“超强算力集群”,要助力企业云上训练AI大模型,解决中小企业和创业公司的算力压力。
“挣大模型的钱”,腾讯不是第一家,阿里、亚马逊、英伟达等企业已经在软硬件方面展示了服务项目。在这场大模型热潮中,腾讯也想做一个“卖水人”,不过在算力支持的背后,或是一场大厂生态之战。
算力需求紧张,腾讯可4天训完万亿规模大模型
大模型依赖算法、算力和数据的综合支撑。一个人工智能大模型,通常得用数万亿个单词训练,参数量也“飙升”到了上万亿。
据了解,在训练阶段,Open AI发布的 ChatGPT训练阶段总算力消耗约为3640 PF-days,即1PetaFLOP/s效率跑3640天,需要7~8个投资规模30亿、算力500P的数据中心才能支撑运行。此前,华为云的盘古大模型的预训练参数规模达到2000亿,阿里达摩院的M6模型参数达到10万亿。
在众多国产大模型陆续上线后,算力消耗会指数级增长。用于大模型训练的芯片,其算力也有限,今年4月5日,Open AI关闭了ChatGPT Plus的付费渠道,给出的理由就是需求量过大,仅发布几个月,OpenAI就已经面临算力缺口。如今,密集上线的大模型也将面临着巨大的算力需求。
大模型的算力依靠的是芯片,但遇到海量运算,单块芯片无力支撑,腾讯给出的方案是将成千上万台服务器,通过网络联结,组成大型的算力集群。
据了解,腾讯新一代的算力集群集成了腾讯云自研的TACO训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。
根据腾讯云公布信息,其新一代高性能计算集群采用最新一代星星海自研服务器,搭载英伟达 H800 GPU基于自研网络、存储架构,带来3.2T超高互联带宽、TB级吞吐能力和千万级的IOPS,为企业用户提供高性能、高带宽、低延迟的智算能力支撑。
腾讯云通过实测结果显示,新一代算力集群的整体性能比过去提升了3倍。腾讯云表示,在去年10月,腾讯完成首个万亿参数的混元NLP大模型训练。在同等数据集下,将训练时间由50天缩短到11天。如果基于新一代集群,训练时间将进一步缩短至4天。并且,腾讯混元大模型背后的训练框架AngelPTM,也已通过腾讯云TACO提供服务。
不仅是算力缺口的限制,算力成本也是创业公司和中小企业难以支撑的原因。据悉,腾讯升级算力集群所用的英伟达H800芯片售价接近20万元。
在当前国产大模型热潮之下,腾讯向外界提供高性能计算集群,缓解算力压力,做创业公司和中小企业掘金大模型产业路上的“卖水人”。只不过,腾讯并不是唯一一家卖水的,大厂已经先后入局。
巨头陆续出手,“生态群”呼之欲出
三天前,阿里云公开发布旗下大模型“通义千问”, CEO张勇在宣布将大模型与集团内部产品相结合之外,还布置有一条面向外部生态的路线。
阿里云也看到了大模型爆发带来的算力问题,阿里云依靠自研芯片,降低算力成本,向外部企业提供普惠算力支持,也成为阿里云打造生态的方式之一。
腾讯的做法也类似,其新一代集群集成了腾讯云自研的TACO训练加速引擎,对网络协议、通信策略、AI框架、模型编译进行大量系统级优化,大幅节约训练调优和算力成本。腾讯也将基于自研芯片、星星海自研服务器和分布式云操作系统遨驰,打造面向AIGC的高性能智算网络。
此外,在4月13日,全球云计算巨头亚马逊也加入战局,而亚马逊主要是做AI“底座”,为上层应用公司提供AI基础设施,即接入多家公司的基础模型,搭建“模型超市”,让用户按需选择。在算力方面,亚马逊推出了基于自研AI芯片的两大人工智能计算“实例”Amazon EC2 Trn1n和Amazon EC2 Inf2,分别用于大模型训练和推理。
AI芯片的巨头厂商英伟达,在近期发布会上发布了大模型专用GPU,以及为中国市场特供的H800超大型GPU服务器,腾讯此次发布的高性能计算集群正是首次搭载该款芯片。
大厂先后入局大模型的算力服务,背后也是一场生态竞争。在算力限制下,腾讯、阿里等巨头将慢慢融合其他垂直领域的“小模型”,打造生态圈。