百度集团执行副总裁沈抖：大模型与云计算紧密结合，正在成为新型的基础设施_百度集团-SW(hk09888)股吧

股吧首页 > 百度集团-SW吧 > 正文

最近访问：

百度集团-SW吧

返回百度集团-SW吧>>

- 重要股东股权质押数据全览

百度集团-SW资讯

发表于 2024-09-25 14:47:30 股吧网页版

百度集团执行副总裁沈抖：大模型与云计算紧密结合，正在成为新型的基础设施

来源：每日经济新闻

　　9月25日，在2024百度云智大会上，百度集团执行副总裁、百度智能云事业群总裁沈抖在云智大会上表示，过去的一年，是大模型从技术变革走向产业变革的关键一年，而大模型与云计算紧密结合，正在成为新型的基础设施，“大模型及其相关系统，在短短几年内，正在迅速成为新一代的基础设施。这次变革的速度前所未有”。

　　百度集团执行副总裁、百度智能云事业群总裁沈抖图片来源：企业供图

　　围绕大模型算力方面，沈抖表示，提到算力，不少人都听说过“万卡集群”，简单来说，GPU集群有三个特征：极致规模、极致高密和极致互联。

　　而这些“极致”带来了几个严峻的挑战。沈抖介绍，首先是巨额的建设、运营成本，建一个万卡集群，单是GPU的采购成本就高达几十亿元。其次，在这么大规模的集群上，运维的复杂性急剧增加。他谈到，硬件不可避免地会出故障，而规模越大，出故障的概率就越高。“Meta训练Llama3的时候，用了1.6万张GPU卡的集群，平均每3小时就会出一次故障。”

　　沈抖进一步表示，在这些故障中，绝大多数是由GPU引起的，其实GPU是一种很敏感的硬件，连中午天气温度的波动，都会影响到GPU的故障率。这两个挑战迫使百度重新开始思考如何构建、管理和维护庞大而复杂的GPU集群，屏蔽硬件层的复杂性，为大模型落地的全流程提供一个简单、好用的算力平台，让用户能够更容易地管理GPU算力、低成本的用好算力。“过去一年，我们感受到客户的模型训练需求猛增，需要的集群规模也越来越大，与此同时，大家对模型推理成本的持续下降的预期也越来越高。这些都对GPU管理的稳定性和有效性提出了更高要求。”

　　基于此，百度智能云宣布将百舸AI异构计算平台全面升级至4.0版本，围绕落地大模型全旅程的算力需求，在集群创建、开发实验、模型训练、模型推理四大方面，为企业提供“多、快、稳、省”的AI基础设施。

　　其中，为了解决算力资源短缺的问题，百舸4.0对“多芯混训”能力进行了重点升级，实现了在万卡规模集群上95%的多芯混合训练效能，达到业务最领先水平。在集群部署环节，升级后的百舸能够实现工具层面的秒级部署，将万卡集群运行准备时间从数周最快缩减至1小时，极大地提升部署效率，缩短业务上线周期。针对大模型训练过程中故障频发的问题，百舸4.0全面升级了故障检测手段和自动容错机制，可以有效降低故障发生频次，大幅减少集群故障处置时间，在万卡集群上实现了超过99.5%的有效训练时长。

　　此外，百度智能云同时公布了千帆大模型平台的最新“成绩单”，在千帆大模型平台上，文心大模型日均调用量超过7亿次，累计帮助用户精调了3万个大模型，开发出70多万个企业级应用。过去一年，文心旗舰大模型降价幅度超过90%。

（文章来源：每日经济新闻） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》