当前人工智能技术及生态迭代加快,对智能算力提出更强更大规模的需求。作为关键环节与核心底座,以智算中心为代表的智能算力基础设施,呈现哪些发展趋势?
在19日开幕的“2024年国际算力标准与应用研讨会”上,中国信通院云计算与大数据研究所所长何宝宏发表演讲时表示,自2022年底ChatGPT诞生以来,人工智能基础设施和相关智能投资快速上升,全球对智算的关注度不断提高。
相较于传统算力,智能算力由基于GPU、FPGA、ASIC等AI芯片的加速计算平台提供,主要用于人工智能的训练和推理计算。国家信息中心的《智能计算中心创新发展指南》指出,“十四五”期间,在智算中心实现80%应用水平的情况下,城市对智算中心的投资可带动人工智能核心产业增长2.9至3.4倍,带动相关产业增长36至42倍。
金叶子/摄
推进基础预训练大模型需要大规模智算集群支撑,而智算中心一般由地方政府或电信运营商主导建设,定位于服务区域层面的产业创新与科研创新。中国信通院前不久发布的《智算基础设施发展研究报告(2024 年)(下称“报告”)显示,据团队不完全统计,截至2024年7月底,纳入中国信息通信研究院产业与规划研究所监测的智算中心(含已建和在建)达87个。
根据报告,国内智算中心单体算力规模分为三个层次,与布局区域特点高度协同。目前智能算力主要分布于和林格尔、贵阳、芜湖等国家算力枢纽节点,以及北京、上海、深圳等AI超一线城市,已布局不少单节点规模大于1000PFLOPS的大型算力中心,用于支撑通用基础大模型训练及高并发推理应用。人工智能发展基础较好的城市,布局300至1000PFLOPS规模的中型算力中心,可满足行业大模型对海量数据和复杂计算的需求。与此同时,各地市、区也在积极发展40至300PFLOPS规模的小规模算力中心。
谈到智算资源的供需问题,何宝宏认为,高端算力市场仍存在短缺,而中低端算力市场则出现了供过于求的现象。
他提到智算中心建设需要注意的问题时表示,网络方面,计算能力的提升速度远超网络能力的提升,这导致新的网络技术需求,需要在现有以太网上进行改进,或者开发全新的网络连接技术。此外,能耗问题也是一个重要的挑战。大模型训练过程中,约2/3的成本是电费。未来需要关注节能计算和混合计算的发展,以应对能耗问题。“我们正在形成一个面向人工智能的算力中心新生态,但仍面临许多挑战,需要大家共同努力。”
报告也认为,从产业实践看,我国智算基础设施发展仍面临着不少问题。建议投资布局要分类引导,要素资源要联合创新。比如,基础通用大模型的训练推理,需要大规模智算集群的支撑,技术门槛高、投资规模大,对于基础通用大模型发展应当政策引导有序建设,支持头部厂商与先进地区共同投入,面向基础通用大模型,打造并授牌 3~5 个国家级超大规模智算中心。而行业大模型研发及落地赋能,技术门槛略低,个性化程度高,适宜作为地方智算基建的主攻方向。