• 最近访问:
发表于 2024-07-07 06:08:50 股吧网页版
上海破题大模型语料训练技术路线和供给 喂好“数据饥饿的怪兽”
来源:解放日报 作者:李晔

  启明创投主管合伙人周志峰最近在与美国AI界交流过程中,听闻OpenAI的GPT-5可能推迟到2025年底发布,其原因之一,可能是用于大模型训练的13万亿数据仍不够用。为此,OpenAI不得不勉为其难,将相同数据“回炉”训练。如果有更多高质量私域多元数据供给,大模型性能或有新飞跃。

  另一边,在上海洋山四期自动化无人码头,桥吊司机坐在百公里外的操控室内“隔空取箱”。然而,这些每天产生的远程操控集装箱动作数据并未被采集。在上海流程智造公司董事总经理贺仁龙看来,这白白流失的数据,对大模型而言却是极管用的语料,若喂予大模型并加以训练,今后集装箱有望实现真正的无人抓取。

  一个是“求而不得”的焦虑,另一个是“平白放空”的叹息。

  大模型宛若一个“数据饥饿的怪兽”,它除了有量的追求,也有质的挑剔。就好比一个没有条件接受优质教育的孩子,日后其高质量输出便无从谈起。量多质高的语料,是全球大模型共同的渴求。

  如何避免喂给大模型的料“一锅乱炖”“臃肿虚胖”

  大模型最头疼的问题之一,在于数据异构、质量不齐,犹如“一锅乱炖”。“如果所有数据都放在一张表格里,机器学习的门槛就会大大降低。”但这只是中科院院士鄂维南的美好愿望,事实却是,大模型训练时所面对的各类知识与推理,有数字、文本,也有图片、语言、视频等。这不仅让大模型“茫然”,且易造成大模型的规模成倍增长,其中大量无用数据占用,造成干扰,拖累效率也降低精度。

  鄂维南认为,数据库技术是发展下一代AGI(人工通用智能)之关键,并盛赞全球第一个AI数据库——MyScale数据库。该数据库刚刚获得了2024WAIC的硬核大奖SAIL奖,能在同一系统中支持海量结构化、向量、文本、时序、图片等各类异构数据的高效存储和联合查询。他认为,这是目前国际上综合性能最好、功能最强的AI数据库。

  “MyScale数据库技术的一个成功案例是,我国在京沪各有一个公安部指纹中心,每个中心都管理着超20亿个指纹。现在指纹照片输入数据库后可立即比对,秒出结果。”鄂维南补充说,“它关键在于省钱。当年公安部规划这两个中心时,第一期就准备了10亿元立项资金。但利用MyScale数据库技术,仅几百万元就解决了,而且一步到位,无需再建第二、第三期。”

  鄂维南将这一技术路线,称为“穷人版技术路线”,旨在避免大模型的臃肿虚胖。他还认为,应对不同使用频率的知识进行分层,并提出“忆立方”建模目标。鄂维南将不假思索和条件反射的隐性记忆、需推理和打草稿的工作记忆,以及各类专业知识等显性记忆“分开处理”,将高频数据“内置”,专业知识“外挂”,以确保知识的训练及读取都能实现成本最小化。

  “这涉及对大模型底层架构和训练框架的深度改进。在上海市政府、临港新片区管委会及上海市经信委支持下,我们已实现了这一技术路线,把大模型规模降了十倍。”鄂维南不无骄傲。

  “采、洗、标、测、用”高质量语料有生产平台

  大模型另一大痛点,在于大量高质量数据被锁在抽屉里,未共享开放,甚至未被收集。上海阶跃星辰智能科技有限公司副总裁李璟甚至撇开了算力和专业人才缺乏等困难,将数据语料的缺乏称为“基础模型与行业应用间最大鸿沟”。

  贺仁龙也着急。他举例,洋山四期自动化码头远程抓箱中的动作数据,是高价值的行业语料,“这与马斯克训练用于电池装配的人形机器人‘擎天柱’是完全相同的逻辑。更多分散在制造业各行业的专业数据,如果收集起来,去训练大模型,就能形成未来由机器人操作的SOP(标准作业程序),让传统制造业焕然一新。”

  事实上,包括政府、行业在内,各方都已行动起来,对齐数据,并加大供给。

  据记者了解,一年前,在2023WAIC开幕式上,由上海人工智能实验室、上海报业集团、中国科学技术信息研究所等10家单位联合发起的中国大模型语料数据联盟宣布成立。该联盟几乎囊括了全国和上海市语料数据供给的主力军和先锋队。去年8月14日,联盟开源发布其成果——“书生·万卷”多模态预训练语料,数据总量超过2TB(太字节)。这2TB的数据经严格筛选,质量很高,在发布两周内下载量达18万次,创下国内大模型整体兴起后公开的单体数据集下载量之最。

  而在昨天举行的“语料筑基智生时代”2024WAIC语料主题论坛上,上海市级语料公司库帕思,携手大模型语料生态伙伴,集中发布了一批大模型语料成果。

  其中包括语料运营平台1.0上线,首批十大高质量语料产品发布等。语料运营平台1.0,实现了面向语料数据“采、洗、标、测、用”五位一体的工具链能力。

  另外,库帕思携手咪咕视频、宝信软件、复旦大学智能医学研究院、上海工创中心、汇纳科技、万达信息等集中发布了十大语料数据产品,旨在增强供给侧能级,加速医疗健康、城市交通、消费零售、金融、影音等重点行业的大模型产业发展。

  语料体系需要规则与实践并跑,论坛上还发布了语料库建设导则、行业语料(包括金融、生命健康、教育三项)技术白皮书,以及语料生态服务大模型可持续发展倡议等。

  本次主题论坛由大模型语料数据联盟、上海库帕思科技有限公司、上海市数商协会、上海报业集团等协办。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500