撞上数据墙？OpenAI模型提升速度放缓着手调整开发策略_财经评论(cjpl)股吧

股吧首页 > 财经评论吧 > 正文

最近访问：

财经评论吧

返回财经评论吧>>

- 重要股东股权质押数据全览

东方财富资讯君

发表于 2024-11-10 10:46:30 股吧网页版

撞上数据墙？OpenAI模型提升速度放缓着手调整开发策略

来源：科创板日报

　　高质量数据不够用，拖累AI模型改进速度——OpenAI这位AI领头羊又遇到了难题。

　　一些测试过Orion的OpenAI员工发现，虽然Orion的性能超过了OpenAI现有的所有模型，但其性能质量提升程度远远小于从GPT-3到GPT-4的飞跃。这意味着，随着高质量数据趋于有限，AI模型的改进速度可能会放缓。

　　不仅如此，Orion的训练中涉及来自旧模型（例如GPT-4与一些推理模型）的AI生成数据，这可能导致其重现旧模型的一些行为。

　　为此，OpenAI成立了一个“基础”团队，以在高质量新数据供应减少的情况下，研究能让AI模型保持改进的新方法。据悉，公司计划基于AI合成数据训练Orion，并在后期训练中对模型作出更多改进。

　　目前，OpenAI正在推进Orion的安全测试，计划于明年年初发布这一模型，其可能会打破“GPT-X”的命名惯例，以反映模型开发的变化。

　　值得注意的是，OpenAI在今年收购了Chat.com域名，该域名已重定向至OpenAI的AI驱动聊天机器人ChatGPT。

　　“撞上数据墙”

　　早在2020年，OpenAI就曾在一篇论文中提出Scaling law定律，意指大模型的最终性能主要与计算量、模型参数量和训练数据量三者的大小相关，而与模型的具体结构（层数/深度/宽度）基本无关。换言之，仅仅增加模型规模和训练数据，就能显著提升人工智能能力，而无需取得根本性的算法突破。

　　AI界许多公司都一度将Scaling Law奉为圭臬，但如今，也有越来越多的质疑声出现。

　　Meta AI人工智能研究院(FAIR)研究员及高级经理田渊栋指出，“我画过一张图，一开始数据量越大，模型性能表现越好，但模型离人类越近就越难获得新的数据，模型就越来越难以改进，最后总会有些corner case（边角案例，即无法想到的或不常见的案例）解决不了，这是data driven（数据驱动）最大的问题。”

　　非营利研究机构Epoch AI在今年7月更新的一篇论文中指出，未来数年内，（原始）数据增长的速度将难以支撑AI大模型扩展发展的速度，在2026-2032年之间的某个时间点，数据存量将耗尽。

　　实际上，OpenAI已不是第一次遭遇“数据资源不足”的问题。此前已有媒体报道指出，在训练GPT-5时，OpenAI因文本数据不足，正在考虑使用YouTube公开视频转录出的文本。

　　如今OpenAI再度碰上数据资源难题，甚至因此影响到了新模型进展。“但这代表‘天塌了，’”The Information这篇文章的作者之一Amir Efrati指出，OpenAI正在作出调整，或许将有新的Scaling Law取代旧Scaling Law。

　　值得一提的，当地时间11月9日，OpenAI安全系统团队负责人翁荔（Lilian Weng）宣布将离开已经工作了近7年的OpenAI。她公开分享了发给团队的离职信，但其中并未言明具体离职原因及未来职业去向，仅表示“是时候重新出发，探索新的领域了”。

（文章来源：科创板日报） [点击查看原文]

郑重声明：用户在财富号/股吧/博客等社区发表的所有信息（包括但不限于文字、视频、音频、数据及图表）仅代表个人观点，与本网站立场无关，不对您构成任何投资建议，据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容，远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息，谨防上当受骗！

评论该主题

帖子不见了！怎么办？

作者：您目前是匿名发表登录 | 5秒注册作者：，欢迎留言退出发表新主题

郑重声明：用户在社区发表的所有资料、言论等仅代表个人观点，与本网站立场无关，不对您构成任何投资建议。用户应基于自己的独立判断，自行决定证券投资并承担相应风险。《东方财富社区管理规定》