• 最近访问:
发表于 2024-11-23 21:47:37 东方财富Android版 发布于 上海
$城地香江(SH603887)$算不算利好
发表于 2024-11-23 18:07:20
来源:界面新闻

  “从长远的角度来看,人类社会发展每次巨大跃迁都是由技术创新带来的。工业时代的全球GDP年均增速约为1%-2%,信息时代增速为3%-4%,人工智能时代,这个数字会是多少?”

  11月22日,IDEA研究院创院理事长、美国国家工程院外籍院士沈向洋在2024 IDEA大会上表达了上述观点。他强调,随着AI的各项能力逼近、甚至超越人类,AI治理已成亟待全球共同面对的议题。

  当天,粤港澳大湾区数字经济研究院(下称IDEA研究院)发布DINO-X目标检测视觉大模型,该模型作为GroundingDINO系列升级之作,在多项能力上得到提升。

  在检测能力上,无需用户提示即可检测万物,无论是常见物体还是罕见的长尾物体(出现频率低但种类繁多的物体)都能精准识别并给出类别。

  得益于超1亿高质量样本的大规模数据集多样化训练,DINO-X对未知场景和新物体适应性强,泛化能力出色,在实际应用场景中更具灵活性。

  在探讨AI发展脉络时,沈向洋提及算力、算法与数据层面变化。算力上,摩尔定律指出每18个月算力需求增长一倍,而当下大模型对算力需求每年增长四倍以上,过去十年英伟达市值大幅攀升300倍与算力需求剧增紧密相关,十年间算力需求增长约100万倍。

  算法层面,2017年Transformer架构面世后,AI、深度学习、大模型多沿此路线发展,OpenAI的O1系列带来算法突破思路,改变过往单纯预训练预测“下一个token”模式,融入类似人思考、推理的后训练、后推理过程。

  数据方面,“缺数据”已经成为大模型行业内的共识之一。随着GPT系列发展,数据需求激增。沈向洋透露,距离GPT3面世已经过去三年,当时OpenAI用了2T数据,1万亿Token。GPT4用了12T数据,训练用了20T数据,“事实上,互联网上洗干净的数据大概是20万亿。”

  沈向洋认为,GPT5预计需200T数据规模,合成数据可以给大模型提供更为丰富的训练材料,还有望催生未来百亿美金级别的创业机遇。

  “互联网上已经找不到那么多的数据,未来需要更多高质量的合成数据训练未来的模型。”他举例称,1万亿的数据约等于500万本书,20万张高清照片,抑或500万篇论文。人类历史上的书籍大概是21亿Tokens,微博有38亿Tokens,Facebook大概拥有140TTokens的数据。

  当下互联网数据存量告急,社交媒体数据质量欠佳,合成数据受重视,且私域数据利用存在安全孤岛问题。对此,IDEA研究院通过IDEADataMaker用加密方式利用私域数据生成新语料、语境图谱。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500