• 最近访问:
发表于 2024-12-18 21:52:40 股吧网页版
群雄争霸多模态大模型
来源:21世纪经济报道

  随着AI技术演进和应用场景的不断拓宽,多模态交互已经成为AI应用的重要趋势之一。

  海内外科技企业相继布局AI视频生成赛道。比如,继今年2月首次发布Sora后,OpenAI近期正式上线Sora,并向包括美国在内的多数国家用户开放,用户可在OpenAI官网上体验Sora。

  国内方面,字节跳动、快手、智谱AI、阿里云等科技企业纷纷发力视频生成模型。

  与此同时,多模态AIGC市场规模有望持续增长。根据Omdia预测,全球生成式AI市场在未来五年将迎来爆发式增长,预计从2024年的146亿美元增长到2029年的728亿美元,增长幅度为五倍。

  12月18日,2024火山引擎FORCE原动力大会在上海举办,火山引擎总裁谭待在接受21世纪经济报道等媒体采访时指出,大模型的商业化潜力巨大,同时,随着模型能力的提升,能解决的问题越来越多,应用的形态也将发生变化。

  谈及市场竞争,谭待表示,目前大模型市场仍处于早期阶段,因此豆包大模型更关注用户需求。他认为,只有通过推出好的模型和合理的价格,才能让更多用户使用,进而产生更多反馈和创新。

  豆包发布视觉理解模型

  研究显示,人类接受的信息超过80%来自视觉。视觉理解将极大地拓展大模型的能力边界,同时也会降低人们与大模型交互的门槛,为大模型解锁更丰富的应用场景。

  12月18日,字节跳动正式发布豆包视觉理解模型。

  谭待表示,聊天功能是很基础的功能,在工作、教育等各种场景都可能用到,但要加上深度推理、图像视觉理解等能力,才能处理更复杂的任务,解锁更多场景。这也是模型发展空间越来越大的前提。

  他认为,豆包视觉理解模型解锁了一个很大的场景。

  “因为语言是描述世界的,但理解事情首先得靠视觉,就像我们坐在一起聊天,得看到、感觉到事物,再说出信息交互,所以视觉理解对大模型的调用量和场景会有很大帮助。”谭待说。

  记者获悉,当前,豆包视觉理解模型的内容识别能力已经覆盖图像知识、动作情绪、位置状态、中国传统文化、文字信息、理解和推理能力(图表、数学、逻辑、代码等),以及更细腻的视觉描述能力(细节描述、指令遵循、多种文体创作等)。

  值得一提的是,豆包视觉理解模型千tokens输入价格仅为3厘,一元钱就可处理284张720P的图片,比行业价格便宜85%,以更低成本推动AI技术普惠和应用发展。

  谭待指出,豆包大模型市场份额的增长,得益于火山引擎“更强模型、更低成本、更易落地”的发展理念,让AI成为每一家企业都能用得起、用得好的普惠科技。

  他还表示,更低成本、更低门槛的多模态交互,能够在教育、电商、旅游、门店管理、金融、医疗等领域极大地拓展AI应用的场景和边界,在各行业加速推动大模型的落地。

  大模型高速发展

  “今年是大模型高速发展的一年。当你看到一列高速行驶的列车,最重要的事就是确保自己要登上这趟列车。通过AI云原生和豆包大模型家族,火山引擎希望帮助企业做好AI创新,驶向更美好的未来。”谭待说。

  今年以来,海内外多家科技企业积极投入资源押注视频生成产品,持续研发和迭代相关产品。

  比如,相较于今年2月份首次发布的版本,OpenAI在12月10日上线的Sora新增Storyboard、Remix、Re-cut等功能,视频再创作能力大幅提升,还优化了视频生成速度及生成方式。

  国内公司也紧随其后,纷纷发力AI视频生成产品。

  6月,快手发布可灵AI视频生成大模型,其主要功能包括文生视频、图生视频、视频续写等,可生成长达2分钟、分辨率达1080P的视频。

  7月,智谱AI上线视频生成产品智谱清影,并且在11月进行全新升级,支持生成时长为10秒的4K超高清视频。智谱清影还引入CogSound模型,可为生成的视频添加背景音乐。

  8月,字节跳动推出即梦AI一站式创作平台,11月宣布即梦AI两大视频模型S2.0Pro和P2.0Pro正式全量上线。

  记者获悉,近日,字节跳动视频生成模型PixelDance已在豆包电脑版正式开启内测,部分用户已开通体验入口。内测页面显示,用户每日可免费生成10个视频。

  PixelDance视频生成模型于9月底首次发布,最早通过即梦AI、火山引擎面向创作者和企业客户小范围邀测,外部对其多镜头组合、运镜切换及人物运动能力评价较好。

  据早期内测创作者介绍,当PixelDance生成10秒视频时,切换镜头3~5次的效果最佳,场景和角色能保持很好的一致性。通过小幅度、渐进式的提示词描述,PixelDance能生成魔术般的特效。此外,用户还可使用时序提示词、长镜头等技巧,增强视频的复杂度和表现力,对剧情创作非常友好。

  目前,基于该模型的视频生成能力已在豆包电脑版陆续开放。豆包相关负责人表示,未来仍将持续开放和优化该功能,更好地帮助普通用户创作和表达。

  行业应用落地加速

  当前,大模型正在向各行各业加速渗透。

  以豆包大模型为例,它已经与八成主流汽车品牌合作,并接入到多家品牌的手机、PC等智能终端,覆盖终端设备约3亿台,来自智能终端的豆包大模型调用量在近半年时间内增长100倍。

  数据显示,截至12月中旬,豆包通用模型的日均tokens使用量已超过4万亿,较七个月前首次发布时增长了33倍。

  在企业端的实践中,最近3个月,豆包大模型在信息处理场景的调用量增长了39倍,客服与销售场景增长16倍,硬件终端场景增长13倍,AI工具场景增长9倍,学习教育等场景也有增长。

  “大模型本身在很多场景,特别是生产力场景里面会非常‘大’。这些场景与生产力性能、商业场景相关,增速并不比聊天类场景慢,现在呈现多元化发展。”谭待表示。

  商业化方面,Omdia报告指出,生成式AI已经在各行各业得到广泛应用,尤其是在开源和专有大型语言模型(LLM)的推动下,生成式AI已经覆盖了120个行业应用场景。

  根据中国互联网络信息中心(CNNIC)发布的《生成式人工智能应用发展报告〔2024〕》,截至2024年6月,我国生成式人工智能产品的用户规模已达到2.3亿人,占整体人口的16.4%。

郑重声明:用户在财富号/股吧/博客等社区发表的所有信息(包括但不限于文字、视频、音频、数据及图表)仅代表个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
作者:您目前是匿名发表   登录 | 5秒注册 作者:,欢迎留言 退出发表新主题
郑重声明:用户在社区发表的所有资料、言论等仅代表个人观点,与本网站立场无关,不对您构成任何投资建议。用户应基于自己的独立判断,自行决定证券投资并承担相应风险。《东方财富社区管理规定》

扫一扫下载APP

扫一扫下载APP
信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-34289898 举报邮箱:jubao@eastmoney.com
沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:021-54509966/952500