今天,上海稀宇科技公司(MiniMax)发布并开源了新一代01系列人工智能模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。该系列模型实现突破性创新,以大规模应用“线性注意力”机制突破了Transformer(转换器)大模型架构的记忆瓶颈,不仅在综合性能上比肩GPT-4o、Claude-3.5等国外领先模型,而且能高效处理高达400万token(词元)的输入,可输入长度是GPT-4o的32倍、Claude-3.5-Sonnet的20倍。
目前,MiniMax-01系列开源模型已应用于“海螺AI”并在全球上线,企业与个人开发者可登录MiniMax开放平台,使用API(应用程序编程接口)。
多个国际知名大模型的输入长度和处理效率比较
2017年,谷歌研发团队的一篇重要论文发表,提出Transformer架构。近年来,这一架构已成为大模型的主流技术范式。然而从2023年起,自然语言处理领域出现了一股创新浪潮,对模型架构的创新需求日益增加。“线性注意力”机制就是一种潜在的新架构,它通过算法优化,把传统模型架构中输入长度和计算复杂度之间的平方增长关系变成线性关系,跨出了“实现无限长的输入和输出”的关键一步。
如今,MiniMax-01系列模型首次将“线性注意力”机制扩展到商用模型级别,并使其综合能力跻身全球大模型第一梯队。受益于架构创新,该系列模型在处理长输入时具有非常高的效率,接近线性复杂度。稀宇科技选择的模型参数量为4560亿,其中每次激活459亿,能高效处理高达400万token的上下文,将有效替代Transformer架构,开启“超长文本输入”时代。
除了应用创新架构,MiniMax还大规模重构了01系列模型的训练和推理系统,包括更高效的MoE(混合专家模型)All-to-all(所有设备之间进行数据交换)通信优化、更长的序列优化,以及推线性注意力层的高效Kernel(实时操作系统)实现,使模型能力可与国际顶级闭源模型相媲美。
面对文本和多模态理解任务,MiniMax-01系列模型在大多数情况下能追平GPT-4o-1120和Claude-3.5-sonnet-1022这两个国外领先大模型。过去的模型能力评测中,谷歌研发的Gemini大模型有显著的长文优势。而今,在Gemini参与的长文任务评测中,01系列模型随着文本输入长度变长,性能衰减最慢,显示出很好效果。
多项任务评测显示,MiniMax-01系列模型核心性能处于全球第一梯队。
今年,人工智能将迎来新的发展节点,AI Agent(智能体)有望成为最重要的大模型产品形态,引领AI从传统的工具角色向更具互动性和协作性的伙伴角色转变。
稀宇科技创始人闫俊杰博士认为,在即将到来的AI Agent时代,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升,是智能体为各行业带来更丰富、高效、智能的解决方案的必要条件。
为此,MiniMax在Github平台上开源了Text-01模型、VL-01模型的完整权重,让开发者在此基础上做有价值、突破性的研究。“我们认为这有可能启发更多长上下文的研究和应用,从而更快促进AI Agent时代的到来。开源也能促使我们做更多创新,开展更高质量的模型后续研发工作。”闫俊杰说。