新华财经上海1月15日电(记者杜康、龚雯)15日,MiniMax发布并开源新一代01系列模型,包含基础语言大模型 MiniMax-Text-01 和视觉多模态大模型MiniMax-VL-01。
MiniMax目前估值超10亿美金,与智谱AI、阶跃星辰、月之暗面等6家大模型企业一同被行业称为国内“大模型六小虎”。
从参数看,MiniMax新一代01系列模型参数量为4560亿,其中每次激活459亿,能够高效处理高达400万token的上下文,将开启超长文本输入时代。性能方面,尤其是在业界主流的文本和多模态理解任务处理表现上,MiniMax-01系列模型大多情况下可以追平海外公认最先进的两个模型GPT-4o-1120以及Claude-3.5-sonnet-1022。
记者了解到,此次MiniMax-01系列模型,首次将线性注意力机制扩展到商用模型的级别,该系列模型在处理长输入的时候显现出明显优势。随着此次大模型的发布,MiniMax从过去的“闭源”正式踏上了开源技术路线。
目前,MiniMax-01系列开源模型已应用于MiniMax旗下产品海螺AI并在全球上线,企业与个人开发者可前往MiniMax开放平台使用API。
从此次MiniMax-01系列大模型的发布,可以窥得一些行业的最新趋势。前不久,DeepSeek-V3因其训练成本之低引发国内外热议。有行业人士表示,效率是2025年大模型行业的关键词之一。大多数大模型公司未来要“降本增效”,事实上,优化注意力机制、采用MOE架构、降低模型激活的参数量等,都已经是很主流的降本方式。
从MiniMax-01系列开源模型来看,受益于Linear Attention层面的架构创新、算力层面的优化,以及集群上的训推一体的设计,MiniMax以业内极具性价比的价格提供文本模型和多模态理解模型的API服务,标准定价是输入token 1元/百万token,输出token 8元/百万token。
此外,AI Agent时代对长文本的高需求。MiniMax相关负责人表示,2025年AI将迎来至关重要的发展节点,AI Agent有望成为新一年最重要的产品形态,引领AI从传统的“工具”角色向更具互动性与协作性的“伙伴”角色转变。AI Agent时代,由于智能体处理的任务变得越来越复杂,涉及的数据量也越来越大,单个智能体的记忆以及多个智能体协作间的上下文都会变得越来越长。因此,长上下文能力与多模态处理能力的提升,是AI Agent为各行业带来更为丰富、高效、智能的解决方案的必要条件。
记者获悉,MiniMax已经在Github上开源了Text-01模型、VL-01模型的完整权重,以便于更多开发者做有价值、突破性的研究。MiniMax称,希望启发更多长上下文的研究和应用,从而更快促进Agent时代的到来;开源也能促使MiniMax不断创新,更高质量开展后续模型研发工作。