MiniMax M3：一家AI公司，为什么开始重新定义自己的价值？

体育前沿资讯

在过往，人工智能领域内的竞争焦点集中在“谁拥有最先进的模型”。模型参数量、推理能力以及在各项基准测试中的排名，几乎占据了所有AI公司发布会的全部内容。无论是OpenAI、Anthropic，还是国内的智谱、MiniMax、月之暗面，它们的对外宣传方式都高度相似。对于第一代大型模型公司而言，“模型越智能，公司价值越高”是其共同的价值叙事。

然而，这种叙事正在发生转变。以MiniMax M3的发布为例，其最引人注目的亮点已不再仅仅是模型本身的能力，而是BrowserComp、SWE Bench、Terminal Bench、OSWorld、MCP Atlas等一系列新的评测体系。这些评测的共同之处在于，它们不再关注模型“知道什么”，而是聚焦于模型“能够完成什么”。

许多人将这一转变解读为“Agent”概念的兴起。但若将时间线拉长来看，M3更具深远意义之处，并非Agent本身，而是MiniMax对其自身价值的重新定义。它开始尝试回答一个在行业内曾被忽视的问题：一家AI公司真正销售的，究竟是什么？

第一代AI公司，销售的是“智能”

在过去的几年里，竞争逻辑相当直接：模型的强大能力即是产品，而各项基准测试（Benchmark）则代表了其价值。MMLU、GSM8K、HumanEval、LiveCodeBench等测试，其意义远超技术检验，它们更像是一套市场普遍认可的价值衡量标准。如同CPU有SPEC，GPU有MLPerf，数据库有TPC一样，成熟的产业都需要统一的标准来解读产品价值、指导采购决策，并帮助资本形成共识。因此，模型参数的规模和排行榜上的位置，成为市场理解一家AI公司最直观的途径。在此阶段，模型本身就是核心商品。

MiniMax M3发布过程中一个值得注意的细节是，MiniMax投入了大量篇幅介绍另一类能力。SWE Bench、BrowserComp、Terminal Bench、OSWorld、MCP等测试，它们的一个共同点是，几乎不关心模型是否能回答问题。它们更关注模型能否修复实际的软件缺陷（Bug），能否独立完成网页浏览操作，能否在开发环境中执行任务，能否与企业现有系统集成，以及能否独立完成一项完整的工作。换言之，评测的对象发生了变化：过去评测的是“智能”（Intelligence），现在则转向“任务完成度”（Task Completion）。模型首次面临的是“岗位考核”，而非简单的“知识考试”。这不仅是评测体系的革新，更是MiniMax向市场传递的信号：虽然模型能力依旧至关重要，但真正驱动商业价值的，将是其执行工作的能力。

MiniMax为何开始侧重“工作能力”？

此前，大型模型的关键用户主要是开发者，他们购买的是模型的能力，并关注其是否更智能、能否解决更复杂的问题。然而，企业用户的需求不同。企业在采购AI时，很少关心模型在排行榜上的具体位置，而是更关注它能帮助业务完成多少工作、节省多少人力、融入多少现有流程，以及提升多少效率。

因此，产品的表达方式也随之改变。例如，“浏览器”能力不再仅仅是浏览网页，而是融入办公流程；“编程”能力不再只是代码生成，而是进入研发流程；“终端”能力则从单纯的Linux命令，演变为对开发环境的适配；“MCP”能力不再局限于协议，而是深入企业已有的软件系统。将这些能力整合来看，MiniMax所展示的，已不再是单一的模型，而是一套能够支持工作流的能力体系。

从Token到Workflow，商业模式的演进

许多人仍将AI公司视为API服务提供商，其收入模式基于Token消耗。调用次数越多，收入越高，这是早期AI的商业模式。然而，一种新的趋势正在显现：越来越多的企业购买AI服务，并非为了获得更多的回答，而是为了完成更多实际工作。例如，修复一个Bug、整理一次会议纪要、处理一张工单、分析一份合同、完成一次网页数据抓取等，这些都标志着价值单位的转变。过去，一次调用对应一个回答（Answer）；如今，一次调用越来越指向一项任务（Task）。MiniMax M3的产品设计也愈发围绕这一逻辑展开。

模型正在成为底层基础设施，而工作流（Workflow）则成为核心产品。将M3置于整个行业背景下审视，它代表了一种新的产品叙事。越来越多的AI公司开始证明其在“工作能力”方面的优势。这种变化并非MiniMax独有。Claude Code强调开发工作流，OpenAI的Operator和Computer Use关注任务执行，Google则不断强化Gemini在Workspace和浏览器中的协同能力。整个行业正围绕“工作流”和“生产力”（Productivity）这一新的竞争单元展开角力。

资本为何关注此类转变？

资本市场关注的焦点始终是技术如何转化为持续的收入流，而非技术领先本身。模型能力可以构建技术壁垒，而工作流能力则更容易构建商业壁垒。一旦工作流被企业采纳，就意味着数据沉淀、流程绑定、员工习惯的形成以及与现有系统的深度集成。这些因素共同作用，能够带来更高的续约率、更强的客户粘性，以及更稳健的商业模式。因此，越来越多的AI公司正将其产品叙事从模型能力转向工作能力。这并非放弃模型研发，而是在探索模型之外更长远的价值来源。

从更高层面来看，M3最值得关注的并非某个具体的Benchmark测试，而是MiniMax对未来竞争对手的重新定义：它不再仅仅是与模型公司竞争，而是开始瞄准企业工作入口、浏览器、集成开发环境（IDE）、办公套件（Office）、企业资源规划（ERP）、客户关系管理（CRM）等领域。企业数据不会沉淀在一次次的对话中，而是最终汇聚在日常的工作流里。谁能更深入地融入企业的工作流，谁就拥有更坚实的商业基础。从这个角度看，MiniMax未来的竞争对手，不仅包括OpenAI或Anthropic，更涵盖了所有定义企业工作方式的软件平台。

结语：AI公司价值重构的开端

如果说过去大型模型的竞争是围绕“智能”展开，那么MiniMax M3所展示的，则是另一种竞争逻辑。模型依然重要，但它们正从产品本身，转变为支撑产品的基础设施。真正被推到前台的，是模型如何融入企业、连接软件、完成实际工作。对MiniMax而言，这或许比一次Benchmark的排名更具意义，因为它标志着公司开始尝试解答一个新问题：当模型能力逐渐趋同，一家AI公司还能凭借什么建立长期价值？

M3给出的答案，不是更多的参数或更高的排名，而是更多地赋能真实工作。这或许也是AI行业进入下一阶段的最重要信号。未来，决定一家AI公司价值的，不再仅仅是模型有多么“聪明”，而是它能够帮助企业重塑多少生产力。