在 M2 系列模型发布后的几个月里,我们收到了大量用户的反馈和建议。这促使我们进一步加速模型的迭代效率。而唯一可行的途径,就是开启模型和组织的自我进化——MiniMax M2.7 是我们第一个深度参与迭代自身研发的模型。
M2.7 能够自行构建复杂的 Agent Harness,并基于 Agent Teams、复杂 Skills、Tool Search 等能力,完成高度复杂的生产力任务。在研发 M2.7 的过程中,我们让模型深度参与构建强化学习 Harness、更新自身 memory、驱动模型自身的强化学习,并基于结果持续优化——这就是模型的自我进化。
核心能力一览
1. 真实软件工程表现优异
M2.7 在软件工程领域覆盖了端到端项目交付、日志分析与 Bug 定位、代码重构、代码安全、机器学习等多个方向。在 SWE-Pro 基准测试中得分 56.22%,几乎追平 Opus 系列最高水平。这一能力延伸到完整项目交付(VIBE-Pro 55.6%)以及对复杂工程系统的深层理解(Terminal Bench 2 57.0%)。
2. 专业办公能力大幅提升
在 GDPval-AA 评测中,M2.7 在 45 个模型中的 ELO 得分达到 1500,为开源最高。M2.7 对 Office 三件套(Excel/PPT/Word)的复杂编辑能力显著提升,能完成多轮修改和高保真编辑。在 40 个复杂 Skills(>2000 Token)的测试中,仍保持 97% 的 Skills 遵循率。在 OpenClaw 社区的 MMClaw 评测中,M2.7 正确率达 62.7%,接近最新的 Sonnet 4.6。
3. 身份保持与情商
M2.7 具备优秀的身份保持能力和情商,为互动娱乐场景的创新预留了空间。
基于上述能力,M2.7 正在显著加速我们向 AI Native 组织的进化。
构建模型自我进化智能体
我们在 M2 早期版本中,将模型引导为一个研究型 Agent Harness——能与不同研究项目组交互协作,覆盖数据流水线、训练环境、评测基础设施、跨团队协作、持久化记忆等模块。
以 RL 场景为例:研究员提出实验想法,Agent 协助文献调研、跟踪实验规格、完成数据流水线并启动实验。实验运行期间,Agent 自动监控分析状态,触发日志读取、问题排查、指标分析、代码修复、合并请求等流程——以往需要多位同事协作的工作,现在研究员只需在关键决策时介入。M2.7 在此场景下能胜任 30-50% 的工作流。
我们还发现,模型自主迭代 harness 的能力至关重要。内部 harness 会自主收集反馈、建立评测集,并基于此迭代 Agent 架构、Skills/MCP 实现和记忆机制。
以 M2.7 优化内部脚手架的软件工程表现为例:模型全程自主运行,执行「分析失败轨迹 → 规划改动 → 修改代码 → 运行评测 → 对比结果 → 决定保留或回退」的迭代循环超过 100 轮。最终在内部评测集上效果提升 30%。
在 MLE Bench Lite 的 22 个机器学习任务测试中,M2.7 最好的一次取得 9 金、5 银、1 铜,三次平均得牌率 66.6%,仅次于 Opus-4.6(75.7%)和 GPT-5.4(71.2%),与 Gemini-3.1 持平。
真实的软件工程能力
在编程任务上,M2.7 不只擅长代码生成,更能深入理解软件系统。面对生产环境告警,M2.7 能关联监控指标与部署时间线做因果推理,对轨迹采样做统计分析并提出精准假设,主动连接数据库验证根因,定位到代码仓库中缺失的索引迁移文件——这类任务需要从可观测性分析、数据库专业知识到 SRE 级别决策判断的综合能力。基于 M2.7,我们已多次将线上故障恢复时间缩短到三分钟以内。
在单项编程能力上,SWE-Pro 56.22% 追平 GPT-5.3-Codex;SWE Multilingual(76.5)和 Multi SWE Bench(52.7)表现更优。VIBE-Pro 55.6% 几乎与 Opus 4.6 持平,意味着 Web、Android、iOS、Simulation 类需求都可直接交给 M2.7 完成。
Terminal Bench 2(57.0%)和 NL2Repo(39.8%)进一步印证了 M2.7 对复杂工程系统的深层理解能力。
另一个重要特性是原生的 Agent Teams(多智能体协作):模型需要稳定锚定角色身份、主动挑战队友的逻辑盲区、在复杂状态机中自主决策——这些无法通过提示词实现,必须内化为模型的原生能力。
专业办公与 Agent 进化
专业办公场景的核心在于两个能力:
专业知识与任务交付能力——在 GDPval-AA 评测中 M2.7 ELO 达 1500,仅次于 Opus 4.6、Sonnet 4.6、GPT5.4。我们系统性优化了 Word、Excel、PPT 的处理能力,使其既能够基于模板生成文件,也能遵从交互指令做多轮高保真编辑。
与复杂环境的交互能力——M2.7 在 Toolathon 上正确率 46.3%,达到全球第一梯队水平。在 Finance 领域,M2.7 能自主阅读年报与业绩沟通会纪要,交叉比对多篇研报,独立设计假设并构建营收预测模型,产出 PPT 和研究报告——像一个初级分析师一样工作,产出物可直接进入后续工作流程。
互动娱乐场景
用户在使用 Agent 完成工作的同时,也希望模型具备较高的情商和人设保持能力。这促使我们思考:产品设计、内容创作、甚至娱乐体验的构建,都可以被 AI 原生驱动。M2.7 极大加强了人设保持和对话能力,使 Agentic 模型的使用从单纯生产力拓展到互动娱乐。
基于此,我们构建了 OpenRoom Agent 交互系统,将 AI 互动置入一个万物皆可互动的 Web GUI 空间。对话即驱动,实时产生视觉反馈与场景交互,角色可以主动与环境交互。这个框架会随着模型 Agentic 能力的提升和社区共建持续进化。
立即体验 MiniMax M2.7,使用 专属订阅链接 购买 Token Plan,享 9 折优惠。
评论 (0)
暂无评论