在 M2 系列模型发布后的几个月里，我们收到了大量用户的反馈和建议。这促使我们进一步加速模型的迭代效率。而唯一可行的途径，就是开启模型和组织的自我进化——MiniMax M2.7 是我们第一个深度参与迭代自身研发的模型。

M2.7 能够自行构建复杂的 Agent Harness，并基于 Agent Teams、复杂 Skills、Tool Search 等能力，完成高度复杂的生产力任务。在研发 M2.7 的过程中，我们让模型深度参与构建强化学习 Harness、更新自身 memory、驱动模型自身的强化学习，并基于结果持续优化——这就是模型的自我进化。

核心能力一览

1. 真实软件工程表现优异

M2.7 在软件工程领域覆盖了端到端项目交付、日志分析与 Bug 定位、代码重构、代码安全、机器学习等多个方向。在 SWE-Pro 基准测试中得分 56.22%，几乎追平 Opus 系列最高水平。这一能力延伸到完整项目交付（VIBE-Pro 55.6%）以及对复杂工程系统的深层理解（Terminal Bench 2 57.0%）。

2. 专业办公能力大幅提升

在 GDPval-AA 评测中，M2.7 在 45 个模型中的 ELO 得分达到 1500，为开源最高。M2.7 对 Office 三件套（Excel/PPT/Word）的复杂编辑能力显著提升，能完成多轮修改和高保真编辑。在 40 个复杂 Skills（>2000 Token）的测试中，仍保持 97% 的 Skills 遵循率。在 OpenClaw 社区的 MMClaw 评测中，M2.7 正确率达 62.7%，接近最新的 Sonnet 4.6。

3. 身份保持与情商

M2.7 具备优秀的身份保持能力和情商，为互动娱乐场景的创新预留了空间。

基于上述能力，M2.7 正在显著加速我们向 AI Native 组织的进化。

构建模型自我进化智能体

我们在 M2 早期版本中，将模型引导为一个研究型 Agent Harness——能与不同研究项目组交互协作，覆盖数据流水线、训练环境、评测基础设施、跨团队协作、持久化记忆等模块。

以 RL 场景为例：研究员提出实验想法，Agent 协助文献调研、跟踪实验规格、完成数据流水线并启动实验。实验运行期间，Agent 自动监控分析状态，触发日志读取、问题排查、指标分析、代码修复、合并请求等流程——以往需要多位同事协作的工作，现在研究员只需在关键决策时介入。M2.7 在此场景下能胜任 30-50% 的工作流。

我们还发现，模型自主迭代 harness 的能力至关重要。内部 harness 会自主收集反馈、建立评测集，并基于此迭代 Agent 架构、Skills/MCP 实现和记忆机制。

以 M2.7 优化内部脚手架的软件工程表现为例：模型全程自主运行，执行「分析失败轨迹 → 规划改动 → 修改代码 → 运行评测 → 对比结果 → 决定保留或回退」的迭代循环超过 100 轮。最终在内部评测集上效果提升 30%。

在 MLE Bench Lite 的 22 个机器学习任务测试中，M2.7 最好的一次取得 9 金、5 银、1 铜，三次平均得牌率 66.6%，仅次于 Opus-4.6（75.7%）和 GPT-5.4（71.2%），与 Gemini-3.1 持平。

真实的软件工程能力

在编程任务上，M2.7 不只擅长代码生成，更能深入理解软件系统。面对生产环境告警，M2.7 能关联监控指标与部署时间线做因果推理，对轨迹采样做统计分析并提出精准假设，主动连接数据库验证根因，定位到代码仓库中缺失的索引迁移文件——这类任务需要从可观测性分析、数据库专业知识到 SRE 级别决策判断的综合能力。基于 M2.7，我们已多次将线上故障恢复时间缩短到三分钟以内。

在单项编程能力上，SWE-Pro 56.22% 追平 GPT-5.3-Codex；SWE Multilingual（76.5）和 Multi SWE Bench（52.7）表现更优。VIBE-Pro 55.6% 几乎与 Opus 4.6 持平，意味着 Web、Android、iOS、Simulation 类需求都可直接交给 M2.7 完成。

Terminal Bench 2（57.0%）和 NL2Repo（39.8%）进一步印证了 M2.7 对复杂工程系统的深层理解能力。

另一个重要特性是原生的 Agent Teams（多智能体协作）：模型需要稳定锚定角色身份、主动挑战队友的逻辑盲区、在复杂状态机中自主决策——这些无法通过提示词实现，必须内化为模型的原生能力。

专业办公与 Agent 进化

专业办公场景的核心在于两个能力：

专业知识与任务交付能力——在 GDPval-AA 评测中 M2.7 ELO 达 1500，仅次于 Opus 4.6、Sonnet 4.6、GPT5.4。我们系统性优化了 Word、Excel、PPT 的处理能力，使其既能够基于模板生成文件，也能遵从交互指令做多轮高保真编辑。

与复杂环境的交互能力——M2.7 在 Toolathon 上正确率 46.3%，达到全球第一梯队水平。在 Finance 领域，M2.7 能自主阅读年报与业绩沟通会纪要，交叉比对多篇研报，独立设计假设并构建营收预测模型，产出 PPT 和研究报告——像一个初级分析师一样工作，产出物可直接进入后续工作流程。

互动娱乐场景

用户在使用 Agent 完成工作的同时，也希望模型具备较高的情商和人设保持能力。这促使我们思考：产品设计、内容创作、甚至娱乐体验的构建，都可以被 AI 原生驱动。M2.7 极大加强了人设保持和对话能力，使 Agentic 模型的使用从单纯生产力拓展到互动娱乐。

基于此，我们构建了 OpenRoom Agent 交互系统，将 AI 互动置入一个万物皆可互动的 Web GUI 空间。对话即驱动，实时产生视觉反馈与场景交互，角色可以主动与环境交互。这个框架会随着模型 Agentic 能力的提升和社区共建持续进化。

立即体验 MiniMax M2.7，使用专属订阅链接购买 Token Plan，享 9 折优惠。

MiniMax M2.7: 开启模型的自我进化

核心能力一览

构建模型自我进化智能体

真实的软件工程能力

专业办公与 Agent 进化

互动娱乐场景

评论 (0)