大模型前沿速递 · 2026 年 6 月 13 日

大模型前沿速递 · 2026 年 6 月 13 日

今日五篇:MiniMax MSA 用双分支块稀疏注意力在 H800 上实现 1M 上下文 14.2 倍 prefill 加速(HF 日榜 #3);MIT EvoArena 揭示现有 Agent 在动态环境中平均准确率仅 39.6%,配套 EvoMem patch 记忆范式改善链级推理(日榜 #1);NVIDIA SpatialClaw 以持久 Python kernel 作为 action interface,20 项空间推理基准平均 59.9% 超越同类 +11.2pp(日榜 #2);InterleaveThinker 用 Planner-Critic 多 Agent 流水线为任意图像生成器赋予交错文图序列生成能力;MiniMax MaxProof 种群级测试时扩展让 M3 在 IMO 2025 达 35/42 超越人类金牌线。

大模型学术前沿
2026/6/13 · 8:07
購読 1 件 · コンテンツ 10 件

リサーチノート

今日五篇,来自 HuggingFace Papers 6 月 12 日榜单:MiniMax 发布超长上下文稀疏注意力框架 MSA(日榜 #3,GitHub 184 stars);MIT 提出 EvoArena 动态环境 Agent 基准与 EvoMem 记忆范式(日榜 #1,104 upvotes);NVIDIA 的 SpatialClaw 用持久 Python kernel 重构空间推理 Agent(日榜 #2,80 upvotes);InterleaveThinker 把任意图像生成器扩展为交错文图序列生成流水线(73 upvotes);MiniMax MaxProof 让 M3 在 IMO 2025 达 35/42 超越人类金牌线(69 upvotes)。

一、MiniMax Sparse Attention(MSA):百万 token 上下文的工程三角

预印本 · arXiv:2606.13392 · MiniMax 1
核心问题:Softmax 注意力的二次复杂度让百万 token 上下文在部署规模下不可行。现有稀疏注意力方案要么无法充分利用 tensor core,要么引入大量内核开销,实测加速比偏低。
方法亮点:MSA 基于标准 GQA 扩展,核心是双分支设计——Index Branch 只增加两个投影矩阵,把 KV 按 128-token 粒度分块打分后,为每个 GQA 组独立选出 Top-16 块;Main Branch 再对这些被选块做精确块稀疏注意力。整个机制的工程重心落在 GPU 内核层:使用无 exp 的 Top-k 选择(利用 softmax 保序性对原始分数排名,实测比 torch.topk 快 5.1 倍)、KV-outer 稀疏迭代把算术强度从约 16 拉到约 85,以及热「sink」块预分割跨 CTA 处理,零 atomics 写入。
Index Branch 的训练比较特别:Top-k 不可微,因此用 KL 散度对齐 Main Branch 的真实注意力分布(教师分支 stop_grad),辅助 loss 只作用在那两个投影矩阵上,不影响 LM 目标。
量化结论:在 109B MoE 模型、3T tokens 原生多模态训练上验证:1M 上下文时注意力 FLOPs 降低 28.4 倍,H800 上 prefill 加速 14.2 倍、decode 加速 7.6 倍,LM loss 与全注意力持平。还提供了一条现有检查点迁移路径:400B token 持续预训练后 RULER-128K 得分 72.12 vs. 基线 72.00(几乎无损)。内核代码已开源 2,对应生产模型 MiniMax-M3 已在 HuggingFace 发布 3
社区分析指出,MSA 的本质是「奥卡姆剃刀」:架构侧变化极小,加速收益集中来自内核层的算术强度优化——这对工业部署友好,改造现有模型的 recipe 成本可控。4
MiniMax Sparse Attention paper thumbnail
MSA 架构示意:Index Branch 独立选块,Main Branch 精确稀疏注意力。1

二、EvoArena:现有 Agent 在动态环境中平均准确率只有 39.6%

预印本 · arXiv:2606.13681 · MIT 5
核心问题:绝大多数 Agent 基准假设环境静态不变。真实部署中环境持续演化——操作系统版本升级、软件 API 变更、用户偏好漂移——Agent 必须能在自身知识落后于环境时仍完成任务,这一能力迄今缺乏系统评测。
方法亮点:EvoArena 将环境变化建模为「渐进式更新序列」,覆盖三个域:终端/命令行操作、软件使用、社会偏好适应。每个任务链要求 Agent 依次完成一系列有相互依赖关系的演化子任务(chain-level accuracy 度量此能力)。
配套提出的 EvoMem 记忆范式采用基于 patch 的更新历史记录:每次环境变化不是覆盖旧知识,而是附加一条结构化 patch,Agent 通过推理 patch 链来理解当前环境状态,而非直接查询过时的快照记忆。这一设计的直觉来自版本控制——diff/patch 比覆盖写更保留信息。
量化结论:当前 Agent 在 EvoArena 三个域的平均准确率为 39.6%,链级准确率更低——连续子任务有依赖,单步失误会级联。EvoMem 使 EvoArena 平均提升 +1.5%,链级准确率提升 +3.7%;在通用基准上也有增益:GAIA 提升 +6.1%,LoCoMo 提升 +4.8%。机制分析显示 EvoMem 改善了 Agent 对演化线索的证据捕获能力。6
EvoArena benchmark evaluation overview
EvoArena 基准概览:三个演化域分别对应终端、软件与社会偏好适应。5

三、SpatialClaw(NVIDIA):代码是空间推理 Agent 的最优 action interface

预印本 · arXiv:2606.13673 · NVIDIA 7
核心问题:VLM 的空间推理能力受限于工具调用接口设计。单轮代码执行(全策略提前确定再运行)对中间结果无感知;结构化 tool-call 接口灵活性不足,难以自由组合感知模块或针对每个任务定制分析路径。两种设计都不适合开放式 3D/4D 空间推理。
方法亮点:SpatialClaw 是免训练框架,核心选择是把代码(Python)作为 action interface:维护一个持久状态的 Python kernel,预加载当前帧和一套感知/几何原语;VLM 驱动的 Agent 每步只写一个可执行单元,基于所有历史输出条件决策,可在步骤间检查中间结果、调整策略。作者把这类设计称为「有状态交互式推理」——Agent 能看到自己之前算过的东西,再决定下一步算什么。
量化结论:在覆盖静态与动态 3D/4D 空间推理的 20 个基准上,SpatialClaw 平均准确率 59.9%,比同类空间 Agent 高 +11.2 个百分点,且在六个 VLM backbone(跨两个模型家族)上均有一致增益,无需任何基准或模型层面的特定适配。89
作者原话:「Code is the right action interface for spatial reasoning!!」——免训练、零 benchmark 特化的前提下,持久 kernel + 逐步可观测中间状态贡献了大部分增益,这对工具增强 VLM 的 Action Space 设计有参考价值。10

四、InterleaveThinker:用 Planner-Critic 多 Agent 流水线赋予任意图像生成器交错生成能力

预印本 · arXiv:2606.13679 11
核心问题:现有图像生成器(包括 FLUX、SDXL 等)只支持单次图像生成或编辑,不支持「交错生成」(interleaved generation)——即输出包含文本和图像交替的长序列,这对视觉叙事、操作指导、具身操作等场景至关重要。最新开源统一多模态模型在此能力上也表现有限。
方法亮点:InterleaveThinker 是免训练基底的多 Agent 流水线,在任意图像生成器外部叠加两个 Agent:Planner Agent 组织输入的图-文序列,为每一步给生成器下达指令;Critic Agent 评估生成器每步输出,识别偏离计划的样本,并精炼指令触发重新生成。
训练侧构建了三批数据:Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 用于格式冷启动,Interleave-Critic-RL-13k 用 GRPO 强化 Critic 的逐步指令修正能力。关键工程问题是:单条交错生成轨迹可能涉及 25+ 次生成器调用,对整条轨迹优化计算量极大,因此设计了 accuracy rewardstep-wise reward 两种奖励,让单步 RL 有效指导整条轨迹。
量化结论:在交错生成基准上达到与 Nano Banana 和 GPT-5 相当的表现;意外发现是 InterleaveThinker 也显著提升了基础模型在推理基准(WISE、RISE)上的成绩——4-step FLUX.2-klein 配置下提升明显。12

五、MaxProof(MiniMax):IMO 2025 达 35/42,超越人类金牌线

预印本 · arXiv:2606.13473 · MiniMax 13
核心问题:竞赛级数学证明需要 proof generation(生成)、proof verification(验证)、proof repair(修复)三种能力协同;现有单次采样方案在最高难度题目上天花板明显,测试时计算扩展的潜力尚未充分利用。
方法亮点:MaxProof 是 MiniMax-M3 系列中专为竞赛证明设计的种群级测试时扩展框架。训练阶段用「深度防御」式生成验证器(低假阳性率为首要设计目标)同时训练 proof generation、proof verification 和 critique-conditioned proof repair 三种能力,最终合并到单一发布的 M3 模型。
推理阶段,MaxProof 把同一 M3 模型同时用作生成器、验证器、精炼器和排名器,维护一批候选证明的种群,通过锦标赛选择(tournament selection)收敛到最终证明——这类似于进化算法中的种群搜索,但所有角色都由同一模型承担。
量化结论:MaxProof + 测试时扩展后,M3 在 IMO 2025 达到 35/42,在 USAMO 2026 达到 36/42,两项均超过人类金牌阈值。13
这是目前公开报告的最高 LLM 在 IMO 上的成绩之一。值得关注的是,MiniMax 在同一天发布了 MSA 和 MaxProof 两篇技术报告,两者都服务于 MiniMax-M3 这一基础模型,分别对应长上下文推理效率和高难度数学推理两个维度。
MaxProof paper thumbnail
MaxProof 种群级测试时扩展示意:同一 M3 模型同时充当生成器、验证器、精炼器和排名器。13

このコンテンツについて、さらに観点や背景を補足しましょう。

  • ログインするとコメントできます。