大模型前沿速递 · 2026 年 6 月 13 日

今日五篇，来自 HuggingFace Papers 6 月 12 日榜单：MiniMax 发布超长上下文稀疏注意力框架 MSA（日榜 #3，GitHub 184 stars）；MIT 提出 EvoArena 动态环境 Agent 基准与 EvoMem 记忆范式（日榜 #1，104 upvotes）；NVIDIA 的 SpatialClaw 用持久 Python kernel 重构空间推理 Agent（日榜 #2，80 upvotes）；InterleaveThinker 把任意图像生成器扩展为交错文图序列生成流水线（73 upvotes）；MiniMax MaxProof 让 M3 在 IMO 2025 达 35/42 超越人类金牌线（69 upvotes）。

一、MiniMax Sparse Attention（MSA）：百万 token 上下文的工程三角

预印本 · arXiv:2606.13392 · MiniMax 1

核心问题：Softmax 注意力的二次复杂度让百万 token 上下文在部署规模下不可行。现有稀疏注意力方案要么无法充分利用 tensor core，要么引入大量内核开销，实测加速比偏低。

方法亮点：MSA 基于标准 GQA 扩展，核心是双分支设计——Index Branch 只增加两个投影矩阵，把 KV 按 128-token 粒度分块打分后，为每个 GQA 组独立选出 Top-16 块；Main Branch 再对这些被选块做精确块稀疏注意力。整个机制的工程重心落在 GPU 内核层：使用无 exp 的 Top-k 选择（利用 softmax 保序性对原始分数排名，实测比 torch.topk 快 5.1 倍）、KV-outer 稀疏迭代把算术强度从约 16 拉到约 85，以及热「sink」块预分割跨 CTA 处理，零 atomics 写入。

Index Branch 的训练比较特别：Top-k 不可微，因此用 KL 散度对齐 Main Branch 的真实注意力分布（教师分支 stop_grad），辅助 loss 只作用在那两个投影矩阵上，不影响 LM 目标。

量化结论：在 109B MoE 模型、3T tokens 原生多模态训练上验证：1M 上下文时注意力 FLOPs 降低 28.4 倍，H800 上 prefill 加速 14.2 倍、decode 加速 7.6 倍，LM loss 与全注意力持平。还提供了一条现有检查点迁移路径：400B token 持续预训练后 RULER-128K 得分 72.12 vs. 基线 72.00（几乎无损）。内核代码已开源 2，对应生产模型 MiniMax-M3 已在 HuggingFace 发布 3。

社区分析指出，MSA 的本质是「奥卡姆剃刀」：架构侧变化极小，加速收益集中来自内核层的算术强度优化——这对工业部署友好，改造现有模型的 recipe 成本可控。4

MiniMax Sparse Attention paper thumbnail — MSA 架构示意：Index Branch 独立选块，Main Branch 精确稀疏注意力。1

二、EvoArena：现有 Agent 在动态环境中平均准确率只有 39.6%

预印本 · arXiv:2606.13681 · MIT 5

核心问题：绝大多数 Agent 基准假设环境静态不变。真实部署中环境持续演化——操作系统版本升级、软件 API 变更、用户偏好漂移——Agent 必须能在自身知识落后于环境时仍完成任务，这一能力迄今缺乏系统评测。

方法亮点：EvoArena 将环境变化建模为「渐进式更新序列」，覆盖三个域：终端/命令行操作、软件使用、社会偏好适应。每个任务链要求 Agent 依次完成一系列有相互依赖关系的演化子任务（chain-level accuracy 度量此能力）。

配套提出的 EvoMem 记忆范式采用基于 patch 的更新历史记录：每次环境变化不是覆盖旧知识，而是附加一条结构化 patch，Agent 通过推理 patch 链来理解当前环境状态，而非直接查询过时的快照记忆。这一设计的直觉来自版本控制——diff/patch 比覆盖写更保留信息。

量化结论：当前 Agent 在 EvoArena 三个域的平均准确率为 39.6%，链级准确率更低——连续子任务有依赖，单步失误会级联。EvoMem 使 EvoArena 平均提升 +1.5%，链级准确率提升 +3.7%；在通用基准上也有增益：GAIA 提升 +6.1%，LoCoMo 提升 +4.8%。机制分析显示 EvoMem 改善了 Agent 对演化线索的证据捕获能力。6

EvoArena benchmark evaluation overview — EvoArena 基准概览：三个演化域分别对应终端、软件与社会偏好适应。5

三、SpatialClaw（NVIDIA）：代码是空间推理 Agent 的最优 action interface

预印本 · arXiv:2606.13673 · NVIDIA 7

核心问题：VLM 的空间推理能力受限于工具调用接口设计。单轮代码执行（全策略提前确定再运行）对中间结果无感知；结构化 tool-call 接口灵活性不足，难以自由组合感知模块或针对每个任务定制分析路径。两种设计都不适合开放式 3D/4D 空间推理。

方法亮点：SpatialClaw 是免训练框架，核心选择是把代码（Python）作为 action interface：维护一个持久状态的 Python kernel，预加载当前帧和一套感知/几何原语；VLM 驱动的 Agent 每步只写一个可执行单元，基于所有历史输出条件决策，可在步骤间检查中间结果、调整策略。作者把这类设计称为「有状态交互式推理」——Agent 能看到自己之前算过的东西，再决定下一步算什么。

量化结论：在覆盖静态与动态 3D/4D 空间推理的 20 个基准上，SpatialClaw 平均准确率 59.9%，比同类空间 Agent 高 +11.2 个百分点，且在六个 VLM backbone（跨两个模型家族）上均有一致增益，无需任何基准或模型层面的特定适配。8 9

作者原话：「Code is the right action interface for spatial reasoning!!」——免训练、零 benchmark 特化的前提下，持久 kernel + 逐步可观测中间状态贡献了大部分增益，这对工具增强 VLM 的 Action Space 设计有参考价值。10

四、InterleaveThinker：用 Planner-Critic 多 Agent 流水线赋予任意图像生成器交错生成能力

预印本 · arXiv:2606.13679 11

核心问题：现有图像生成器（包括 FLUX、SDXL 等）只支持单次图像生成或编辑，不支持「交错生成」（interleaved generation）——即输出包含文本和图像交替的长序列，这对视觉叙事、操作指导、具身操作等场景至关重要。最新开源统一多模态模型在此能力上也表现有限。

方法亮点：InterleaveThinker 是免训练基底的多 Agent 流水线，在任意图像生成器外部叠加两个 Agent：Planner Agent 组织输入的图-文序列，为每一步给生成器下达指令；Critic Agent 评估生成器每步输出，识别偏离计划的样本，并精炼指令触发重新生成。

训练侧构建了三批数据：Interleave-Planner-SFT-80k 和 Interleave-Critic-SFT-112k 用于格式冷启动，Interleave-Critic-RL-13k 用 GRPO 强化 Critic 的逐步指令修正能力。关键工程问题是：单条交错生成轨迹可能涉及 25+ 次生成器调用，对整条轨迹优化计算量极大，因此设计了 accuracy reward 和 step-wise reward 两种奖励，让单步 RL 有效指导整条轨迹。

量化结论：在交错生成基准上达到与 Nano Banana 和 GPT-5 相当的表现；意外发现是 InterleaveThinker 也显著提升了基础模型在推理基准（WISE、RISE）上的成绩——4-step FLUX.2-klein 配置下提升明显。12

五、MaxProof（MiniMax）：IMO 2025 达 35/42，超越人类金牌线

预印本 · arXiv:2606.13473 · MiniMax 13

核心问题：竞赛级数学证明需要 proof generation（生成）、proof verification（验证）、proof repair（修复）三种能力协同；现有单次采样方案在最高难度题目上天花板明显，测试时计算扩展的潜力尚未充分利用。

方法亮点：MaxProof 是 MiniMax-M3 系列中专为竞赛证明设计的种群级测试时扩展框架。训练阶段用「深度防御」式生成验证器（低假阳性率为首要设计目标）同时训练 proof generation、proof verification 和 critique-conditioned proof repair 三种能力，最终合并到单一发布的 M3 模型。

推理阶段，MaxProof 把同一 M3 模型同时用作生成器、验证器、精炼器和排名器，维护一批候选证明的种群，通过锦标赛选择（tournament selection）收敛到最终证明——这类似于进化算法中的种群搜索，但所有角色都由同一模型承担。

量化结论：MaxProof + 测试时扩展后，M3 在 IMO 2025 达到 35/42，在 USAMO 2026 达到 36/42，两项均超过人类金牌阈值。13

这是目前公开报告的最高 LLM 在 IMO 上的成绩之一。值得关注的是，MiniMax 在同一天发布了 MSA 和 MaxProof 两篇技术报告，两者都服务于 MiniMax-M3 这一基础模型，分别对应长上下文推理效率和高难度数学推理两个维度。