隐式推理最新调研站（自动更新）

2026-02-05 · Latent Reasoning / Multimodal

Multimodal Latent Reasoning via Hierarchical Visual Cues Injection

机构/学校：Nanyang Technological University; Huawei Noah's Ark Lab

核心思路（中文）：提出 HIVE：在 Huginn 的 loop transformer 上引入递归推理（recurrent blocks），让模型在潜空间里做多步“慢思考”而不依赖长文本CoT。关键是把视觉信息按层级（全局场景→局部区域）注入到每轮递归的隐状态中，使迭代精炼过程始终被视觉线索约束，从而提升复杂场景的推理与抗幻觉能力。

Core Idea (EN):HIVE enables deliberate multimodal reasoning in latent space via loop-transformer recurrence, grounding each refinement step by injecting hierarchical visual cues from global context to fine-grained regions.

亮点：1) 递归潜推理带来显著提升：ScienceQA-Img 从 r=1 的 60.09 提升到 r=32 且带层级视觉线索的 91.57（Table 5/正文）。 2) 层级视觉线索确实有增益：同为 r=32 时，SQAimg 91.57（w/ Hier）> 89.39（w/o Hier）（Table 5）。 3) 小模型也能打：4B 参数在 ScienceQA-Img 上 91.6、POPE 87.6（Table 4），并在 MMBench dev 达到 69.6。

成本：1. 效果成本：性能对递归深度敏感且存在边际收益递减：SQAimg 在 r=32 达到 91.57%，继续加深到 r=64 仅 91.27%（正文“Performance Saturation”段落）。 2. 长度成本：推理依赖多次递归计算；作者默认评测 r=32（Table 5/正文），等价于 32 次迭代推理步数，带来额外时延/算力（未给出ms）。 3. 人力成本：需要实现 loop transformer 的 recurrent blocks、层级视觉特征提取/注入（从全局到区域），以及三阶段训练管线与对齐细节（§4.1）。 4. 实验成本：三阶段训练，最终 Stage3 使用 3.4M samples；整体训练数据规模 6.5M samples（Table 4，§4.1），评测覆盖 MMStar/MMBench/ScienceQA-Img/POPE 等多基准。

收益：1. 效果收益：HIVE (r=32, w/ Hier.) 在 SQAimg=91.57、MMStar=49.79、MMBdev=69.59、POPE=87.61（Table 5）。 2. 长度收益：未检索到/需验证（论文强调“test-time scaling/recurrence”，但未给出token量或端到端时延对比）。 3. 训练收益：以较小训练规模达成强结果：训练数据 6.5M samples；对比 Gemma3-4B-PT 的 4T tokens 预训练规模（Table 4）。

优势：不靠长文本CoT监督，直接在潜空间做递归精炼，适合多模态推理的“慢思考”建模。层级视觉线索注入把迭代推理锚定在视觉证据上，带来可量化增益（SQAimg 91.57 vs 89.39）。 4B 规模在知识型VQA与抗幻觉指标上表现强（SQAimg 91.6、POPE 87.6）。

不足：推理计算开销主要来自递归步数；论文未给出可直接用于部署预算的ms/吞吐数据（未检索到/需验证）。对 OCR/图表类任务并非全面领先：如 TextVQAval 57.5 低于 MobileVLM V2 的 62.3（Table 4）。递归加深存在饱和区（r=32→64 几乎不再提升），需要额外调参选择合适 r。

2026-02-05 · Reasoning General

Allocentric Perceiver: Disentangling Allocentric Reasoning from Egocentric Visual Priors via Frame Instantiation

机构/学校：University of Science and Technology of China; National University of Singapore

核心思路（中文）：提出 Allocentric Perceiver/Alloceiver：把“视角切换”从 VLM 的隐式心智旋转中拿出来，改为先用现成几何专家从图像恢复可解释的 3D 量化状态（点云/位姿），再根据指令动态实例化以目标物体为锚的 allocentric 参考系，并在该坐标系下做符号化几何推理。这样在不训练模型的前提下，显式消除 egocentric 视觉先验与 allocentric 查询之间的视觉-语义歧义。

Core Idea (EN):Allocentric Perceiver (Alloceiver) is a training-free framework that recovers metric 3D states and dynamically instantiates a query-conditioned allocentric frame to perform geometry-grounded reasoning, decoupling allocentric queries from egocentric visual priors.

亮点：1) 训练-free 但增益大：在 ViewSpatial-Bench+3DSRBench 的 allocentric 平均准确率上，+Alloceiver 相对原模型提升 +8.33（Qwen2.5VL-7B：32.92→41.25）、+10.84（Qwen2.5VL-32B：35.89→46.73）、+10.73（InternVL2.5-38B：39.59→50.32）、+10.98（GPT-4o：39.81→50.79）（Table 1）。 2) 不只是“补 allocentric”：egocentric 平均准确率也提升 2.21–8.28（如 GPT-4o：52.27→60.55，+8.28；Qwen2.5VL-32B：54.56→61.72，+7.16）（Table 1）。 3) 指出 Reference Frame Gap 的可复现证据：去掉图像会让 egocentric 任务下降 14.80%，但 allocentric 反而提升 1.12%（Qwen2.5VL-7B，Figure 2 附近正文），说明“视觉先验”会对 allocentric 产生对抗信号。

成本：1. 效果成本：在部分子任务上并非单调提升，例如 Qwen2.5VL-7B 的 Orient. Front 59.45→57.70（-1.75）（Table 1）。 2. 长度成本：未检索到/需验证（论文强调最终推理阶段可不输入图像以避免视觉先验，但未给出 token 用量或端到端时延/吞吐数字）。 3. 人力成本：需要集成多种外部几何/检测专家（如 LangSAM、head pose estimator、3D estimator 等）并实现“动态参考系实例化 + 坐标变换 + 结构化提示”的工程链路（§3.1–3.3）。 4. 实验成本：评测覆盖 ViewSpatial-Bench 与 3DSRBench，并对多 backbones（Qwen2.5VL-7B/32B、InternVL2.5-38B、GPT-4o 等）进行对照（Table 1/2），复现实验面较大。

收益：1. 效果收益：Allocentric Avg 的绝对提升可直接抄录：Qwen2.5VL-7B 32.92→41.25（+8.33），Qwen2.5VL-32B 35.89→46.73（+10.84），InternVL2.5-38B 39.59→50.32（+10.73），GPT-4o 39.81→50.79（+10.98）（Table 1）。 2. 长度收益：未检索到/需验证。 3. 训练收益：训练-free（无需对 backbone 做额外训练/微调；方法为推理时的几何恢复 + 提示注入，Abstract/§3）。

优势：直击“参考系歧义”根因：把 allocentric 任务里最难的视角切换做成显式坐标变换，减少模型在语言空间里做心智旋转。 backbone-agnostic：同一套增强在开源与闭源 VLM 上都能带来 8–11 点 allocentric 平均提升（Table 1）。工程接口清晰：输出是几何结构化文本提示，可作为模块插入现有 VLM 推理链路。

不足：依赖外部几何专家质量与鲁棒性：3D 恢复/检测出错会直接把错误坐标系注入推理，失败模式可能更“硬”。系统级部署指标缺失：缺少端到端时延(ms)、吞吐、显存/并行等数字，难直接评估上线成本（未检索到/需验证）。在某些子任务上存在回退（如 Qwen2.5VL-7B 的 Orient. Front 下降），需要任务级保护/回退策略（Table 1）。

2026-02-04T16:54:47Z · RL/Policy

When Silence Is Golden: Can LLMs Learn to Abstain in Temporal QA and Beyond?

机构/学校：HKUST (GZ); Tongji University; University of Tübingen; HKUST

核心思路（中文）：研究“时间敏感QA里何时该沉默”：把“拒答/abstain”当成可训练技能，而不是事后校准。方法上先用带CoT的SFT冷启动，再用带拒答意识的RL奖励联合优化“回答正确/格式合规/该拒就拒”，并系统比较原始上下文、时间子上下文与知识图谱等隐式线索对拒答推理的作用边界。

Core Idea (EN):The paper frames abstention in temporal QA as a teachable skill, coupling CoT-supervised cold-start with abstention-aware RL to jointly improve temporal reasoning and refusal behavior while analyzing the value of different implicit cues.

亮点：1) 小模型RL也能超过闭源大模型：Qwen2.5-1.5B 经RL后在 TimeQA-Easy/Hard 的EM达到 43.41/35.75，超过 GPT-4o（39.95/29.95）（Table 1–2）。 2) 直接对“不可回答”建模：在不可回答问题上，RL 版本的 True Positive 率相比纯SFT提升 20%（Abstract）。 3) 证伪“加隐式信息就行”：知识图谱(KG)提示总体不如直接给原始上下文/时间子上下文有效；作者结论是“simply putting the context in the prompt”更实用（§5.2）。

成本：1. 效果成本：纯SFT会显著伤害EM：在原始上下文(C)设定下，Qwen2.5-1.5B 的EM仅 1.81（Easy）/3.95（Hard），远低于其INF仅问句的 11.13/13.03（Table 1–2）。 2. 长度成本：未检索到/需验证（PDF未报告推理token、拒答判定额外步骤或时延）。 3. 人力成本：需要构造带CoT的监督数据做冷启动，并设计拒答感知的RL奖励（包含格式奖励R_format与答案奖励R_ans，§4.3.1）。 4. 实验成本：训练使用 4×H100；SFT 2 epochs（lr=1e-5, wd=1e-2）；RL 先CoT-SFT 1 epoch再GRPO 3 epochs（G=4, β=0.01, ε=0.2）（§5.1）。

收益：1. 效果收益：在原始上下文(C)下，RL(Qwen2.5-1.5B) 的EM为 43.41（Easy）与 35.75（Hard），相比GPT-4o 的 39.95/29.95 分别提升 +3.46/+5.80（Table 1–2）。 2. 长度收益：未检索到/需验证。 3. 训练收益：在同一基座(Qwen2.5-1.5B)上，RL 相比SFT把EM从 1.81/3.95 提升到 43.41/35.75（Easy/Hard，原始上下文(C)设定）（Table 2）。

优势：把“拒答”放进训练目标而非仅做校准，适合复杂推理里的不确定性建模。给出对隐式线索（C/Sub-C/KG）与训练范式（SFT/LoRA/RL）的系统对照，结论可直接指导工程选型（Table 1–2）。用1.5B级别模型做出超过GPT-4o的定量结果，说明“方法/奖励”有时比模型规模更关键。

不足：性能强依赖“CoT-SFT冷启动”：文中指出不做CoT-SFT时RL会失败，流程更长更重（§5.2）。拒答与整体准确率存在权衡，且作者提示RL虽提升预测但仍可能有类似风险，需要进一步稳健化（Abstract）。效率与部署成本披露不足：缺少token开销、端到端时延/吞吐等数字，难直接估算线上成本（未检索到/需验证）。

2026-02-04T12:04:02Z · Latent Reasoning / Multimodal / Inference-Time

Vision-aligned Latent Reasoning for Multi-modal Large Language Model

机构/学校：KAIST; POSTECH; RLWRLD

核心思路（中文）：提出 VaLR（Vision-aligned Latent Reasoning）：在每一步文本 CoT 推理前动态生成一段“视觉对齐的 latent tokens”，并用表示对齐(REPA)把这些中间隐状态对齐到冻结的视觉编码器特征，从而避免长链推理中视觉信息被逐步稀释。基于 Qwen2.5-VL-7B 的两阶段训练（先常规 CoT SFT，再插入 latent tokens 并做对齐），让多模态推理在长上下文下也能出现类似 test-time scaling 的收益。

Core Idea (EN):VaLR improves long-context multimodal reasoning by generating vision-aligned latent tokens before each CoT step and supervising them via representation alignment to frozen vision-encoder features to preserve visual grounding.

亮点：1) 长上下文 3D 多视角推理大幅提升：VSI-Bench 平均准确率从 Qwen2.5-VL-7B 的 33.0% 提升到 VaLR-M 的 52.9%（+19.9%p，Table 1）。 2) 多编码器对齐带来“空间能力”增益：在 VSI-Bench 的子任务上，VaLR-M 在绝对距离预测 40.6%、相对距离预测 50.0%（Table 1），显著高于基座 14.8%/38.6%。 3) 视觉感知类基准也全面变强：VaLR-M 在 BLINK/MMVP/MMStar/V*/CVBench 分别达到 64.7/60.3/72.3/86.9/87.6（Table 2）。

成本：1. 效果成本：对“视觉对齐(REPA)”依赖明显：不做视觉对齐的 VaLR w/o VA 在 VSI-Bench 仅 34.0%，而完整 VaLR 达到 41.5%（Table 3）。 2. 长度成本：每个推理阶段需要额外生成 latent tokens；Stage 2 设定 latent tokens 数 K=16（Table 7），并在多视角任务中使用 32 帧输入（Table 8），会增加上下文与计算负担（未检索到/需验证 token/时延量化）。 3. 人力成本：多视角 CoT 数据需要为每一步推理匹配“目标图像”；论文用 GPT-4o 为每个 CoT step 选择 Itarget 来做对齐（Appendix B.2），数据管线更复杂。 4. 实验成本：两阶段都在 450K CoT 规模数据上训练（§4.1/Appendix B.1）；实验使用 4× NVIDIA Tesla A100s（Table 7 上方文字）。

收益：1. 效果收益：VSI-Bench 平均准确率 52.9%（VaLR-M）vs 33.0%（Qwen2.5-VL-7B）（Table 1）；在 BLINK 上 64.7% vs 55.7%（Table 2）。 2. 长度收益：长推理链更不易“视觉崩塌”：在 MMVP 上，Ocean-R1 的表现会从 62.7% 下降到 56.5%（300 tokens）而 VaLR 仍能保持强表现（§4.4 文字描述）。 3. 训练收益：数据与收敛可扩展：训练使用 450K samples（§4.1/Appendix B.1），并报告 VaLR 在 V* 基准上达到可比性能的训练速度 >20× 快于 vanilla SFT（Figure 3 图注 + §4.5 文字）。

优势：对准“视觉信息衰减”这个痛点：在每步 CoT 前做视觉 checkpoint，让长链推理持续有图像依据。方法相对通用：可对齐多种视觉编码器（CLIP/SigLIP/DINO/π3），且多编码器组合能进一步拉高 VSI-Bench 与 CVBench（Table 4/5）。对比覆盖充分：在同一基座(Qwen2.5-VL-7B)下对 LVR/CoVT/Monet 等 latent 方法给出直接对照（Table 1/2）。

不足：对齐与数据管线复杂：需要 REPA 训练 + 额外对齐 MLP（Table 7），以及多视角 CoT 的 step→image 匹配流程（Appendix B.2）。系统级效率披露不足：只给出 K=16 等训练超参，但缺少端到端推理时延/吞吐或额外 token 开销的可直接引用数字（未检索到/需验证）。评测含 LLM-as-a-judge：使用 GPT-4o 作为 judge（Appendix A.2），部分基准的可复现性/成本受限于外部 API。

2026-02-04 · Latent Reasoning

CoT is Not the Chain of Truth: An Empirical Internal Analysis of Reasoning LLMs for Fake News Generation

核心思路（中文）：本文研究“推理模型在假新闻生成场景中的CoT是否安全”。结论是：即便最终回复选择拒答，模型在Thinking/CoT过程中仍可能生成并传播可操作的不安全叙事，因此“拒答≠推理过程安全”。

Core Idea (EN):Our study reveals that during fake news generation, even when a model rejects a harmful request, its Chain-of-Thought (CoT) reasoning may still internally contain and propagate unsafe narratives.

亮点：1) 把假新闻生成（FNG）里的CoT安全问题拆成“最终回复是否安全”与“CoT步骤是否泄露可操作内容”，并给出Unsafe/Potential Unsafe/Safe三类标注口径（表1）。 2) 提出从层→头的coarse-to-fine分析框架，用Jacobian谱性质量化注意力路由差异，并用stability/geometry/energy三指标定位安全关键路径。 3) 实证显示开启Thinking会显著降低生成安全率：Llama-8B从78%降到22%，Qwen-4B从82%降到28%（图1）；整体上不安全（Unsafe+Potential Unsafe）占比约70–80%（正文与图2）。

成本：1. 效果成本：需要额外的CoT级别安全评估/监控流程；仅靠“最终拒答”无法保证安全（正文指出约70–80% CoT仍含风险）。 2. 长度成本：未检索到/需验证。 3. 人力成本：需要构建并人工标注CoT安全数据集（Unsafe/Potential Unsafe/Safe）以及维护评测口径（第3节、表1）。 4. 实验成本：需要跑多模型多提示范式（Direct/Indirect）及风格条件，并做层/头级别分析与定位（第3–5节；表2为关键层区间）。

收益：1. 效果收益：给出可量化的“开启Thinking带来安全率下降”的证据：Llama-8B 78%→22%，Qwen-4B 82%→28%（图1）；同时报告不安全CoT比例约70–80%（正文、图2）。 2. 长度收益：未检索到/需验证。 3. 训练收益：未检索到/需验证。

优势：把“CoT是否安全”从口号变成可标注、可统计的任务；能定位到中层少数关键head/层，利于做针对性缓解；对产品侧“默认开Thinking是否更安全”给出反直觉但直接的风险证据。

不足：主要围绕FNG任务与所选三种模型，跨任务泛化仍需验证；指标与定位方法依赖内部激活/注意力，落地到闭源模型可能受限；文中对“如何修复/训练”给出的直接方案与成本数字仍需进一步检索/验证。

2026-02-04 · Latent Reasoning / Agent/Tool-Use / Inference-Time

Internalizing LLM Reasoning via Discovery and Replay of Latent Actions

核心思路（中文）：提出 STIR（Self-Distilled Tools for Internal Reasoning）：先用随机采样rollouts把“成功/失败推理轨迹”的隐藏态差分成可复用的 steering 向量（latent tools），再在推理时按当前步骤检索并用 lookahead+anchor gating 决定是否注入，从而把显式CoT的纠错能力内化到隐状态里。

Core Idea (EN):We propose STIR, a dynamic latent trajectory control framework that distills steering primitives from successful vs. failed rollouts and applies value-modulated interventions to improve reasoning with fewer explicit tokens.

亮点：1) 把“推理增强”表述为随时间变化的 latent trajectory control：反对静态activation steering，用可检索的“潜在工具”按步骤动态纠偏（图1）。 2) 三阶段管线：差分 intrinsic action induction（对齐成功/失败rollouts取centroid差）→ sparse control basis（几何多样性/正交性筛选）→ value-modulated trajectory intervention（retrieve-preview-commit + anchor gating）。 3) 在6个数据集×4个模型上给出准确率/成本Pareto提升：平均准确率提升 1.9%–7.5%，平均token开销最高下降 35%（表1）。

成本：1. 效果成本：存在参数/模型依赖与可能降点：例如 DeepSeek-R1 Distill-Qwen 1.5B 上 STIR kscale=1.0 的平均Acc 为 49.0（-2.8）（表1）。 2. 长度成本：在线控制仍有额外开销：Table 3 报告每次查询额外约 130–140 tokens，约占 1.1%–5.0% 相对成本（表3）。 3. 人力成本：需要实现/维护“rollouts采样+成功/失败对齐+工具库构建+在线检索/探测”整套流程，并定义reward/成功判据（图1、§3-5）。 4. 实验成本：需要在多数据集/多模型上复现与调参（如 kscale、Tprobe、工具库大小等），并做组件消融（表2、表5）。

收益：1. 效果收益：平均准确率提升 1.9%–7.5%（摘要、表1）；例如 DeepSeek-R1 Distill-Qwen 7B 上 STIR kscale=0.75 平均Acc 77.7（+6.8），且高于 Self-Consistency 的 74.5（表1）。 2. 长度收益：相对 Vanilla 平均token开销最高下降 35%（表1）；例如 Qwen2.5-3B-Instruct 上 STIR kscale=0.75 平均Cost 875（↓35%）（表1）。 3. 训练收益：未检索到/需验证。

优势：把“隐式推理”从固定latent token数的黑箱训练，转成可解释/可检索的工具库与动态控制；效果-成本上能逼近/超过 Self-Consistency 但token开销更低（表1）；有完整消融与机制设计（lookahead、anchor gating）支撑不是纯启发式（表2）。

不足：需要随机rollouts与reward信号来挖掘成功轨迹，离线构建成本不低；超参（如 kscale、探测步长）与模型规模影响明显，小模型上可能出现降点（表1）；“训练收益/通用可迁移性”更多依赖跨任务验证，仍需扩大任务类型（§5.6）。

2026-02-04 · Latent Reasoning / Agent/Tool-Use / RL/Policy

CoLT: Reasoning with Chain of Latent Tool Calls

核心思路（中文）：把“工具调用的推理链”从显式文本改成潜变量序列：主模型在潜空间里产生一串“潜在工具调用”，再由轻量解码器把每一步投影成可执行的工具调用/中间结果，从而在尽量少的显式 token 下完成多步推理。

Core Idea (EN):CoLT replaces token-level tool-call chains with a chain of latent tool calls, decoded into executable tool interactions for efficient multi-step reasoning.

亮点：1) 问题：显式 CoT/工具调用链 token 开销大、慢。 2) 创新：提出“潜在工具调用链”，用 latent step 替代文字步骤，再解码成工具调用。 3) 价值：在保留多步能力的同时显著缩短推理链长度（见表1的 #L）。

成本：1. 效果成本：在四个数学集上平均准确率 49.6（CoLT-2seed）低于 CoT 的 53.6（表1），需要评估是否可接受。 2. 长度成本：需要训练/维护 latent decoder；推理链虽短，但系统复杂度上升。 3. 人力成本：中（要维护工具规范、解码器、评测口径）。 4. 实验成本：需要对 GSM8k-Aug、GSM-Hard、SVAMP、MultiArith 等做系统对比与消融（seed token 数、decoder 深度）。

收益：1. 效果收益：在 MultiArith 上 CoLT-2seed 达到 93.9 Acc.（表1），总体保持可用准确率。 2. 长度收益：平均 #L 从 CoT 的 21.4 降到 CoLT-2seed 的 8.70（表1），推理链显著变短。 3. 训练收益：把“多步推理/工具调用”显式化为可学习的潜变量序列，为后续更复杂工具栈/规划提供统一接口。

优势：将多步推理从文本迁移到潜空间；可与工具调用天然对齐；把“效率”作为核心优化目标。

不足：准确率未必优于强 CoT；解码器质量决定上限；对工具接口/标注依赖强；跨任务泛化需更多验证。

2026-02-02 · Latent Reasoning

Beyond Dense States: Elevating Sparse Transcoders to Active Operators for Latent Reasoning

核心思路（中文）：提出 LSTR：把隐式/潜变量推理的每一步变成“稀疏语义特征”的更新，而不是全维度的密集隐状态迁移。核心算子 LTT 用残差 skip 做线性流形传输，同时用 Top-k 稀疏 transcoder 注入可解释的语义增量，从而在压缩推理链的同时让每一步的“在算什么”可被控制与干预。

Core Idea (EN):We propose LSTR, which performs multi-step latent reasoning through sparse, interpretable semantic transitions using a Latent Transition Transcoder (LTT) that decouples linear transport from sparse semantic innovation.

亮点：1) 把 sparse transcoder 从“事后解释工具”升级成推理过程中的主动算子：每个 latent step 只激活 Top-k 语义特征来完成计算（Figure 1-2）。 2) LTT 的双通路结构（linear transport + sparse innovation）用残差 skip 解耦“背景流形漂移”和“推理语义更新”，在硬稀疏下仍保持轨迹稳定（Method）。 3) 给出“语义分辨率控制”：训练时固定 k=128、推理时可调 k 来控制容量，并通过因果特征干预展示单个特征会改变答案（Figure 3）。

成本：1. 效果成本：在数学推理基准上仍有精度-压缩权衡；例如 CoT 平均 Acc. 53.6（#L 21.4），而 LSTR-5 平均 Acc. 43.3（#L 4.66）（Table 1）。 2. 长度成本：方法依赖额外的 LTT（Top-k 选择+稀疏字典）模块与对齐训练；其额外推理时延/算力开销未检索到/需验证。 3. 人力成本：需要实现并调参（压缩比 r、稀疏预算 k、字典扩展因子等），并维护特征可解释性分析与干预流程。 4. 实验成本：作者在 Llama-3.2-1B-Instruct 冻结骨干+LoRA 下训练，每个模型最多 50 epochs 或 12 hours，使用 2 张 NVIDIA RTX PRO6000 GPU（Implementation Details）。

收益：1. 效果收益：同等压缩下优于密集 latent baseline；例如 r=5 时，LSTR-5 在 GSM8k-Aug 29.5% vs CoLaR-5 26.8%，GSM-Hard 6.29% vs 5.87%（Table 1）。 2. 长度收益：相对显式 CoT 明显缩短推理长度；平均 #L 从 21.4 降到 4.66（LSTR-5），并保持可用精度（Table 1）。 3. 训练收益：冻结 backbone + LoRA 的参数高效设置下完成训练，单模型训练上限为 50 epochs 或 12 hours（Implementation Details）。

优势：稀疏特征直接参与推理，每步“做了哪些语义更新”更可解释、可控；支持推理时调 k 做容量/分辨率控制；因果干预（单特征扰动）证明特征不仅相关而且“起作用”（Figure 3）。

不足：在更强的显式 CoT 设定下仍有明显精度差距（Table 1 的平均 Acc. 43.3 vs 53.6）；结果目前集中在四个小学数学类基准，跨任务泛化需验证；推理系统复杂度提高（需要额外算子/对齐训练/特征字典维护），工程落地成本不低。

2026-02-02 · Latent Reasoning / Multimodal / RL/Policy

LaST$_{0}$: Latent Spatio-Temporal Chain-of-Thought for Robotic Vision-Language-Action Model

机构/学校：Peking University; Beijing Innovation Center of Humanoid Robotics; The Chinese University of Hong Kong (CUHK); Simplexity Robotics

核心思路（中文）：提出 LaST0：把 VLA 的“推理”从显式语言 CoT/预测未来观察，改为在紧凑的时空潜变量里做 Latent Spatio-Temporal CoT。慢速推理专家低频自回归地产生包含未来视觉动态、3D结构与本体感的 latent states，快速动作专家在共享注意力下高频产出动作。通过异步频率(如1:4)协同，既保留 reason-before-act 的好处，又把推理延迟压到接近实时控制所需的频率。

Core Idea (EN):LaST0 is a dual-system VLA model that performs reason-before-act via a token-efficient latent spatio-temporal chain-of-thought, where a slow reasoning expert predicts latent future dynamics and a fast acting expert generates high-frequency actions conditioned on those latents.

亮点：1) 速度/性能同时要：RLBench 上均值成功率 0.82±0.03，且推理速度 15.4 Hz；显式 CoT 的 CoT-VLA 仅 1.1 Hz（Table 1）。 2) 潜在多模态 CoT 真有用：不使用 latent token 时平均成功率 68%；加入 1 token/模态后可到 82%（Figure 5(b) 文字描述）。 3) 长程与真实世界更稳：真实任务均值成功率 LaST0=0.72（Franka, ±3），显著高于 π0.5=0.59、CoT-VLA=0.50、SpatialVLA=0.41（Table 2）。

成本：1. 效果成本：性能对“latent 时序覆盖/协作频率”敏感：0-step/0-token 时仅 68%，扩到 4 steps 可到 82%，过低协作频率 1:8 会下降到 74%（Figure 5(c)(d) 文字描述）。 2. 长度成本：未检索到/需验证（论文强调避免显式 CoT 的 autoregressive 文本开销，但未给出 token 用量对比）。 3. 人力成本：需要同时实现慢推理专家的 latent 回归训练（cosine latent loss, Eq.(2)）与快动作专家的 Flow Matching 动作去噪训练，并维护 fast/slow 异步 KV cache 与多频率训练配方（§3.3–3.5）。 4. 实验成本：仿真 RLBench：每任务 100 条轨迹，SFT 训练 300 epochs；评估每任务 20 rollouts、3 个随机种子并报告均值与方差（§4.1 描述）。

收益：1. 效果收益：RLBench 10 任务均值成功率 0.82±0.03，优于 HybridVLA 0.74±0.04、π0.5 0.65±0.04、CoT-VLA 0.66±0.03（Table 1）。 2. 长度收益：显著更高的执行频率：15.4 Hz，对比显式 CoT 的 CoT-VLA 1.1 Hz（≈14×）（Table 1；正文也写“14× speedup”）。 3. 训练收益：大规模预训练数据量明确：在 >400K trajectories 上做机器人预训练（§3.5）。

优势：潜在时空 CoT 把“未来动态+几何+本体感”放进同一 latent 条件，避开语言瓶颈，适合闭环控制。在同一张表里同时给出成功率与 Hz，工程取舍清晰（Table 1）。对长程真实任务有明确增益：连续三次执行仍保持 0.66→0.47→0.33（Table 2）。

不足：方法复杂度高：双专家(MoT) + 异步频率 + 共享注意力/KV cache，工程实现与调参门槛较高（§3.4–3.5）。部分收益依赖合适的频率与时序覆盖超参；例如协作频率 1:8 会降到 74%（Figure 5(d) 文字描述）。论文未提供“token 用量/显式 CoT 长度”这类可直接复用的长度成本数字，做端到端系统预算还需补齐（未检索到/需验证）。

2026-02-02 · Latent Reasoning / Multimodal / RL/Policy

Show, Don't Tell: Morphing Latent Reasoning into Image Generation

机构/学校：HKUST(GZ); HKUST; NWPU; Knowin

核心思路（中文）：提出 LatentMorph：把“推理/自我修正”直接做在图像生成的连续隐空间里，而不是固定步解码成文字再回注。它用短/长程视觉记忆凝练生成历史，用 translator 把隐式想法变成可执行的潜在控制信号，再把控制 tokens 注入生成器 KV cache 以动态纠偏；同时用 RL 训练 invoker 决定何时触发推理，以减少无谓开销。

Core Idea (EN):LatentMorph interleaves implicit latent reasoning into autoregressive text-to-image generation by converting latent thoughts into KV-cache-injected control tokens with an RL-trained invoker for adaptive reasoning invocation.

亮点：1) 关键工程点：不再“推理→文本→再编码”，而是把 reasoning 输出转成 control tokens 直接 Update(KVold, Ectrl)，在不占预测位置的情况下影响后续生成（式(12)附近）。 2) 自适应触发：invoker 用 GRPO 学一个 REASON/CONTINUE 决策，使推理只在必要时介入，避免固定步插入带来的低效（§4.2、式(8)-(9)）。 3) 在多基准上兼顾质量与效率：GenEval Overall 0.96（Vanilla 0.80），T2I-CompBench Overall 64.53（TwiG-RL 56.24；MILR 53.25）（Table 1），并报告推理时延/总token显著下降（§1、§5.4）。

成本：1. 效果成本：对“何时推理”的策略依赖 RL 训练与奖励设计；若 invoker 触发不准，可能在关键语义转折处仍漏修正（方法设计依赖式(8)-(9)，需任务侧验证）。 2. 长度成本：需要额外引入控制 tokens 并更新 KV cache（Ectrl, KVnew = Update(KVold, Ectrl)），其具体额外 token 数/控制 token 数 j 未检索到/需验证（§4.3、式(12)）。 3. 人力成本：实现成本偏高（condensers/translator/shaper/invoker 四组件 + 两阶段训练管线），还需要接入奖励模型（HPS-v2.1、CLIP score）与评测体系（§4.4、§5.1）。 4. 实验成本：RL 阶段作者在 8×NVIDIA H200 GPU 上训练，并使用 GRPO group size=8；SFT 阶段使用 20k text-image pairs（midjourney-prompts）（§5.1）。

收益：1. 效果收益：GenEval Overall 0.96（Vanilla 0.80），T2I-CompBench Overall 64.53（Vanilla 39.21；TwiG-RL 56.24；MILR 53.25）（Table 1）。 2. 长度收益：token consumption 降低 51.0%（§1）。 3. 训练收益：LatentMorph 的两阶段训练中，SFT 可用 20k 对数据完成模块训练；RL 仅优化 invoker 与短期 condenser，并沿用现成 reward（HPS-v2.1、CLIP score）（§5.1）。

优势：把“推理介入”做成 KV-cache 级控制，避免中间文本通道的信息压缩；自适应触发推理，既能纠偏又不强迫固定步插入；在 GenEval/T2I-CompBench 上同时抬升质量与效率（Table 1 + §1）。

不足：仍依赖 reward model（HPS/CLIP）驱动 RL 训练，奖励偏差可能影响触发与风格；组件与训练流程更复杂，复现门槛高；控制 token 数量/额外开销细节在正文中可定位数字较少，工程侧需要补充验证（§4.3）。

2026-02-02 · RL/Policy / Inference-Time

Didactic to Constructive: Turning Expert Solutions into Learnable Reasoning

机构/学校：Georgia Institute of Technology

核心思路（中文）：提出 DAIL（Distribution Aligned Imitation Learning）：把“给人看的专家解答”先转成模型可学的、细粒度且更贴近模型分布的推理轨迹，再用对比式目标专门惩罚“为了对上中间结论而跳步/强行凑答案”的 rationalization shortcut。生成阶段用 mixed policy decoding：学生先写，每一步用“带答案上下文的特权学生”验证，低置信就让特权学生接管补全，从而把专家解答里的隐式缺口补齐并保留模型自然的自检/回溯风格。

Core Idea (EN):DAIL bridges the distribution gap between didactic expert solutions and a model’s own reasoning by synthesizing in-distribution expanded traces via mixed-policy decoding and training with a contrastive loss that penalizes shortcut rationalizations.

亮点：1) “专家解答→可学习推理”的关键转化：用特权学生（同参数、但条件包含专家解答）把 didactic 的隐式跳步补成细粒度推理，并用阈值 τ 做逐token验证/接管（§2.1、Figure 1）。 2) 对比学习专打“凑中间结论”的伪推理：用只保留中间路标的负参考 s̃（正则抽取 numbers/expressions）诱发 shortcut，再在训练中显式压低其似然（§2.2、Appendix B.1）。 3) 以极小高价值数据换来可观收益：论文称用 <1000 条专家解答即可在 Qwen2.5-Instruct / Qwen3 上取得 10–25% 的 pass@k 增益，并把推理效率提升到 2×–4×（Abstract）。

成本：1. 效果成本：对“负参考”构造与对比损失强依赖：负参考 s̃ 通过正则抽取中间路标（numbers、exponentials、symbolic coefficients 等，Appendix B.1）；若抽取不稳，可能把合理的中间步骤也当作 shortcut（未检索到/需验证）。 2. 长度成本：生成阶段会把专家解答扩写得更长：扩写后的 solutions 在 token 分布上整体右移，平均约为原专家解答的 4× 长（Appendix B.1 “4× as long”）。 3. 人力成本：需要高质量专家解答；文中指出此类数据采集需要领域专家，可能成本高达 $1,000 per sample（§1）。 4. 实验成本：需要多设置/多基准评测与推理预算扫描：例如 e1-verifiable 从 903 道 AIME 题中筛出 417 题（32 次尝试仍解不出），另有 e1-proof 收集 683 道题并去重后评估集为 669（Appendix A）。

收益：1. 效果收益：GPQA-Diamond 上的 out-of-domain 数字：Qwen2.5 pass@1 从 34.1 提升到 35.1（+1.0，Table 1）；Qwen3 在 2048 token 预算下 pass@1 从 48.9→49.8（+0.9，Table 1）；在 pass@128 上 Qwen3（512/1024/2048/4096）分别从 93.9/95.5/93.4/93.4 提升到 96.5/96.9/96.5/96.0（Table 1）。 2. 长度收益：论文明确写“matches or exceeds the performance of untrained models with 2× to 4× fewer tokens”（§1；并在 §3.3/Figure 4 通过 token budget 扫描展示）。 3. 训练收益：小数据也能起效：论文称可用 <1000 条高质量专家解答带来 10–25% 的 pass@k 增益（Abstract）；并能在不可验证的 proof 问题上学习（§1）。

优势：把“专家解答不适配模型”这个关键痛点说清楚：didactic gaps vs rationalization shortcuts，并分别用“扩写+对比惩罚”解决。 mixed policy decoding 很实用：让学生主导、特权学生只在低置信时接管，保留模型自身推理风格而不是纯 teacher forcing（§2.1）。给出较硬的 out-of-domain 结果（GPQA-Diamond Table 1）与数据清洗细节（903→417，683→669），可复现性相对更好。

不足：方法链路较长：需要特权学生、阈值验证、负参考抽取与对比损失，工程复现与超参（τ、抽取规则等）调试成本高。对“推理效率”主要用 token 预算/减少倍数来表达，缺少端到端延迟（ms）或吞吐等系统级数字（未检索到/需验证）。数据端仍依赖昂贵的专家解答；虽然样本量可 <1000，但获取门槛仍高（$1,000 per sample，§1）。

2026-02-01T11:34:37Z · Latent Reasoning / Multimodal / Inference-Time

Latent Reasoning VLA: Latent Thinking and Prediction for Vision-Language-Action Models

机构/学校：Institute of Artificial Intelligence and Robotics, Xi’an Jiaotong University; Beijing Academy of Artificial Intelligence; Institute of Automation, University of Chinese Academy of Sciences; University of Chinese Academy of Sciences; Peking University

核心思路（中文）：提出 LaRA-VLA：把VLA里的多模态CoT（文本分解+视觉目标/未来状态）从“显式离散token”内化为连续latent，在latent空间统一做推理与未来视觉预测，并让latent推理动态直接条件化连续动作生成，从而避免推理时生成长CoT导致的高延迟。训练上用课程式三阶段：先显式CoT监督→逐步用latent替换CoT→用flow-matching把latent推理对齐到连续控制。

Core Idea (EN):We propose LaRA-VLA, which internalizes multi-modal chain-of-thought reasoning into continuous latent representations for efficient embodied action generation without explicit CoT decoding at inference time.

亮点：1) 强结果：LIBERO 平均成功率 97.9%，其中 Object=99.8%、Long=96.6%（Table 2）。 2) 真实到仿真泛化：SimplerEnv-WindowX 平均成功率 68.8%，Put Spoon=95.8%、Put Eggplant=91.7%（Table 3）。 3) 速度优势：A100 上推理延迟 135 ms/rollout，相比 Fast-ThinkAct-3B 805 ms、ECOT-7B 4434 ms、ThinkAct-7B 7513 ms（Figure 7），并报告相对显式CoT最高可降 90% 延迟（Abstract/Figure 7）。

成本：1. 效果成本：在部分子任务上仍有明显短板，例如 SimplerEnv 的 Stack Block 仅 25.0%（Table 3），低于 UD-VLA 的 54.1% 与 F1 的 50.0%。 2. 长度成本：未检索到/需验证（文中未给出显式token数/latent step数与token开销的严格对比，仅给出端到端延迟ms）。 3. 人力成本：需要构建结构化CoT数据与具身演示；真实机器人数据收集为每类任务 100 条演示轨迹、30 Hz 记录（§4.2）。 4. 实验成本：训练资源为 8× NVIDIA H100 GPUs（Appendix A “All models are trained using 8 NVIDIA H100 GPUs.”）；并包含三阶段训练（如 Stage III 在 SimplerEnv 为 60k steps，Table 5）。

收益：1. 效果收益：在 LIBERO 上 LaRA-VLA Avg=97.9%（Spatial=96.4、Goal=98.6、Object=99.8、Long=96.6；Table 2），在 SimplerEnv 上 Avg=68.8%（Table 3）。 2. 长度收益：推理延迟 135 ms/rollout（A100，Figure 7），相对显式CoT方法最高可减少 90% 延迟（Abstract/Figure 7）。 3. 训练收益：未检索到/需验证。

优势：把“CoT带来的性能提升”从离散语言/视觉token迁移到连续latent，更贴近连续控制；课程式从显式CoT到latent推理的过渡，让latent推理可学习且可落地到动作生成；在同一框架里同时做latent推理+未来视觉预测（隐式监督），对长时序具身任务更友好。

不足：当前在部分任务上不如强视觉CoT基线（如 Stack Block，Table 3），说明latent推理并非全能；论文主要围绕LIBERO/SimplerEnv与四类真实机器人任务，跨机器人平台/更复杂开放世界任务的泛化仍需验证；方法训练流程更复杂（多阶段+对齐/EMA目标网络+flow matching），工程实现与调参成本较高。

2026-02-01T06:12:05Z · Multimodal / Inference-Time

Residual Decoding: Mitigating Hallucinations in Large Vision-Language Models via History-Aware Residual Guidance

机构/学校：Peking University; ByteDance Inc.; University of Hong Kong; Beijing University of Posts and Telecommunications

核心思路（中文）：提出 ResDec（Residual Decoding）：不改模型、不训练，只在解码时利用“历史token的logits演化”来压制语言先验引发的视觉幻觉。做法是用JSD在时间窗口里定位语义从混乱到收敛的“谷底”附近，聚合这些较稳定步的logits形成残差信号，再以残差引导当前步的候选分布，让真实视觉相关token不被后续语言先验淹没。

Core Idea (EN):ResDec is a training-free, plug-and-play decoding strategy that aggregates semantically stable historical logits (localized via JSD over time) as residual guidance to suppress language-prior hallucinations in LVLMs.

亮点：1) POPE三子集全面提升：在 LLaVA-1.5 上 POPE Average Accuracy 79.83→87.23、Average F1 79.29→86.93（Table 1）。 2) 训练/结构零改动仍能降幻觉：在 Qwen2.5-VL 上 CHAIR 指标显著下降：CHAIRS 30.6→25.8、CHAIRI 8.4→6.8，同时 HallusionBench fACC 43.4→47.1（Table 2）。 3) 不牺牲综合能力反而小幅增益：在 Qwen2.5-VL 上 8 个综合基准里，MME 2309.42→2348.40，MMVP 58.00→63.33（Table 3）。

成本：1. 效果成本：在部分设置上并非最优；例如 POPE/LLaVA-1.5 的 Average Accuracy 上 MemVR=86.13、VISTA=86.15，而 ResDec=87.23（虽最佳但优势不大），且不同基线在不同子集上会各有胜负（Table 1）。 2. 长度成本：未检索到/需验证（论文强调“single forward pass / nearly the same inference cost”，但未给出端到端时延、吞吐或token用量对比；仅说明最大生成新token数设为128（Table 2 caption））。 3. 人力成本：需要实现解码侧的JSD计算、SAP定位、候选token池与残差融合等额外推理逻辑，并对超参α/β与|Ωt|做调参（Table 4、§4.4）。 4. 实验成本：复现需跑多模型多基准：POPE三子集（Random/Popular/Adversarial）、HallusionBench+CHAIR，以及8个综合基准（MME/MMBench/ScienceQA/MMVP/MMStar/MM-Vet/SEEDBench2 Plus/LLaVA-Bench）（Table 1–3）。

收益：1. 效果收益：POPE 上跨模型平均增益明确：LLaVA-1.5 的 POPE Average Accuracy 79.83→87.23（+7.40）、Average F1 79.29→86.93（+7.64）；InstructBLIP 的 Average Accuracy 76.29→83.58（+7.29）、Average F1 78.00→84.80（+6.80）；Qwen2.5-VL 的 Average Accuracy 86.11→90.16（+4.05）、Average F1 84.74→89.56（+4.82）（Table 1）。 2. 长度收益：未检索到/需验证（仅有“nearly the same inference cost / single forward pass”的定性描述，缺少ms级或token级对照数字）。 3. 训练收益：训练free；无需额外训练或标注（Abstract/Introduction），直接作为解码策略插拔使用。

优势：训练free且不改权重：比需要2×推理或改注意力/FFN的方案更易落地（§1）。用logits时间演化做“历史残差”纠偏，思路很像把模型的隐式推理痕迹变成可控信号。跨三种LVLM在幻觉与综合基准上都有一致提升（Table 1–3）。

不足：系统级成本口径缺失：没有给出延迟(ms)、吞吐、显存等部署数据（未检索到/需验证）。需要额外的解码侧计算与超参（α/β、候选池大小、时间窗口），不同模型/任务可能要重新调（Table 4、§4.4）。主要针对“语言先验型”幻觉；对其它幻觉成因（如视觉编码缺失/对齐失败）能否同样奏效，仍需看更细的错误分解。

2026-02-01 · Agent/Tool-Use / RL/Policy / Inference-Time

ASTER: Agentic Scaling with Tool-integrated Extended Reasoning

核心思路（中文）：ASTER 研究“工具推理(RL+多轮工具调用)”在扩展训练中为什么会出现 interaction collapse，并给出对策：先用高交互密度的 cold-start SFT 建立强工具使用先验，再做长期 RL 扩展。关键是把冷启动样本从“1–2次工具调用的稀疏交互”换成“≥9次工具交互的长链条”，让模型在训练与推理预算下都更愿意规划—调用—校验，从而在竞赛数学上获得更高分数。

Core Idea (EN):ASTER scales tool-integrated reasoning via an interaction-dense cold-start SFT prior (long tool-call chains) that prevents interaction collapse and enables effective extended RL training for long-horizon math problem solving.

亮点：1) 小冷启动也能撬动大规模RL：仅 4K 条“interaction-dense trajectories”即可作为最强 prior（Abstract）。 2) 4B 级别做到竞赛数学 SOTA：ASTER-4B 在 AIME2025 达到 85.0%（avg@16），推理预算放大到 90K 时可到 90.0%（Table 1）。 3) 多基准一致收益：ASTER-4B 在 HMMT2025=73.3、BeyondAIME=53.9（avg@16），均显著高于同规模文本推理 Qwen3-4B-Thinking-2507 的 48.1/43.6（Table 1）。

成本：1. 效果成本：性能对推理/交互预算敏感：ASTER-4B 的 AIME2025 从 85.0% 提升到 90.0% 需要 “w/ 90K Inference Budget”（Table 1）。 2. 长度成本：长链条工具交互本身会拉长对话：论文案例展示 ASTER-4B 在 AIME 2025 有 48-turn interaction（Figure 11 附近），且训练/推理允许最多 50 次 tool invocations/trajectory（§3.1 设置）。 3. 人力成本：需要构造/筛选高交互密度冷启动数据并维护可执行工具环境；冷启动数据集规模为 45K curated dataset（§3.2 列表描述）。 4. 实验成本：RL 数据收集与训练配置较重：rollout prompt batch size=128，每个 prompt 采样 G=8 trajectories；mini-batch size=64；训练与评估需要长上下文（默认评估 32K tokens；RQ2 设定训练/评估 18K）（§3.1 / Appendix A.3）。

收益：1. 效果收益：ASTER-4B 在 AIME2025=85.0%（avg@16），在 90K 推理预算下达 90.0%；同时 AIME2024=82.3→85.8，HMMT2025=73.3→77.1，BeyondAIME=53.9→61.7（Table 1）。 2. 长度收益：未检索到/需验证（Figure 9 只展示“response length 下降更快”的趋势图，PDF正文未给出可直接引用的平均token数/时延数字）。 3. 训练收益：冷启动“专家集”只需 4K 条高交互轨迹即可最优（Abstract）；并在 RL 中允许每条轨迹最多 50 次工具调用以支持长程自纠错（§3.1）。

优势：把“工具推理训练不稳定”具体化为 interaction collapse，并给出可操作的处方：冷启动优先收集/合成长链工具交互。对推理预算（训练/部署）做了系统性拆解：同一模型在不同 inference budget 下的曲线和对照更接近真实落地。结果够硬：在同一张表里把 4B 级别推到 AIME2025 90.0%（avg@16, 90K budget），且多基准一致。

不足：关键收益依赖“高交互密度”数据分布，数据构造与筛选标准迁移到新任务/新工具时可能需要重做（需验证）。系统侧关键部署指标缺失：未在PDF正文检索到端到端 latency(ms)、吞吐、平均工具调用次数/样本等可直接做预算的数字（未检索到/需验证）。推理预算上限较高：表中最强结果依赖 90K inference budget，线上是否可承受需额外评估（Table 1）。

2026-01-31 · Latent Reasoning / Multimodal / RL/Policy

Beyond What Seems Necessary: Hidden Gains from Scaling Training-Time Reasoning Length under Outcome Supervision

核心思路（中文）：研究“训练时推理长度”（RL 训练 token budget、或 looped Transformer 的循环次数）作为一个可缩放旋钮：在仅用最终答案做 outcome-only 监督时，ID 指标可能很早饱和，但 OOD 表现仍会随着更长的训练时自迭代继续提升。作者从学习理论上解释这是因为更大的自迭代次数会改变有效假设类与归纳偏置，从而在多种 ID 最优解中偏向更鲁棒的那类。

Core Idea (EN):We show that under outcome-only supervision, increasing training-time self-iteration (longer CoT budgets or more loops) can keep improving OOD generalization even after in-distribution performance saturates, due to changes in the effective hypothesis class and inductive bias.

亮点：1) 现象：训练时推理更长并不一定提升 ID，但可能“隐藏地”持续提升 OOD；论文把 token budget / loop count 统一成 self-iteration 的规模（Abstract、§3-4）。 2) 理论：给出两条机制——更强归纳偏置会重塑 ID-optimal 解集；以及当假设类里存在对 ID 有效但对 OOD 失效的 shortcut 时，随着自迭代次数增加，正则会降低对 shortcut 的依赖（§3）。 3) 实证：在 looped Transformer 的 4-hop 合成任务上，ID val accuracy 约在 2 loops 近乎饱和到 100%，但 OOD val accuracy 可随 loop count 增加持续提升到约 44 loops（Figure 1）；在 RL 微调 Qwen2.5-1.5B-Instruct 的数学任务上，ID 表现超过训练 token budget=256 后无明显提升甚至略降，而 OOD 仍持续提升；即使测试时预算固定为 4096 也保持该趋势（Figure 2）。

成本：1. 效果成本：如果只看 ID 验证集，可能在较小推理长度（例如 looped 任务约 2 loops）就“误判到顶”，导致错过后续 OOD 增益（Figure 1）。 2. 长度成本：训练/评测需要更大的推理预算：RL 训练 token budget 在实验中用到 4096；并且评测时也考虑固定 evaluation-time budget=4096 的设置（Figure 2b）。 3. 人力成本：需要在训练阶段额外扫 budget/loops 超参，并设计 ID/OOD 切分与稳健性评测口径（§4）。 4. 实验成本：looped Transformer 合成任务训练 20,000 steps、batch size 256，AdamW lr=1e-3（min 1e-4），并在 k∈{1,2,4,8,10,12,14,16,24,28,32,36,40,44,48} loops 上做对照（Appendix E.1.2）；RL 部分报告 3 random seeds（Figure 2）。

收益：1. 效果收益：合成 4-hop 任务上，ID accuracy 在约 2 loops 近乎到 100% 即饱和，但 OOD accuracy 仍可随 loop count 增加获得增益，直到约 44 loops（Figure 1）。 2. 长度收益：未检索到/需验证。 3. 训练收益：给出可操作的训练建议：在 outcome-only 监督且预期分布偏移时，应把训练时推理长度（RL token budget / loop count）训练到超过“ID 饱和点”以换取 OOD 增益；RL 实验中该现象在 evaluation-time budget 固定为 4096 时仍成立（Figure 2b）。

优势：把“推理更长=更强”从经验结论推进到 outcome-only 场景下的学习理论解释；提出“看不见的 OOD 增益”这一训练诊断，能直接影响 budget/loops 的设定策略；用两条不同实现（latent loops 与显式 token budget）做了对应验证，结论更稳。

不足：实证的数学 RL 部分图中未给出可直接抄录的具体 Pass@k 数值（仅能确认趋势与预算设置），导致收益量化需要进一步从表格/原 PDF 图注核对；合成 4-hop 任务与“按 hop parity 做 ID/OOD 切分”的设定较特定，迁移到真实任务的 OOD 定义可能更复杂；更长训练时推理预算会显著增加训练成本与超参搜索空间，工程上需要结合资源约束取舍。

2026-01-31 · Latent Reasoning / Inference-Time

Do Latent-CoT Models Think Step-by-Step? A Mechanistic Study on Sequential Reasoning Tasks

核心思路（中文）：研究 Latent-CoT（以 CODI 为代表）是否真的在“逐步算”而不是走捷径。作者在严格序列的多跳多项式迭代任务上，用 logit-lens/线性探针/注意力/activation patching 追踪中间状态，发现短链(2–3 hop)会在 latent-thought 位置形成可解码的桥接状态，但更长链(n≥4)往往只保留后段中间量并在答案位置做 late fusion。并且在素数模数下这种 latent rollout 会消失，提示 Latent-CoT 的“逐步推理”依赖计算可压缩性。

Core Idea (EN):We provide a mechanistic account of CODI-style latent chain-of-thought on strictly sequential polynomial-iteration tasks, showing when it forms decodable intermediate bridge states versus collapsing into partial late-intermediate rollouts with late fusion.

亮点：1) 把“Latent-CoT是否逐步算”变成可检验对象：在多项式迭代任务里有可验证的中间状态 s_t，可用 logit-lens/探针/patching 精确定位其在 latent token 里的出现与路由（Figure 1/2）。 2) 发现稳定的“两路计算”机制：latent 通道形成桥接状态(s2…sn)，而最终输入常走近似直拷贝通路直达 [Ans]，最后在 [EoT]/[Ans] 边界做融合（正文描述 + patching 现象）。 3) 给出“素数 vs 合数”分岔的量化证据：在不同模数 m 上，CODI/Non-CoT 在素数模数显著退化，而 Full-CoT 仍可维持高准确率（Table 1），并用可压缩性/收缩映射给出理论解释（§5）。

成本：1. 效果成本：CODI 在不少模数上远低于显式 Full-CoT：例如 m=41 时 CODI=8.67% 而 Full-CoT=100.00%；m=43 时 CODI=8.59% vs 28.66%；m=50 时 CODI=43.95% vs 100.00（Table 1）。 2. 长度成本：未检索到/需验证（PDF 未给出端到端推理时延/吞吐或显式 token 用量对比；仅描述 latent-thought 固定长度与序列长度设定）。 3. 人力成本：机制分析链路重：需要 logit-lens 解码、线性探针训练（100 epochs）与 activation patching 等整套可解释性实验管线（正文 + Appendix 方法描述）。 4. 实验成本：实验需要多配置 sweep：3-layer 2-head transformer、总序列长度 32；长程设置 n=31，并在 latent steps p∈{1,2,3,6,9,12,20} 与 2–7 layers、2–8 heads 上做系统性对照（Table 1 + §6）。

收益：1. 效果收益：Full-CoT 在多模数上可达 100.00%（如 m=41/42/45/48/49/50），而 CODI 最高可到 91.07%（m=48），显著高于 Non-CoT 的 45.62%（m=48）（Table 1）。 2. 长度收益：未检索到/需验证。 3. 训练收益：任务与模型规模清晰、可复现实验：使用 3-layer、2-head transformer，总序列长度 32；任务更新规则 st = st−1·xt + b (mod m)，默认 m=50、b=1（Eq.(1) + Table 1）。

优势：把“latent 推理”从结果讨论推进到机制层：明确中间量在哪里、何时可解码、怎样被路由到答案。控制变量做得干净：严格序列任务有 ground-truth intermediates，适合因果 patching。指出 Latent-CoT 的失败模式与适用边界（n≥4 时 partial rollout；素数模数下崩溃），对后续目标/训练设计有直接指导意义。

不足：任务是算法式多项式迭代（Z_m）而非自然语言推理，外推到开放域复杂推理仍需验证（未检索到/需验证更多真实任务）。对“更长 latent steps/更大模型”是否能解决 prime-modulus 失败，论文给出 sweep 但结论仍是“难以诱导更深 rollout”，改进空间大（§6）。缺少系统级效率指标（ms/吞吐/token 数等），难把“latent CoT 省解码”与真实部署预算直接对齐（未检索到/需验证）。

2026-01-30 · Latent Reasoning / Multimodal

ReGuLaR: Variational Latent Reasoning Guided by Rendered Chain-of-Thought

核心思路（中文）：提出 ReGuLaR：把 latent reasoning 写成 VAE 形式的“逐段采样潜在推理状态”，并用一种很直接的压缩指导——把显式 CoT 渲染成图片，再用视觉编码器提取的密集语义表示去正则 posterior 分布。这样在不解码中间文本的前提下，潜空间推理能更少语义漂移，在极端压缩（K=1）下仍保持可用的推理效果。

Core Idea (EN):ReGuLaR formulates latent reasoning as a VAE and regularizes the latent posterior using visual-semantic representations extracted from images rendered from explicit chain-of-thought, improving both efficiency and reasoning effectiveness.

亮点：1) 数学推理四基准同时提准确率+降推理步数：平均 Acc=45.6，#L=3.03；对比最强 latent 基线 CoLaR 平均 Acc=41.7，#L=4.70（Table 1）。 2) 极端压缩也能跑：在 GSM8K-Aug-NL/AQUA-RAT/MATH 设 K=1 时，平均 Acc=30.7/39.8/11.9，且 #L 固定为 1.00；CoLaR 在相同设置下平均 #L=14.1/23.8/62.2（Table 2）。 3) 多模态推理“甚至超过 CoT”：分子 caption 任务上 LLaMA-1B 的 ReGuLaR BLEU-4=0.2692±0.002、METEOR=0.4593±0.002，且 #L=1.000±0.000；同模型 CoT 的 BLEU-4=0.1804±0.002、METEOR=0.3778±0.001，#L=314.825±4.143（Table 3）。

成本：1. 效果成本：在默认压缩设置下，数学四基准平均 Acc 仍只有 45.6（Table 1），离“高准确推理”还有差距；且方法依赖“渲染CoT→视觉特征”这条指导链路（w/o 2D 在分子任务上 BLEU-4 从 0.2692 降到 0.1845，LLaMA-1B，Table 3）。 2. 长度成本：推理步数 #L 明确下降（如平均 4.70→3.03，Table 1），但论文主要用 #L 表征效率，未给出端到端 latency(ms)/吞吐的可引用数字（未检索到/需验证）。 3. 人力成本：需要实现 VAE 式 latent reasoning（ELBO/KL 正则）+ CoT 渲染为图片 + 视觉编码器抽取语义向量并做 posterior regularization 的训练管线（§3）。 4. 实验成本：评测采用 5 个随机种子独立 runs 并报告 95% 置信区间（Table 1/3）；实现上冻结 backbone、只训 LoRA（r=128, α=32）（Implementation 段落）。

收益：1. 效果收益：LLaMA-3.2-1B 上四个数学数据集平均 Acc=45.6，高于 CoLaR 41.7；并在 GSM8K-Aug 上 34.9±0.26（vs 26.6±0.18）、MultiArith 上 89.2±0.27（vs 87.0±0.21）（Table 1）。 2. 长度收益：平均推理步数 #L=3.03，低于 CoLaR 的 4.70（约 -35%）（Table 1）；分子 caption 上 #L=1.000±0.000，而 CoT 为 314.825±4.143（LLaMA-1B，Table 3）。 3. 训练收益：采用参数高效训练：冻结 LLM backbone，仅优化 LoRA（r=128, α=32）（Implementation 段落）。

优势：把 latent reasoning 的“压缩指导”做成 lossless 的 2D 渲染，再用视觉表征做 posterior 正则，思路简单但针对痛点。在极端压缩 K=1 下仍能保持明显优于 CoLaR 的准确率（如 MATH 平均 Acc=11.9 vs 7.76，Table 2），说明语义漂移确实被抑制。多模态场景收益更大：分子 caption 上不仅更短链，还能超过同模型的 CoT（Table 3）。

不足：效率指标主要是 #L（推理步数），缺少可直接用于部署预算的 ms/吞吐等数字（未检索到/需验证）。依赖“渲染配置+视觉编码器表征”的选择；w/o 2D 在分子任务上显著掉点（Table 3），说明对该设计较敏感。数学任务的绝对准确率仍不高（如 GSM-Hard 8.27±0.14，Table 1），更像是“latent reasoning 可用性/效率”的推进，而非直接把准确率推到很高。

2026-01-30 · Latent Reasoning

Language Model Circuits Are Sparse in the Neuron Basis

核心思路（中文）：这篇工作挑战了“神经元不适合作为稀疏电路单元”的常识：作者实证发现，用MLP激活作为节点表示时，神经元电路可以和SAE特征一样稀疏且同样忠实。进一步用更强的归因方法RelP替代IG，给出一条端到端的神经元级电路追踪与边归因管线，并在语法一致性与多跳检索推理中定位到可操控的因果子电路。

Core Idea (EN):We show that MLP neurons (using MLP activations as the representation) can form circuits as sparse and faithful as SAE features, and develop a RelP-based end-to-end neuron-level circuit tracing pipeline that identifies causal circuitry on multiple tasks.

亮点：1) 关键发现：在SVA（subject-verb agreement）上，用MLP activations而不是MLP outputs做节点表示，电路规模可缩小约100×，并显著缩小与SAE电路的差距（§5.1）。 2) 归因升级：RelP几乎在所有设置下优于IG；在MLP activations上仅用约200个神经元即可达到接近完美的faithfulness与completeness，并且RelP只需1次反传（IG在其设置下为10次）（§5.2）。 3) 可操作案例：在“Dallas → Texas → Austin”多跳任务中，自动追踪得到257个高归因神经元，并从中人工筛出23个语义清晰的神经元分成6组；对这些神经元做steering可改变模型输出概率分布（§6.1，Figure 6-7）。

成本：1. 效果成本：神经元电路仍需要合适的表示与归因方法；若沿用MLP outputs与IG，电路会明显更大（作者报告用MLP activations可比MLP outputs小约100×，§5.1）。 2. 长度成本：未检索到/需验证。 3. 人力成本：案例研究仍需要人工解释/筛选（从257个高归因神经元中人工识别23个“有意义”的描述并分组，§6.1）。 4. 实验成本：边归因需要在候选神经元上构造边集合；作者为可 tractable 先取top 103个神经元再评估边，并在该设置下选择top-k edges（§5.4）。

收益：1. 效果收益：在SVA基准上，≈102个MLP神经元的电路就足以控制模型行为（Abstract）；并且RelP在MLP activations上用∼200个神经元达到近乎完美的faithfulness/completeness（§5.2）。 2. 长度收益：未检索到/需验证。 3. 训练收益：不需要额外训练成本（Abstract）；此外RelP在其实现中只需1次反传而IG用10次（§5.2），显著降低归因计算开销。

优势：把“神经元不稀疏”这条默认假设用实证推翻，意味着很多电路追踪可回到原生模型空间做而不必先训练SAE。给出一条可落地的端到端流程：节点追踪+边追踪，并在边追踪上用≈105条边就能达到>80% faithfulness且保持较高completeness（§5.4）。多跳案例把抽象指标落到“可操控”层面：steering特定神经元簇能系统性改变答案分布（§6.1）。

不足：主要验证集中在Llama 3.1 8B（base/instruct）与所选任务（SVA与多跳capital）；跨模型/跨任务的普适性仍需扩展。电路“稀疏且忠实”依赖具体评测口径（faithfulness/completeness、paired/unpaired设置）与阈值选择（如0.5%归因阈值、top-5 logits，§6.1）。虽然神经元更faithful，但语义可解释性仍不如理想的字典特征，实际分析仍需人工参与（§6.1）。

2026-01-30 · Latent Reasoning / RL/Policy

Beyond Alignment: Expanding Reasoning Capacity via Manifold-Reshaping Policy Optimization

核心思路（中文）：提出 MRPO（Manifold-Reshaping Policy Optimization）：先用谱正交探索（SOE）把策略初始化“弹出”到预训练偏置流形的零空间里，主动找到与既有偏置正交的高秩推理轨迹；再在 GRPO 目标中加入 Effective Rank（有效秩）正则，抑制推理轨迹的谱塌缩，逼着模型维持高维度的推理路径，从而真正扩展可达的推理空间而不仅是风格对齐。

Core Idea (EN):We propose MRPO, combining Spectral Orthogonal Exploration and Effective-Rank regularization in GRPO to reshape the policy’s latent geometry and expand accessible high-dimensional reasoning trajectories beyond the pre-trained bias manifold.

亮点：1) 机制观点：把“对齐税/推理塌缩”形式化为隐藏态轨迹被困在低秩 Bias Manifold，并用 Effective Rank（式(1)）量化推理轨迹的几何维度。 2) SOE 冷启动：通过谱正交投影，把训练轨迹显式导向 bias manifold 的 null space，保证探索到与既有偏置正交的推理路径，而不是在原分布里筛“更像的”。 3) 4B 规模但跨级压强：在 AIME 2024 上达到 56.7%，超过 Qwen3-32B 的 33.3%（Table 2），并且平均推理 token 下降约 40–60% 且 Rank-Aware Reward 额外开销 <15%（§5.7）。

成本：1. 效果成本：未检索到/需验证。 2. 长度成本：训练/评测使用最大上下文长度 8192 tokens（§5 附近“maximum context length of 8192 tokens”），对长链任务更友好但也抬高部署/显存门槛。 3. 人力成本：需要实现 SOE 冷启动数据合成 + Rank-Aware Reward（有效秩谱奖励）并接入 GRPO 训练管线，工程复杂度高于直接 GRPO。 4. 实验成本：论文做了多随机种子复现实验（seed=42 主结果；额外 seeds 2025/2026）（§5.6），复现需重复多轮 RL 训练与多 K 采样评估。

收益：1. 效果收益：在 AIME 2024 上 56.7%，显著高于 Qwen3-32B 的 33.3%（Table 2）；同时在 MATH-500 上达到 84.2%（正文 “MRPO achieves 84.2%” 段落）。 2. 长度收益：平均推理 token 数相比 base model 下降约 40–60%（§5.7）。 3. 训练收益：Rank-Aware Reward 计算带来的额外开销 < 15% iteration time（§5.7），训练墙钟效率影响较小。

优势：4B 规模就能越级压过 32B baseline，说明“几何可达性”可能比参数更关键；把推理能力扩展问题落到可优化的谱/流形指标（Effective Rank），便于做可控约束；在大采样预算下覆盖率高：Unbiased Pass@32 在 AIME 2024 上为 86.6%–89.1%（§5.6）。

不足：方法依赖隐藏态几何假设与有效秩指标，迁移到不同架构/不同层选取是否稳健仍需验证；需要 SOE 冷启动与额外正则项，训练流程更复杂，调参空间更大；对长上下文（8192 tokens）与多 K 采样的设定较敏感，真实在线推理场景的收益需进一步量化。

2026-01-29 · Latent Reasoning / Inference-Time

Thinking Broad, Acting Fast: Latent Reasoning Distillation from Multi-Perspective Chain-of-Thought for E-Commerce Relevance

核心思路（中文）：提出“多视角CoT教师 + 潜在推理蒸馏学生”的电商相关性框架：教师用 Multi-Perspective CoT（用户意图/结构化属性匹配/业务规则）生成并经 SFT+DPO 训练得到更稳健的推理器；学生侧用 LRKD 训练一个轻量 latent reasoning extractor，把 CoT 的语义嵌入对齐到学生表示，从而线上推理不吐CoT也能保留推理信号并保持低时延。最终在 AliExpress/ESCI 离线指标与 AliExpress 广告检索线上 A/B 都给出可量化增益。

Core Idea (EN):The paper proposes Multi-Perspective CoT (MPCoT) with SFT+DPO for a stronger LLM teacher and Latent Reasoning Knowledge Distillation (LRKD) that aligns a lightweight student’s latent representations to CoT embeddings to retain reasoning ability without generative rationales at inference.

亮点：1) 多视角CoT真能涨点：教师 MPCoTSFT+DPO 在 AliExpress 达到 ACC 68.36 / F1 65.90，相比 Best-SingleCoTSFT+DPO 的 64.83 / 58.26 更高（Table 1）。 2) 推理不吐CoT也能“保推理”：学生 LRKDGAT 在 AliExpress ACC/F1=57.36/52.29，优于 BERT baseline 53.17/49.34，并优于 CED-KD、MKD 等蒸馏方法（Table 1）。 3) 真线上收益+可部署时延：AliExpress 搜索广告线上 A/B：RPM +1.42%、CTR +0.48%、RS +0.4（Figure 1 下方要点）；同时教师 46,800ms vs 学生 132.22ms（A100，Table 2）。

成本：1. 效果成本：多视角数据直接“喂给”单视角模型不一定稳：User Intent SFT 在 ESCI-US F1=50.21，但 +User Intent DPO 的 ESCI-US F1 变化为 -0.14（Table 3），说明偏好数据/视角不对齐会带来权衡。 2. 长度成本：若直接在线用教师 LLM，推理代价极高：MPCoT(14B) inference time=46,800 ms（A100，100 query–item pairs/batch）（Table 2）。 3. 人力成本：训练链路长：需要分别构建三种视角（User/Struct./Rules）的 CoT、做 SFT(3 epochs) + DPO(3 epochs) 训练教师，并准备偏好对数据；学生侧还要实现 extractor 与 CoT embedding（BGE-M3）的对齐训练（§3.3/§4.3）。 4. 实验成本：离线需覆盖多语电商数据集（AliExpress + ESCI-US/JP/ES），并做线上大规模A/B（文中描述“tens of millions of users daily”，且 RS 需专家抽样标注）（Abstract/§4.2.2）。

收益：1. 效果收益：离线多基准稳定提升：教师 MPCoTSFT+DPO 在 AliExpress ACC/F1=68.36/65.90；学生 LRKDGAT 在 ESCI-US ACC/F1=68.73/45.83（Table 1）。线上 A/B：RPM +1.42%、CTR +0.48%、RS +0.4（Figure 1 下方要点）。 2. 长度收益：部署级时延显著：教师 46,800 ms vs 学生 132.22 ms（A100，Table 2）；且 Poly-Encoder extractor 仅 +0.46 ms（132.22→132.68 ms）（Table 2）。 3. 训练收益：参数开销很小：在 BERT 168.15M 上加 LRKDPoly 仅到 168.18M（+0.03M），LRKDGAT 到 168.74M（+0.59M）（Table 2）。

优势：多视角把电商“相关性”拆成可操作的三类推理路径（意图/属性/规则），并在 SFT→DPO 的训练流程里逐步学会融合，结果能在 Table 1 直接验证。蒸馏不是“训练时用CoT、上线丢CoT”：LRKD把CoT语义对齐到潜在向量，推理期仍有 compact reasoning signal。给出部署可用的延迟/参数数字（Table 2），工程取舍清晰（精度 vs +ms）。

不足：论文的效率统计以 A100、100 query–item pairs/batch 为设定（Table 2），对线上不同 batch/硬件/系统栈的可迁移性需验证。依赖高质量 CoT 与偏好对数据（多视角、可选/可拒），数据构造与标注/筛选策略在外部场景复用门槛高。不同 extractor 的收益与延迟差异明显：GAT 带来更高延迟 148.76 ms（相对 132.22 ms，+16.54 ms）（Table 2），需要按业务预算权衡。

2026-01-29 · Latent Reasoning / Multimodal / RL/Policy

Beyond Imitation: Reinforcement Learning for Active Latent Planning

核心思路（中文）：提出 ATP-Latent：不再被动模仿单一语言CoT标注，而是在“潜在CoT（latent tokens）”空间里做主动规划。做法是先用带 stop-head 的VAE把潜在推理轨迹学到平滑、可控的表示，再用GRPO式RL直接优化潜在推理策略，并用VAE解码出的步骤一致性（coherence）作为辅助奖励，推动潜在推理既正确又连贯。

Core Idea (EN):We propose ATP-Latent, which learns a well-defined latent reasoning space with a VAE and then applies RL (with an auxiliary coherence reward computed from decoded latent CoTs) to actively optimize latent planning policies beyond imitation.

亮点：1) 关键立场：同一题可能有多种等价语言CoT，模仿任意一条会学到次优latent policy；因此直接在latent空间“主动规划+优化”而不是模仿（Figure 1）。 2) 结构化latent空间：把latent token学习写成带 stop-head 的条件VAE（含KL与σ预测），让latent trajectory更平滑、可采样、可做RL探索（§3-4；Table 1消融）。 3) 可验证的辅助奖励：用VAE解码的方程链一致性定义coherence RCoh(L)，作为RL的软约束；仅用coherence也能带来提升（Table 1 “w Only Coherence as Reward”）。

成本：1. 效果成本：追求短链会牺牲部分纯准确率上限：CoT-SFT 平均Acc=54.3，高于ATP-Latent 的 47.7（Table 1）。 2. 长度成本：未检索到/需验证（方法引入VAE+stop policy+RL阶段，但文中未给出训练/推理额外时延或FLOPs）。 3. 人力成本：需要实现并维护两阶段流程（SFT训练VAE/decoder + GRPO式RL训练latent/stop policy）以及coherence计算与奖励组合（式(15)-(17)）。 4. 实验成本：作者所有实验在 8× NVIDIA H200 GPUs（141GB VRAM each）上实现；训练数据 GSM8K-Aug 385k，按 80% SFT + 20% RL 划分（Training & Testing Settings 段落）。

收益：1. 效果收益：四基准平均Acc=47.7，高于 SIM-CoT 43.6、Coconut 41.7、CoLaR 42.0（Table 1）；MultiArith 上Acc=94.4（与CoT-SFT同为94.4）（Table 1）。 2. 长度收益：平均#Token=8.4，显著低于 CoT-SFT 的 25.4；也低于 SIM-CoT 的 9.2 与 Coconut 的 9.3（Table 1）。 3. 训练收益：引入RL阶段带来增益：去掉RL（w/o RL）平均Acc=45.8，而完整ATP-Latent 为 47.7（Table 1）。

优势：latent reasoning 不再受“单条标注CoT”束缚，目标函数直接对latent policy优化，更贴近“规划”。 coherence 作为软奖励是可自动计算的信号：仅用coherence也能把平均Acc从45.8拉到46.7（Table 1）。在较少token下保持强结果：在MultiArith上94.4 Acc且#Token=7.1（Table 1），适合低延迟场景。

不足：目前验证集中在 1B 规模（LLaMA-3.2-1B-Instruct）和四个数学数据集，跨任务/更大模型的收益需进一步验证。 coherence度量主要依赖“方程链 RHS 在后续 LHS/答案中出现”的一致性定义（式(15)），对非方程型推理可能需要改造。系统复杂度上升：需要VAE解码器来“读出”latent CoT并参与RL奖励，整体训练/部署链路更重。

2026-01-29 · Latent Reasoning

Depth-Recurrent Attention Mixtures: Giving Latent Reasoning the Attention it Deserves

核心思路（中文）：提出 Dreamer（Depth-Recurrent Attention Mixtures）：在深度递归（depth recurrence）Transformer 的单层核心里，把“沿序列的注意力（SA）”“沿深度的注意力（DA）”以及“稀疏专家注意力（EA/MoE）”统一成可组合的注意力混合。通过让模型能在深度维度上检索/复用跨深度的表示，并用稀疏专家把计算与参数解耦，缓解深度递归的层规模瓶颈与固定隐藏维度瓶颈，从而获得更强的潜空间多步推理与更好的数据效率。

Core Idea (EN):We introduce Dreamer, a modular depth-recurrent attention mixture that combines sequence, depth, and sparse expert attention to scale latent reasoning efficiently and improve data efficiency on language reasoning benchmarks.

亮点：1) 统一视角：把 SA（序列注意力）、DA（深度注意力）与 EA（专家注意力/MoE）都表述为“在不同维度上访问知识的注意力”，形成可模块化组合的 depth-recurrent 单层核心（Figure 1；Contributions）。 2) 两个瓶颈一起打：用稀疏 MoE 缓解“层规模/FLOP 随深度递归线性爆炸”的问题；用 DA 缓解“隐藏维度固定导致多步潜推理受限”的 hidden-size bottleneck（Introduction）。 3) 紧匹配对比：做了 FLOP/参数/显存三重匹配的 LA vs DR vs DR+DA，对数据效率给出可量化提升（Table 2）。

成本：1. 效果成本：在浅层设定下 DA 可能不如纯 DR：深度16时 DR 的平均Acc=45.7，高于 DR+DA 的 43.4（Table 2），作者解释与为 FLOP 匹配而缩小 MLP 有关。 2. 长度成本：未检索到/需验证（文中强调 DA 通过“沿深度注意力”在推理侧仅带来“negligible compute and memory overhead”，但未给出可定位的时延/额外token数字）。 3. 人力成本：需要实现并调参三类注意力模块（SA/DA/EA）及深度递归单层核心，并做严格 FLOP/参数/显存匹配的对照实验与消融（§4.1）。 4. 实验成本：需要在约 100B tokens 训练、两种深度（16/32）上做 LA/DR/DR+DA 对比，并用两随机种子先跑 25B tokens 选更优loss再续训（§4.1）。

收益：1. 效果收益：深度32时 DR+DA 在多个数学推理基准显著领先：GSM8K 56.3（LA=49.7），MATH 54.5（LA=48.2），MMLU(math) 50.0（LA=37.2），MathQA 50.8（LA=26.0）（Table 2）。 2. 长度收益：数据效率（省训练token）最高可达 8.3×：深度32的 DR+DA 在 MathQA 的 DE=8.3；平均 DE=3.5（Table 2）。 3. 训练收益：深度16的 DR+DA 在全部推理基准上优于深度32的 LA，作者指出这意味着“nearly a 2× reduction of parameter count, FLOPs, and memory usage”（§4.1，Table 2 下方正文）。

优势：把“潜推理扩展”从只堆深度/只堆MoE，变成可组合的 SA+DA+EA 统一框架，便于工程上按资源约束拆分扩展维度；在严格资源匹配下仍能给出稳定增益与清晰的 DE 指标；DA 的跨深度信息路由（Figure 4）提供了可分析的中间行为，而不是纯黑盒递归。

不足：收益对深度/匹配策略敏感：浅层（深度16）加入DA会因匹配约束带来精度回落（Table 2）；主要验证集中在数学推理与LM相关基准，跨任务泛化仍需更多覆盖；虽强调开销“negligible”，但缺少可直接落地对比的在线时延/吞吐数字。

2026-01-29 · Latent Reasoning / Inference-Time

Latent Chain-of-Thought as Planning: Decoupling Reasoning from Verbalization

核心思路（中文）：提出 PLaT（Planning with Latent Thoughts）：把“隐式推理”重写成在连续隐空间里的规划轨迹，Planner 自回归地产生一串潜在规划状态；Decoder 只在需要时把状态落到文本，并用“是否终止”检查让推理步数可动态停止，而不是预先固定 latent steps。其核心收益是：牺牲部分贪心精度，换来更好的 Pass@k 多样性扩展与更快的推理延迟。

Core Idea (EN):We introduce PLaT, a Planner-Decoder framework that models reasoning as a deterministic trajectory of latent planning states and decouples reasoning from verbalization to enable dynamic inference termination.

亮点：1) 视角转换：把 latent reasoning 从端到端隐状态映射，改成“在潜空间做规划”的轨迹建模（latent planning states），让推理像搜索/规划而不是一次性压缩（Abstract、§3）。 2) Planner-Decoder 解耦：Planner 负责连续态演化，Decoder 负责必要时的文本落地，并通过 termination check 支持动态终止推理步数（§3-4）。 3) 多样性可扩展：在 GSM8k 上 Pass@128，PLaT-2 达到 74.2%，高于 Coconut 66.7% 与 CODI 70.1%（§4.2、Figure 3）。

成本：1. 效果成本：存在“贪心精度 < 多样性”的权衡；在 GSM8k 的消融表中，PLaT 贪心 Acc.=28.66±0.00（表2），论文也明确其 greedy accuracy 低于部分基线（§4.2）。 2. 长度成本：未检索到/需验证。 3. 人力成本：需要实现并维护 Planner/Decoder 两路与动态终止机制；并在分析里还用 LLM 进行语义聚类与有效性判定（使用 GPT-4o-mini，§4.4）。 4. 实验成本：SFT 训练 25 epochs，learning rate=5e-4，latent dimension ds=2048；并在 Pass@k 评估中用温度 0.9、k=32/64/128 做大量采样（§4.1、Implementation Details）。

收益：1. 效果收益：在 GSM8k Pass@128 上，PLaT-2=74.2%，对比 Coconut=66.7%、CODI=70.1%（§4.2、Figure 3）；表2中 PLaT Pass@128=74.16±0.74。 2. 长度收益：推理延迟显著下降：PLaT-1 152.6±14.3 ms 相比显式 CoT 349.6±8.9 ms，约降低 56%（§4.3、表1）。 3. 训练收益：未检索到/需验证。

优势：把“隐式推理”做成可显式搜索/规划接口：latent states 可按需解码，便于检查中间过程；动态终止避免固定 latent steps 的僵硬超参；在高 k 采样下多样性扩展更强，适合作为推理时搜索（ToT/拒绝采样）的生成器（§4.2、§4.4）。

不足：贪心精度与多样性存在硬权衡，PLaT 的 greedy accuracy 低于部分基线（§4.2）；为做 termination check 需要额外 Decoder 前向，带来一定开销（表1：PLaT-1 为 4.00+4.00 次前向）；主要实验集中在 GSM8k 训练域与数学类 OOD，泛化到更广任务仍需验证（§4.2）。

2026-01-27T05:06:54Z · Agent/Tool-Use / Multimodal / RL/Policy

MATA: A Trainable Hierarchical Automaton System for Multi-Agent Visual Reasoning

机构/学校：Monash University, Australia

核心思路（中文）：提出 MATA：把多智能体视觉推理流程显式组织成“层级有限状态自动机”。顶层由可训练的 hyper agent 读写共享内存并决定在各个 agent/state 之间如何协作或竞争；每个 agent 内部再跑小型规则子自动机做可靠的微控制。训练上通过为每个图像-问题展开 transition-trajectory tree、用任务指标给叶子打分，再把每个节点快照转成“当前memory→最佳下一state”的监督对，构建 MATA-SFT-90K 来SFT transition policy。

Core Idea (EN):MATA is a trainable hierarchical finite-state automaton for visual reasoning, where a finetuned hyper agent routes among multiple agents via shared memory using supervision from transition-trajectory trees (MATA-SFT-90K).

亮点：1) 关键VQA指标直接到SOTA：GQA Acc.=64.9（MATA General，Table 2），OK-VQA Acc.=76.5（MATA Domain-Specific，Table 3）。 2) 指代表达式理解同样强：RefCOCO/RefCOCO+/RefCOCOg/Ref-Adv 准确率分别为 96.3/93.8/90.7/77.3（MATA General，Table 4）。 3) 把“多智能体可解释”落到可量化效率：RefCOCO 上 Time=6.10s、LLM API Cost=0.00069 USD、vRAM=19.64GB（Table 9），对比 HYDRA 14.93s / 0.00332 / 17.59GB。

成本：1. 效果成本：对强单体模型并非全维度碾压：GQA 上 InternVL3.5(8B)=63.8，而 MATA(Domain-Specific)=64.7（差距有限，Table 2）；且 monolithic Qwen2.5-VL(7B) 在 OK-VQA=71.8，而 MATA=76.5（Table 3），优势主要来自组合与路由。 2. 长度成本：最大步数上限 T=15（§4 设置），复杂样例可能触发多步工具调用与代码生成；单条query的token/步骤统计未在正文给出（未检索到/需验证）。 3. 人力成本：系统工程复杂：需要实现 hyper automaton + 多agent共享memory + 各agent的规则子自动机、以及 stepwise/oneshot 的程序生成与执行器（Figure 1/Method；附录G展示多角色prompt）。 4. 实验成本：数据生成近似穷举搜索状态空间以构建 transition-trajectory trees（正文描述 near-exhaustive transition search）；SFT 训练用 AdamW、global batch size=64、训练 8 epochs（§4）。

收益：1. 效果收益：跨多基准给出明确提升：GQA Acc.=64.9（Table 2）；OK-VQA Acc.=76.5（Table 3）；RefCOCO/RefCOCO+/RefCOCOg/Ref-Adv=96.3/93.8/90.7/77.3（Table 4）。 2. 长度收益：效率侧给出端到端时间：RefCOCO 单卡 L40s 上 MATA Time=6.10s（Table 9），显著快于 HYDRA 14.93s 与 Exhaustive 32.74s（Table 9）。 3. 训练收益：只需训练路由/控制器而非大VLM本体：hyper agent 的 state controller（Qwen3 4B LLM）在 MATA-SFT-90K 上 SFT 即可达到上述结果；并展示跨任务迁移时 All-exclude 与 Single 同数据集差距约 1 percentage（Appendix C 文字 + Table 7）。

优势：把“隐式推理难解释”转成可审计的执行历史：共享memory + 状态转移序列天然可追踪（Abstract/Figure 1）。训练信号设计很工程化：用 transition-trajectory tree 把“搜索到的好轨迹”转成可SFT的数据（MATA-SFT-90K）。效率/预算口径完整：同时给 Time(s)/API cost(USD)/vRAM(GB) 的对照（Table 9），便于上线评估。

不足：方法依赖多组件与工具链：对象检测/深度估计/代码执行器+多agent编排，复现与维护成本高。长度/推理token侧披露不完整：缺少每题平均步骤数、token用量等可直接迁移的“长度成本”统计（未检索到/需验证）。 MATA-SFT-90K 的构建需要近似穷举转移搜索与多数据集跑通，数据生成成本对学术复现者不友好。

2026-01-26 · RL/Policy

Dep-Search: Learning Dependency-Aware Reasoning Traces with Persistent Memory

机构/学校：Zhejiang University; Intel Corporation; Tsinghua University; Massachusetts Institute of Technology

核心思路（中文）：提出 Dep-Search：把“搜索式推理”里的依赖关系与记忆显式化。模型用 QDMR 风格分解出带依赖的子问题 DAG，并用控制 token 驱动 <Decompose>/<Retrieve>/<Memory>/<Conclusion> 等动作；每次检索结果会被总结成可复用的 fact 句写入持久记忆（LRU，容量20），后续步骤可直接读记忆减少重复检索。训练上用 GRPO 在“分解/检索/读记忆/总结/回答”的整条轨迹上做端到端优化。

Core Idea (EN):Dep-Search is a dependency-aware search framework that uses explicit control tokens, QDMR-style dependency decomposition, and a persistent memory buffer, trained with GRPO to jointly optimize decomposition, retrieval, memory access, and answer synthesis.

亮点：1) 依赖结构可执行：用 QDMR 分解出带依赖的多跳子问题（DAG），并显式约束“先拿前置事实再解后续”，比顺序分解更适合 multi-hop（Table 3 对比）。 2) 真·可复用记忆：把检索与长上下文总结成 fact 句写入 memory（容量 Cmem=20，LRU），后续用 embedding 相似度读回，减少同一轨迹内/跨步骤重复检索（Appendix A.5）。 3) 端到端 RL 学策略：在同一策略里把控制 token 与推理 token 统一建模，用 GRPO 直接学“何时分解/检索/读记忆/总结”（§3, Appendix B）。

成本：1. 效果成本：收益对组件依赖强：去掉 Memory Module 平均分从 39.29 降到 34.04（-5.25）；去掉 QDMR Decompose 从 39.29 降到 35.97（-3.32）（Table 2）。 2. 长度成本：推理阶段允许很长的生成预算：max 16384 new tokens / trajectory；并且每次检索 top-k=5 passages，且 GRPO 采样 K=4 trajectories / question，整体 token 与检索调用成本不低（Appendix A.5）。 3. 人力成本：需要实现“控制 token + 环境状态机（分解图/上下文/记忆）+ 检索器 + 记忆写入/读出（embedding 检索 + LRU）”的端到端闭环，并联调 reward 阈值 k1/k2 与惩罚系数（Appendix A.5，Algorithm 1）。 4. 实验成本：训练 3 epochs，batch size=2，gradient accumulation=4；检索库是 Wikipedia 2018（约 5.9M passages），需要完整检索与 rerank 管线（Appendix A.4–A.5）。

收益：1. 效果收益：在 7 个 QA 数据集平均分 Dep-Search=39.29（Qwen2.5-3B）与 49.77（Qwen2.5-7B），分别高于 HierSearch 的 36.31 与 46.66（Table 1）。 2. 长度收益：未检索到/需验证。 3. 训练收益：GRPO 训练配置明确：learning rate 1×10^-5（AdamW），采样 K=4 trajectories / question；检索阈值 k1=10、分解阈值 k2=8，并设置 λret=0.1、λdec=0.05（Appendix A.5）。

优势：把“隐式决定检索策略”改成可学习的显式控制：分解/检索/读记忆/总结都有可见动作边界，便于调试与对齐。记忆写入是“总结后的可复用 fact”，比把整段检索结果塞上下文更省上下文管理心智。对 multi-hop 增益更大：从 Table 1 的 HotpotQA/2WikiMHQA/Musique/Bamboogle 看，Dep-Search 相对强基线的优势主要体现在多跳上。

不足：部署成本偏重：最大 16384 new tokens 的轨迹预算 + 检索 top-k=5 + K=4 采样，推理与训练都可能很吃算力（Appendix A.5）。依赖外部检索系统与 Wikipedia 语料；不同域/不同检索器下的稳定性与迁移成本需要再验证（未检索到/需验证）。论文主要报告 QA 分数，缺少端到端延迟(ms)/吞吐等系统级指标，工程预算仍不透明（未检索到/需验证）。

2026-01-23 · Latent Reasoning / Multimodal

FantasyVLN: Unified Multimodal Chain-of-Thought Reasoning for Vision-Language Navigation

机构/学校：Fantasy AIGC Team; Beijing University of Posts and Telecommunications; Tsinghua University

核心思路（中文）：提出 FantasyVLN：训练阶段把文本CoT、视觉CoT与多模态CoT统一到同一VLM里，并用跨模式对齐把“带CoT推理”的动作分布对齐到“直接出动作”的路径，从而实现 train-with-CoT, infer-without-CoT。关键做法是把显式V-CoT里要生成的高维视觉token，压缩到预训练VAR的潜空间（CompV-CoT），把一次推理步的视觉生成从“上千token”变成少量latent token。最终推理时只走非CoT路径，仍能享受多模态CoT训练带来的隐式推理表示，兼顾长程导航成功率与实时性。

Core Idea (EN):FantasyVLN trains a single VLM with unified textual/visual/multimodal CoT (with VAR-latent compressed visual thoughts) and uses cross-mode alignment so that at inference it can act via a direct non-CoT path while retaining CoT-induced reasoning representations.

亮点：1) 统一多模态CoT但推理不吐CoT：在LH-VLN上 SR/ISR/CSR/CGT=2.44/11.01/9.64/8.99，显著超过各类显式/隐式基线（Table 2）。 2) 解决“多模态CoT token爆炸”：典型一步推理覆盖5–7个动作会膨胀到>3k–5k tokens，而纯文本CoT通常<500 tokens（Introduction）。 3) 压缩视觉想象更高效：VAR在256×256图像上用30个低尺度视觉token即可重建；其压缩比1/2185、MSE=0.039（Table 1）。

成本：1. 效果成本：训练强依赖“跨模式对齐”与多模式联合；去掉对齐约束时 SR=0、ISR=2.39、CSR=1.19、CGT=1.28，而加入对齐后提升到 SR=2.44、ISR=11.01、CSR=9.64、CGT=8.99（Table 5）。 2. 长度成本：未检索到/需验证（论文给出APS等效率指标，但未给出端到端推理时延ms/显存或训练token总量）。 3. 人力成本：需要准备/生成三种CoT监督（T-CoT/V-CoT/MM-CoT）并实现统一门控(gT,gV)与交替优化；还要接入预训练VAR做latent视觉token空间（§3.3–3.5）。 4. 实验成本：主要评测在LH-VLN，并需要同时跑显式分支与隐式分支对比；视觉CoT相关基线在像素级token预测上训练不稳定，文中提到WorldVLA需要>10k iterations才到“moderate token prediction accuracy”（§4.4）。

收益：1. 效果收益：在LH-VLN上 FantasyVLN 的 SR=2.44、ISR=11.01、CSR=9.64、CGT=8.99（Table 2）；并且全组合(non-CoT+T/V/MM-CoT)优于只开单一模式（Table 3）。 2. 长度收益：推理效率APS=1.03（7B），高于显式CoT-VLA 0.19（7B），也略高于WorldVLA 1.02（7B）与Aux-Think 0.97（8B）（Table 4）。 3. 训练收益：VAR压缩视觉信息：256×256图像的低尺度表示仅30个视觉token；在对比压缩器中VAR压缩比达1/2185（MSE=0.039）（Table 1），用于把V-CoT从像素级重建转为latent预测以提升训练稳定性（§3.3、§4.4）。

优势：把“显式CoT可解释/长程规划”的监督收益，转移到推理时的非CoT直接决策路径，符合实时导航需求。用VAR潜空间做视觉想象，避开像素级token预测的弱梯度与token爆炸问题。实验里同时给出准确性（SR/ISR/CSR/CGT）与效率（APS）对照，工程取舍清晰（Table 2/4）。

不足：指标SR/ISR/CSR/CGT的量纲与可比性依赖LH-VLN设定，迁移到其他VLN/机器人场景需再验证（§4.1）。多分支训练与对齐带来实现复杂度；如果数据/对齐做不好会直接掉到SR=0级别（Table 5）。效率侧主要用APS刻画，缺少更细的端到端时延(ms)/显存/吞吐报告，做部署预算还需补齐（未检索到/需验证）。

2026-01-21 · Latent Reasoning / Multimodal

Render-of-Thought: Rendering Textual Chain-of-Thought as Images for Visual Latent Reasoning

核心思路（中文）：提出 RoT（Render-of-Thought）：把显式文本CoT“渲染成单行图片”，用现成VLM的冻结视觉编码器把每一步CoT压到视觉embedding里，作为可追踪的“语义锚”。训练分两阶段：先学一个轻量投影头把LLM隐藏态映射到视觉embedding并用MSE对齐；再让LLM自回归生成这段视觉latent推理链，最后输出答案，从而推理时不再生成长文本CoT但仍能可视化中间过程。

Core Idea (EN):Render-of-Thought (RoT) renders textual CoT into images and distills them into autoregressively generated visual latent embeddings anchored by a frozen VLM vision encoder, enabling efficient, traceable reasoning without verbose text.

亮点：1) 速度数字硬：GSM-Hard 上单样本推理时延从 8.55s 降到 1.84s（Figure 4，单张 NVIDIA H20，batch=1）。 2) token 真压缩：在 Qwen3-VL-4B-Instruct 上，显式CoT平均 #L=108.4，而 RoT 固定 32 个 latent tokens（Table 1），同表给出 Pass@1/#L 从 0.73 提升到 1.73。 3) 难题也能“有增益且省token”：MATH 上显式CoT 55.8% 需 291.5 tokens；RoT 用 64 tokens 做到 33.2%，并高于 w/o CoT 的 29.4%（Table 3）。

成本：1. 效果成本：准确率仍明显低于显式CoT：在 Qwen3-VL-4B-Instruct 上平均 Pass@1 55.4（RoT, #L=32） vs 79.3（SFT-CoT, #L=108.4）（Table 1）。 2. 长度成本：需固定生成 latent tokens（如 32 或 64）；且动态终止(<|img_end|>)会显著掉点（GSM8k-Aug 3.87、MATH 2.20，Table 4），因此常要用固定token预算。 3. 人力成本：需要把 CoT 渲染成图像（默认 32px 高度、4px padding、20px 字号，§3.2）并实现两阶段训练与对齐（投影头ϕ + MSE对齐损失 Eq.(1)）。 4. 实验成本：训练配置明确但不轻：batch size=16，学习率 2e-5，Stage I 1 epoch + Stage II 2 epochs（合计 3 epochs）（§4.1）；推理/时延对比在单张 NVIDIA H20、batch=1 下测（Figure 4）。

收益：1. 效果收益：在 Qwen3-VL-4B-Instruct 上，RoT 平均 Pass@1=55.4（#L=32）；并在与 LLM-latent 方法对比时，平均 55.4% 比 CoLaR-2 的 47.3% 高 8.1%（Table 2 文本描述 + Table 2）。 2. 长度收益：显式CoT到latent的直接压缩：#L 108.4 → 32（≈3.4× 更短，Table 1）；MATH 上 291.5 → 64（≈4.6×，Table 3）。 3. 训练收益：无需额外预训练视觉编码器——直接使用 VLM 原生 vision encoder 并冻结；仅训练轻量 Visual Projection Head（两层MLP + SwiGLU，§3.1/§4.1）。

优势：能把“隐式推理”变得可观测：中间推理链对应一串可视化/可分析的视觉embedding（Figure 6 的相似度矩阵/heatmap）。接口相对工程友好：推理阶段去掉渲染与视觉编码，只保留LLM+投影头前向（§3.1）。速度与token指标给得足：有秒级时延对比（8.55s→1.84s）与#L表（Table 1/3），方便做系统预算。

不足：在强推理上仍是“省钱但掉点”：MATH 上 RoT 33.2% 远低于显式CoT 55.8%（Table 3）。对解码策略/预算敏感：动态终止非常不稳定（Table 4），需要任务级调token预算（32/64/128…）。方法依赖“CoT可渲染成单行文本”的设定；对结构化推理（公式/多行排版）渲染质量与对齐效果可能受影响（未检索到/需验证更复杂排版的系统性评估）。

2026-01-21 · Implicit/Hidden CoT / Multimodal / RL/Policy

Outcome-Based RL Provably Leads Transformers to Reason, but Only With the Right Data

核心思路（中文）：研究“只用最终答案奖励”的 outcome-based RL 为什么会逼出 CoT：在一个必须多步才能解的合成图遍历任务上，证明 policy gradient 会收敛到可解释的“逐点遍历”算法（而不是其它低效但可行的解）。并刻画训练数据分布条件：必须有足够比例的“简单样本”（需要更少推理步数）作为锚点，才能出现从简单到复杂的外推；没有这些简单样本时，学习会随链长增长而变得不可行。最后用 Qwen2.5-3B + GRPO 的数学任务微调实证复现：在不监督中间推理的情况下，也能学到稳定的逐步解题策略，并出现简单到复杂的泛化。

Core Idea (EN):The paper proves that outcome-based policy gradient can induce interpretable multi-step reasoning in Transformers, but only when the training distribution includes sufficient mass on simpler (shorter-chain) examples.

亮点：1) “只奖最终对错”也能学出算法：链识别任务上，n=4/8/12 的 Test Acc.=100%/100%/99.3%，且 Chain Trav.=100%/99.3%/94.2%（Table 1）。 2) 关键结论是“数据分布而非算法细节”：需要训练分布包含简单样本，否则复杂链上的学习不可行（§6–7 结论；Figure 2/3）。 3) 结论能迁移到真实 LLM：在数学推理任务上，Qwen2.5-3B 用 GRPO 微调，在 15-Uniform 训练下任务准确率 98.91%，且在正确解里 100% 被标注为遵循一致的逐步算法（§7.2.2）。

成本：1. 效果成本：泛化存在“复杂度门槛”：只在 5-Uniform 上训练时，对 15-Complex 的 Test Acc.=1.20%（Format=7.30%）（Table 2）。 2. 长度成本：未检索到/需验证（未给出 token 数、推理步数或端到端时延/吞吐）。 3. 人力成本：需要构造可控的“推理步数”数据分布（n-Uniform / n-Complex），并对输出格式（/）做奖励约束与额外标注器分析（§7.2.1–7.2.2）。 4. 实验成本：未检索到/需验证（PDF 未给出 GRPO 训练步数、算力/时长等关键复现成本；仅在 Appendix H 描述细节）。

收益：1. 效果收益：数学任务上，15-Uniform 训练后任务准确率 98.91%，且在正确解中 100% 展现一致的逐步算法（§7.2.2）。 2. 长度收益：未检索到/需验证。 3. 训练收益：简单到复杂的可量化泛化：10-Uniform 训练时，在 15-Complex 上 Test Acc.=80.60%（Format=89.40%）；15-Uniform 训练时 Test Acc.=95.70%（Format=97.40%）（Table 2）。

优势：把“CoT 从稀疏奖励中自发出现”这件事从经验现象推进到可证明机制：给出收敛到可解释遍历算法的理论。明确指出“简单样本质量/占比”是隐式推理出现的决定性因素，能直接指导数据配方与课程设计。理论→合成实验→真实 LLM 微调闭环完整：同一现象在单层 Transformer 与 Qwen2.5-3B 上都能复现。

不足：系统与长度口径缺失：没有 token、latency、吞吐等指标，难直接评估“隐式推理”带来的在线成本（未检索到/需验证）。实证任务是特制的数学链式方程与合成链遍历，能否覆盖更开放的推理形态（检索/规划/多工具）仍需进一步验证。实验细节较多放在 Appendix H，主体不便快速复现；同时 5-Uniform→15-Complex 的崩塌（1.20%）提示方法对数据复杂度区间较敏感（Table 2）。

2026-01-21 · Agent/Tool-Use / RL/Policy

AdaTIR: Adaptive Tool-Integrated Reasoning via Difficulty-Aware Policy Optimization

核心思路（中文）：提出 AdaTIR：把工具调用从“固定惩罚/固定预算”改成“按题目难度自适应”的 Tool-Integrated Reasoning 强化学习。核心是在 GRPO 里加入 difficulty-aware 的效率奖励，让简单题更强约束工具预算、逼迫模型把可内化的推理学回模型参数；复杂题则保留必要的工具使用。为避免“省工具”奖励反压过“答对”奖励导致优势符号翻转，进一步提出 CAS（Clipped Advantage Shaping），把效率优势相对正确性优势做裁剪，保证正确性始终是主目标。

Core Idea (EN):AdaTIR trains tool-integrated reasoning with a difficulty-aware efficiency reward to internalize reasoning on easy tasks while selectively using tools on hard ones, stabilized by Clipped Advantage Shaping (CAS) to prevent sign-reversal in advantages.

亮点：1) 明确把“认知外包(cognitive offloading)”当目标优化：同一模型在保持/提升准确率的同时显著减少工具调用，并给出 Accuracy vs Tool Calls 的 Pareto 证据（Figure 1, Table 1）。 2) 难度自适应的工具预算确实有效：AIME 2024 上在提升准确率 33.8%→37.1% 的同时把平均工具调用从 2.02 降到 1.45（-28.2%）（Table 1 & 正文 §4.2）。 3) “不让用工具也能更强”验证内化：在 B=0 禁止工具时，AIME 2024 仍有 +4.8% 绝对提升（正文 §4.2；Figure 4 说明）。

成本：1. 效果成本：存在基准权衡：在 AMC23 上 AdaTIR-7B=72.3 低于 GRPO=74.7（-2.4% 绝对值），AdaTIR-3B=58.0 低于 GRPO=60.2（-2.2）（Table 1）。 2. 长度成本：未检索到/需验证（PDF 未给出端到端推理时延/吞吐；仅报告 Average Tool Calls(ATC)）。 3. 人力成本：需要实现 TIR 环境与可计数的 tool calls、难度阈值/预算策略（如 ϕlow=0.8）以及 CAS 的优势裁剪机制并调参（§4.1，Eq.(10)(11)）。 4. 实验成本：RL 训练需遵循两阶段 SFT+RL 配方，最大序列/回复长度 4096；RL 阶段工具调用上限 Nmax=4（§4.1）。

收益：1. 效果收益：AIME 2024：GRPO 33.8%→AdaTIR-7B 37.1%（+3.3）；AIME 2024：GRPO 26.3%→AdaTIR-3B 29.2%（+2.9）；GSM8K：GRPO 91.0→AdaTIR-7B 92.8（+1.8）（Table 1）。 2. 长度收益：显著减少工具调用：AIME 2024 的 ATC 2.02→1.45（-28.2%）；GSM8K 的 ATC 0.83→0.02（-97.6%）（Table 1 + §4.2 文本）。 3. 训练收益：未检索到/需验证（PDF 未给出训练 token 总量/FLOPs 或训练时长）。

优势：把“该不该用工具”变成可优化的难度自适应策略，而不是一刀切的 tool penalty。 CAS 解决了效率奖励导致的优势符号翻转/训练不稳问题，使“答对优先”在目标函数上可控。评测同时给出准确率与 ATC，并做 B∈{0..4} 的预算敏感性分析，能直接对应到部署侧的预算控制（Figure 4）。

不足：效率指标仍偏粗：主要用 ATC 表征，缺少端到端延迟(ms)/吞吐等系统级成本数字（未检索到/需验证）。工具预算与难度阈值（如 ϕlow、β、δ）带来额外超参；不同任务/工具集合下的可迁移性需要更多验证。实验集中在数学推理基准（AIME/AMC/GSM8K），对更复杂的多工具真实代理任务覆盖有限（仅提到 Search-R1 的初步结果，细节需验证）。

2026-01-20 · Latent Reasoning / RL/Policy

Reasoning While Recommending: Entropy-Guided Latent Reasoning in Generative Re-ranking Models

核心思路（中文）：提出 EGLR（Entropy-Guided Latent Reasoning）：在生成式重排的列表生成过程中，按位置监测候选分布熵并触发可变长度的 latent reasoning，而不是先整段推理再推荐。做法是引入 context-aware reasoning token + 动态温度调节，把高熵（更难）阶段的探索留给推理分支、低熵阶段更偏向利用，从而更稳定地学到复杂偏好。

Core Idea (EN):EGLR introduces entropy-guided variable-length latent reasoning with context-aware reasoning tokens and dynamic temperature adjustment to balance exploration and exploitation during generative re-ranking list generation.

亮点：1) 指标两头都占：Ad 上 MAP@10=0.6185、Evaluator Score=0.7716；KuaiRand 上 MAP@10=0.6346、Evaluator Score=2.3590（Table 2）。 2) 明确超过同类 latent-reasoning 基线：Ad 的 Evaluator Score 0.7716 高于 LatentR3 的 0.7511；KuaiRand 的 2.3590 高于 2.3379（Table 2）。 3) 模块可插拔、跨模型迁移有实证：在 EG-Rerank/CMR/LAST 三个 backbone 上都提升，如 CMR 在 Ad 的 MAP@10 0.6057→0.6121、E-Score 0.7345→0.7482（Table 3）。

成本：1. 效果成本：推理步数加深后收益递减：KuaiRand 的 Evaluator Score 从 Smax=1 的 2.3590 仅到 Smax=3 的 2.3604（Table 4）。 2. 长度成本：推理越深越慢；KuaiRand 上单卡 RTX 3090 推理时延（second）38.14(Smax=0)→54.89(1)→72.28(2)→86.18(3)，且每个 list 的总推理步数 0→7.96→13.5→18.7（Table 4）。 3. 人力成本：需要实现熵监测+分支切换、context-aware reasoning token、推理/推荐阶段不同温度与系数α、以及 GRPO 训练流程与超参网格搜索（§5.1.4）。 4. 实验成本：训练与对比需跑多套基线+消融；作者设置 epochs=100、group number=4，并对 Smax∈{1,2,3}、Hth∈{0.5,1.0,1.5,2.0}、τ0∈{0.3,0.6,1.0}、α∈{1,2,5,10} 做选择（§5.1.4）。

收益：1. 效果收益：EGLR 在 Ad 上 MAP@10=0.6185、Evaluator Score=0.7716；KuaiRand 上 MAP@10=0.6346、NDCG@10=0.7526、Evaluator Score=2.3590（Table 2）。 2. 长度收益：用较浅推理即可拿到大部分增益：KuaiRand 从无推理 Smax=0 的 MAP@10=0.6245 / E-Score=2.3334 提升到 Smax=1 的 0.6346 / 2.3590，而继续加深到 Smax=3 仅到 0.6361 / 2.3604（Table 4）。 3. 训练收益：未检索到/需验证。

优势：把“困难位置”显式识别为高熵段，并把推理预算按难度分配（entropy-guided variable-length），更贴近列表生成的真实难度分布。兼容现有生成式重排骨架：EGLR 作为模块可在 EG-Rerank/CMR/LAST 上直接增益（Table 3）。同时报告静态排序指标（MAP/NDCG）与 Evaluator Score，减少“离线好看线上不稳”的不确定性。

不足：效率数字以“second/单卡3090”给出但缺少更细的吞吐、batch、端到端线上时延等部署口径（未检索到/需验证）。推理深度带来明显时延上涨：Smax=3 时延 86.18s（vs 38.14s, Smax=0）（Table 4），需要很强的系统优化/异步策略才能上线。论文作者为 Individual Author，缺少机构背书与大规模复现实证；数据集与 evaluator 的可复现性边界需额外确认（未检索到/需验证）。

2026-01-16 · Multimodal

iReasoner: Trajectory-Aware Intrinsic Reasoning Supervision for Self-Evolving Large Multimodal Models

机构/学校：Vellore Institute of Technology, Chennai; Loughborough University; Nagasaki University

核心思路（中文）：提出 iReasoner：在完全无标注的“Proposer-生成题目 / Solver-解题”自进化框架里，把优化目标从只看最终答案，升级为同时奖励中间 CoT 步骤的一致性。做法是让 Solver 对同一图像采样多条推理轨迹（rollouts），对多数答案组内每一步的文本嵌入做对齐，形成“跨轨迹步骤一致性”内在奖励，从而把可迁移的中间结构稳定下来并抑制走捷径/幻觉。

Core Idea (EN):iReasoner is a fully unsupervised Proposer–Solver self-evolution framework that improves multimodal reasoning by adding an intrinsic, trajectory-aware reward that encourages step-level agreement across chain-of-thought rollouts.

亮点：1) 真·无标注也能“管中间推理”：训练全程只用图像，不用 QA/字幕/外部 reward model，却能通过“步骤一致性奖励”把中间推理结构拉进优化环（§4.1）。 2) 跨 8 个多模态推理基准稳定增益：在 InfoGraphic-VQA/AI2D/ScienceQA/MMMU 以及 ChartQA/MathVista/MathVision/MathVerse 上整体都高于种子模型（Table 1）。 3) 给出可操作的奖励工程细节：多数答案组、位置衰减、密度加权、warmup(最高0.7)与长度惩罚一起用，消融显示 warmup 影响最大（Table 2）。

成本：1. 效果成本：存在任务权衡：相对仅用 answer-stability（Soft majority reward only），加入 step-wise reward 会让 ChartQA 86.64→85.78（-0.86），MathVista 70.41→69.74（-0.67）（文中 §4.3 对比）。 2. 长度成本：未检索到/需验证（论文给出“excess pre-answer length”的长度惩罚项，但未给出 token/时延等可直接复用数字）。 3. 人力成本：需要搭建 Proposer–Solver 自进化管线 + rollouts 聚类/多数组判定 + 步骤解析与嵌入相似度计算（Figure 1，§3）。 4. 实验成本：训练用 8× AMD MI250X，训练 2.5k steps，完整 run 约 35 小时；每张图像 Solver 采样 N=5 条 reasoning rollouts（§4.1）。

收益：1. 效果收益：8 基准上相对 Qwen2.5-VL-7B 的提升可直接从 Table 1 读出：例如 MMMUval 51.11→52.37（+1.26），MathVerse 43.78→45.91（+2.13），MathVision 23.91→25.29（+1.38），ScienceQA 88.30→89.92（+1.62）。 2. 长度收益：未检索到/需验证。 3. 训练收益：无标注训练规模与时长明确：训练池 2.5k images；训练 2.5k steps；约 35 小时完成（8× AMD MI250X）（§4.1）。

优势：把“隐式推理”变成可优化的内在信号：用跨轨迹步骤一致性来约束中间结构，避免只奖励最终答案导致的捷径学习。完全无外部监督/裁判：不依赖 ground-truth、外部 judge 或 verifier，适合大规模无标注图像流的自进化设定。消融与敏感性比较完整：机制设计（warmup/位置衰减/密度加权）与 step budget（4/6/8/10 steps）都有明确对照（Table 2/3）。

不足：长度与部署成本披露不足：缺少 token 用量、端到端时延/吞吐等系统级数字，难直接评估在线推理预算（未检索到/需验证）。对“步骤解析/分段”的工程假设较强：需要把 CoT 可靠地切成 step 并做对齐，若模型输出格式漂移可能影响奖励稳定性。存在可验证任务上的轻微退化：在 ChartQA/MathVista 上相对 answer-stability-only 会有下降（-0.86/-0.67）（§4.3）。

2026-01-15 · Latent Reasoning / Multimodal

LaViT: Aligning Latent Visual Thoughts for Multi-modal Reasoning

核心思路（中文）：提出 LaViT：在多模态蒸馏里不只对齐老师的最终文本答案，而是先对齐“潜在视觉思维”——老师的视觉语义(latent semantics)与注意力轨迹(attention trajectories)。学生需要自回归重建这些连续 latent tokens 后再生成文本，并用课程式感知门控(Curriculum Sensory Gating)先收紧再放开视觉输入，逼迫模型学会“看哪里”而不是靠语言先验走捷径。

Core Idea (EN):LaViT distills multimodal reasoning by autoregressively reconstructing a teacher’s latent visual semantics and attention trajectories (latent visual thoughts) before text generation, aided by curriculum sensory gating to prevent shortcut learning.

亮点：1) 把蒸馏的对齐目标从“答案/分布”提升到“视觉注意力轨迹+语义 latent”，直接针对论文指出的 Perception Gap（学生会说但不会看）。 2) 视觉推理提升幅度大且可量化：BLINK-Relative Depth 61.29→78.23（+16.94），Relative Reflectance 29.85→45.52（+15.67）（Table 1）。 3) 小模型也能打：3B 模型在 MMVP 上 67.33%，高于 GPT-4o 的 58.33%（Table 1），并在注意力稳定性上 CV=0.102（优于 teacher 0.392）（Table 2）。

成本：1. 效果成本：方法对“轨迹对齐/语义重建”等组件依赖强；去掉 Traj. Align 会导致 MMVP 明显下降到 59.33%（Table 3 文字说明）。 2. 长度成本：未检索到/需验证（PDF 未给出推理 token 数/端到端时延；仅给出 latent visual tokens 数 V=4 的设定（§5.1））。 3. 人力成本：需要能拿到/导出 teacher 的注意力轨迹并做白盒蒸馏（Top-K=8 稀疏化监督，Table 2 下方要点），还要实现课程式感知门控的两阶段训练。 4. 实验成本：两阶段训练共 1000 steps：Phase 1=400 steps（γ 初始 1e-6），Phase 2=600 steps；并在 LaViT-SFT-15K 上微调（§5.1）。

收益：1. 效果收益：MMVP 62.33%→67.33%（+5.00）；BLINK-Relative Depth 61.29→78.23（+16.94）；IQ-Test 24.0→32.0（+8.00）；Relative Reflectance 29.85→45.52（+15.67）；MMStar 50.2→54.07（+3.87）（Table 1）。 2. 长度收益：未检索到/需验证。 3. 训练收益：蒸馏训练设置清晰且参数/latent 规模小：latent visual tokens 数 V=4；损失加权 λ=0.3；两阶段训练 400+600 steps（§5.1）。

优势：把“视觉看哪里”当成可蒸馏对象：用注意力轨迹对齐来补齐文本蒸馏的盲区，直击多模态推理的幻觉根因。提升不仅是分数，还带来注意力更稳定：Salient Regions CV 从 teacher 0.392 / base 0.191 降到 0.102（Table 2）。与工程落地兼容：在 3B 基座(Qwen2.5-VL-3B)上即可获得跨多基准提升（Table 1），不依赖额外标注框等显式区域监督。

不足：系统成本披露不足：缺少推理时延(ms)、吞吐、token 开销等关键部署数字（未检索到/需验证）。方法需要白盒访问 teacher 的注意力/中间信息；在闭源或API-only teacher 上可用性受限。训练流程更复杂：语义重建+轨迹蒸馏+感知门控的组合增加复现与调参门槛。

2026-01-14 · Latent Reasoning / Multimodal / RL/Policy

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

核心思路（中文）：提出 Fast-ThinkAct：把 reasoning VLA 的“长文本CoT规划”压缩成可复述(verbalizable)的连续 latent token 规划，再把这段紧凑规划对齐到动作策略。训练时用带 RL 奖励的文本老师(ThinkAct式)做 preference-guided distillation，并加上视觉轨迹(latent)对齐，把语言+视觉的规划能力一起蒸馏进 6 个左右的 latent CoT，从而在不吐长CoT的情况下保留长程规划/失败恢复能力，同时把推理时延降到可实时操控的量级。

Core Idea (EN):Fast-ThinkAct distills a textual reasoning teacher into a student that performs verbalizable latent chain-of-thought planning (compact continuous tokens with trajectory alignment) to enable fast, reasoning-enhanced vision-language-action control.

亮点：1) 大幅降时延但不掉点：在与 ThinkAct-3B 同规模下，LIBERO 89.7 vs 83.1、SimplerEnv-Google 68.7 vs 64.7，同时推理 7× 更快（805ms vs 5674ms）（Tab.5）。 2) “潜在CoT=6 token”替代“显式CoT≈250 token”：图1显示以约 6 个连续 token 做内部规划，对比以往显式推理约 250 tokens，并达到 9.3× 更快推理（Figure 1）。 3) 强泛化的具身推理：Fast-ThinkAct-3B 在 EgoPlan-Bench2 平均 46.4、RoboVQA B-Avg 60.8、OpenEQA 51.2，Overall Avg 52.8（Table 2）。

成本：1. 效果成本：蒸馏质量依赖老师推理与偏好优化；把老师推理强行压到 0/6/∼50 个文本 token 时，分数分别为 46.5/46.3/47.8，均低于老师 49.8（Table 6），说明“只缩短文本CoT”会明显损失。 2. 长度成本：仍需生成 latent reasoning token（文中用 6 latent tokens；Figure 1，Table 6），并额外产生轨迹/空间 token（Figure 1）；若系统对最小前向步数极敏感仍需评估（未检索到/需验证）。 3. 人力成本：训练链路较重：需要先有 RL 奖励驱动的文本老师、再做 preference-guided distillation，并实现教师-学生的视觉轨迹 latent 对齐与后续策略学习联训（Method/§4）。 4. 实验成本：评测覆盖多基准：LIBERO、SimplerEnv、RoboTwin2.0（easy/hard）、EgoPlan-Bench2、RoboVQA（BLEU-1~4）、OpenEQA（LLM评分）（§4.1），复现成本高且依赖多套环境。

收益：1. 效果收益：RoboTwin2.0 上平均成功率 Fast-ThinkAct=65.7(E)/26.4(H)，高于 ThinkAct 的 62.4(E)/24.7(H)（Table 1）；并在 Table 2 的 embodied reasoning Overall Avg=52.8。 2. 长度收益：推理显著更短/更快：相对 ThinkAct-3B 7× 更快（805ms vs 5674ms）（Tab.5）；相对 ThinkAct-7B 与 MolmoAct-7B 分别 89.3% 与 88.0% latency reduction（Fig.3(f) 文字）。 3. 训练收益：用 6 latent tokens 仍能超过老师：在 Table 6 中 Fast-ThinkAct=53.3，高于文本老师 49.8，且优于多种“短文本推理”基线（46.3–47.8）。

优势：把“推理”从长文本输出改成可复述的 latent 规划 token，接口上兼顾可解释(可 verbalize)与实时性。同时蒸馏语言推理+视觉轨迹规划（trajectory latent alignment），对具身任务更对齐。给出清晰的效率数字（ms、×倍、% reduction）并在多个具身推理/操控基准上对照。

不足：方法依赖一个高质量、带 RL 奖励的文本老师来提供偏好信号与轨迹对齐目标，训练门槛高。主要效率指标集中在 latency(ms)/token 数；对吞吐、显存、并行批量等部署侧指标覆盖不足（未检索到/需验证）。跨机器人平台/真实机器人闭环的全面验证在本文中主要通过“与真实相关的仿真基准”间接体现，仍需更多真实部署报告。

2026-01-14 · Latent Reasoning / RL/Policy

RISER: Orchestrating Latent Reasoning Skills for Adaptive Activation Steering

核心思路（中文）：提出 RISER：把激活操控从“单一静态 steering 向量”升级为“可组合的隐式推理技能库 + 动态路由器”。离线先从对比提示中提取并聚类得到 6 个可复用的 reasoning vectors（覆盖数值/逻辑/阅读/科学等），在线在指定层读取最后 token 的隐藏态，由轻量 Router 为每个输入选择向量并给出强度系数，组合后注入激活以增强推理。路由策略用任务级奖励做 RL 优化，让模型在不改参数的情况下学会按题型调用不同隐式技能。

Core Idea (EN):RISER is a plug-and-play activation intervention framework that learns a lightweight Router to dynamically select and compose a library of reasoning vectors for each input, improving reasoning without updating the base LLM parameters.

亮点：1) 动态组合胜过静态向量：同一框架对不同题型选择不同 primitive，并能做 Top-k 组合而非 Top-1（Table 2：Top-1 Only 在 MATH 51.6 < 53.3）。 2) 强结果且不用重训模型：在 Qwen2.5-7B 上 MATH 53.3（+6.5）、GPQA 36.8（+5.8）、MMLU-Pro 50.3（+6.2）（Table 1）。 3) 省 token 的“隐式推理增强”：在 MATH/GPQA 上分别只用 1392/3056 tokens，而 CoT 需要 4033/6195（≈2–3× 更省）（Table 2 附近正文）。

成本：1. 效果成本：收益依赖 RL 路由优化与“组合”能力；去掉 RL（SFT-only）MATH 49.4、GPQA 31.2、TruthfulQA 54.6（均低于 Full RISER 的 53.3/36.8/59.8）（Table 2）；只取 Top-1 也会掉到 MATH 51.6、GPQA 33.5（Table 2）。 2. 长度成本：未检索到/需验证（文中给出 token 用量对比，但未在 PDF 中定位到 Router 带来的额外在线时延/吞吐开销数字）。 3. 人力成本：需要构建 vector library 的离线流程（正/负提示对、LLM-Judge 过滤、聚类成 K=6 原语）并实现路由器在线注入与 RL 训练（§4-5 相关描述；K=6、阈值0.7、αmax=2.0）。 4. 实验成本：Router 为 bottleneck MLP，约 5 million 参数（<0.1% base）（§5.1）；向量提取/训练数据：从 MMLU 随机采样 500 题做向量提取，Router 训练阶段使用 MMLU 中自动抽取 200 样本做 SFT，RL 使用 MMLU-Pro 并按 70%/30% 划分（§5.1）。

收益：1. 效果收益：跨 7 个基准在多模型上带来 3.4–6.5% 的 zero-shot 绝对提升（Abstract）；例如 Qwen2.5-7B：MATH 53.3（基线46.8，+6.5），GSM8K 85.2（79.8，+5.4），GPQA 36.8（31.0，+5.8），ARC-C 67.2（63.7，+3.5），TruthfulQA 59.8（56.4，+3.4）（Table 1）。 2. 长度收益：更省 token：MATH 1392 vs CoT 4033；GPQA 3056 vs CoT 6195（≈2–3×）（Table 2 附近正文）。 3. 训练收益：参数高效：Router 约 5M 参数（<0.1% base model），无需更新基座模型参数（§5.1，Abstract）。

优势：推理控制从“单向量、手动强度”变成“可组合、按题型自适应”的隐式技能编排，接口清晰（Router 输出向量选择+强度）。在不改模型参数的前提下，能在数学/通用/对齐类基准上稳定增益（Table 1）。相比 CoT 生成长推理文本，用更少 token 达到更高准确率，适合低成本推理场景（MATH/GPQA token 对比）。

不足：目前库的原语数固定为 K=6，是否能覆盖更复杂/更细粒度的推理技能仍需验证（§5.1 的 PCA/聚类设定）。在线计算开销主要描述为“negligible latency”，但缺少可直接抄录的时延/吞吐数字，工程评估需要补齐（未检索到/需验证）。离线向量提取与 RL 路由训练依赖额外数据与管线（MMLU/MMLU-Pro、Judge 过滤、聚类与网格搜索 warm-up），落地复杂度高于单向量方法。

2026-01-14 · Latent Reasoning

The Hypocrisy Gap: Quantifying Divergence Between Internal Belief and Chain-of-Thought Explanation via Sparse Autoencoders

核心思路（中文）：提出“Hypocrisy Gap”来量化：模型在中立条件下内部是否相信真相（internal belief），与在压力提示下给出的CoT解释/最终结论是否仍对齐真相之间的差距。做法是用SAE特征空间里训练一个稀疏线性truth probe得到真相方向v_truth，然后分别在中立判断与压力解释两种prompt下投影打分，差值H(x)=T(x)-F(x)用于检测“明知用户错但仍顺从”的hypocritical sycophancy。

Core Idea (EN):We introduce the Hypocrisy Gap, using SAE-based sparse truth probes to measure divergence between internal truth belief under neutral prompts and truth alignment of pressured chain-of-thought explanations, enabling detection of (hypocritical) sycophancy.

亮点：1) 把“是否在拍马屁”拆成可机制化的量：在SAE空间学到稀疏truth direction v_truth（ℓ1-logistic regression），并在中立/压力两种条件下比较truth对齐度，直接得到H(x)=T(x)-F(x)（§3.4–3.6）。 2) 在 Anthropic Sycophancy benchmark（answer split）上，用H(x)做标量检测器，Gemma-2B-IT 的H vs syc AUROC=0.731（5–95%: [0.685,0.776]），显著高于log-prob基线0.421（[0.374,0.474]）（表1）。 3) 还能专门检测“内部知道用户错但表面顺从”的hypocritical sycophancy：Gemma-2B-IT 的H vs hyp AUROC=0.739（[0.679,0.799]）（表1），并给出三模型（Gemma/Qwen/Llama）一致提升。

成本：1. 效果成本：不同模型上区分能力不稳定；例如 Qwen3-1.7B 的 H vs syc 仅 0.549（[0.486,0.614]）（表1）。 2. 长度成本：压力提示下生成解释+判决时最大生成 96 new tokens（temperature=0.7）（§4.3）。 3. 人力成本：需要准备中立真/假claim prompt对（每题两条中立prompt）并训练ℓ1-logistic truth probe（80/20分割）（§4.2–4.3）。 4. 实验成本：主结果在单张 NVIDIA A100 80GB 上完成；还需做 bootstrap 1,000 次重采样来估计AUROC区间（§4.0、§5.2）。

收益：1. 效果收益：在三模型上检测sycophancy的AUROC：Gemma-2B-IT 0.731、Qwen3-1.7B 0.549、Llama-3.1-8B-Instruct 0.587（表1），对应log-prob基线仅0.421/0.453/0.499（表1）。 2. 长度收益：未检索到/需验证。 3. 训练收益：truth probe训练最多使用 1,000 个样本（每题两条中立prompt），并采用ℓ1正则的logistic regression（§4.2–4.3）。

优势：指标直接落在“内部信念 vs 解释对齐”的差异上，比黑箱log-prob基线更敏感（表1–3）；SAE特征+稀疏truth方向便于做白盒解释与可视化；同一框架同时覆盖一般sycophancy与更强的hypocritical sycophancy（表1）。

不足：依赖可用的SAE与选定hook层（Gemma层12、Llama层25、Qwen层12）（§4.1），对闭源/无SAE模型不友好；评测只在Anthropic Sycophancy benchmark的answer split上，外推到更复杂对话/长程推理需验证；“长度收益”与推理时延未给出可定位数字，工程侧收益还需补充。

2026-01-11 · Latent Reasoning / Multimodal

Forest Before Trees: Latent Superposition for Efficient Visual Reasoning

核心思路（中文）：提出 Laser（Latent Superposition for Efficient Visual Reasoning）：把视觉推理的训练目标从“逐步预测下一个语义token”改为“对未来一段语义窗口做动态对齐”。通过 Dynamic Windowed Alignment Learning（DWAL）让中间latent状态先保持对全局语义的概率性“叠加”（forest），再逐步收敛到局部细节（trees），从而缓解潜空间推理里常见的过早语义塌缩，同时仍可用LM head解码中间轨迹保持可解释性。

Core Idea (EN):Laser reformulates latent visual reasoning with Dynamic Windowed Alignment Learning (DWAL), aligning each latent state to a dynamic validity window of future semantics to prevent premature semantic collapse while retaining decodable trajectories.

亮点：1) 准确率与鲁棒性：6个基准Overall=66.58，显著高于最强latent基线Monet的61.55（+5.03）（Table 1）。 2) 关键增益点：HallusionBench 67.72 vs 56.36（+11.36）、BLINK 56.92 vs 50.71（+6.21）（Table 1）。 3) 极致省token：在BLINK平均仅6.0 tokens（相对Qwen2.5-VL-7B的223.5为-97.3%），同时优于Monet-7B的118.3 tokens；HRBench为5.7 tokens（相对55.9为-89.7%）（Table 2）。

成本：1. 效果成本：在MMStar上与Monet几乎持平甚至略低：Laser 60.27 vs Monet 60.33（∆=-0.33）（Table 1）。 2. 长度成本：未检索到/需验证（文中主要报告Avg Tokens，未给出端到端时延/吞吐；虽强调“near-instantaneous inference”，缺少ms级数字）。 3. 人力成本：需要实现DWAL的动态窗口构造与对齐训练（Reference Superposition Distribution、硬/软对齐混合、entropy等超参；§3相关公式与训练细节）。 4. 实验成本：评测覆盖6个基准；效率评测在BLINK (N=1901) 与HRBench (N=800) 上统计Avg Tokens（Table 2），复现需跑多基准对照与消融。

收益：1. 效果收益：Overall 66.58（Monet 61.55，+5.03）；HallusionBench 67.72（+11.36）；BLINK 56.92（+6.21）（Table 1）。 2. 长度收益：BLINK平均tokens=6.0（相对223.5为-97.3%）；HRBench=5.7（相对55.9为-89.7%）（Table 2）。 3. 训练收益：未检索到/需验证（论文未在PDF正文给出可直接引用的训练token量/训练时长或FLOPs对比数字）。

优势：把潜空间推理的目标从“点预测”改为“窗口对齐”，更符合从全局到局部的视觉认知过程，能缓解语义过早塌缩。在不依赖外部工具/长文本CoT的情况下，既给出SOTA结果也显著降低token成本（Table 1/2）。中间轨迹可解码（decodable trajectories），比纯黑箱latent推理更便于分析与调试。

不足：效率侧主要用Avg Tokens表征，缺少端到端延迟(ms)/吞吐等可直接用于部署预算的数字（未检索到/需验证）。方法引入动态窗口、对齐混合与自精炼等机制，训练目标更复杂，复现与超参选择成本更高。在部分基准上增益不明显甚至略退（如MMStar ∆=-0.33），对任务类型的收益边界仍需进一步刻画。

2026-01-07 · Latent Reasoning

PILOT: Planning via Internalized Latent Optimization Trajectories for Large Language Models

核心思路（中文）：提出 PILOT（Planning via Internalized Latent Optimization Trajectories）：用轻量 Hyper-Network 为每个输入合成“潜在引导向量”（latent guidance/anchor），在推理时对隐藏态做一次性注入，让小模型获得更强的全局规划/纠错能力而不需要搜索式多采样。关键是用能量对齐（Energy-Alignment）约束注入幅度，避免 hidden-state 干预导致的“embedding shock”，从而在数学与代码任务上稳定增益。

Core Idea (EN):We propose PILOT, which synthesizes instance-conditioned latent guidance via a lightweight hyper-network and injects anchored hidden states to stabilize long-horizon reasoning with negligible decoding overhead.

亮点：1) 目标明确：把“长程规划/纠错”从昂贵的搜索式推理（可能带来 50× 推理成本）转成一次性潜在注入，在不增加逐步递归计算的情况下稳定单路径推理（正文提到搜索式方法最高可达 50× 成本）。 2) 方法组合拳：输入相关的 Hyper-Network 生成 anchor + Energy-Alignment 把注入能量跟随上下文能量，减少对语法/结构分布的破坏（Figure 3，§5.4）。 3) 实证覆盖数学+代码+多规模：在 Qwen2.5-1.5B/7B 与 Llama-3.1-8B 上，PILOT 在 MATH、AIMO、GSM 以及 HumanEval/MBPP 上均优于多种 latent 干预基线（Table 1）。

成本：1. 效果成本：效果依赖组件齐全与对齐约束；例如在 Qwen2.5-1.5B 上去掉 Hyper-Net（静态注入）会使 MATH 从 52.08±0.59 降到 47.72±0.99，HumanEval 从 56.34±0.33 降到 50.37±1.70（Table 3）。 2. 长度成本：未检索到/需验证。 3. 人力成本：需要实现 Construct-and-Verify 数据过滤、两阶段训练（Alignment + Anchored SFT）、以及推理时的 Hyper-Network 合成与注入管线（§5.1、Table 2、Figure 3）。 4. 实验成本：作者在 NVIDIA H20 GPU 上做 5 次独立 runs 汇报均值方差（Table 1），并用 1k samples 统计 TTFT/总时延（Table 4）；复现需跑多模型多任务对比与消融（Table 3-4）。

收益：1. 效果收益：在 Qwen2.5-1.5B 上，PILOT 的 MATH=52.08±0.59，高于 Zero-shot CoT 的 43.20（Table 1）；HumanEval=56.34±0.33，高于 Zero-shot CoT 的 46.34（Table 1）。 2. 长度收益：未检索到/需验证。 3. 训练收益：参数高效——在 Qwen2.5-7B（7.6B 参数）上仅引入 38.6M 可训练参数（约 0.5%），在 Qwen2.5-1.5B 上仅 7.1M（约 0.46%）（Parameter Efficiency 段落）；推理总时延几乎不变：10,230.52 ms vs 10,209.42 ms（+0.2%），TTFT 仅 +3.10 ms（21.66 vs 18.56）（Table 4）。

优势：推理时不做逐步递归/搜索，却能稳定提升长程规划类任务表现；“能量对齐”把 latent 干预从易崩的激活改写变成可控注入，代码任务也更稳（Figure 3）；参数与时延开销小（0.46%–0.5% 可训练参数；总时延 +0.2%）。

不足：仍有部署复杂度：需要额外的 Hyper-Network 与注入/对齐机制（Limitations）。；训练信号依赖 Construct-and-Verify 过滤与“专家轨迹/验证”流程，数据构建门槛不低（§5.1、Table 2）。；跨任务/跨分布泛化仍需更多验证（Limitations）。

2025-12-24 · Latent Reasoning / Agent/Tool-Use / RL/Policy

ReaSeq: Unleashing World Knowledge via Reasoning for Sequential Modeling

核心思路（中文）：提出 ReaSeq：用大模型的“显式CoT + 潜在/扩散式行为推断”给工业序列推荐补上世界知识。先用多智能体从“用户需求/商品属性”两视角蒸馏出更语义化的 item 表示，缓解纯ID embedding 的知识贫乏与稀疏崩塌；再用 Diffusion LLM 生成补全 beyond-log 行为片段([FILL])扩展用户序列，让排序模型能看见日志之外的潜在兴趣。

Core Idea (EN):ReaSeq augments industrial sequential recommendation with LLM world knowledge via explicit multi-agent CoT for semantic item representations and a diffusion-based generative behavior reasoning module to infer beyond-log user behaviors.

亮点：1) 真线上收益：两周 A/B（1% 流量）在 Taobao 的 Guess 场景 IPV +6.50%、CTR +6.57%、Order +2.98%、GMV +2.52；PB 场景 IPV +7.68%、CTR +7.80%、Order +4.54%、GMV +3.14（Table 7）。 2) 生成式“补行为”可转化到排序：用 GBR 扩展序列后，CTR 模型 AUC 从 0.7495 提升到 0.7513（+0.0018），GAUC 从 0.6176 提升到 0.6284（+0.0108）（GBR-C-0，Table 6）。 3) 拆解两类根因：把问题明确分成 ID 表示知识贫乏（representation collapse）与 beyond-log 盲区，并分别用“知识蒸馏表示 + 行为生成”两条路径对症处理（Figure 1 / §2–3）。

成本：1. 效果成本：并非所有 GBR 变体都稳定增益：GBR-C-1 的 AUC=0.7491（相对 Base 0.7495 为 -0.0004）（Table 6）。 2. 长度成本：未检索到/需验证（PDF 未给出在线推理时延/吞吐，且 GBR 使用 Diffusion LLM 生成 [FILL] 行为，可能引入额外生成开销）。 3. 人力成本：需要搭建多智能体的 CoT 蒸馏管线（用户需求/商品属性双视角、迭代精炼的 prompt 模板）+ 训练/部署 DLLM 的 GBR 生成框架（Appendix B / §2–3）。 4. 实验成本：线上需做长周期 A/B：ReaSeq 实验 2025.10.30–2025.11.11，实验/对照各 1% 流量；GBR 另做 2025.12.22–2025.12.24 的 3 天实验，各 0.2% 流量（§4.3）。

收益：1. 效果收益：线上 A/B 的绝对提升：Guess 场景 IPV +6.50%、CTR +6.57%、Order +2.98%、GMV +2.52；PB 场景 IPV +7.68%、CTR +7.80%、Order +4.54%、GMV +3.14（Table 7）。 2. 长度收益：未检索到/需验证。 3. 训练收益：未检索到/需验证。

优势：把“世界知识”显式接入序列推荐：先补语义表示再补行为序列，逻辑链条清晰，且能落到线上业务指标（Table 7）。不仅报告 CTR 类指标，还给出转化与 GMV 的提升，证明 beyond-log 推断对商业目标有直接价值。离线-线上闭环：Table 6 的 AUC/GAUC 增益与 Table 7 的线上增益方向一致，较少“离线好看线上没用”的风险。

不足：论文核心贡献强依赖工业场景与自有数据/系统（Taobao），外部复现与迁移难度高（未检索到/需验证公开数据/代码可复现实验）。效率/成本侧披露不足：未给出 DLLM 生成 [FILL] 的端到端时延、算力或吞吐，对部署预算不够友好（未检索到/需验证）。部分组件收益边界不够稳定：不同 GBR 方案在 AUC 上有正负波动（如 GBR-C-1 低于 Base）（Table 6）。

2025-12-21T22:01:29Z · Multimodal

Thinking Beyond Labels: Vocabulary-Free Fine-Grained Recognition using Reasoning-Augmented LMMs

机构/学校：Mohamed bin Zayed University of Artificial Intelligence (MBZUAI), UAE

核心思路（中文）：提出 FiNDR：在“无固定标签词表”的细粒度识别里，先用具备推理能力的多模态大模型为每张图生成一组候选类名（更像在“想它是什么”），再用强 VLM 做语义过滤与排序，把候选收敛成一致的类别集合；最后用这些已验证的名称实例化一个轻量多模态分类器用于推理，从而避免人工词表与多阶段脆弱启发式。

Core Idea (EN):FiNDR (Fine-grained Name Discovery via Reasoning) is a reasoning-augmented LMM framework that generates candidate fine-grained labels, verifies them with a vision-language model, and builds a lightweight classifier for vocabulary-free recognition.

亮点：1) 五个细粒度基准上整体 SOTA：Average cACC=67.9、sACC=70.6（Table 1）。 2) 低资源词表发现也能大幅增益：每类仅用 3 张无标注发现图像、结果在 10 runs 上取平均（Table 1 caption / §4.2），Flowers-102 cACC=79.8（对比前 SOTA 的 +12.6 绝对提升，Table 1）。 3) 在 Pets-37 上同时高聚类+高语义：cACC=86.5、sACC=83.7（Table 1），并报告相对提升 18.7%/9.9%（Table 1 文字解读）。

成本：1. 效果成本：语义指标并非处处领先：Flowers-102 的 sACC=56.5，低于 BLIP-2 的 59.1（-2.6）（Table 1 / ∆ row）。 2. 长度成本：未检索到/需验证（PDF 未给出 LMM 生成候选、VLM 过滤、以及最终分类器推理的 token/时延/吞吐对比）。 3. 人力成本：需要维护多模型与提示工程：流程包含“LMM 生成候选名→VLM 过滤排序→训练/部署轻量分类器”（§3 Method），且不同 LMM/VLM 选择会影响效果（未检索到/需验证更具体的人力/工程量化）。 4. 实验成本：评测需做多次随机试验：label discovery set 每类 3 张图像、结果平均 10 runs（Table 1 caption），并覆盖 5 个数据集（§4.1）。

收益：1. 效果收益：Average cACC=67.9、sACC=70.6；相对 previous SOTA（E-FineR）平均提升 +9.5 cACC、+4.3 sACC（Table 1 / §4.2）。 2. 长度收益：未检索到/需验证。 3. 训练收益：低资源发现设定：每类仅需 3 张无标注发现图像（Ddisc），且 Ddisc ∩ Dtest = ∅；并在 10 runs 上取平均（§4.1 / Table 1 caption）。

优势：无需固定词表：输出的是人类可读的语义类名而非索引，适合开放世界部署（§4.1.2 附近描述）。把“推理生成标签”与“VLM 语义校验”组合成闭环，比纯聚类或一次性生成更稳。在多数据集上同时报 cACC/sACC，能看清“聚类正确”和“语义命名正确”的取舍（Table 1）。

不足：多阶段管线不可避免地增加系统复杂度：生成候选、过滤排序、再到分类器推理，每段都可能成为瓶颈（§3）。缺少系统级预算数字：端到端时延、token 用量、吞吐等关键指标未给出（未检索到/需验证）。在某些数据集上语义命名不如更偏“回答式”的 VQA 基线（如 Flowers-102 sACC）（Table 1）。

2025-12-18T12:52:37Z · Multimodal / RL/Policy

Guiding Perception-Reasoning Closer to Human in Blind Image Quality Assessment

机构/学校：Kyoto University

核心思路（中文）：把 BIQA 的“打分”拆成更像人的两段：先做感知（生成对画面内容/质量维度的描述），再做推理（把这些线索整合成评分）。训练上用 GRPO/RL 把人类标注的推理链当作奖励信号（reasoning reward），并加一个“自一致性奖励”：要求模型仅基于自己生成的caption也能推回同样的质量分，从而逼出更稳定的内部推断。

Core Idea (EN):The paper trains an MLLM for blind image quality assessment with RL rewards that align model-generated perception–reasoning chains to human annotations and enforce self-consistency between image-conditioned and caption-conditioned ratings.

亮点：1) 把“人类式推理链”拉进优化目标：在 1,013 条人类标注样本上，ROUGE-1 从 0.443（Q-Insight-Score）提升到 0.512（Full Model）（§4.4 / Table 4）。 2) 兼顾 caption-only 自一致性：在 caption-only 条件下，AVG 达到 0.812 / 0.772（PLCC / SRCC），显著高于基线 0.748 / 0.724（Table 3）。 3) 评分相关性仍保持强：在 image-based 评测的 6 个公开数据集上，AVG=0.836 / 0.832（Table 3），并报告相对 Q-Insight-Score 平均提升 0.023 PLCC、0.041 SRCC（§4.2）。

成本：1. 效果成本：并非在所有“评分相关性”上 SOTA；例如 image-based 的 AVG（PLCC）Ours=0.836，低于 DeQA 的 0.838（Table 3）。论文也指出“更像人”的推理与分数相关性优化方向不完全一致，部分数据集会退化（§5 Discussion）。 2. 长度成本：推理时延未显著下降；在 KonIQ 上 Full Model 的 Infer(s/img)=6.30 / 3.58（Table 4），对比 Baseline 5.95 / 3.60（Table 4）。 3. 人力成本：需要采集并维护细粒度人类注释：共 1,495 张图像、覆盖 8 个维度的感知-推理标注（§1 Contributions / §2.1）。 4. 实验成本：训练设置较重：KonIQ 子集 7,058 张图像；batch size=2；在 8× NVIDIA A6000 上训练 2 epochs 约 44 小时（§4.1）。

收益：1. 效果收益：人类一致性显著提升：Q-Reasoning 子集（1,013 samples）ROUGE-1=0.512，较基线 0.443 提升 0.069（§4.4 / Table 4）。 2. 长度收益：未检索到/需验证（论文强调部署时仍是单次前向，但未给出更细的端到端延迟/吞吐对比口径）。 3. 训练收益：给出可复用的训练配方与数据规模：KonIQ 训练子集 7,058；LoRA rank=8、α=16；GRPO group number=4；并说明 Q-Reasoning 与训练集重叠 482 张用于额外监督（§4.1）。

优势：把“解释为什么”从副产物变成优化目标：用 reasoning reward 直接对齐人类推理链。自一致性设计很实用：要求 caption-only 也能打分，能抑制“看图才能编理由”的浅推理。报告了完整消融与成本：Table 4 同时给出 PLCC/SRCC、ROUGE-1、训练时间与推理秒/图。

不足：人类标注规模仍有限：1,495 张图像可能不足以覆盖复杂审美与失真类型分布（§5 Limitations）。一致性指标主要依赖 ROUGE-1，存在“词重合奖励错误推理”的问题，论文也给出反例（§4.4 / §5）。训练开销偏大：2 epochs 需约 44 小时且用 8× A6000；自一致性奖励带来额外训练推理步骤（§4.1 / §5）。

2025-12-15 · Latent Reasoning / Multimodal

STAR: STacked AutoRegressive Scheme for Unified Multimodal Learning

机构/学校：Meituan Inc

核心思路（中文）：提出 STAR：把统一多模态学习拆成“理解→生成→编辑”的渐进式训练，并在不改动理解能力的前提下，通过冻结底座 AR、叠加同构的 AR 模块来扩容生成能力。同时引入高容量 STAR-VQ 提升离散视觉表征粒度，并在复杂/知识型提示下先生成一段中间 latent tokens 作为隐式推理条件，再驱动生成模块输出图像，从而提升语义一致性与世界知识对齐。

Core Idea (EN):STAR is a task-progressive stacked-autoregressive scheme that freezes a multimodal understanding backbone and adds isomorphic AR modules (with STAR-VQ and latent-token implicit reasoning) to improve generation and editing without degrading comprehension.

亮点：1) 统一但不互相伤害：通过“冻结理解底座 + 叠加AR模块”的扩容方式，STAR-7B 在理解侧仍保持强指标（如 MMBench-EN 83.9、MME 1690.1、OCRBench 86.4）（Table 1）。 2) 生成端直接刷到公开SOTA：GenEval Overall=0.91（比 Ovis-U1 的 0.89 高 0.02），DPG-Bench Overall=87.44（STAR-7B）（Table 2）。 3) 编辑能力也能一起带上：ImgEdit-Bench Overall=4.34（STAR-7B），高于 Ovis-U1 的 4.00（Table 5）。

成本：1. 效果成本：理解侧并非全维度领先；例如 MMStar 上 STAR-7B=63.9，低于 Janus-Pro=87.4（Table 1）；在 SEEDBench 上 STAR-7B=77.0 也略低于 BLIP3-o=77.5（Table 1）。 2. 长度成本：未检索到/需验证（PDF 未给出推理token数、端到端时延/吞吐；隐式推理需先生成中间 latent-token 序列，可能增加额外前向/生成步骤）。 3. 人力成本：训练管线复杂：需要分阶段训练（理解/生成/编辑），并实现 stacked AR 模块、STAR-VQ tokenizer、以及“latent-token 先推理再条件生成”的推理路径（Method/§4-5）。 4. 实验成本：数据与评测覆盖很大：文本-图像生成数据 60M；编辑数据约 4M 公共样本 + 300K 私有样本再合成GT；生成评测需跑 GenEval(553 prompts)/DPG-Bench(1065)/WISE(1000)，编辑评测 MagicBrush(1000)/ImgEdit(737)（§5.1-5.2）。

收益：1. 效果收益：GenEval Overall=0.91（STAR-7B），DPG-Bench Overall=87.44（STAR-7B），WISE Overall=0.66（STAR-7B）（Table 2/3）。 2. 长度收益：未检索到/需验证。 3. 训练收益：规模化数据配方明确：文本-图像生成数据总计 60M；编辑训练数据约 4M 公共 + 300K 私有样本（§5.1）。

优势：把“统一多模态”从一次性联合训练改成可持续扩容：冻结理解底座，扩容只作用在新堆叠模块上，思路更工程友好。隐式推理以 latent tokens 作为中间桥，避免把知识推理完全压到长文本prompt/显式CoT上。给了较完整的任务覆盖：理解/生成/编辑三线一起报表，且有多维度消融（VQ/层数/初始化/扩散解码器）。

不足：系统成本口径缺失：几乎没有可直接复用的延迟(ms)、吞吐、显存、token用量等部署数字（未检索到/需验证）。世界知识推理指标与通用生成指标之间的因果边界仍需更多剖析：WISE=0.66 的提升主要归因于“implicit reasoning mode”，但对失败案例与适用条件描述有限。依赖大量合成/私有数据（如 300K proprietary + GPT-4o 合成GT），外部复现难度偏高。