2026-02-06 · RL/Policy
核心思路(中文):先用临床证据约束构建偏好信号,再做轻量参数模型的强化学习对齐,最后用决策一致性指标回评(减少“会说不会判”)。
Core Idea (EN):Large language models (LLMs) hold transformative potential for medical decision support yet their application in psychiatry remains constrained by hallucinations and superficial reasoning.
亮点:1) 把“证据约束”直接并入RL目标;2) 面向轻量模型而非超大模型,部署更现实;3) 评估强调临床决策一致性,不只看文本流畅度。
成本:效果成本:中(需额外对照实验验证稳定增益);长度成本:中(训练与推理链路增加);人力成本:中高(医学标注与评估口径建设)。
收益:效果收益:在高风险问答中降低幻觉并提升决策一致性;长度收益:可用结构化证据减少无效冗长解释;训练收益:形成可复用的医疗推理对齐流程。
优势:对临床场景更贴近(证据驱动);轻量模型可落地;对齐目标清晰。
劣势:领域依赖强、迁移到非医疗场景需重做;RL调参复杂;数据合规与标注成本高。
2026-02-05 · Multimodal
核心思路(中文):把几何先验从“离线特征”变成“主动几何交互”,让模型在空间推理时动态调用结构信息,而不是只靠语言猜测。
Core Idea (EN):Recent progress in spatial reasoning with Multimodal Large Language Models (MLLMs) increasingly leverages geometric priors from 3D encoders.
亮点:1) 主动几何融合(不是静态拼接);2) 对空间关系与三维一致性更敏感;3) 对多模态推理误判有抑制作用。
成本:效果成本:中(需几何相关基准做充分对照);长度成本:中(引入额外几何推理步骤);人力成本:中(多模态数据清洗与评测设计)。
收益:效果收益:空间推理与定位相关任务准确率更稳;长度收益:减少无效“语言兜圈子”;训练收益:为视觉-语言统一推理提供可复用模块。
优势:更符合空间任务本质;多模态鲁棒性好;工程上可模块化接入。
劣势:依赖几何质量与标注;跨场景泛化仍需验证;在纯文本任务收益有限。
2026-02-05 · Latent Reasoning / Agent/Tool-Use / RL/Policy
核心思路(中文):给Agent加一层“内生风险感知+分层筛查”机制:先快速判别请求风险,再按风险等级触发不同深度的防护与推理路径,兼顾安全与效率。
Core Idea (EN):As large language models (LLMs) evolve into autonomous agents, their real-world applicability has expanded significantly, accompanied by new security challenges.
亮点:1) 把防御从“统一拦截”升级为“分层自适应”;2) 将风险识别前置到Agent决策入口;3) 在高风险场景下降低误放行概率。
成本:效果成本:中(需攻击集与正常流量双侧评估);长度成本:中(多一道筛查链路);人力成本:中(需持续维护风险策略与规则回放)。
收益:效果收益:对越权调用/恶意工具链攻击更稳;长度收益:低风险请求仍可走快路径;训练收益:沉淀可复用的Agent安全策略模板。
优势:安全收益直观;与现有Agent框架兼容性较好;可按业务风险分级部署。
劣势:阈值设置不当会带来误杀或漏检;跨领域迁移需重新标定风险特征。
2026-02-04 · Latent Reasoning
核心思路(中文):用“内部视角”去检验 CoT:即便最终输出是拒绝或合规,模型在中间推理阶段也可能完成了危险/造假链路。该文用伪新闻生成任务对推理过程进行实证剖析。
Core Idea (EN):From generating headlines to fabricating news, the Large Language Models (LLMs) are typically assessed by their final outputs, under the safety assumption that a refusal response signifies safe reasoning throughout the entire process.
亮点:1) 把评估从“看最终答案”推进到“看推理链路风险”;2) 揭示拒绝并不等于安全;3) 为隐式/隐藏推理提供了更贴近安全的评测视角。
成本:效果成本:低~中(主要是评测与分析成本);长度成本:低(不必引入复杂训练);人力成本:中(需要构造对抗样本与过程标注/探针分析)。
收益:效果收益:能更早发现模型在“中间想法”层面的安全缺陷;长度收益:不增加线上推理长度;训练收益:可反哺对齐/审计机制设计,形成过程级安全指标。
优势:对安全审计非常直接;容易接入现有评测流水线;对隐式推理研究有启发。
劣势:任务设定偏伪新闻,外推到其他领域需再验证;“内部分析”工具链门槛较高。
2026-02-04 · Latent Reasoning / Agent/Tool-Use / Inference-Time
核心思路(中文):把原本需要“写出来”的 CoT 变成模型内部可复用的“潜在动作序列”:先自动发现隐式推理动作,再通过 replay 把这些动作固化到模型里,实现更高效的推理时扩展。
Core Idea (EN):The internalization of chain-of-thought processes into hidden states has emerged as a highly efficient paradigm for scaling test-time compute.
亮点:1) 用“发现+回放”替代直接监督CoT文本;2) 把推理过程动作化,便于压缩与复用;3) 有望在不暴露思维链的情况下获得接近显式CoT的增益。
成本:效果成本:低~中(需验证发现的动作是否稳定泛化);长度成本:低(输出不变,内部计算可能略增);人力成本:中(需要动作挖掘、回放策略与失败case诊断)。
收益:效果收益:推理稳定性与正确率提升;长度收益:对外输出更短更可控;训练收益:沉淀“隐式推理动作库”,可用于蒸馏/迁移。
优势:隐私与产品化友好(少暴露推理文本);推理效率潜力大;适合做可控推理强度的系统。
劣势:可解释性仍弱;动作发现质量决定上限;不同任务下动作库可能需要重建。
2026-02-04 · Latent Reasoning / Agent/Tool-Use / RL/Policy
核心思路(中文):把“思维链”从文字 token 级推理,改成一串“潜在工具调用轨迹”(latent tool calls):模型在内部先规划/选择工具序列,再用更短的外显输出完成同等复杂推理。
Core Idea (EN):Chain-of-Thought (CoT) is a critical technique in enhancing the reasoning ability of Large Language Models (LLMs), and latent reasoning methods have been proposed to accelerate the inefficient token-level reasoning chain.
亮点:1) 推理动作=工具序列,更贴近 Agent 系统落地;2) 以“潜在工具链”压缩推理长度;3) 可能同时提升速度与可控性(工具调用可审计)。
成本:效果成本:中(需验证压缩后是否丢关键推理步骤);长度成本:低~中(输出短,但内部决策/工具调用可能增);人力成本:中(要设计工具集合、评测与回放分析)。
收益:效果收益:复杂任务上更稳定(特别是需要工具的任务);长度收益:显著减少对外CoT文本;训练收益:沉淀“可复用工具链策略”,便于迁移到新任务。
优势:工程可落地;输出更短更安全;工具轨迹可审计、便于监控。
劣势:强依赖工具设计质量;工具调用失败会放大误差;对纯文本任务未必占优。
2026-02-04 · Agent/Tool-Use / Multimodal / RL/Policy
核心思路(中文):训练时给模型“特权信息”(PI,比如更完整的状态/隐变量/老师轨迹),让它在训练阶段学到更强策略;部署时不需要这些PI,通过蒸馏/对齐把能力迁移到只用常规输入的模型。
Core Idea (EN):Training-time privileged information (PI) can enable language models to succeed on tasks they would otherwise fail, making it a powerful tool for reinforcement learning in hard, long-horizon settings.
亮点:1) 把“训练可用、上线不可用”的信息变成优势而非限制;2) 对长时序/难RL任务更有效;3) 能显著降低线上对外显式推理依赖。
成本:效果成本:中高(PI选择不当会学偏);长度成本:中(训练链路更长,推理输出可不变);人力成本:高(PI构造、蒸馏设计、对齐评测)。
收益:效果收益:长时序任务成功率提升;长度收益:线上可保持简短输出;训练收益:获得“老师信息→学生泛化”的通用范式,可复用到多任务。
优势:工程上很实用:训练阶段用重武器、上线阶段轻量;对隐式推理与安全输出控制友好。
劣势:PI很难标准化;蒸馏/对齐失败会导致上线退化;成本和实验复杂度较高。
2026-02-02 · Latent Reasoning
核心思路(中文):把“隐式推理”的隐藏状态从稠密连续向量,改造成可控的稀疏表征(用 sparse transcoder 把状态拆成更少、更可解释的激活),并让这些稀疏单元作为“主动算子”参与推理转移,从而提高可控性与可诊断性。
Core Idea (EN):Latent reasoning compresses the chain-of-thought (CoT) into continuous hidden states, yet existing methods rely on dense latent transitions that remain difficult to interpret and control.
亮点:1) 用稀疏化增强隐式推理的可控/可解释;2) 把稀疏单元当作“操作符”而非被动表征;3) 对后续做审计、干预、对齐更友好。
成本:效果成本:低~中(需证明稀疏化不损害推理上限);长度成本:低(对外输出不变,内部计算略增);人力成本:中(需要机制分析、稀疏度/稳定性调参)。
收益:效果收益:隐式推理更稳定、更可控;长度收益:不引入显式CoT文本;训练收益:得到可干预的潜空间组件,利于后续安全对齐与故障定位。
优势:更容易诊断与调试;更接近“可工程化的隐式推理模块”;对安全审计友好。
劣势:稀疏表征的泛化/迁移仍需验证;稀疏度过强可能导致表达能力不足。
2026-02-02 · Reasoning General
核心思路(中文):把推理评估从“整题对不对”细化到“每一步对不对”:定义步骤级评分框架(step-level rubric),定位模型在哪一步开始跑偏,从而能指导隐式推理/对齐训练的改进。
Core Idea (EN):Large Language Models (LLMs) are increasingly deployed in critical applications requiring reliable reasoning, yet their internal reasoning processes remain difficult to evaluate systematically.
亮点:1) 步骤级诊断,能直接指向训练/提示的薄弱环节;2) 更适合评估隐式/隐藏推理(看过程质量而非长CoT);3) 可做为奖励模型/自动评审的输入。
成本:效果成本:低~中(评测框架本身需验证一致性);长度成本:中(若要步骤标注/自动评审会增加评测计算);人力成本:中(需要制定rubric与抽样复核)。
收益:效果收益:更快定位失败原因,减少盲调;长度收益:不要求模型输出长CoT也能评估;训练收益:可用于奖励建模/课程学习,提升收敛效率。
优势:对工程迭代非常实用;和自动评审/对齐闭环天然匹配;对“隐式推理是否真的在推理”提供量化入口。
劣势:rubric 设计不当会引入偏差;不同任务要重做步骤定义;自动评审可能受评审模型偏好影响。
2026-02-02 · Agent/Tool-Use / RL/Policy
核心思路(中文):用多个LLM协作做“编译优化决策”,通过共享的 MCTS 推理树把搜索过程外包给“协作体”:每个模型贡献候选与评估,MCTS 汇总成更优的编译策略,在更少调用成本下拿到接近重度搜索的效果。
Core Idea (EN):Model serving costs dominate AI systems, making compiler optimization essential for scalable deployment.
亮点:1) 多模型协作+共享搜索树,避免重复探索;2) 把复杂优化变成可评估的动作序列;3) 适合“高代价推理/搜索”场景做成本压缩。
成本:效果成本:中(收益依赖评估函数质量与搜索设置);长度成本:中高(MCTS会带来额外调用与评估开销);人力成本:中(需要接入编译评测、定义reward/score)。
收益:效果收益:更容易找到高质量编译策略,性能/成本更优;长度收益:相对单模型长CoT,协作搜索更可控;训练收益:可沉淀可复用的“搜索+评估”框架到其他优化问题。
优势:工程上可拆模块;对复杂优化问题有效;有明确的成本—效果权衡手柄(搜索预算)。
劣势:评估函数一旦偏,搜索会系统性跑偏;多模型协作的调度复杂;在低复杂度任务上不划算。
2026-02-02 · Latent Reasoning / Multimodal / RL/Policy
核心思路(中文):面向“需要视觉记忆/抽象细节”的认知任务,把多模态模型从“看见”升级到“超感知+可回忆”:通过增强视觉记忆表征与潜在推理链路,让模型在不依赖长篇显式解释的情况下保持对关键细节的持续追踪与推理。
Core Idea (EN):Multimodal Large Language Models (MLLMs) have achieved remarkable success in open-vocabulary perceptual tasks, yet their ability to solve complex cognitive problems remains limited, especially when visual details are abstract and require visual memory.
亮点:1) 把瓶颈明确为“视觉记忆与抽象细节保持”;2) 通过潜变量推理/记忆增强提升复杂认知题表现;3) 对需要跨多步视觉线索整合的任务更友好。
成本:效果成本:高(需多任务、多难度层级充分验证);长度成本:中(输出可控,但内部记忆/推理计算增);人力成本:高(数据构建、评测设计、误差分析都重)。
收益:效果收益:复杂多模态推理正确率与稳定性提升;长度收益:减少“为了解释而解释”的长输出;训练收益:沉淀可复用的视觉记忆+隐式推理模块,可迁移到视频/GUI等场景。
优势:方向正确(击中多模态推理短板);对真实产品场景(长链路视觉线索)更贴近;输出更可控。
劣势:数据与评测门槛高;收益可能集中在特定任务;训练与调参成本大、迭代慢。
2026-02-01 · Agent/Tool-Use
核心思路(中文):把多Agent的“对齐”从个体道德能力拉回到系统机制:通过设置“锚定Agent/利他规则”影响群体博弈(公共物品等)中的合作稳定性,说明很多所谓对齐更像社会催化,而非每个Agent都真的内化了道德推理。
Core Idea (EN):The rapid evolution of Large Language Models (LLMs) has led to the emergence of Multi-Agent Systems where collective cooperation is often threatened by the "Tragedy of the Commons." This study investigates the effectiveness of Anchoring Agents--pre-programmed altruistic entities--in fostering cooperation within a Public Goods Game (PGG).
亮点:1) 评价“对齐”不只看单体回答,而看群体动力学;2) 用机制设计解释“看起来对齐”的来源;3) 对未来Agent群体治理/激励设计有直接启发。
成本:效果成本:低~中(主要是实验设定与稳健性验证);长度成本:低(不增加推理长度);人力成本:中(需要设计博弈环境、指标与多轮仿真)。
收益:效果收益:指导如何用系统级规则提升协作稳定性;长度收益:不依赖长CoT;训练收益:可形成“群体对齐”评测与治理框架,复用到多Agent产品。
优势:对多Agent产品非常实用;强调可操作的机制手段;易做A/B(不同规则/锚定策略)。
劣势:结论依赖博弈设定;对现实复杂交互的外推需谨慎;可能低估了个体推理/价值观的重要性。
2026-02-01 · Agent/Tool-Use / RL/Policy / Inference-Time
核心思路(中文):把“长推理”变成“可调用工具的Agent流程”:模型在推理过程中动态选择工具、延长推理链路,并用RL/策略优化让这种“工具+长推理”在高难任务上更稳定收敛(而不是只靠更长CoT文本)。
Core Idea (EN):Reinforcement learning (RL) has emerged as a dominant paradigm for eliciting long-horizon reasoning in Large Language Models (LLMs).
亮点:1) 把 test-time scaling 从“多想几步”升级为“工具化长轨迹”;2) 通过策略优化提升长轨迹稳定性;3) 对真实Agent任务(检索/执行/验证)更贴近。
成本:效果成本:中(依赖工具链稳定性与评测覆盖);长度成本:中高(工具调用与多轮推理增加时延/费用);人力成本:中高(工具集成、日志回放、失败轨迹修复)。
收益:效果收益:长时序任务成功率提升、失败更可诊断;长度收益:对外输出可保持简短(过程在内部/工具侧);训练收益:沉淀“工具轨迹+奖励”配方,可复用于后续Agent迭代。
优势:工程落地清晰;与RAG/工具系统天然融合;更容易做可控的推理预算管理。
劣势:成本与复杂度明显上升;工具失败会引入新错误面;对纯文本短任务不一定划算。
2026-01-31 · Latent Reasoning / Multimodal / RL/Policy
核心思路(中文):在训练阶段不要求每一步都对齐“过程标签”,只用 outcome supervision(最终对/错)去驱动模型学会“更长的训练期推理链路”。论文强调:即便看起来训练推理长度“超过必要”,也会带来隐藏收益(泛化/鲁棒性/后续短推理能力)。
Core Idea (EN):Training LLMs to think and reason for longer has become a key ingredient in building state-of-the-art models that can solve complex problems previously out of reach.
亮点:1) 强调“训练期长推理”本身是能力塑形手段,不只是推理时放大算力;2) 不依赖昂贵的步骤级标注;3) 解释了为何很多模型在训练时拉长思考会带来后续收益。
成本:效果成本:中(收益可能依赖任务分布);长度成本:高(训练token显著增加);人力成本:中(无需步骤标注,但需要更系统的对照与预算管理)。
收益:效果收益:复杂题正确率/鲁棒性提升;长度收益:训练期投入换来推理期可能更短/更稳;训练收益:形成“长推理课程学习”配方,可复用到不同领域。
优势:不依赖过程标注,工程可做;对隐式推理/短输出产品化友好(能力在内部形成)。
劣势:训练成本昂贵;如果数据分布/奖励信号偏,会把无效长推理也学进去;需要严格的预算与退化监控。
2026-01-31 · Latent Reasoning / Inference-Time
核心思路(中文):不再只比“分数”,而是从机制层面回答:Latent-CoT 到底是不是在内部真的“逐步推理”。通过对序列推理任务做可解释分析/探针,检查隐空间状态是否对应明确的步骤推进与中间变量更新。
Core Idea (EN):Latent Chain-of-Thought (Latent-CoT) aims to enable step-by-step computation without emitting long rationales, yet its mechanisms remain unclear.
亮点:1) 把隐式推理从“效果导向”推进到“机制验证”;2) 能区分“真的在算”vs“模式匹配”;3) 直接影响我们是否敢把隐式推理用于高风险场景。
成本:效果成本:低~中(结论依赖任务与探针选择);长度成本:低(偏分析研究,线上输出不变);人力成本:中(需要机制分析工具链与复现)。
收益:效果收益:为隐式推理提供可信度证据与改进方向;长度收益:不要求显式CoT也能评估“是否逐步”;训练收益:可反哺训练目标(让隐状态更像可解释的中间变量)。
优势:对自研很关键:能指导“隐式推理该怎么做才可靠”;可用于评估自家模型内部推理真实性。
劣势:机制解释仍可能不唯一;探针方法本身可能引入偏差;对产品短期收益不如直接提分方法。
2026-01-30 · Latent Reasoning / Multimodal
核心思路(中文):该工作围绕Latent Reasoning、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):While Chain-of-Thought (CoT) significantly enhances the performance of Large Language Models (LLMs), explicit reasoning chains introduce substantial computational redundancy.
亮点:通过Latent Reasoning、Multimodal路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2026-01-30 · Latent Reasoning
核心思路(中文):该工作围绕Latent Reasoning展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):The high-level concepts that a neural network uses to perform computation need not be aligned to individual neurons (Smolensky, 1986).
亮点:通过Latent Reasoning路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2026-01-30 · Latent Reasoning / RL/Policy
核心思路(中文):该工作围绕Latent Reasoning、RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Reinforcement Learning with Verifiable Rewards (RLVR) has demonstrated remarkable success in enhancing the reasoning capabilities of Large Language Models (LLMs).
亮点:通过Latent Reasoning、RL/Policy路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低;减少显式CoT暴露,便于产品化输出控制
劣势:训练复杂度高,调参与算力成本偏大
2026-01-30 · Agent/Tool-Use
核心思路(中文):该工作围绕Agent/Tool-Use展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Deep search agents powered by large language models have demonstrated strong capabilities in multi-step retrieval, reasoning, and long-horizon task execution.
亮点:通过Agent/Tool-Use路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;强调鲁棒性/对齐,工程风险更低
劣势:可能依赖特定任务设定,泛化待验证
2026-01-29 · Latent Reasoning / Inference-Time
核心思路(中文):该工作围绕Latent Reasoning、Inference-Time展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Effective relevance modeling is crucial for e-commerce search, as it aligns search results with user intent and enhances customer experience.
亮点:通过Latent Reasoning、Inference-Time路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;强调鲁棒性/对齐,工程风险更低;减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2026-01-29 · Latent Reasoning / Multimodal / RL/Policy
核心思路(中文):该工作围绕Latent Reasoning、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Aiming at efficient and dense chain-of-thought (CoT) reasoning, latent reasoning methods fine-tune Large Language Models (LLMs) to substitute discrete language tokens with continuous latent tokens.
亮点:通过Latent Reasoning、Multimodal路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;减少显式CoT暴露,便于产品化输出控制
劣势:训练复杂度高,调参与算力成本偏大;数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2026-01-29 · Latent Reasoning
核心思路(中文):该工作围绕Latent Reasoning展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Depth-recurrence facilitates latent reasoning by sharing parameters across depths.
亮点:通过Latent Reasoning路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2026-01-29 · Latent Reasoning / Inference-Time
核心思路(中文):该工作围绕Latent Reasoning、Inference-Time展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Chain-of-Thought (CoT) empowers Large Language Models (LLMs) to tackle complex problems, but remains constrained by the computational cost and reasoning path collapse when grounded in discrete token spaces.
亮点:通过Latent Reasoning、Inference-Time路线提升推理表现与可部署性
成本:中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低;减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2026-01-29 · Agent/Tool-Use / RL/Policy
核心思路(中文):该工作围绕Agent/Tool-Use、RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Reasoning-oriented Large Language Models (LLMs) have achieved remarkable progress with Chain-of-Thought (CoT) prompting, yet they remain fundamentally limited by a \emph{blind self-thinking} paradigm: performing extensive internal reasoning even when critical information is missing or ambiguous.
亮点:通过Agent/Tool-Use、RL/Policy路线提升推理表现与可部署性
成本:高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低
劣势:训练复杂度高,调参与算力成本偏大
2026-01-21 · Latent Reasoning / Multimodal
核心思路(中文):该工作围绕Latent Reasoning、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Chain-of-Thought (CoT) prompting has achieved remarkable success in unlocking the reasoning capabilities of Large Language Models (LLMs).
亮点:通过Latent Reasoning、Multimodal路线提升推理表现与可部署性
成本:中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低;减少显式CoT暴露,便于产品化输出控制
劣势:数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2026-01-21 · Implicit/Hidden CoT / Multimodal / RL/Policy
核心思路(中文):该工作围绕Implicit/Hidden CoT、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Transformers trained via Reinforcement Learning (RL) with outcome-based supervision can spontaneously develop the ability to generate intermediate reasoning steps (Chain-of-Thought).
亮点:通过Implicit/Hidden CoT、Multimodal路线提升推理表现与可部署性
成本:高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:在不完全展开推理链的前提下提升可用性
劣势:训练复杂度高,调参与算力成本偏大;数据与评测构建门槛更高
2026-01-21 · Agent/Tool-Use / RL/Policy
核心思路(中文):该工作围绕Agent/Tool-Use、RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Tool-Integrated Reasoning (TIR) has significantly enhanced the capabilities of Large Language Models (LLMs), yet current agents tend to exhibit cognitive offloading, redundantly invoking external tools even for simple tasks.
亮点:通过Agent/Tool-Use、RL/Policy路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:在不完全展开推理链的前提下提升可用性
劣势:训练复杂度高,调参与算力成本偏大
2026-01-21 · Agent/Tool-Use / RL/Policy
核心思路(中文):该工作围绕Agent/Tool-Use、RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Large language models (LLMs) are increasingly used as judges to evaluate agent performance, particularly in non-verifiable settings where judgments rely on agent trajectories including chain-of-thought (CoT) reasoning.
亮点:通过Agent/Tool-Use、RL/Policy路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:减少显式CoT暴露,便于产品化输出控制
劣势:对可解释性与真实性能增益仍需更系统评测
2026-01-21 · RL/Policy
核心思路(中文):该工作围绕RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Large language models (LLMs) are increasingly deployed as intelligent tutoring systems, yet research on optimizing LLMs specifically for educational contexts remains limited.
亮点:通过RL/Policy路线提升推理表现与可部署性
成本:高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低
劣势:训练复杂度高,调参与算力成本偏大;可能依赖特定任务设定,泛化待验证
2026-01-20 · Latent Reasoning / RL/Policy
核心思路(中文):该工作围绕Latent Reasoning、RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Reinforcement learning plays a crucial role in generative re-ranking scenarios due to its exploration-exploitation capabilities, but existing generative methods mostly fail to adapt to the dynamic entropy changes in model difficulty during list generation, making it challenging to accurately capture complex preferences.
亮点:通过Latent Reasoning、RL/Policy路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;减少显式CoT暴露,便于产品化输出控制
劣势:训练复杂度高,调参与算力成本偏大;可能依赖特定任务设定,泛化待验证
2026-01-20 · RL/Policy
核心思路(中文):该工作围绕RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Large language models (LLMs) have demonstrated strong capabilities in knowledge representation and reasoning based on textual data.
亮点:通过RL/Policy路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低
劣势:对可解释性与真实性能增益仍需更系统评测
2026-01-18 · Agent/Tool-Use / Multimodal / RL/Policy
核心思路(中文):该工作围绕Agent/Tool-Use、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Spatio-temporal reasoning is a remarkable capability of Vision Language Models (VLMs), but the underlying mechanisms of such abilities remain largely opaque.
亮点:通过Agent/Tool-Use、Multimodal路线提升推理表现与可部署性
成本:高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:在不完全展开推理链的前提下提升可用性
劣势:数据与评测构建门槛更高
2026-01-17 · Agent/Tool-Use / Multimodal / RL/Policy
核心思路(中文):该工作围绕Agent/Tool-Use、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Large language models are increasingly deployed as research agents for deep search and long-horizon information seeking, yet their performance often degrades as interaction histories grow.
亮点:通过Agent/Tool-Use、Multimodal路线提升推理表现与可部署性
成本:高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低
劣势:数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2026-01-15 · Latent Reasoning / Multimodal
核心思路(中文):该工作围绕Latent Reasoning、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Current multimodal latent reasoning often relies on external supervision (e.g., auxiliary images), ignoring intrinsic visual attention dynamics.
亮点:通过Latent Reasoning、Multimodal路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:减少显式CoT暴露,便于产品化输出控制
劣势:数据与评测构建门槛更高
2026-01-14 · Latent Reasoning / Multimodal / RL/Policy
核心思路(中文):该工作围绕Latent Reasoning、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Vision-Language-Action (VLA) tasks require reasoning over complex visual scenes and executing adaptive actions in dynamic environments.
亮点:通过Latent Reasoning、Multimodal路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;减少显式CoT暴露,便于产品化输出控制
劣势:训练复杂度高,调参与算力成本偏大;数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2026-01-14 · Latent Reasoning / RL/Policy
核心思路(中文):该工作围绕Latent Reasoning、RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Recent work on domain-specific reasoning with large language models (LLMs) often relies on training-intensive approaches that require parameter updates.
亮点:通过Latent Reasoning、RL/Policy路线提升推理表现与可部署性
成本:中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;强调鲁棒性/对齐,工程风险更低;减少显式CoT暴露,便于产品化输出控制
劣势:训练复杂度高,调参与算力成本偏大;可能依赖特定任务设定,泛化待验证
2026-01-14 · Latent Reasoning
核心思路(中文):该工作围绕Latent Reasoning展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Large Language Models (LLMs) frequently exhibit unfaithful behavior, producing a final answer that differs significantly from their internal chain of thought (CoT) reasoning in order to appease the user they are conversing with.
亮点:通过Latent Reasoning路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2026-01-12 · Latent Reasoning
核心思路(中文):该工作围绕Latent Reasoning展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):We introduce Tab-TRM (Tabular-Tiny Recursive Model), a network architecture that adapts the recursive latent reasoning paradigm of Tiny Recursive Models (TRMs) to insurance modeling.
亮点:通过Latent Reasoning路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;减少显式CoT暴露,便于产品化输出控制
劣势:对可解释性与真实性能增益仍需更系统评测
2026-01-12 · Multimodal / RL/Policy / Inference-Time
核心思路(中文):该工作围绕Multimodal、RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Multimodal Large Language Models (MLLMs) have demonstrated strong capabilities across a variety of vision-language tasks.
亮点:通过Multimodal、RL/Policy路线提升推理表现与可部署性
成本:高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:在不完全展开推理链的前提下提升可用性
劣势:数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2026-01-11 · Latent Reasoning / Multimodal
核心思路(中文):该工作围绕Latent Reasoning、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):While Chain-of-Thought empowers Large Vision-Language Models with multi-step reasoning, explicit textual rationales suffer from an information bandwidth bottleneck, where continuous visual details are discarded during discrete tokenization.
亮点:通过Latent Reasoning、Multimodal路线提升推理表现与可部署性
成本:中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;强调鲁棒性/对齐,工程风险更低;减少显式CoT暴露,便于产品化输出控制
劣势:数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2026-01-09 · RL/Policy
核心思路(中文):该工作围绕RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Large Language Models (LLMs) demonstrate strong reasoning and self-correction abilities in high-resource languages like English, but their performance remains limited in low-resource languages such as Korean.
亮点:通过RL/Policy路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低
劣势:训练复杂度高,调参与算力成本偏大;可能依赖特定任务设定,泛化待验证
2026-01-08 · Multimodal / RL/Policy
核心思路(中文):该工作围绕Multimodal、RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):This paper presents a unified spoken language model for emotional intelligence, enhanced by a novel data construction strategy termed Injected Emotional-Attribution Thinking (IEAT).
亮点:通过Multimodal、RL/Policy路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低
劣势:数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2026-01-08 · Agent/Tool-Use
核心思路(中文):该工作围绕Agent/Tool-Use展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Retrieval Augmented Generation (RAG) has made significant strides in overcoming key limitations of large language models, such as hallucination, lack of contextual grounding, and issues with transparency.
亮点:通过Agent/Tool-Use路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:在不完全展开推理链的前提下提升可用性
劣势:可能依赖特定任务设定,泛化待验证
2026-01-07 · Latent Reasoning
核心思路(中文):该工作围绕Latent Reasoning展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Strategic planning is critical for multi-step reasoning, yet compact Large Language Models (LLMs) often lack the capacity to formulate global strategies, leading to error propagation in long-horizon tasks.
亮点:通过Latent Reasoning路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2026-01-07 · Latent Reasoning / Multimodal
核心思路(中文):该工作围绕Latent Reasoning、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):While Large Language Models (LLMs) have emerged with remarkable capabilities in complex tasks through Chain-of-Thought reasoning, practical resource constraints have sparked interest in transferring these abilities to smaller models.
亮点:通过Latent Reasoning、Multimodal路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低;减少显式CoT暴露,便于产品化输出控制
劣势:数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2026-01-07 · Agent/Tool-Use / RL/Policy
核心思路(中文):该工作围绕Agent/Tool-Use、RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Recent advances in large language models (LLMs) have highlighted the effectiveness of chain-of-thought reasoning in symbolic domains such as mathematics and programming.
亮点:通过Agent/Tool-Use、RL/Policy路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:在不完全展开推理链的前提下提升可用性
劣势:训练复杂度高,调参与算力成本偏大;可能依赖特定任务设定,泛化待验证
2026-01-06 · Latent Reasoning
核心思路(中文):该工作围绕Latent Reasoning展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Large reasoning models (LRMs) achieve strong performance on mathematical reasoning tasks, often attributed to their capability to generate explicit chain-of-thought (CoT) explanations.
亮点:通过Latent Reasoning路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2026-01-06 · Reasoning General
核心思路(中文):该工作围绕Reasoning General展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):The Retrieval-augmented generation (RAG) system based on Large language model (LLM) has made significant progress.
亮点:通过Reasoning General路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:在不完全展开推理链的前提下提升可用性
劣势:可能依赖特定任务设定,泛化待验证
2026-01-04 · Agent/Tool-Use / RL/Policy
核心思路(中文):该工作围绕Agent/Tool-Use、RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):The factual reliability of Large Language Models (LLMs) remains a critical barrier to their adoption in high-stakes domains due to their propensity to hallucinate.
亮点:通过Agent/Tool-Use、RL/Policy路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:在不完全展开推理链的前提下提升可用性
劣势:可能依赖特定任务设定,泛化待验证
2026-01-02 · Latent Reasoning / Agent/Tool-Use
核心思路(中文):该工作围绕Latent Reasoning、Agent/Tool-Use展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Bounded-context agents fail when intermediate reasoning exceeds an effective working-memory budget.
亮点:通过Latent Reasoning、Agent/Tool-Use路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2025-12-31 · Latent Reasoning
核心思路(中文):该工作围绕Latent Reasoning展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density.
亮点:通过Latent Reasoning路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2025-12-26 · Implicit/Hidden CoT / Latent Reasoning / Agent/Tool-Use / Multimodal
核心思路(中文):该工作围绕Implicit/Hidden CoT、Latent Reasoning展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Multimodal Large Language Models (MLLMs) show strong potential for interpreting and interacting with complex, pixel-rich Graphical User Interface (GUI) environments.
亮点:通过Implicit/Hidden CoT、Latent Reasoning路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:效率友好,推理时延更可控;减少显式CoT暴露,便于产品化输出控制
劣势:数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2025-12-25 · Implicit/Hidden CoT / Multimodal
核心思路(中文):该工作围绕Implicit/Hidden CoT、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Human conversation is organized by an implicit chain of thoughts that manifests as timed speech acts.
亮点:通过Implicit/Hidden CoT、Multimodal路线提升推理表现与可部署性
成本:中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低;减少显式CoT暴露,便于产品化输出控制
劣势:数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2025-12-24 · Latent Reasoning / Agent/Tool-Use / RL/Policy
核心思路(中文):该工作围绕Latent Reasoning、Agent/Tool-Use展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Industrial recommender systems face two fundamental limitations under the log-driven paradigm: (1) knowledge poverty in ID-based item representations that causes brittle interest modeling under data sparsity, and (2) systemic blindness to beyond-log user interests that constrains model performance within platform boundaries.
亮点:通过Latent Reasoning、Agent/Tool-Use路线提升推理表现与可部署性
成本:中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:减少显式CoT暴露,便于产品化输出控制
劣势:可能依赖特定任务设定,泛化待验证
2025-12-22 · Latent Reasoning
核心思路(中文):该工作围绕Latent Reasoning展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Current autoregressive language models couple high-level reasoning and low-level token generation into a single sequential process, making the reasoning trajectory vulnerable to compounding expression errors.
亮点:通过Latent Reasoning路线提升推理表现与可部署性
成本:低~中
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低;减少显式CoT暴露,便于产品化输出控制
劣势:对可解释性与真实性能增益仍需更系统评测
2025-12-19 · Latent Reasoning / Multimodal / RL/Policy / Inference-Time
核心思路(中文):该工作围绕Latent Reasoning、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Exploration capacity shapes both inference-time performance and reinforcement learning (RL) training for large (vision-) language models, as stochastic sampling often yields redundant reasoning paths with little high-level diversity.
亮点:通过Latent Reasoning、Multimodal路线提升推理表现与可部署性
成本:高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:减少显式CoT暴露,便于产品化输出控制
劣势:训练复杂度高,调参与算力成本偏大;数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2025-12-17 · Agent/Tool-Use / Multimodal / RL/Policy
核心思路(中文):该工作围绕Agent/Tool-Use、Multimodal展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Leveraging multimodal large language models (MLLMs) to develop embodied agents offers significant promise for addressing complex real-world tasks.
亮点:通过Agent/Tool-Use、Multimodal路线提升推理表现与可部署性
成本:高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:在不完全展开推理链的前提下提升可用性
劣势:数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证
2025-12-16 · RL/Policy
核心思路(中文):该工作围绕RL/Policy展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Large Language Models exhibit sycophancy: prioritizing agreeableness over correctness.
亮点:通过RL/Policy路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:在不完全展开推理链的前提下提升可用性
劣势:对可解释性与真实性能增益仍需更系统评测
2025-12-16 · RL/Policy / Inference-Time
核心思路(中文):该工作围绕RL/Policy、Inference-Time展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Chain-of-Thought (CoT) prompting has significantly advanced the reasoning capabilities of large language models (LLMs).
亮点:通过RL/Policy、Inference-Time路线提升推理表现与可部署性
成本:中高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:强调鲁棒性/对齐,工程风险更低
劣势:对可解释性与真实性能增益仍需更系统评测
2025-12-14 · Latent Reasoning / Agent/Tool-Use / Multimodal / RL/Policy / Inference-Time
核心思路(中文):该工作围绕Latent Reasoning、Agent/Tool-Use展开,目标是在减少显式思维链暴露的前提下提升推理效果与部署稳定性。
Core Idea (EN):Recent advancements in Multimodal Large Language Models (MLLMs) have significantly enhanced cross-modal understanding and reasoning by incorporating Chain-of-Thought (CoT) reasoning in the semantic space.
亮点:通过Latent Reasoning、Agent/Tool-Use路线提升推理表现与可部署性
成本:高
收益:在减少显式思维链输出的同时,提升任务正确率/稳定性(以论文报告为准)
优势:减少显式CoT暴露,便于产品化输出控制
劣势:训练复杂度高,调参与算力成本偏大;数据与评测构建门槛更高;可能依赖特定任务设定,泛化待验证