[LG]《Hedge-Bench: Benchmarking Agents on Hard, Realistic Tasks Pertaining to Financial Reasoning》E Cho, S Huang, A Lu, A Lyu [Trata & Brigham Young University] (2026)
在金融智能体评测领域,专家级投研推理是一个悬而未决的难题。过去基准受困于答案匹配或模型裁判,本质原因是它们只验结果,不验分析师真实会走的推理路径。
本文的核心洞见是:把金融推理评测重新看作“专家动作轨迹”的复现。由此,102 个真实投研任务与确定性推理步骤评分,使开放式判断能被逐项检验。
这项工作真正留下的遗产是把金融基准从算数问答推向投资判断。它为后来者打开的新门是训练贴近分析师偏好的代理,但尚未跨过的门槛是评分仍依赖单次模型生成的评分量表。
arxiv.org/abs/2606.03918 机器学习 人工智能 论文 AI创造营






