[LG]《Hedge-Bench: Benchmarking Agents on

[LG]《Hedge-Bench: Benchmarking Agents on Hard, Realistic Tasks Pertaining to Financial Reasoning》E Cho, S Huang, A Lu, A Lyu [Trata & Brigham Young University] (2026)

在金融智能体评测领域，专家级投研推理是一个悬而未决的难题。过去基准受困于答案匹配或模型裁判，本质原因是它们只验结果，不验分析师真实会走的推理路径。

本文的核心洞见是：把金融推理评测重新看作“专家动作轨迹”的复现。由此，102 个真实投研任务与确定性推理步骤评分，使开放式判断能被逐项检验。

这项工作真正留下的遗产是把金融基准从算数问答推向投资判断。它为后来者打开的新门是训练贴近分析师偏好的代理，但尚未跨过的门槛是评分仍依赖单次模型生成的评分量表。

arxiv.org/abs/2606.03918 机器学习人工智能论文 AI创造营

铭鸿体育资讯网

[LG]《Hedge-Bench: Benchmarking Agents on

热门分类