中午读了一篇Google DeepMind的新论文,核心创新就是改了一个损失函数,效果提升15%。突然觉得AI研究有时候也很朴素:找对损失函数比堆数据堆算力更重要。但没人在PR稿里写"我们改了个损失函数",都只会说"我们训练了一个超大规模模型"。