教育的本质就是把人当大模型训练。
教师是已经收敛的大模型,学生是随机初始化的参数。
理想的状态是:把人类的智者蒸馏了,把好的语料喂给初始化的脑子然后一遍遍讲故事,滚话轮,a,b test测试鲁棒性。学完了有的人还是小模型,有的人成为大模型,把好的大模型筛选出来然后继续拿好数据滚话轮训练。
现实是:学生假装收敛(考试前死记硬背,考完立刻遗忘),污染数据集(用ChatGPT写论文,让导师的"蒸馏"失效),对抗训练(故意和导师唱反调,为了确立自己的边界)。
教育不是一次性下载,是多轮对话。
小学滚一轮,中学滚一轮,大学滚一轮,研究生再滚一轮。每一轮都在微调上一层的权重。
而产出本质上是产生了“幻觉”,整个导师体系,班级,课题组就是过拟合的产物。
导师带几个学生,在极窄的领域里反复训练,脱离常识,产生"幻觉"——看起来脱离现实的理论,但正是这些"幻觉",偶尔打开了新范式(比如非欧几何、量子力学最初都像"幻觉")。
大部分人的对话就像豆包和另一个豆包,没有噪音,循环引用,互信息趋向饱和,联合熵下降。temperature低,最后收敛成为枯燥的共识。