奖励过程而不是结果

OpenAI新发表一篇论文说，使用过程监督来训练人工智能，奖励思考过程而不是结果，在数学推理方面实现了新的state-of-art水平，“即使根据结果来判断，过程监督也带来了显著更好的性能。”

想起费曼说他父亲也是这么教育他的。重要的不是记住一些概念，知道某种鸟在不同语言里叫什么名字，而是观察–思考的链条。

他回答说：“谁知道怎么回事呢？一般来说，运动着的东西会继续运动下去；静止的东西也会保持不动，除非你用力去推它们。”他接着说：“这就叫作惯性，没有人知道怎么回事。”这就需要深入理解这种现象了——他没有光告诉我一个物理概念，他很清楚：知道一个概念和真正懂得这个概念有很大区别

今天是儿童节，希望儿童们有一个好的成长过程。你们未来可是要和AI们竞争的。