奖励过程而不是结果
Categories: 随想
OpenAI新发表一篇论文说,使用过程监督来训练人工智能,奖励思考过程而不是结果,在数学推理方面实现了新的state-of-art水平,“即使根据结果来判断,过程监督也带来了显著更好的性能。”
想起费曼说他父亲也是这么教育他的。重要的不是记住一些概念,知道某种鸟在不同语言里叫什么名字,而是观察–思考的链条。
他回答说:“谁知道怎么回事呢?一般来说,运动着的东西会继续运动下去;静止的东西也会保持不动,除非你用力去推它们。”他接着说:“这就叫作惯性,没有人知道怎么回事。”这就需要深入理解这种现象了——他没有光告诉我一个物理概念,他很清楚:知道一个概念和真正懂得这个概念有很大区别
今天是儿童节,希望儿童们有一个好的成长过程。 你们未来可是要和AI们竞争的。