peopleevents
梁斌penny 2025-08-09 11:01+08:00Z
原微博

而且从GPT5的思维链过程看,可以清晰推测出几个显而易见的强化学习奖励函数。1)Get a quick answer 也就是资源最小化,避免复杂的推理,复杂的结果,可以控制挥发函数,优先挥发出快速的答案。2)Quick evaluation 也就是结果可以快速评价,GPT5并不是简单出结果就完了,还有评价过程,之前的模型也有,但是他们更强调结果能方便快速评价。3)Simplicity of results 答案要避免使用复杂工具,便于用户理解,也就是同样一个题目可以用多种工具,优先使用简洁工具,大众能理解的方法。我感觉以后我继续学数学,可以不用请成人老师,直接请大模型就足够了,而且我把GPT5的解答发给Gemini,Gemini还给我推荐了一个youtube视频,来讲解这个解题用到的工具

上一页192/995每页 10总共 9943下一页