peopleevents
梁斌penny 2025-02-04 21:01+08:00Z
原微博

”梁博,你说的SFT过程,假定用数千万提问回答对给大模型训练,增强能力。那如果有一个问题属于同领域,但不在这个训练过程中出现过,大模型是不是就不能回答了呢?“这个就是大模型的涌现能力了,他见过数千万训练数据,误差都能收敛,说明已经具备了信息压缩和理解能力,那么大概率可以回答你这个从来没出现过的新问题,就是这么神奇。这种感觉就是你参加高考,把1000多道数学题都做得烂熟,那么考试的时候,遇到一个新题目,你自然能产生解题的灵感是一样的。当然了现在大模型发展到,可以把这种答案产生的过程,形成一个链路,最终出答案,而不是”直出“答案,从而获得更好的效果。总之遇到一个完全”新“的问题,是可以大概率优雅解决的。

上一页1/629每页 10总共 6282下一页