peopleevents
梁斌penny 2025-04-12 17:40+08:00Z
原微博

我个人觉得大模型这个里面最大的发明就是这个自注意力机制的计算方法,解决了一词多义,和一词在多和环境下细微差异的问题,实现了语义理解的突破,把我在读博时期那会流行的word2vec这些大大进行了提升。你看古早那个语言模型,那个google-ngrams还有人用吗?当时是很牛逼的,用处很大,1-gram(ugigram),2-gram(bigram),3-gram(trigram)这些语料当时都非常牛逼,用在机器翻译上面,各种语言模型上,现在已经泯为众人了。为什么呢?就是因为没有精细化每个词的词义,傻乎乎的靠暴力统计强吃,最后卡瓶颈了,最后又是google一票人马横空出世一个自注意机制真正解决了这个问题,实现了人类智能最重大的一次进步。。其他的你说什么FNN,都是基本功,太基本功了,位置encoding这个也有点小神来之笔,但都可以说是simple。关键还是这个自注意机制解决了巨大的问题,所以现在很多讲座让我别讲注意力机制,我是接受不了的,精髓就是这个东西啊。。

上一页18/995每页 10总共 9943下一页