2007 年美国心理学会的《个性与社会心理学杂志》刊登了一项研究:《Gender and sexual orientation differences in sexual response to sexual activities versus gender of actors in sexual films》。我对这个研究的印象非常深刻,因为它揭示了女性和男性在性问题上的一个根本差异,可以解释很多问题。研究者给不同性取向的男性和女性观看各种色情片,然后要求他们对自己的性兴奋程度打分,同时用仪器对其生殖器的反应进行客观测量。男性和女性在实验中表现出了很大的不同。对异性恋男性来说,画面中必须有女性才会发生性兴奋。对于同性恋男性来说,画面中必须有男性才会发生性兴奋。这都并不出人意料。同时,男性对自己的性兴奋程度的主观评价和客观测量结果一致。但对于女性(无论其自称是同性恋还是异性恋),无论屏幕上出现男人和男人、女人和女人还是女人和男人的画面时,仪器都测量到了生殖器兴奋——甚至当她们观看倭黑猩猩交配时也如此。然而,女性对自己的的主观评价和仪器测量结果并不一致。当异性恋女性观看女同性恋色情片和男同性恋色情片时,她们对自己的兴奋程度评价很低,但仪器测量结果并不是这样。当女同性恋观看只有男性角色的影片时,她们对自己兴奋程度的评价也很低,但仪器测量结果并不是这样。另外,所有女性都声称观看倭黑猩猩交配时几乎没有任何性唤起,但仪器测量结果并不是这样。
补充一下:GLM-4.6 也可以了 //@tombkeeper:现在是2025年10月。不能完成该编程任务的那几个还是不能完成。//@t0mbkeeper:刚才又测了一下。半年之后,不能完成编程任务的那几个还是不能完成。 DeepSeek v3 不仅可以完成而且比 v2.5 的代码质量更高。DeepSeek R1 也行,但不如 v3 完成的漂亮。
@t0mbkeeper
这几天很多人都表达了对 DeepSeek 3 训练成本大幅降低的惊叹。但也有人说这是“断章取义”,比如认为他们训练的只是 FP8 精度,强调他们训练用了大量高质量合成数据,并认为得到这些数据的过程所消耗的算力也应该算在训练成本里。看了两边的观点之后我觉得好像都有道理,而我也没有资格在这个问题上做出评价。模型训练是大玩家们的游戏。我们能关注的还是模型应用。实验室的同学已经在测试 DeepSeek 3 了,具体好不好用也还是要用了才知道。另外,今年夏天的时候,我用我自己设定的测试任务测了一下几个大模型。国内的大模型多数都不能完成我的编程任务(微博正文 微博正文)。只有当时的 DeepSeek 2.5 和另外一个能完成。
现在是2025年10月。不能完成该编程任务的那几个还是不能完成。//@t0mbkeeper:刚才又测了一下。半年之后,不能完成编程任务的那几个还是不能完成。 DeepSeek v3 不仅可以完成而且比 v2.5 的代码质量更高。DeepSeek R1 也行,但不如 v3 完成的漂亮。
@t0mbkeeper
这几天很多人都表达了对 DeepSeek 3 训练成本大幅降低的惊叹。但也有人说这是“断章取义”,比如认为他们训练的只是 FP8 精度,强调他们训练用了大量高质量合成数据,并认为得到这些数据的过程所消耗的算力也应该算在训练成本里。看了两边的观点之后我觉得好像都有道理,而我也没有资格在这个问题上做出评价。模型训练是大玩家们的游戏。我们能关注的还是模型应用。实验室的同学已经在测试 DeepSeek 3 了,具体好不好用也还是要用了才知道。另外,今年夏天的时候,我用我自己设定的测试任务测了一下几个大模型。国内的大模型多数都不能完成我的编程任务(微博正文 微博正文)。只有当时的 DeepSeek 2.5 和另外一个能完成。
看杨振宁也是一样的,“不看主观看客观,具体问题具体看,总体定性看大节。”
@tombkeeper
我以前讲过,看历史人物,要考虑历史背景,不能用当代的知识、当代的标准、当代的观念去苛责历史人物。否则,如果用阶级史观去看岳飞,那他也是镇压农民起义的刽子手。另外,人的一生是漫长而复杂的,所以我有个评价历史人物的原则是:“不看主观看客观,具体问题具体看,总体定性看大节。”谭嗣同,戊戌六君子,“我自横刀向天笑,去留肝胆两昆仑”。当代官方对他的评价非常正面。但正如前面所说,人是复杂的。还是这个谭嗣同,当年主张把新疆卖给俄国,把西藏卖给英国,卖了钱支付马关条约的赔款(如果恶毒一些也可称之为“卖了钱给日本”),剩的拿来“变法”。并且认为如果这两块地方还不够,东北、蒙古都可以卖掉。他认为卖国的好处多多,不光可以换钱,还可以换取洋人对中国的保护。如果我们揪住谭嗣同这个言论不放,盯着这一点死咬,打倒在地踏上一万只脚,好像也挺顺理成章的。这就是为什么说:微博正文
往好处想想,至少未来几十年我们和美国网友对线都轻松很多。“你们吃狗肉!”“You elected Trump !”——“你们被政府洗脑了!”“You elected Trump !”——“中国制造都是假冒!”“You elected Trump !”
@祝佳音
川普的这些行为,让我陷入了“要么他是个疯狂的白痴,要么这个世界有我尚无法理解的规则”的思索,就好像忽然发现看起来已经抵达边界的游戏地图又可以拓展边缘,还有广阔的天地等着我去发现和了解,或者人物升级后发现一条全新的升级树,需要把之前的技能天赋全都洗掉重置,非常新鲜!我已经很久没有这种感觉了……
今天的盲猜关注列表活动开始啦!//@三细辣子多放:本来就是个通用名,又不是学名。
@tombkeeper
甭管出于什么考虑,允许虹鳟叫三文鱼,其结果必然导致三文鱼改名。现在有点追求的商家要么加定语:“法罗群岛三文鱼”“挪威三文鱼”“塔斯马尼亚三文鱼”“智利三文鱼”,要么加括号:“三文鱼(大西洋鲑)”。
甭管出于什么考虑,允许虹鳟叫三文鱼,其结果必然导致三文鱼改名。现在有点追求的商家要么加定语:“法罗群岛三文鱼”“挪威三文鱼”“塔斯马尼亚三文鱼”“智利三文鱼”,要么加括号:“三文鱼(大西洋鲑)”。
你们前几年可能抢过黄金红包,但已经忘记了。翻一翻,没准有意外惊喜。
凡是李永乐讲过的,都属于永乐大典的内容,有什么问题?//@刘春:这些人是在毁我国学啊,呜呼哀哉!
@张宏杰
每天学点国学。
@高飞
#模型时代# Andrej Karpathy最新访谈:我们没有在制造生灵,而是在召唤幽灵Andrej Karpathy这次在Dwarkesh Patel的访谈必然是要引起轰动的,刚看了一下,不到一天已经16万次观看。Andrej Karpathy的资历不用说了,15年原生AI研究、曾任Tesla自动驾驶负责人,还是OpenAI创始成员的技术大牛。标题是我意译的,原文是: “We’re summoning ghosts, not building animals”这期播客,他分享了他对AGI时间线、强化学习陷阱、以及AI教育革命的独特见解。当然,最引发关注的,还是他对强化学习的看法。前不久,Sutton做了一系列访谈,讲了强化学习是AGI必由之路,而Andrej Kaparthy的看法则显然不同。我简单做了归纳:分歧一:对强化学习本质价值的判断截然相反Sutton认为强化学习是"基础AI",是智能的核心和本质。他主张智能就是从真实经验中学习、通过奖励信号来判断行为好坏,这才是理解世界的正确方法。相反,Karpathy直言当前强化学习"糟糕透了",批评其效率极低——让AI做几百次尝试,最后只能从"成功或失败"这一个信号来学习,就像"通过吸管吸取监督信号"。更糟的是,强化学习容易被钻空子:用大模型来评判AI的表现,结果AI学会了输出"dhdhdhdh"这样的乱码来骗取满分,因为这是评判模型没见过的、会判断错误的情况。分歧二:对人类学习方式的理解完全不同Sutton坚持人类和动物不是通过"老师示范、学生模仿"来学习的,而是通过试错来理解世界。他认为婴儿是自己尝试、自己发现规律的,自然界根本不存在有人手把手教的监督学习,"如果理解了松鼠的智能,就几乎理解了人类智能"。Karpathy则持相反观点:人类很少用强化学习来学习智能任务,人类不会做几百次尝试然后根据最终成败简单地强化整个过程。人类会进行复杂的反思——"这一步我做对了,那一步做错了,下次应该这样"。而且人类有睡眠时的知识巩固、白天的工作记忆等机制,这些大模型都没有。分歧三:对AI技术路线的选择根本对立Sutton从基本原理出发,认为依赖人类知识的方法最终都会输给纯粹的"从经验学习+大算力"(这是他著名的"苦涩的教训"文章的核心)。他批评大语言模型只是在模仿人类说话,没有真正的目标,也没有对世界的真实理解。Karpathy则是工程实用主义者,他认为让模型读遍互联网(预训练)虽然是"蹩脚的进化",但这是现在能用的方法。他认为ChatGPT通过模仿人类对话微调出来是个惊人的成功。他主张当前应该走"大语言模型+改进的强化学习"路线,比如给学习过程的每一步打分、加入反思机制,而不是推倒重来。他直言:"我是工程师,戴着安全帽,只关注什么真正管用。"更多内容,就见下边的总结吧:***从"召唤幽灵"到"十年造神":OpenAI前研究科学家Andrej Karpathy眼中的AGI真相Andrej Karpathy,这位拥有15年AI研究经验、曾任Tesla自动驾驶负责人、OpenAI创始成员的技术大牛,在昨天发布的Dwarkesh Podcast分享了他对AGI时间线、强化学习陷阱、以及AI教育革命的独特见解。当所有人都在喊"2025是Agent元年"时,他冷静地说:"这不是Agent的一年,这是Agent的十年。"主体内容一、AGI时间线:为什么是十年,不是一年?第一性原理思考:Karpathy认为当前AI Agent就像一个"不太靠谱的实习生",你想让它帮忙,但它就是做不到,主要原因包括智能不足、多模态能力欠缺、无法持续学习、缺乏计算机操作能力,这些认知缺陷需要至少十年时间逐一攻克。"We're summoning ghosts, not building animals" - 这是Karpathy对当前AI本质的精准描述。LLM更像是在"召唤"知识的幽灵,而不是像动物那样真正理解和学习世界,它们在互联网文本中"发现"数学和推理,就像考古学家挖掘化石一样,但这种发现有其极限。具体的认知缺陷包括:• 无法进行符号运算:给LLM一个20位数乘法,它会完全崩溃,因为互联网上没有这样的例子,它无法像人类那样通过算法步骤进行计算• 缺乏系统2思考:人类可以花10分钟思考一个问题,而LLM只能进行固定计算量的"快思考",无法像AlphaGo那样通过搜索树进行深度推理• 没有持续学习能力:告诉它一个事实,下次对话它就忘了,无法像人类那样积累经验二、强化学习的陷阱:整个行业的集体误判一个大胆的判断:"强化学习很糟糕,但其他所有方法更糟糕。" Karpathy直言不讳地指出,2013-2017年整个AI界对强化学习游戏的痴迷是一个"misstep"(误入歧途),包括早期OpenAI在内的顶级实验室都在这条错误的道路上浪费了大量时间。为什么强化学习不work:• 奖励信号太稀疏:在Atari游戏中随机按键很难获得奖励,学习效率极低,就像在黑暗中摸索,可能要"烧掉一片森林的计算资源"也学不到什么• 缺少表征能力:没有预训练的语言模型做基础,纯粹的强化学习就像让婴儿直接学微积分• 环境不真实:游戏世界太简单,无法迁移到真实世界的复杂任务正确的路径:先通过大规模预训练获得强大的表征能力(LLM),再在上面构建Agent能力,这就是为什么现在的computer-use agents都建立在LLM基础上。三、人类学习 vs AI学习:两条完全不同的路关键洞察:人类和AI的学习机制完全不同,试图让AI模仿人类学习是错误的方向,人类从少量数据中学习是因为有亿万年进化赋予的先验知识,而AI必须从海量数据中重新发现这些规律。人类学习的秘密:• 进化的礼物:人类大脑是40亿年进化的产物,携带着巨量的先验知识,一个婴儿的大脑已经"知道"很多关于物理世界的规律• 文化传承:25万年的文化积累让每个人站在巨人的肩膀上,语言、工具、知识体系都是压缩后的智慧传承• 效率极高:正因为有这些基础,人类才能从少量样本中快速学习AI的不同路径:• 从零开始:LLM必须从原始数据中重新发现所有规律,就像重新进化一遍• 规模优势:但AI可以同时处理海量数据,不受人类认知带宽限制• 新的可能:这种不同可能让AI发现人类从未注意到的模式四、AGI的经济影响:融入2%的GDP增长曲线反直觉的预测:AGI不会带来经济奇点或爆炸式增长,而是会自然融入过去250年来稳定的2%人均GDP增长曲线,就像工业革命、电力、互联网一样,成为推动经济增长的又一个重要因素。为什么不会有奇点:• 物理世界的约束:经济增长最终受限于原子世界的物理规律,建工厂、造房子、运输货物都需要时间• 人类需求的限制:人的需求增长是有限的,不会因为AI变强而突然想要100倍的商品• 系统的惯性:经济系统有巨大惯性,新技术需要时间渗透到各个行业真实的影响模式:• AI会像之前的通用技术一样,逐步提高各行业生产力,但这种提升会被市场机制消化,体现为缓慢而稳定的增长• 最大的变化可能是工作性质的转变,而不是财富的爆炸式增长五、自动驾驶为什么这么难:Tesla经验的深刻教训核心问题:自动驾驶之所以困难,不是因为驾驶本身很难,而是因为要处理无数的"长尾问题"(edge cases),真实世界的复杂性远超想象。Tesla的进化历程:• 第一代:基于规则的系统,工程师手写代码处理各种情况• 第二代:深度学习接管感知,但决策仍基于规则• 第三代:端到端神经网络,从传感器到控制全部由AI完成为什么端到端才是正解:• 人类驾驶是端到端的:看到情况→大脑处理→输出动作,中间没有"车道线检测""物体分类"等中间步骤• 分模块系统的问题:信息在模块间传递会丢失,错误会累积,无法处理未预见的情况• 端到端的优势:可以学习隐含的模式,自动优化整体性能,而不是局部最优六、教育的未来:从"知识传递"到"智慧引导"Karpathy的教育哲学:"教育是最有智力挑战的任务,因为你要把纠缠的知识解开,排列成一个坡道,让每一步只依赖前一步。"优秀教育的要素:• 激发动机:先展示痛点,再给出解决方案,让学习者理解"为什么需要这个知识"• 循序渐进:从lookup table到transformer,每一步都有充分的动机,像从bigram开始教transformer,先用最简单的查找表,然后逐步添加复杂性• 主动参与:在给出答案前让学习者先尝试,这样他们才能真正理解解决方案的价值知识的诅咒:专家很难教好初学者,因为他们已经内化了太多"显而易见"的东西,解决方法是看初学者和ChatGPT的对话,了解他们真正的困惑点。未来教育的形态:• AI tutor将提供个性化教育,根据每个人的理解程度调整教学节奏• 但人类教师仍然重要,因为教育不只是知识传递,还包括动机激发、情感支持、品格塑造总结Andrej Karpathy的核心观点是:我们不应该试图复制人类智能,而应该理解AI的独特路径。当前的LLM像是在"召唤"互联网知识的幽灵,而不是真正理解世界。通向AGI的路还很长,需要十年时间解决持续学习、多模态理解、系统性推理等根本问题。但这不是悲观的预测,而是理性的规划。就像自动驾驶从规则系统evolve到端到端神经网络花了十年,AGI的实现也需要时间。而当它真正到来时,不会是科幻电影中的奇点爆炸,而是像历次工业革命一样,悄然融入人类文明的进步曲线。最重要的是,我们需要重新思考教育。在AI时代,知识获取变得简单,但理解和创造仍然困难。未来的教育应该像Karpathy的课程一样,不是灌输事实,而是培养思考的方法。QA:三个最核心的洞察Q:为什么说当前的AI是在"召唤幽灵"而不是"构建动物"? A:LLM的本质是在互联网文本中"发现"已存在的模式,就像考古学家挖掘化石。它们能够重现人类知识,但缺乏动物那样的主动学习和适应能力。一个20位数的乘法就能让最强大的LLM崩溃,因为互联网上没有这样的例子,而一个小学生通过算法就能解决。这揭示了当前AI的根本局限:它们是知识的搬运工,而不是智慧的创造者。Q:为什么强化学习这条路走不通,整个行业都判断错了? A:2013-2017年,包括OpenAI在内的顶级实验室都在用强化学习玩Atari游戏,希望通过这条路通向AGI。但Karpathy认为这是collective misstep,原因是强化学习就像让婴儿直接学微积分——没有基础表征能力,光靠试错永远学不会复杂任务。正确的路径是先通过大规模预训练获得语言理解能力(LLM),再在此基础上构建Agent。这个教训告诉我们:在AI发展中,顺序比努力更重要。Q:AGI真的会带来经济奇点吗? A:不会。Karpathy给出了反直觉但compelling的论证:过去250年,尽管有蒸汽机、电力、计算机等革命性技术,人均GDP增长始终稳定在2%左右。AGI也会遵循这个规律,因为经济增长最终受限于物理世界和人类需求。你不会因为AI变强就突然想要100倍的食物或衣服。AGI的真正影响不是财富爆炸,而是工作性质的根本改变——就像农民变成了程序员一样,我们都会找到新的创造价值的方式。 高飞的微博视频
这事我有映像,当时也是吓一跳,居然有一个计算机术语是我不知道的,只有惭愧,也没有什么地方可以学到这个东西的精髓,但毕竟人家是一等奖,咱当初也没敢质疑。。
@Fenng
中国工程院院士、原中南大学校长张尧学被查了。说起来,10 年前的事儿了:2015 年 1 月 9 日,2014 年国家自然科学奖揭晓,一等奖被中国工程院院士、中南大学校长张尧学率领的团队摘得,其夺奖成果是一种全新的网络化计算模式 ——「透明计算」。国家自然科学奖一等奖一度长达 10 年空缺,最后却被一个如此扯淡的所谓「透明计算」拿走。当时可以说整个行业哗然,如此作假居然能得奖?可以说令人瞠目结舌。这 10 年间,「透明计算」有什么能说得上来的应用?到底用在哪里了?别说应用,有几个人听过这个概念?张尧学在采访中自称「从理论上,我们已解决了网络安全问题。」「透明计算对中国国家信息安全的贡献,将超乎人们的想象。」10 年后,尘埃落定。