前阵子粉丝群里出现了一个行为有些奇怪的人,很多人都不太喜欢他。大概是因为这个原因,有人说要建一个小群,拉一些志同道合的人过去。我相信他是出于良好的意愿,但我还是带大家回顾了 1935 年张国焘另立中央的那段历史。
我发现在某些平台上,视频连电焊画面都要打马赛克了。因为有人觉得恐怖、恶心,投诉了,所以医学科普视频里,出现血的画面要打马赛克,这个我们已经知道了。因为有人觉得恐怖、恶心,投诉了,所以博物学科普视频里虫、蛇要打马赛克,这个我们也已经知道了。但电焊为什么要打马赛克?在物理世界里,电焊会产生强光和紫外线,所以不能直视,要通过保护镜片看。但手机屏幕大概无法还原物理世界电火花的能量。那为什么也要打马赛克呢?难道是因为有人觉得看着刺眼就要投诉而且平台就会支持这种投诉吗?比起这个答案,我更愿意相信是因为淫秽色情。——对,淫秽色情。上次我和大黄蜂一起参加市委统战部组织的联谊活动,在观看我国工业建设成果的宣传视频时,我发现只要一出现电焊画面,大黄蜂就会害羞地移开视线。我问他为什么,他说电焊等机械制造操作对塞伯坦星人来说其实就是繁殖行为,而电焊又属于其中最热辣刺激的。所以,塞伯坦星人看火花四射的电焊画面,就等于我们看激情四射的色情画面。所以,我估计是塞伯坦星人投诉的。
有网友问我沐曦,摩尔和寒武纪的区别。。国内的事情我一般不敢乱讲,怕惹事,我斗胆讲一讲,厂商听了如果有不爽,及时通知我删帖,好商量,别发EMS快递,谢谢。沐曦和寒武纪只做数据中心业务,2B市场,沐曦有一个MXMACA,这个东西类似CUDA,这帮人AMD出来的,有CUDA恐惧症,AMD只所以垃圾,大家都知道的,就是没有一个CUDA,发挥不出硬件的能力。。英伟达显卡上写的代码,可以很方便移植到沐曦的芯片上;寒武纪主流产品是NPU(类似GPU),是一种专用芯片,注重能耗。寒武纪主打一个:“英伟达训练 + 寒武纪推理”。英伟达用的是 CUDA,寒武纪用的是自己的 MagicMind(推理加速引擎)和 Neuware(软件栈)使得在英伟达芯片训练的模型可以跑在寒武纪芯片上做推理。如果你的原始代码是标准的 PyTorch 或 TensorFlow,寒武纪提供了专门的插件和算子库。大部分情况下,你不需要改动底层代码,只需要通过寒武纪的工具链进行模型转换(量化、编译)摩尔呢,主要是英伟达的人出来干的,处处模仿英伟达,敞开当一回地主那种感觉,消费级显卡和数据中心显卡都做,但是消费级显卡貌似黄了,摩尔也有类似沐曦的MXMACA,摩尔叫MUSA。都类似CUDA。摩尔的IPO文件中几个大金主(匿名的),消费极大,大概率都是买万卡集群的,摩尔专门干这个,为超级大客户服务的。当然,我也是AI小白,不如广大网友专业,略懂皮毛,内行可以在评论区讨论下,谢谢。
//@刘群MT-to-Death:【当时Hinton临时成立的公司早就想卖给Google,所以现在地平线创始人余凯代表百度出价到更高的时候,Hinton就叫停了拍卖】看来百度本来就没有机会,并不是因为出价比不过Google。不过百度和余凯老师能在这件事情上留下一笔,也足以青史留名了
@高飞
#模型时代# 从Alex卧室的两块GPU到万亿参数:Hinton与Jeff Dean复盘现代AI的7个关键决策2025年NeurIPS大会的一期访谈,刚有空整理了一下,对话的两个人那是相当权威:Geoffrey Hinton和Jeff Dean(Google首席科学家、Gemini联合负责人)。主持人是Jordan Jacobs(Radical Ventures联合创始人、Vector Institute联合创始人)。这场对话的价值在于:当事人亲口讲述了那些被后人神化的"历史时刻"到底发生了什么。你会发现,很多决定性突破的背后,是一些看起来很随意的判断。我印象比较深刻的一个论述是,Hinton作为教授,如何挑选学生?答案:问"你最好的想法是什么"。如果回答是"我还没有想法,等研究生阶段再说",那就不要。因为他要的是已经产生过原创想法的人,不管想法好不好。能力可以培养,但产生想法的习惯很难后天养成。另外,这个对话里也提到,当时Hinton临时成立的公司早就想卖给Google,所以现在地平线创始人余凯代表百度出价到更高的时候,Hinton就叫停了拍卖。一、"每周提高1%,就推迟一周答辩"——Hinton最好的管理决策Alex Krizhevsky是AlexNet的第一作者,但他差点没做出来。刚开始尝试用tiny images(一个缩略图数据集,图片只有32×32像素)做实验时,Alex告诉Hinton"不行"。Hinton去看了一眼,发现他把weight decay(权重衰减)设成了1。这个参数相当于对模型收的"税"——每学一点东西就要被扣掉一部分。正常税率是0.001,千分之一,模型能稳步积累知识;Alex设成了1,相当于100%税率,学到多少扣多少,永远攒不下东西。"为什么是1?""不知道,感觉是个好数字。""学生不懂某件事的时候看起来像傻瓜,但他们不是,只是不知道而已。Alex进步得非常快。"后来Alex要做depth oral(博士资格考试的文献综述环节),但他不想做。Hinton做了一个决定:"每周你在ImageNet上的准确率提高1%,就可以推迟一周。"结果一周接一周过去,准确率一直在涨,Alex再也没做那个depth oral。Hinton说这是他做过的最好的管理决策。顺便一提,AlexNet是在Alex父母家的卧室里训练的。两块GPU显卡,多伦多大学买单;电费父母买单。"我这是在给大学省钱。"二、"必须在Yann之前做出来"——Ilya的战略判断推动AlexNet应用于ImageNet的关键人物是Ilya Sutskever。当时卷积神经网络已经存在多年,Yann LeCun一直在推广它。Ilya的判断是:这东西用在ImageNet上肯定行,但机会窗口有限。他对Hinton说:"我们必须在Yann之前做出来。"与此同时,Yann正在自己的实验室努力说服博士后和学生把卷积网络用于ImageNet,但每个人都有"更好的事情要做"。Ilya不光催,还动手。他亲自把ImageNet的所有图片预处理成统一尺寸,让Alex可以直接用。结果就是2012年的AlexNet,错误率比第二名低了10个百分点以上,震惊了整个计算机视觉领域。三、"我们是收购标的,不是求职者"——DNN Research的定价策略AlexNet之后,所有大公司都想挖Hinton、Ilya和Alex。Hinton观察到一个现象:公司里"发工资的预算"和"做收购的预算"是两笔钱,后者是前者的10倍。所以他们决定成立一家公司DNN Research,把自己包装成收购标的,而不是求职者。收购拍卖发生在Lake Tahoe赌场的NIPS会议上。楼下赌客赢一万美元铃声大作,楼上每次加价一百万。Hinton其实早就决定Google必须赢——他那年夏天在Google Brain实习过,体验很好。最后眼看"错误的人可能会赢",他们直接叫停了拍卖。"我后来一直想知道,是不是在场的人在操纵拍卖。"主持人Jordan问。Hinton笑着回答:"我们确实操纵了。"四、"为什么我们不训练非常非常大的神经网络?我们有很多电脑"——Google Brain的起源2012年的某一天,Jeff Dean在Google的微厨房(micro kitchen,Google办公区里分布的小型茶水间)偶遇Andrew Ng。Andrew刚开始每周来Google一天,Jeff问他在做什么,Andrew说他在斯坦福的学生用神经网络取得了好结果。Jeff说了一句改变历史的话:"那为什么我们不在这里训练非常非常大的神经网络?我们有很多电脑。"当时Google数据中心里没有GPU,只有大量CPU服务器。Jeff写了一套软件框架,可以把神经网络的计算切分到成千上万台机器上并行跑。他们用16000核CPU训练出比此前任何人都大50倍的模型,在1000万张YouTube随机截图上做无监督学习。但他们犯了一个错误:为了让模型更像大脑,没有使用卷积共享权重——卷积的精髓是"同一个滤镜扫描整张图",参数可以复用;他们给图片每个位置都配了独立的滤镜,结果参数量膨胀到20亿。尽管如此,模型在ImageNet 22K上仍然取得了70%的相对错误率提升。早期Brain团队只有约20人,全挤在一间比会议室还小的没窗户的办公室里。"没窗户可能是好事,他们就不会往外看了。"Hinton那年夏天以64岁高龄成为Google实习生——因为访问学者必须待满6个月,而他只能待一个夏天,"实习生"是唯一能给他发badge的类别。"我觉得他们能录用64岁实习生的唯一原因是,年龄字段只分配了6个bit。"他不得不和一群IIT和清华的学生一起上新员工培训课,教官说"用你的LDAP和OTP登录"——这是企业内网的账号协议和动态验证码,任何一个科技公司员工都该知道的基础操作——他举手问"什么是LDAP?什么是OTP?"四个助教最后决定专门分配一个给他。午餐时一个以前上过他课的本科生认出他喊了一声"Hinton教授",所有人才恍然大悟。五、"先投5000万,还不知道怎么用"——TPU的豪赌2013年,Jeff Dean做了一个"信封背面计算"(back of the envelope calculation,英文里指随手在纸上做的粗略估算):如果1亿人每天用语音和手机对话3分钟,用CPU跑最新的语音识别模型需要多少算力?结果很吓人:需要把Google的服务器数量翻一倍。Jeff判断,专用芯片是唯一出路。神经网络有几个好特性:运算类型很少,而且对精度要求不高——精度低一点只是引入一些噪声,而神经网络本来就喜欢噪声;甚至不需要纠错内存,因为算错几个bit也不影响结果。他在走廊里"堵住"了当时的CFO Patrick Pichette,说服他先投5000万美元部署第一代TPU,尽管当时还不完全知道怎么用。TPU v1专门做推理,性能比同期CPU/GPU好15-30倍,能效好30-80倍。这篇论文现在是计算机架构顶会ISCA历史上被引用最多的论文。Jeff Dean认为这种软硬件一体的能力是Google的核心优势。硬件开发周期是2.5到6年,这意味着硬件设计师必须预测这个飞速发展的领域在遥远未来的方向。如果有机器学习研究者和硬件工程师坐在一起,分享那些"还不是主流但看起来有前景"的想法,预测就会准确得多。六、"我们应该合并"——Gemini的诞生ChatGPT发布时,Google内部其实已经有一个被广泛使用的聊天机器人,8万员工在用,反馈非常正面。为什么没发布?因为从搜索产品的视角看,它有幻觉和准确性问题,而搜索最核心的原则就是准确。"我们有点短视。我们没意识到聊天系统还能用来做很多其他事情——帮你给兽医写一封关于生病狗狗的信,帮你总结一篇论文……"ChatGPT发布后一两周,Jeff Dean写了一页备忘录。核心观点是:Google当时有多个分散的团队在做大模型研究——Brain团队、DeepMind、以及其他几个。既分散人才,也分散算力,这没有道理。他建议合并成一个团队,集中资源,目标是造世界上最好的多模态模型。这就是Gemini的起源。七、"发表它,因为对世界有好处"——Transformer论文的选择有人问Jeff Dean:Google后悔发表Transformer论文吗?"不后悔,因为它对世界产生了很好的影响。"但他也承认,对于最大规模模型的某些训练细节,现在确实不再公开发表了。"我们仍然发表很多东西,如果你看NeurIPS的论文列表,我们可能有100多篇。但对于纯粹具有商业价值的最大规模模型的细节,我们确实有所保留。"有意思的是,Transformer刚出来时,团队内部并不觉得它比其他突破更重要。Jeff Dean说:"我不确定它比sequence-to-sequence或mixture of experts重要多少。非常有用,但我们今天用的所有东西看起来都有用,因为那就是我们为什么用它们。"Hinton坦言自己当时没太关注Transformer,因为他一直研究的是大脑如何工作,而大脑显然不会"保存所有神经活动向量的拷贝"。"我觉得这不能在大脑里实现,所以我不感兴趣。"被忽视的警告与被拒的论文这场对话里散落着一些"差点没发生"的故事,值得单独拎出来。Hinton申请续期一个加拿大政府的战略性研究基金时,评审意见说"这项工作不可能有任何工业应用价值"。Hinton说:"我真希望知道是谁写的。我想告诉他,这个领域贡献了去年美国股市增长的80%。"Distillation(蒸馏)是2014年的工作,被NIPS拒稿。评审理由是:"蒸馏出来的学生模型并不比老师模型更好,有什么意义?"——他完全没理解这项技术的目的是用小模型逼近大模型的效果。还有一个Blackberry的故事。Hinton的学生George Dahl和Abdel-rahman Mohamed做出了比当时最好系统略好的语音识别模型。Hinton联系Blackberry说:"我们有更好的语音识别技术,想不想要?可以派个实习生过去演示。"Blackberry的回复是:我们对语音识别不感兴趣。当然——那时候Blackberry还有键盘。对未来的判断Jeff Dean的技术路线图:把attention扩展到数十亿甚至万亿token,而不是现在的百万级;开发更节能、更高性价比的推理硬件;探索持续学习(continuous learning),让模型在服务用户时也能更新;突破现有的模型架构限制,探索更自由的连接模式。Hinton对持续学习持谨慎态度:"有个很好的理由我们现在不做——静态模型更安全,你可以测试它。如果模型自己在学习,你很难知道它会学到什么。"Hinton对整体未来的判断很直接:"如果有人真的建成了它,要么我们都幸福地生活,要么我们都死。"他认为20年后会怎样,没人有任何头绪。大量工作会消失,但问题不在AI,在于政治系统——生产力大幅提升后,财富如何分配?"至少在美国,你们目前的政府不是处理这个问题的理想配置。"关于大模型的创造力,Hinton有一个有趣的观点:这些模型把海量知识压缩到"区区"万亿参数里,压缩意味着必须找到不同知识之间的共性。"它们知道的比任何一个人都多,可能正在发现希腊文学和量子力学之间的联系。没有多少人同时是这两个领域的专家。"他认为医疗和教育是最可能被彻底改变的领域——两者都有弹性需求,效率提升不会减少需求,只会增加供给。"几年内AI会像私人家教一样好,再过一段时间会更好,因为它们见过一百万个其他学生。"总结这七个决策串起来,你会发现一个规律:成功的团队不是因为看到了别人看不到的东西,而是因为在所有人都犹豫的时候,他们"just insisted"(就是坚持)。用Hinton的话说,enormous determination(巨大的决心)既能成就伟大的成果,也能让你在错误的方向上浪费多年——他自己在capsules上花了很多年,Jeff和Ilya都劝过他别做了,他没听。"选对方向的巨大决心能带来很好的结果;选错方向的巨大决心会让你浪费很多年。"关键是选对方向。而怎么选对?没有人知道。核心归纳Q1: 为什么Google明明有8万员工在用的内部聊天机器人,却被ChatGPT打了个措手不及?因为他们用搜索产品的镜头看聊天机器人。搜索最重要的是准确,而聊天机器人有幻觉问题,所以他们觉得不能发布。他们没意识到用户可以容忍聊天机器人在准确性上的瑕疵,因为用途不同——帮写信、总结文章、头脑风暴这些场景,"差不多对"就够了。Q2: Hinton挑学生的核心标准是什么?问"你最好的想法是什么"。如果回答是"我还没有想法,等研究生阶段再说",不要。他要的是已经产生过原创想法的人,不管想法好不好。能力可以培养,但产生想法的习惯很难后天养成。Q3: 这两位大佬对AI未来最大的分歧是什么?Jeff Dean认为持续学习(模型边服务边更新)是未来方向;Hinton认为这很危险,因为静态模型可以测试,动态学习的模型你不知道它会学到什么。这反映了工程思维和安全思维的张力——前者追求能力边界,后者担忧控制边界。
@张新年律师
关于南京博物院涉嫌流失明仇英名画江南春事件,网传《虚斋旧藏古画捐赠人庞叔令对新华社报道的声明》 #南京博物院# 来源:@亚洲周刊2025年12月19日00:27:02,新华网刊登了新华社《“南京博物院藏仇英名作现身拍卖市场”追踪》一文(以下简称“南博名作追踪”)。本人庞叔令认为该文存在严重问题,现声明如下:1、新华社未采访本人庞叔令。“南博名作追踪”部分内容失实,具有明显倾向,不公正、不客观。2、“南博名作追踪”列证的三张图片,均系鉴定意见与流转材料。我的律师曾在法庭上要求南博提供,但其明确拒绝。南博在庭审中不向作为捐赠人的本人出示,如今却在法庭之外向第三方官媒提供。本人对其行为不能理解、不能接受,深感痛心。3、南博未向新华社提供并公开其在1961年、1964年鉴定原件及未遮挡的文件全貌(南博此前以马赛克遮挡了关键内容)。4、南博未向新华社提供其在“南博名作追踪”中提及的1986年~1990年鉴定原件(出处见文中图片——徐湖平以院长名义签署的“拨交省文物商店剔除品书画”)。5、新华社在“南博名作追踪”中提及有六名以上专家、做过至少三次以上鉴定,本人请南博详细列明每位专家的鉴定意见,并提供原件。6、在“南博名作追踪”中,南博向新华社提交了1961年的专家鉴定意见,专家明确“陈鎏题引首真”。陈鎏(1508~1575),字子兼,号雨泉,吴县(今江苏苏州)人,官至四川右布政使,其卒年晚于沈周、仇英。(来源:百度百科)这证明《江南春》有明代真迹。明代真迹是否属于文物,是否可被剔除,请南博向社会公众做出说明。7、1997年梁白泉是南博时任院长,徐湖平是时任副院长。(见百度百科星图《南京博物院历任院长》)根据我国法律法规,徐湖平无权批准将《江南春图卷》等1259件剔除品书画“拨交”江苏省文物商店,无权以院长名义签批如此重大馆藏流出,其行为已涉嫌犯罪,本人在此公开请求国家对此人进行调查。 ……
刚解放的那会,枪毙了不少土匪,稍微做做思想工作,这些土财主,大户收藏家就能献出国宝,现在这个时候,国宝的价值都量化了,也足够法制化了,大概率不会再有什么普通人会捐了(个别大款还是有捐的),所以南博摆烂,不care捐赠者权益,捐赠者要查根本不给查,傲慢不理睬,直到对簿公堂都无可奉告很多细节,新华社一来查,这才挤牙膏式交代了一些。。这些都能理解。我最不能理解的是出了这么多博物馆,美术馆大案要案,这个文物保管制度为什么还不更新,不能再用一把手领导负责制这个老套路,风险太大了,其他方向可以这么搞,效率高一点,文保单位真不能这么搞,太依仗一把手的段位了,要把权力关在笼子里,要透明啊。