@高飞
#模型时代# OpenAI首席研究官Mark Chen访谈:AI能够做出原始创新,因为多数人类发明都是一种插值运算大家都知道,扎克伯格正在疯狂从OpenAI挖人,其中一个关键目标就是OpenAI的CTO Mark Chen。不过据说,后者已经拒绝了Meta的挖角。不过,我发现其实Mark Chen对外发声并不多。所以找来一期ARM CEO Rene Haas上个月和他的对话(www.youtube.com/@ arm),虽然时间不长,但是含金量极高。Mark Chen是GPT-4、DALL·E、Codex等革命性AI产品背后的技术领导者,职业生涯是从高频交易转到AI研究。他用数学语言解释AI为何能创新的观点,尤其值得一听。Mark认为:人类的大体上也都是插值(interpolation)运算,插值原本是数学概念,指在已知数据点之间估算未知值。Mark借用这个概念来说明创新的本质。举个例子:乔布斯发明iPhone = 手机技术 + 触摸屏技术 + 电脑操作系统爱因斯坦的相对论 = 牛顿力学 + 光速不变原理 + 数学工具所以,Mark的观点是:大部分"创新"其实是把不同领域的已知事物巧妙组合,就像在已知的点之间画线。真正"无中生有"的创新极其罕见。这对AI来说就是个好消息——如果创新主要是组合已知事物,那AI完全可以做到。想来,其实熊彼特对创新的定义中,这种“插值”创新就占了很大比重。Mark Chen AI 观点笔记:一、从华尔街到硅谷:跨界转型的底层逻辑Mark的职业路径极其特殊:MIT数学系→华尔街对冲基金→高频交易合伙人→OpenAI研究员→首席研究官。这个转型背后有三个关键洞察:- 金融训练的核心价值:高频交易教会了他严格的实验方法论和结果导向思维,因为在金融市场,模型好坏直接体现在盈亏上,没有任何"忽悠"的空间,这种思维方式直接影响了OpenAI早期的科学研究文化- 时机选择的重要性:2016年AlphaGo的胜利让他意识到AI的变革性潜力,同时他发现金融行业的竞争格局已经固化,"每个人都变得更快一点,但你还是在和同样的人竞争同样的目标",这促使他寻求更有影响力的事业- 跨界优势的体现:金融行业通常比AI前沿落后2年左右,当2017-2018年金融圈刚开始接触神经网络时,他已经看到了更远的未来,这种信息差成为他转型的关键优势二、AGI怀疑论者的转变:为什么金融人不相信AGIMark揭示了一个有趣现象:金融界普遍对AGI持怀疑态度,而科技界则充满信仰。原因在于:- 高频交易的特殊性:在这个领域,成功更多依赖于延迟优化、私有数据源等外部因素,而非纯粹的建模能力,AI能改善的只是其中一小部分,这让金融人低估了AI的潜力- "你必须在这个世界里才能真正相信它":Mark自己也是从AGI怀疑者转变为信仰者的,关键在于亲眼见证模型能力的指数级增长,看到GPT-2生成连贯段落、GPT-3的上下文学习能力、GPT-4碾压大学考试的表现- 不同行业的思维定式:许多传统行业认为"我们的问题无法被建模"或"数据集不存在",但Mark认为这往往是因为他们还没有真正接触到最前沿的技术,"有时候你必须看到技术才能开始感受到AGI"三、Transformer架构的统治地位:为什么它如此成功关于为什么Transformer能够一统江湖,Mark提供了技术和生态两个维度的解释:- 技术优势的本质:Transformer之所以成功,在于它达到了简单性和表现力的完美平衡,既有高度表达性的混合原语(mixing primitives),又足够简单,能够以直接的方式进行扩展和工程化,不需要太多技巧- 生态系统的锁定效应:随着时间推移,整个产业都在围绕Transformer进行协同设计——芯片为它优化、内核为它定制、基准测试围绕它设立,这使得任何新架构想要取代它的门槛越来越高- 算法改进的持续性:虽然大框架是Transformer,但细节一直在进化,包括注意力模式的分解(Mark早期的研究)、归一化的位置、长宽比的设置等,这些微小但关键的改进累积起来产生巨大影响四、多模态AI的突破:从Image GPT到GPT-4oMark亲自主导了OpenAI的多模态研究,他的核心洞察是:- 统一架构的重要性:早期图像生成用GAN或VAE,文本用Transformer,但Mark通过Image GPT证明了可以用同一个Transformer架构处理所有模态,只需要把图像视为特殊词汇表的语言,这为DALL·E的诞生铺平了道路- 可控性是关键:单纯的图像生成不够,需要通过文本来精确控制生成内容,如果文本和图像使用不同架构,体验就会割裂,因此统一架构不仅是技术选择,更是产品体验的必然要求- 数据规模的爆炸性增长:GPT-4o可以同时处理音频、图像、视频、文本,这意味着可用数据集扩大了几个数量级,"多模态数据中锁定着如此多的智能",关键是如何解锁它五、AI创新能力的争议:它们真的能发明吗?关于AI是否具备真正的创新能力,Mark提出了一个颇具争议但深刻的观点:- 超越套路的能力:在顶级算法竞赛中,最难的题目都故意设计成无法用现有公式解决,需要选手自创方法,而AI在这类题目上的表现经常让人惊讶,说明它不只是在套用已知模式,而是真的在"创造新解法"- 创新的组合本质:Mark认为大部分人类创新其实是把不同领域的已知事物巧妙组合,比如iPhone是手机+触摸屏+电脑系统的结合,真正"无中生有"的创新极其罕见,如果创新主要是组合,那AI完全有能力做到- 从被动到主动的飞跃:现在的AI像个完美执行者,你说画画它就画画,但理想的AI应该能主动提出"我觉得这样画更好看",这种"品味"和"审美判断"可能已经存在于模型中,只是还没被充分激发出来六、推理模型的革命性意义:用更少数据实现更强能力OpenAI最新的推理模型(o1/o3)代表了一个重要转变:- 数据效率的突破:推理模型提供了一个"锤子",能够用更少的数据实现同等甚至更强的能力,这对于数据稀缺的垂直领域(如药物发现、芯片设计)尤其重要- 专业化的可能性:不是所有领域都有互联网规模的数据,推理技术让模型能够在有限数据上进行深度学习,已经在数学和计算机科学领域看到惊人效果,未来可能扩展到更多专业领域- 从暴力计算到智能推理:这不是简单的算力堆砌,而是让模型学会如何更有效地利用计算资源,在同样的数据上榨取更多价值,这可能是通向AGI的关键路径七、AI Agent时代的到来:从Operator到未来生活Mark对AI Agent的未来有着清晰的愿景:- Operator的突破性设计:这是一个"计算机使用代理",输入是屏幕画面,输出是键盘操作和点击动作,本质上是你的数字生活接口,可以操作任何你在电脑上使用的界面- 从数字到物理的延伸:Operator的逻辑延伸就是机器人——为能在真实世界中行动的机器人构建AI大脑,但这需要解决硬件迭代速度的瓶颈问题- 无处不在的智能:未来所有设备都可能连接到云端的AI代理,就像《回到未来2》中展现的场景,当你从一个房间走到另一个房间,周围的设备会理解上下文并做出相应反应,查询信息应该隐藏在这一层之下总结归纳:Mark Chen的经历和洞察为我们展示了AI发展的几个关键趋势:1. 跨界人才的价值:金融训练带来的严谨性+科技领域的创新性=独特竞争力2. 统一架构的必然:Transformer不仅是技术选择,更是整个生态系统的基础设施3. 数据效率是关键:推理模型让AI从"数据饥渴"走向"智能推理",这将解锁更多专业领域4. Agent是终极形态:未来我们不需要操作各种App,只需要与智能代理对话最重要的是,Mark的转型故事告诉我们:真正的突破往往来自于敢于离开舒适区的人。正如他所说,"在金融界,你总是在和同样的人竞争同样的目标",而选择未知的道路,才能创造真正的影响力。三个核心洞察Q&AQ1:为什么金融背景反而成为AI研究的优势? A:金融市场的残酷在于结果无法作假——模型好坏直接体现在盈亏上,这种"硬评估"培养出的严谨实验方法论和诚实面对结果的态度,恰好是AI研究最需要的品质,因为AI领域太容易"忽悠"基准测试。Q2:AI真的能创新吗? A:Mark的观点很微妙——AI在"反模式"问题上展现出的创造力经常超出预期,但同时他认为人类的创新可能大部分也是"插值"(不同领域知识的组合),所以AI和人类在创新上的差距可能没有我们想象的那么大。Q3:为什么说Agent是AI的终极形态? A:因为Agent解决了用户体验的根本问题——用户不应该关心信息存在哪个App里或需要什么操作步骤,只需要表达需求,剩下的都应该"隐藏在这一层之下",这才是真正的智能。
上车的时候司机正在打电话。电话那头是个气鼓鼓的女同志,声音很大,司机没开免提我都听见了。这位女同志丢了个东西在车上,她想让司机给送过去。司机认为如果专门送过去,对方应该出车费。但这个女同志说“谁挣钱都不容易”,她认为既然坐了这辆车,丢的东西司机就有义务免费送过去。司机说那等哪天凑巧到你那边的时候我给你带过去。这个女同志觉得不行,必须要司机专门送过去。司机挂了电话之后很气愤。我说您别生气,见的人多了,总会遇到不讲理的。司机跟我说这个女同志之前找平台投诉,后来又报了警,但平台和警察都认为她应该出车费。我说是啊,这是人之常情。司机说真免费送也不是不行,但她说话太不客气了。我说该收钱还是得收,您靠这个生活,不说油钱,耽误的时间也是钱,少说能接一个活儿。司机说我昨天就免费送了一回东西,是个百度的小姑娘,把伞丢车上了,这小姑娘特别好,电话打过来首先就叫了一声哥,和和气气的,我说那我明天给你送去,我每天都来百度拉活儿,第二天小姑娘拿了伞,说要给我钱,我说买把伞才多少钱,就没要钱,结果小姑娘给我鞠了一躬,把我给感动的,恨不得掏点钱给她。我说是啊,您看,世上有讲理的人就有不讲理的人,遇到讲理的咱也讲理,遇到不讲理的咱别生气。这时候司机收到一条短信,是之前那位女同志发来的。女同志说你别送了,东西我不要了。司机说你看,真不要了何必发条短信,这不就是想让我觉得不好意思吗。我说您不用理她,她都说不要了,咱没啥不好意思的,您多想想百度那个小姑娘那样的好人。司机说是啊,大部分人都还行,但也经常遇到坏人,前阵子一个人骑电动车在我车前面几米的地方摔了,我去给扶起来,结果对方还报警了,说是我的责任。我说是老年人吗?司机说不是,是个小伙子。我说小伙子也碰瓷儿啊。司机说交警来了一看摄像头监控根本不是我的问题,反正我以后再也不管这事儿了。我说您别跟这种人生气,咱是好人,不能让坏人把咱们给改变了。司机说你说的有道理,我以前在老家的时候救过好几条人命,每次看到别人有难我都上,有一次看到水上飞机起火爆炸,我二话没说就游过去救人,后来家里人都说你咋不考虑自己,我说看到了没想那么多。我说是啊,您这就叫英雄主义。司机这时候尴尬地笑了两声,有点不好意思。我说您别不好意思,您这就是英雄主义,当年打小日本的时候,要是大家都想着危险不危险,那中国还有救吗,靠的就是很多英雄主义的人,但是打小日本的时候中国也出了不少汉奸对吧,什么时候都有坏人,咱别跟坏人一般见识。这时候司机完全不生气了,特别开心。
今天建军节,说个不算太新的消息。据《南华早报》说歼-36的作战半径有 3000 公里,搭载的 PL-21 空空导弹射程是 1000 公里。加起来 4000 公里。作为一个参考,前几个月印巴空战中巴基斯坦用的 PL-15E 的射程大概也就 200 公里。
回复@VincyChan-4:很多人只关注 985 之类的帽子,但不知道北邮在计算机类里的地位。2025 版计算机竞赛指数榜单共 635 所学校,北邮和清北等 11 所排在 A+。连复旦、上交都没挤进 A+。//@VincyChan-4:恭喜恭喜,bupt好地方//@tombkeeper:粉丝跟我说了好消息:孩子刚好擦着线被北邮计算机专业录取了。本来打算给我的咨询费他又加了点钱给孩子买了台电脑。
@tombkeeper
最近有些粉丝向我咨询了填志愿的问题。比较奇怪的是来咨询的大多是河南考生的长辈。其中有不少家庭背景是农民,孩子考的都不错,挺励志的。其中还有位粉丝说要给我 3000 元咨询费。这些粉丝来找我,主要是觉得我比较懂网络安全。但他们不知道的是,我凑巧参与了很多学科建设工作,他们填的那些志愿里有不少在专业设立的时候我都参与了评审。那些收钱做咨询的人,可能没有一个像我这样既了解学科又了解就业。我如果真想收钱,3000 元肯定是不够的
粉丝跟我说了好消息:孩子刚好擦着线被北邮计算机专业录取了。本来打算给我的咨询费他又加了点钱给孩子买了台电脑。
@tombkeeper
最近有些粉丝向我咨询了填志愿的问题。比较奇怪的是来咨询的大多是河南考生的长辈。其中有不少家庭背景是农民,孩子考的都不错,挺励志的。其中还有位粉丝说要给我 3000 元咨询费。这些粉丝来找我,主要是觉得我比较懂网络安全。但他们不知道的是,我凑巧参与了很多学科建设工作,他们填的那些志愿里有不少在专业设立的时候我都参与了评审。那些收钱做咨询的人,可能没有一个像我这样既了解学科又了解就业。我如果真想收钱,3000 元肯定是不够的