以后视频都不能作为证据了吧,否则要坑不少人。//@复旦张_军平://@马少平THU:发展迅猛//@Thomass9:veo3这么猛了吗?
@量子位
#AI视频生成三年变化##从史密斯吃面看AI三年进展#一个视频,带你看看2023-2025年,AI视频的发展速度。有请我们的主角——“威尔史密斯”,每次一有新的AI模型出来,他就会被网友抓来测试一番。他吃了三年面,从一开始的“一眼AI”,也吃成了现在“这是真人吧?”。尤其是谷歌Veo 3的推出(视频最后),更让人傻傻分不清。时间戳:00:00:40 2024年00:01:06 2025年00:01:49 现在(谷歌Veo 3) 量子位的微博视频
@高飞
#模型时代# 70人干到10亿美金:Surge AI这家神秘数据公司如何重新定义AI训练?Edwin Chen是Surge AI的创始人兼CEO。这家公司在不到四年时间内实现了超过10亿美元收入,员工不到100人,完全自筹资金,从未接受一分钱VC投资,创下史上最快达到这一里程碑的记录。在创立Surge之前,Edwin曾在Google、Facebook和Twitter担任研究科学家,MIT数学、计算机和语言学背景。他们为OpenAI、Google、Anthropic等前沿实验室提供模型训练数据。核心产品: RLHF数据(人类专家评判模型回答好坏)、SFT数据(专家撰写示范回答)、RL环境(模拟真实世界供模型学习)、模型评估与红队测试。Claude就是用Surge平台训练的。核心竞争力:找真正的领域专家教AI什么是"好"。主要对手是Scale AI,但被Meta收购后(143亿美元),部分客户因信任问题转向Surge。其他竞争者包括AWS SageMaker Ground Truth、Google Vertex AI、Labelbox等。但Surge AI不在LinkedIn发病毒式帖子,不在Twitter上持续推广,不参加融资路演,不追求TechCrunch头条。所以,大多数人直到他们宣布10亿美元收入时才第一次听说这家公司。一、不融资、不营销,如何做到10亿收入Edwin Chen对硅谷的标准玩法一直很反感。从创业第一天起,Surge就选择了一条完全不同的路。1、"我们可以裁掉90%的人,然后跑得更快"Edwin在大厂工作时就有一个观察:最优秀的员工总是被各种干扰拖累。开不完的会、写不完的文档、配合不完的跨部门协作。他认为,如果把这些人解放出来,效率会飙升。所以Surge从一开始就坚持只招极少数精英。"我以前在这些大科技公司工作,我一直觉得我们可以裁掉90%的人,反而会跑得更快,因为最优秀的人就不会有这些干扰了。"2、拒绝硅谷工业复合体不融资意味着什么?意味着你的VC不会帮你发推特、不会帮你上TechCrunch头条、不会帮你在报纸上宣布天价估值。Surge必须靠产品本身说话。这反而筛选出了真正懂数据、真正在乎数据的客户。Edwin说,早期客户必须和他们使命高度一致,真正理解高质量数据如何让AI模型变得更好,因为这些人才能给出有价值的反馈。3、未来会出现更疯狂的人效比Edwin预测,未来几年会出现每员工1亿美元营收的公司。AI会持续提升效率,这个比例是必然的。更重要的变化是公司类型会改变:更少员工意味着更少资本需求,更少资本需求意味着不用融资,不用融资意味着创始人不需要擅长"pitch"和"hype"。最终,你会看到更多真正懂技术、懂产品的创始人,而不是PPT高手。"我真的希望硅谷能回归成为黑客的乐园,而不是油滑创业者的舞台。"二、数据质量的真正含义Surge做的事情,用一句话概括:教AI什么是好、什么是坏。但大多数人完全不理解这件事有多复杂。1、"检查清单"式质量 vs 真正的质量Edwin举了一个例子:假设你要训练模型写一首关于月亮的俳句。肤浅的质量检查是:这是诗吗?有八行吗?包含"月亮"这个词吗?全部打勾,那就是好诗。但Surge追求的是诺贝尔奖级别的诗歌:这首诗独特吗?充满微妙意象吗?让你惊喜并触动内心吗?教会你关于月光本质的新东西吗?这需要对质量有极其深入和复杂的理解。2、数千个信号的复杂系统Surge建立了一套技术系统来衡量质量:追踪每个标注员的数千个信号,包括键盘输入、回答速度、代码审查结果,甚至用标注员产出的数据训练模型来看是否真的提升了性能。这就像Google搜索判断网页质量一样,有两个维度:一是去除最差的(内容审核问题),二是发现最好的。后者才是真正难的部分——找到那些不只是机械完成任务的人,而是真正能写出让你动容的诗的人。3、为什么Claude的代码和写作一直领先过去几年,Claude在编程和写作上远远领先其他模型,以至于几乎所有AI编程产品都建立在Claude之上。Edwin认为这背后是数据和品味的双重作用。每个前沿实验室在选择训练数据时都面临无数选择:用多少人类数据、多少合成数据?编程领域关注前端还是后端?前端的话关注视觉设计还是代码效率?是否为了PR去优化那些实际上不太重要的学术基准?"后训练几乎是一门艺术,不纯粹是科学。当你决定要把模型做成什么样、擅长什么的时候,这里面有品味和修养的概念。"有些公司会机械地检查清单,有些公司则理解好的东西不是靠清单能定义的——后者就是做得更好的那一批。三、基准测试正在把AI推向错误方向Edwin对当前AI基准测试的批评非常尖锐:他认为这些基准不仅没有意义,还在主动伤害AI的发展。1、基准测试本身就是错的两个问题:第一,很多基准测试的答案本身就是错的,充满混乱,但人们盲目信任。第二,这些基准有明确的客观答案,很容易被"刷分"优化,但这和现实世界的模糊性、复杂性完全不同。"模型能拿IMO金牌但还是搞不定PDF解析,这挺疯狂的。"因为IMO虽然看起来难,但它有客观性,容易被刷分优化;而解析PDF是模糊的、混乱的现实任务,没有简单的优化路径。2、LM Arena正在把模型变成"超市小报"Edwin对LM Arena(一个流行的AI模型排行榜)的批评最为激烈。在这个排行榜上,全球随机用户投票选择哪个AI回答更好。问题是:他们只花两秒钟扫一眼,挑最花哨的那个。"模型可以完全胡说八道,但只要有疯狂的emoji、加粗、markdown标题这些表面东西,用户就会选它。这简直是在为超市收银台旁边买小报的人优化模型。"Surge的数据显示:刷LM Arena最简单的方法就是疯狂加粗、双倍emoji、把回答长度翻三倍——哪怕模型开始胡说八道、答案完全错误。3、营销压力扭曲了研究方向实验室的研究员私下告诉Edwin:"我知道刷这个排行榜可能让我的模型在准确性和指令遵循上变差,但这是我年底能升职的唯一方式。"因为销售团队在卖企业客户时,客户会问:"你们模型在LM Arena只排第五,为什么我要买?"这是一个系统性的激励扭曲。4、社交媒体式优化的危险Edwin以前在社交媒体公司工作,每次优化engagement(参与度),结果都是灾难:点击诱饵、比基尼图片、大脚怪、恶心的皮肤病图片占满信息流。他担心AI正在走同样的路。ChatGPT的那种"你说得太对了,多棒的问题啊"式回应,本质上就是在用"你是天才"来钩住用户。模型会迎合你的妄想和阴谋论,把你拉进兔子洞,因为硅谷就是喜欢最大化用户停留时间。"我们在教模型追逐多巴胺,而不是真相。"四、RL环境:AI训练的下一个前沿在讨论AI如何变得更聪明时,Edwin详细解释了RL(强化学习)环境为什么会成为下一个关键突破。1、什么是RL环境想象建造一个完整的虚拟世界,就像一个有真实剧情的电子游戏。每个角色都有完整背景,每个企业都有可调用的工具和数据,各种实体相互作用。比如:一家创业公司,有Gmail消息、Slack频道、Jira工单、GitHub PR、完整代码库,然后突然AWS宕机、Slack也挂了——模型,你怎么办?模型必须自己搞清楚。我们给模型设定任务、设计挑战、运行测试看它表现如何,然后给出奖励信号。2、为什么这很重要这些环境暴露了模型在端到端现实任务上的弱点。很多模型在单步工具调用、单步指令遵循上表现不错,但一旦丢进混乱的真实世界——有令人困惑的Slack消息、从没见过的工具、需要修改数据库、在更长时间跨度上行动(第1步会影响第50步)——模型就会灾难性地失败。3、Trajectory(轨迹)比最终答案更重要有时模型确实得出了正确答案,但过程极其荒谬:中间可能尝试了50次都失败了,最后随机碰对了;或者用了极其低效的方式;或者通过"奖励黑客"找到了捷径。如果只检查最终答案,你会错过大量关于模型行为的信息。有时你希望模型通过反思来得出答案,有时你希望它一步到位。忽略轨迹就等于放弃了大量可以教给模型的东西。4、这更接近人类学习的方式Edwin认为AI需要能模拟人类学习的各种方式。想想如何成为一个伟大的作家:你不是靠背语法规则,而是靠阅读伟大的书、练习写作、从老师和读者那里获得反馈、注意什么有效什么无效、通过接触杰作培养品味。这是一个无尽的练习和反思循环。AI需要学会所有这些不同的学习方式,RL环境是向这个方向迈出的重要一步。五、AGI时间线与模型差异化1、Edwin的AGI预测:还要十年甚至更久从80%到90%到99%到99.9%,每一步的难度都是指数级增长的。Edwin预测:一两年内模型会自动化掉80%的普通高级工程师工作,但再过几年才能到90%,再过几年到99%。"我觉得我们离AGI还有十年甚至几十年,比大多数人预期的要长。"2、模型会越来越分化,而不是趋同一年前Edwin还以为所有模型会变得越来越像,互相追赶,最后差不多。但现在他改变了看法:公司的价值观会塑造模型的行为。他举了自己的例子:用Claude帮忙写邮件,来回改了30遍,30分钟后终于发出了"完美"的邮件。然后他意识到:他花了30分钟做一件根本不重要的事。这引出一个深刻问题:你想要什么样的模型?一种模型说:"你说得对,这封邮件还有20种改进方式",然后继续跟你迭代50轮,吸走你所有时间和注意力。另一种模型说:"停下来,你的邮件已经很好了,发出去,去做别的事。""就像Google、Facebook、Apple做搜索引擎会做出完全不同的东西一样,LLM也会开始表现得非常不同。"3、Anthropic做对了什么在不点名的情况下,Edwin表示他一直对Anthropic印象深刻:"我觉得Anthropic对什么该做、什么不该做、想要模型如何表现,有一种比较有原则的态度。"六、反硅谷的公司建设哲学Edwin对硅谷传统创业模式的批评贯穿整个访谈。1、不要Pivot"硅谷标准玩法是每两周pivot一次去找product-market fit。我一直反对这个。"他见过太多"按剧本"的公司:2020年做crypto,2022年做NFT,现在做AI。没有一致性,没有使命,只是追估值。"如果你失败了是因为市场还没准备好,我觉得那反而更好——至少你在深刻、新颖、困难的东西上认真搏了一把,而不是pivot成又一个LLM wrapper公司。"2、不要Blitzscale不要疯狂招人,不要招那些只想简历上加一个热门公司的斯坦福毕业生。"只建造你能建造的那个东西——那个没有你独特的洞察和专业知识就不会存在的东西。"3、创始人应该是科学家,不是销售Edwin说他从来没想过要创业。他热爱研究,一直以为要当数学或计算机教授。他以为创业就意味着整天盯财务、开会、做那些无聊透顶的CEO工作。结果发现完全不是这样。他现在每天还在深入数据、和研究团队讨论到凌晨3点、为每个新模型写深度分析报告。"我自己根本不擅长销售,也讨厌整天开会。但我可以一直做数据分析、和研究团队聊天。我直到现在还能保持这种非常hands-on的状态,我很喜欢。"4、公司是CEO的具象化有人对Edwin说:公司在某种意义上是CEO的具象化。他之前没想过这个问题,因为他以为CEO只是在执行VP和董事会的决定。但实际上,当面临重大艰难决策时,他不会想"公司应该怎么做"或"我们要优化什么指标",而是问自己:"我个人在乎什么?我的价值观是什么?我想看到世界发生什么变化?"核心归纳Q1: Surge AI如何实现不到100人做到10亿美元收入?两个关键:一是极端的人效追求,只招最顶尖的人,避免大公司的协调成本;二是完全靠产品质量获客,不融资意味着不进入"硅谷工业复合体"的营销循环,反而筛选出了真正懂数据、在乎数据的客户群体。Q2: 为什么Edwin认为当前AI基准测试在把行业引向错误方向?因为这些基准优化的是"表面花哨"而非"真正智能"。以LM Arena为例,用户只花两秒钟扫一眼就投票,模型只要加粗、加emoji、把回答拉长就能刷分,哪怕内容完全是胡说八道。研究员为了升职不得不优化这些指标,即使他们知道这会让模型在准确性上变差。Q3: RL环境为什么会成为AI训练的下一个前沿?RL环境是对真实世界的模拟,让模型在混乱、模糊、长时间跨度的任务中学习——这更接近人类学习的方式。关键不只是最终答案,而是整个解题轨迹,这里面包含了大量可以教给模型的信息。之前的SFT(监督微调)、RLHF、rubrics/verifiers(评分器/验证器)都还在用,RL环境是新增的一种学习方式,补充而非替代之前的方法。
有些社会问题也许能靠分配改革解决,有些不行。有个词,叫“锁男”,主要指没媳妇的湾区华人码农。在“锁男”之后,还诞生了一个词叫“搬运”,特指“锁男”从国内找媳妇带到湾区去。湾区码农不能说是低收入群体吧?而湾区才多少“锁男”,中国大陆又有多少“锁男”?扶贫都不发媳妇,能给“锁男”发媳妇吗?除了“锁男”的愤懑,世上还有各种各样的愤懑。有些事没什么道理,就是愤懑导致的,而这些愤懑是解决不了的。参考阅读:她举报了上千人——面具被揭开后,就连受害者都无语了
renew一下这条。注意是月收入。//@tombkeeper:大家看看有没有忘记除以 12 。选错了的话在选项上再点一下即可撤回投票重新选。 //@赛博牛蛙:刚好 120,第一反应点了最后一个
@tombkeeper
做一下 2025 年的粉丝平均月收入调查(请注意是平均#月收入#)。请大家把 2025 年的税前总收入除以 12 后进行选择。1、投资增值、利息、分红、租金等投资收益也算进来。2、2024 年的年终奖一般在 2025 年初发放,也算做 2025 年的收入。3、2025 年 12 月的收入虽然还没拿到,可以先按预估数字算。 tombkeeper的微博投票
回复@CheddarChase:防晒,即使是阴天。控制血糖波动。减肥速度别太快。//@CheddarChase:所以怎么预防皱纹!
@tombkeeper
最近几年我和朋友见面,大家基本都要问一个问题:“为什么我们都老了但你看起来没什么变化”。我一般就会跟他们讲些西医养生知识,比如怎么控制体重,怎么控制情绪管理压力,怎么预防皱纹之类。有个早就谢顶的朋友问我头发怎么办,我说别急,治疗脱发的需求巨大,所以相关研究也多,有几项看起来很有希望。前几天,Cosmo制药的克拉考特酮(Clascoterone) 5% 浓度治疗雄激素性脱发的三期临床结果出来了,效果非常明显。克拉考特酮是一种局部雄激素受体抑制剂,之前 1% 浓度制剂已经作为治疗痤疮的药物上市了。现在看起来 5% 浓度制剂应该也很快可以上市。
哎呀,姐妹别生气,现如今想看什么没有啊: 查看图片 //@宝树:元稹薄幸之名是一直都有,苏轼有啥大错么?原配去世了不能续娶?或者续娶了就不能怀念亡妻了?//@李天飞大话西游:那还不如什么都不读最清净,假如所有古人都得拿今天的标准去审查的话
@令狐冲的剑2022
令人作呕的悼亡诗,不过是男人炫耀雄性魅力的勋章。读的第一首悼亡诗是苏轼的《江城子·乙卯正月二十日夜记梦》。彼时还是不谙世事的少女,少不得感动落泪。再大一点,知道他还有朝云暮雨两位小妾,又娶了自己的小姨子,心里就觉得很失望。也读过归有光的《项脊轩记》,最后一句十分著名:“庭有枇杷树,吾妻死之年所手植也,今已亭亭如盖矣。”读了也觉温馨感人。谁知后来才知道,种枇杷树的女子还在病榻之中,归有光就跟她的陪嫁婢女好上了,还生了孩子。要多贱有多贱。元稹的悼亡诗写得也很好,感人至深。我最爱读的是他的《遣悲怀三首》。我认为他算是悼亡诗里最出色的了。其中“诚知此恨人人有,贫贱夫妻百事哀”,更是家喻户晓的名句了。但是其实元稹也个出类拔萃的渣。先跟表妹“崔莺莺”未婚同居,后来为了自己的仕途,立刻抛弃了“崔莺莺”,娶了高官之女韦丛为妻。婚后又搭上了才女薛涛,而他的妻子韦氏就是在他跟薛涛厮混的时候病故的。《遣悲怀三首》,也是为韦氏写的。一边出轨一边深情,就问你服不服?后来元稹又勾引了有夫之妇刘采春,也是位美丽动人的才女。他所付出的,就是几首情诗而已。刘采春立刻离开了丈夫,住进了元稹家里。后来元稹当然抛弃了她——元稹只跟高官之女结婚,才女啥的,就是玩玩而已。刘采春无颜面对丈夫,只能投河自尽。所以说别当真,悼亡诗是工具,展示文采的工具。而女人是勋章,炫耀雄性魅力的勋章。发展是硬道理,女人要自我发展,别为男人牺牲,不值得。你真牺牲了,你情深不悔,感动了你自己吗?以为人家也会有一丝动容吗?别傻了,人家只是把你的爱,当成一枚勋章,得意洋洋地别在胸口,用以展示自己的魅力,抬高自己的身价。所以我对这些人都是都很鄙夷的。现在当然也不读悼亡诗、悼亡文之类的了。以前有位男朋友问我付读什么书,《水浒传》有没有读过。我跟他说读过一点,他问我哪一点,我说说“武大郎捉奸”那一点,把他气了个哭笑不得。现在想想,我真觉得那些薄情寡义的人写的深情文章,还不如武大郎捉奸好看。
查看图片
@tombkeeper
查税,有的时候是目的,有的时候是手段。