@宝玉xp
关于 ChatGPT 为什么喜欢用破折号,这个问题的原因似乎现在还没有定论,不过刚看到一篇博客分析这个问题,还挺有趣。先说一个有趣的问题是 AI 特别喜欢用 "delve"(深入探究)这个词。这个现象的答案是已知的:RLHF(人类反馈强化学习)。简单说,AI 模型训练的最后一步,是雇佣大量的人类“导师”来给它的回答打分。OpenAI 雇佣的导师很多在肯尼亚、尼日利亚等非洲国家。而在这些地区的“非洲英语”中,"delve" 是一个非常常用且得体的词汇。于是,当 AI 用 "delve" 时,非洲的导师们觉得“这话说得不错”,就给了高分。AI 就此学会了:“哦,客户喜欢我用‘delve’。”那么,破折号也是因为这个原因吗?作者顺着这个思路去查证:是不是非洲英语里也特别爱用破折号?结果,并不是!尼日利亚英语破折号的出现频率(每词 0.022%)远低于普通英语的平均水平(0.25% 到 0.275%)。这说明,“深入探究”(delve)和“破折号”(—)这两个 AI “口音”,来源并不相同。作者最终发现了一个决定性的线索:时间。大家回忆一下,2022 年底的 GPT-3.5,其实并没有这个毛病。这个“破折号上瘾症”是在 GPT-4 和 GPT-4o 身上才集中爆发的。不只是 OpenAI,谷歌和 Anthropic 的模型,包括一些中国的大模型,都开始用破折号。那么,从 2022 年到 2024 年,所有 AI 实验室的训练数据,到底发生了什么共同的变化?答案是:AI 公司的“数据荒”来了,它们开始疯狂“喂”AI 吃书——特别是“旧书”。在 2022 年,AI 主要吃的是互联网上的公开数据、盗版电子书(比如 LibGen 上的)。但很快,这些数据就不够用了,而且质量良莠不齐。为了让模型变得更“有文化”、更“高质量”,AI 公司们(法庭文件显示 Anthropic 在 2024 年 2 月开始了这项工作,OpenAI 只会更早)启动了一个庞大的工程:大规模扫描实体书,把纸质书数字化,作为训练数据。好了,破案的最后一块拼图来了。既然 AI 吃了大量(可能是几百万册)扫描的纸质书,那么这些书是什么年代的呢?盗版电子书网站上的书,大多是当代流行读物。而 AI 公司为了“填饱肚子”并绕开版权,扫描的书中,有很大一部分是更古老的、已进入公共领域的作品。作者找到了一个关于英语标点符号使用频率的研究,它显示:破折号在英语文学中的使用频率,在 1860 年左右达到了顶峰(约 0.35%),在 19 世纪末和 20 世纪初的使用率,远高于当代英语。作者举了个例子:著名的《白鲸记》(Moby-Dick,1851年出版)一书中,破折号出现了 1728 次!真相至此水落石出:我们现在用的最先进的 AI,它的“标点符号观”并不是从 2020 年的互联网学来的,而是从 1890 年的旧小说里继承的。AI 公司们为了获取“高质量”的语料,把大量 19 世纪末、20 世纪初的文学作品喂给了模型。AI 忠实地学习了那个年代的写作风格——其中就包括对“破折号”的狂热喜爱。当然,作者也承认,这仍然是一个基于证据的推测,还有一些小疑问没解决:1. 为什么 AI 只学会了用破折号,却没有学会像《白鲸记》的船长那样说话? 也许模型只是吸收了标点符号这种“潜意识”的风格,而没有吸收具体的用词?2. 有没有更简单的解释? 比如,Sam Altman 曾随口提过,他们发现 RLHF 的人类导师“似乎更喜欢”带破折号的回答,觉得那样更“口语化”,所以就“多加了点”。不过,综合来看,“扫描旧书”这个理论目前是最有说服力的。它完美地解释了为什么 GPT-3.5 不会,而 GPT-4 之后的模型(它们都大量训练了新的书籍数据),然后集体对破折号“上瘾”了。有兴趣可以看看原文:www.seangoedecke.com/em-dashes 网页链接
白酒占的胃容量倒还不算多,主要是占肝功能配额 查看图片
@胖虎鲸
白酒股会不会继续跌下去,我觉得会。我的逻辑推理是这样的,假设全国人民一年摄入的液体总量数是一个巨大可见的容器,那么这个容器每年都在变小,而且新的液体还在不断产生倒入,比如奶茶和咖啡,占容器比还在不断变大,在这种情况下,我不觉得白酒股有未来。同理可推文化娱乐业,全国人民的每年的日常放松时间总数是个相对固定值,这个固定值每年还在不断减少,短视频分走了大部分,那电影,书籍这些产业就不可能好起来。要改善的话除非增加大家伙儿每天休闲时间,减少工作时间占比。旅游产业呢,也很难好,全国人民放假时间总数是固定值,但每年总量在减少,即便最好情况大家收入不降,旅游行业收入也是逐渐降低,要改变只可能是增加放假时间或者增加大伙儿收入,比如最近各地提的中小学春假秋假,收入的事看当下情况,就别想了。你想想还有什么行业可以被这么类推,比如餐饮业啥的,就避开这些投资吧。
2025 年 10 月 27 日,《连线》杂志发表:《AI Is the Bubble to Burst Them All》。2025 年 10 月 30 日,《大西洋月刊》发表:《Here’s How the AI Crash Happens》。//@tombkeeper:#两岸关系发展和统一利好# //@tombkeeper:#谷歌量子计算重大突破# #10月25日设为台湾光复纪念日#
@tombkeeper
最近我在群里提了三个大哉问:1、如果十年内出现了实用化的量子计算机,金融市场特别是加密货币市场会发生哪些变化?2、如果五年内祖国完全统一,金融市场先后会发生哪些变化?3、如果一年内对GPU的需求开始下降,金融市场会发生哪些变化?
明略科技上市祝捷晚宴现场气氛,大家感受一下。。 梁斌penny的微博视频 Translate content播放视频播放当前时间 00:00/时长 03:12加载完毕: 1.84%媒体流类型 直播试图直播,当前实时播放直播 播放速度2x1.5x1.25x1x(默认), 选择0.5x倍速超清 4K超清 2K高清 1080p高清 720p, 选择标清 480p720p小窗播放试试“小窗播放”,边刷微博边看视频 全屏静音This is a modal window.梁斌penny+ 关注 复制视频地址 正在小窗播放中点击展开03:12 3540次观看
#郑智化已清空微博# 这是意料之中的。所以我前几天就在试图保存这件事的原始数据。有谁知道郑智化登机监控视频的原始出处?有人说最早是“深圳第一现场”发的,但后来删掉了。有谁知道“深圳第一现场”当时具体在哪儿发的?有没有链接?
@tombkeeper
如今世界对吴哥王朝的了解,主要来自当年一个中国人记录的《真腊风土记》。如果没有《真腊风土记》,后人看着吴哥窟遗迹,完全不知道这里曾经发生过什么,当年的一切过去就过去了。中国人自古就很看重对历史的记录。不管能留下多少,不管会被 AIGC 稀释成什么样,我们还是应该把一切伟大一切美好一切丑陋一切荒谬都记录下来。
@硅谷陈源博士
马斯克又脑洞大开,提出可以用空闲的特斯拉汽车为大模型推理提供算力。特斯拉汽车已经内置了AI芯片、动力和冷却。假设每辆车有1千瓦动力,1亿辆特斯拉将可以提供一个100GW(吉瓦),分布在世界各地街区和车库的超级AI数据中心。想法很好,可能性也是有的,但可行性在今天看来还有点远。现在的大模型架构和实现还没法支持这种分布式算力:间歇性和不可靠的网络连接,不断变化的高延迟和低带宽,移动的节点。首先要解决调度和可靠性问题,还有安全性和隐私问题,如何管理能源和成本,电消耗和过热等。也许可以先小规模应用在某些特定的场景,比如批处理、非实时或离线推理,小模型内容生成和边缘计算。不过,永远不要低估马斯克的野心和执行力。#马斯克##特斯拉汽车为人工智能提供算力# 硅谷陈源博士的微博视频