沙特不行。我们的征途是星辰大海,还有阿富汗。
@李隐枫
我在微博上贴出了詹妮弗·洛佩兹前两天在沙特的演出视频,然后被平台“审核未通过”…未通过 ,沙特都过审了
梁博,有个问题,大模型行业经常听到一个术语SFT,而且我发现还挺乱的,能不能解释下。答:SFT,这个就是指令微调,分为广义SFT和狭义SFT。广义SFT就是大模型通过预训练后,要提高其指令跟随,回答一些特定问题的能力,需要经过的阶段,这类数据都是各式各样的,不限定领域,长的样子大概是这样的:P: “从这段文章中提取作者和出版年份。” R: “作者是 [XXX],出版年份是 [YYY]。”P: “什么是区块链?用五年级学生能听懂的方式解释。” R: “想象一个公共账本...”通常具备回答简洁,结果正确,因此这个阶段的数据质量要求较高,多样性也要高。一般都需要深度处理。不是知乎,Quora这种提问回答对数据直接拿来用。第二个就是狭义SFT,这个是在一些特定领域的垂直大模型,为了具备回答垂直领域的问题,经过的一个“特训”,一般数据长的是这个样子的。P: “患者,男,35岁,持续低烧三天,伴有干咳,白细胞计数 11.0×10⁹/L。请给出前三个鉴别诊断。” R: “1. 支原体肺炎。 2. 流行性感冒。 3. 急性支气管炎。P: “患者,女,35岁,持续胡言乱语,手脚抽搐。请给出前三个鉴别诊断。” R: “1. 精神障碍。 2. 缺氧。 3. 惊恐。SFT的过程,一般采用PEFT技术思路(例如:Low-Rank Adaptation),预训练的参数W 整体不动,只是学习一个小矩阵W*,最终微调结果是W+W*。这样可以针对比如法律学习一个 W*,医疗学习一个W*,最后想怎么组合都行,不会损坏预训练的结果。以上是我的理解,仅供参考,我也不专业,最好还是请教专业人士,谢谢。
有个博主,家是陕北农村的,在海外工作,找了个越南女朋友。这个博主有一条视频是第一次带女朋友回老家,博主的父亲似乎不太同意这门亲事,于是他就想先带女朋友去看看雪(女朋友从没见过雪),然后再一起回越南。我采集了那条视频下的所有评论——请注意是所有评论,我没有进行任何选择,没有进行任何删减。大部分人对如今的网络环境产生过一些认知,但这种认知很容易忘记。你们可以看一看下面这些评论,看一看,再看一看,然后把形成的认知固定下来,固定在大脑里最常用的那块白板上,看任何东西写任何东西的时候都先回顾一下这个认知。以下就是那条视频的评论区:“楼主长得也不错呀,干嘛非要找个越南的女人,说话也不好沟通,中国大把好女人....”“你这样拍感觉不尊重你女友,她成了一件工具吗”“这女的浑身名牌,看来给花了不少钱,也是虚荣的啊”“白嫖,还把一万块钱收回了,不就是叫你爸妈演一场戏吗?可怜女孩给你睡了 白嫖,恶心”“为啥不同意?”“博主主要是为蹭流量,几个人合伙拍视屏给大家看看,虽然故事是假的,但让我们了解越南也挺好的😊”“这女孩在城里还行 农村不跑我倒立一分钟”“这女的眼神里真的没有你,如果为了流量就随意你喽”“我们这边是边境,越南老婆跑的机率99%”“有钱跟你过,没钱就走了,找下家了,不要指望同甘共苦。她也不会跟你吃苦。”“兄弟,你爸是对的!”“我在美国认识的好几个人,他们的老婆是越南,然后生完孩子的钱就跑了”“别说越南人,南方人都住不惯这窑洞,想到上厕所用个盆就生不如死除非你们以后在越南安家”“这个女的绝对不行 肯定会跑的”“对越南人陕西太冷了,可能不适应。希望你们幸福。”“挺好的”“你自己不会跟去?她拉你自己?”“靠得住吗?”“女朋友一身奢侈品还跑吗?”“当着你女朋友的面说这样的话好吗?太不尊重人了吧。”“越南人要的是你的錢不是你人”“我不知道你的故事是真还是假,想告诉你的是跑不跑取决于生活而不是人,就算中国女人,你对她不好或者过的不好,难道她不离开吗?我身边几十个越南老婆的,很负责任的说他们过的比中国人幸福。”“兄弟百分百会跑,你可以找外国媳妇,但是不要找越南和日本”“你还是听你爸的话吧”“感觉女人 被当成商品了”“好漂亮呀”“越南人钱💰💰💰💰💰”“女朋友真好看”“这个女孩不像越南人”“漂亮”“早晚的事,跑是必须的,先玩吧。”“谈谈恋爱就可以了,结婚还是听父母的吧,毕竟结婚不只是两个人的事情,而是双方家庭的事。越南人还是谨慎点吧,毕竟结了婚跑了的不在少数”“还得是你爸”“我一个朋友也是找得越南老婆,生了一个儿子,后面也跑回去了,在我们老家婚都没离,之前老家扯证,然后回了越南和别人又生了小孩。”“很多结婚后没多久就出去工作,赚钱给自己娘家,感觉就是目的”“我觉得你爸不是不满意,是让你们去越南发展,你在演戏给我们看呢”“给我找一个吗”“越南只适合广东广西福建南方,吃东西都吃不到一起”“把护照扣下不就得了”“是有可能跑的,完全吃不惯!而且特别冷。”“会跑不”“兄弟,你要是有钱还是没问题的”“这女孩在城里还行 农村不跑我倒立一分钟”“她没跑,你爸跑了”“祝福”“美”“这个不像是那种会跑的”“你们老家肯定待不了,”“你长得像绿绿”“看雪去哈尔滨”“喝着伊利牛奶不能跑”“这借口”“感觉女孩怪可怜的”“秦岭分水岭有雪”“有法国血统吧?”“太白山有雪”“感觉她呆不了”“太他娘的正了吧”(后来他们在越南结婚,并生了一个孩子。)
除了前面提到的(微博正文),杨振宁另一次被迫谈及“科学的尽头是哲学,哲学的尽头是宗教”也是在一个大学里,也是一次讲座之后,也是问答环节。2001 年 4 月 26 日下午,凤凰卫视在清华大学理科楼前下沉式露天广场录制《世纪大讲堂》,请杨振宁讲了《美与物理》。演讲部分是 60 分钟,之后又进行了 40 分钟的问答。凤凰卫视把这场讲座剪辑成上下两集,分别在《世纪大讲堂》的第 17、18 两期播出。后来凤凰卫视也出版了《世纪大讲堂》的同名书籍,内容就是节目的文字稿。作为海淀区信息检索 TOP5,我把视频和书都找到了。不过文字只是文字,视频能看到表情,听到语气,感受到情绪。建议大家还是把第二个视频的进度条拖到 00:20:44 处,看看杨振宁具体是怎么说的。(《世纪大讲堂》也是@刘春 创办的)Translate content45:0838:08
全靠西医养生,再就是善有善报。
@沈沉舟_0
最近见到TK,不能再用白白胖胖来描述他了。看着气色相当红润,状态非常好,体重控制得不错,整个人看上去有点粉嫩粉嫩的,一点不像年过花甲之人。上次送云海,女科学家见到TK,也有类似评价。但那天我忙于正事,不及细观。此番再见,媳不我欺也。
@梁博第二助理
小助理周末又来补作业了10月20日,DeepSeek 发布并开源了一个 OCR 模型 DeepSeek-OCR ,旨在初步探索通过光学二维映射技术压缩长上下文的可行性。In short,DeepSeek找到了一种新方法:把一大段文字先转换成一张图片,再用视觉的方式去理解和处理它。 原本需要成千上万个token来表达的内容,现在只需要几百个视觉token搞定,从而实现对文本信息的高效压缩。一、解决了什么问题?问题:当前大模型的上下文窗口越做越长,算力和显存消耗成倍增加,很烧钱。DS团队发现,文本本身是冗余的。同样内容,用图片来表示,所需的token数量远少于纯文本。要验证的关键问题:对于一篇1000词的文档,到底最少需要多少个视觉token才能准确解码出原文?二、How?—— DeepSeek-OCR系统整个系统分为两大核心部分1. DeepEncoder(视觉编码器)功能:把文档图片(如1024x1024像素)转换成数量极少的视觉token。传统模型可能生成4096个token,而DeepEncoder可以将其压缩到仅256个。多分辨率模式:提供从“Tiny”(64个token,用于简单文档)到“Gundam”(795个token,用于高精度还原)等多种压缩等级,按需使用。2. DeepSeek3B-MoE(语言解码器)功能: 读取视觉token,并将其解码、还原成原始文本。技术: 采用混合专家模型,推理时只激活部分参数,实现强大又节能的效果。三、效果—— 近乎无损的压缩实验结果非常惊人,验证了光学压缩路线的可行性:在10倍压缩率下,模型还原原文的精度高达97%,接近无损压缩。在20倍压缩率下,精度仍能保持在约60%。实际应用表现:在权威评测OmniDocBench上,DeepSeek-OCR仅用100个视觉token的效果就超过了需要256个token的对手模型;用不到800个token的效果超越了需要近7000个token的另一个强大模型。四、除了压缩,还能做什么?DeepSeek-OCR不仅仅是一个文本扫描仪,通过海量数据训练,还具备了强大的文档解析能力,可以:• 理解金融图表并提取结构化信息。• 识别化学结构式并转换成专业的SMILES格式。• 解析几何图形,理解其空间关系。• 处理近百种语言的文档,包括阿拉伯语等小语种。• 保留一定的通用视觉能力,如图像描述、物体检测等。五、意义与展望这项研究为突破大模型长文本处理的算力瓶颈提供了一条全新的技术路径。与其拼命堆硬件,不如根本上优化信息的表达方式。例如像DeepSeek-OCR一样,用更高效的视觉token来代替冗长的文本。 影响:光学上下文压缩代表了一个新的方向,意味着未来大模型可以用低得多的成本处理和记忆更长的上下文。开源地址:网页链接论文链接:网页链接
有同学让我评价那6个方向,量子科技、生物制造、氢能和核聚变能、脑机接口、具身智能、第六代移动通信。这个都是上面定下来的,我可不敢乱讲,那必然是极好的。其中我比较出乎预料的还是这个脑机接口,这个感觉是个小方向,被拉到一个high level上了,市场可能不是想象中那么大。具身智能确实热,感觉也是AI人工智能方向的一个部分,这个部分被拉到了一个high level,反而是大方向AI人工智能没有体现。。也许内部有博弈吧,咱也不懂。氢能和核聚变绝对是大方向,超级方向,这个是AI人工智能,军事,工业化三重需求加持,方向是极好的,极重要的。如果我要给6个方向的话,我可能会这么给。 1)高质量弹性能源 2)AI人工智能 3)生物医药 4)数字货币 5)无人化(Autonomy) 6)尖端芯片 。
#谷歌量子计算重大突破# #10月25日设为台湾光复纪念日#
@tombkeeper
最近我在群里提了三个大哉问:1、如果十年内出现了实用化的量子计算机,金融市场特别是加密货币市场会发生哪些变化?2、如果五年内祖国完全统一,金融市场先后会发生哪些变化?3、如果一年内对GPU的需求开始下降,金融市场会发生哪些变化?