大家在看看我以前的那个判断。。 查看图片 //@有个梨GPT:应该说大模型具有一定的人类思维能力,在它具有的这部分它思考的比人快得多,而这个快得多又可以变成广得多。//@天宝十节度:以下两种结论你倾向于哪个?(A)大模型越来越接近人类智能(B)做题能力并不能代表人类智能
@量子位
#大模型数竞Gemini断层夺冠##大模型IMO25数学竞赛成绩来了#Gemini 2.5 Pro拔得头筹,大模型挑战IMO 2025的成绩出炉了!经过人工评判,Gemini以超30%的总成绩断崖式领先,超出第二名89%。o3和o4-mini则位列第二、三名,Grok 4得分只有11.9,但成本比Gemini还高出了22%。还有网友想到了之前拿下IMO银牌的AlphaProof,好奇如果让它来挑战结果会怎样。下面就来了解下这场测试的详细情况~这场测试由MathArena组织,基于模其在MathArena竞赛中的既往表现,选择的被测模型包括Gemini 2.5 Pro、o3(high)、o4-mini(high)、Grok 4和DeepSeek-R1(0528)。为了公平,测试对所有被测模型采用统一的提示词模板,该模板与Open Proof Corpus评估相同。每个模型均使用推荐的超参数运行,最大Token数量限制为64000。对于每一个问题,每个模型都会生成32个初始回答,然后通过逐一比较的方式筛选出它们自己各自认为最好的四个。模型自己选中的四个答案获得的平均成绩,将作为模型的最终分数。MathArena团队聘请了四名经验丰富的人类评委,每位评委都具备IMO级别的数学专业知识。评委需要先评估题目并制定评分细则,每道题满分7分,每份答案均为匿名且需由两位评委独立评分,用于展示答案的界面也是统一的。通过对测试过程的详细分析,MathArena团队也发现了几个现象。一是很多模型在7分的满分当中会得3-4分,这种现象在真人测试中是比较罕见的,而且模型犯错或者不会解决的部分,对人类来说反而比较容易,凸显了人类和模型能力之间的差异。以及与早期的评估相比,模型过度优化最终答案格式的行为显著减少,表明模型在处理开放式数学推理任务方面已经取得了进展。还有Gemini在USAMO当中编造不存在的“定理”的毛病,到了这次IMO当中大有改善。另外MathArena还专门指出,Grok 4的表现与预期严重不符,并且其绝大多数答案(未被选中的答案)只是简单地陈述了最终答案,而没有提供额外的解释。以上就是MathArena对这五款模型的大致评估结果,点击链接,查看它们究竟都挑战了哪些题目:网页链接
查了下kimi,硫醚类(R-S-R')通常具有强烈的恶臭,尤其是低分子量的硫醚(如二甲硫醚 CH₃-S-CH₃),其气味常被描述为腐烂的卷心菜、臭鸡蛋或下水道味。这种气味源于硫原子的高挥发性和对嗅觉受体的强烈刺激。。。真有可能就是这个味道
@Fenng
建议余杭仁和水厂马上搞个线下活动,弄一点「藻类厌氧降解产生的硫醚类物质」做个小展览,厂领导得在现场,邀请一下杭州的媒体,什么 1818 黄金眼,阿六头,老娘舅,还有一些自媒体什么的,尤其是污染期间使用过自来水,闻到过异味儿的余杭人,再实际对比一下闻一闻。做个确认,是不是一个味儿。大众的疑虑自然就消除了。要不还是会不相信。
@财联社APP
【李强出席雅鲁藏布江下游水电工程开工仪式 并宣布工程开工】财联社7月19日电,据新华社报道,雅鲁藏布江下游水电工程开工仪式7月19日上午在西藏自治区林芝市举行。中共中央政治局常委、国务院总理李强出席开工仪式,并宣布工程正式开工。当日9时许,开工仪式在林芝市米林水电站坝址举行。国家发展改革委、项目业主中国雅江集团、项目参研参试参建单位代表中国电建、西藏自治区主要负责同志先后发言。李强宣布雅鲁藏布江下游水电工程开工,工程建设正式拉开帷幕。吴政隆主持开工仪式。中央和国家机关有关部门、有关中央企业负责同志,雅鲁藏布江下游水电工程建设专家咨询委员会委员,项目参研参试参建单位、当地群众代表等参加开工仪式。雅鲁藏布江下游水电工程位于西藏自治区林芝市。工程主要采取截弯取直、隧洞引水的开发方式,建设5座梯级电站,总投资约1.2万亿元。工程电力以外送消纳为主,兼顾西藏本地自用需求。
有网友问:“英伟达H20会不会有国内公司买,这一会禁售,一会又可以卖,哪家大厂也不敢买啊? 是不是这样的呢?”答:情况还真不是这样,3点原因:1)华为虽然有一些芯片可以达到英伟达H20同等算力,甚至更高,但是很多算法都是天然适配英伟达CUDA平台的,如果用华为的需要华为公司配合做很多软件方面的适配,这个工作量太大了,买英伟达H20显卡就方便了。 2)很多单位和华为有强大竞争关系,宁可买安于做基础设施的英伟达的产品,也不愿意买华为这种全产业链都做的超级大厂的产品。3)最后,也是最重要的一点原因是华为高端芯片产能是跟不上的,大厂等不了,英伟达芯片除了最高端的GB200以外,其他产能,交付能力都要好一些,而且H20还是特供版,交付能力就更好了。。。
美帝有两个核电大厂分别是CEG和Vistra 。之所以非常牛逼,3点。1)现在美国那边AI训练都用核电,稳定性好,可控,弹性好。微软、谷歌等科技巨头已经采购了大量核电,这个采购不是短期采购是长期合同,这个新闻都能查到。2)这两家大厂的核电的位置还非常好,发电资产集中在德州ERCOT和中大西洋PJM,算力也都集中在这些地方。3)除了核电手里还有其他天然气,水电,风电,这些廉价电力结合核电,可以对电网进行精准的控制,核电提供零碳基荷,天然气+储能快速调峰,形成“高可靠+弹性”组合。最后,现在美国搞再工业化,比如也在研究稀土加工,这个都是非常耗电的。其他的一些炼铁,炼铝都是超级需要电的。。。从宏观上看国内芯片是不错的,美帝那边电力是很好的。把握这两个点,感觉想亏钱不容易。
有一家大模型,我不说名字,策略非常高明,大量的数据来自同行大模型的蒸馏数据,但是又非常担心自己的数据被蒸馏走,而且这种担心还非常严重,所有采用了一些骚操作避免被蒸。 首先,是把效果控制在一个“特别的”水平,绝对不是全行业最牛的,大家都去蒸馏最牛的,自己自然也就不惹眼,但其实内部的测评水平已经非常高了。其次,现阶段也没有必要太出跳,差不多就行了,关键这种控制可以让大模型吐出数据非常快,成本还低,大模型不好赚钱,这么搞可以搞得很持久。最后,如果总是太平庸也不行,会在一些条件触发下(比如比较长尾的prompt,或者验证过这个账户是真人),偶尔也给出非常惊艳的结果,简单说,你问的水平越高,给你的回答质量就越高。另外这家大模型更牛逼的一点不仅仅是蒸别人的数据,还在加大力度搞“深度”数据,至于什么是深度数据,我还真不方便举例,这一举例就全漏了,就是那些不是普通采集可以采集到的数据。。最后,通过我认真的分析,我认为未来这家大模型将会拿到市场40%以上的份额成为领头羊,策略上非常非常低调,手段非常非常高明,行动上非常非常迅速。里面保密工作也做得极好,极好。