先出一个毛坯房,然后不断精装修,反复迭代,不到最后一刻,那个地方都能改。//@刘群MT-to-Death:这个优势是存在的,扩散语言模型可以更充分地利用已有的训练数据,也就是以不同的掩码方式反复训练,相当于同样的训练数据以不同的顺序训练很多遍。
@爱可可-爱生活
扩散语言模型(DLM)在有限唯一数据条件下,训练更多轮次,表现持续优于自回归模型(AR)。具体来看,规模为17亿参数的DLM,在约1.5万亿token计算预算和100亿唯一Python token数据上,超越了同等条件下训练的AR模型。更惊人的是,规模仅10亿参数的DLM,使用1亿token数据,无需任何特殊技巧,便能在HellaSwag和MMLU两项复杂任务中分别达到56%和33%以上的准确率。这一发现颠覆了我们对模型训练数据效率的传统认知,显示出DLM在“少而精”的数据利用上具备显著优势。研究团队不仅发布了相关论文和代码,还公开了所有训练日志和模型检查点,助力社区深入探讨DLM潜力。有专家指出,扩散模型和自回归模型实质上都可视为在隐含的能量场中通过梯度引导的采样过程,两者在结构上同构,都是信息密度提升的不同表达形式。这种跨模型的思维方式,助力我们理解模型性能差异的本质。业内反响热烈:有人形象比喻扩散模型如“反复温习教材的学霸”,在数据有限时能学得更透彻;有人称其为未来更优的技术方向。整体来看,DLM的表现标志着AI训练范式可能的重大转变,尤其在数据稀缺环境下更具竞争力。这不仅是技术进步,更带来了对如何高效利用数据、设计训练策略的新思考。未来,结合扩散预训练和创新采样方法,DLM有望在多领域实现突破。原文:x.com/iScienceLuvr/status/1986382687268167708
昨天立冬,我看到很多人在讨论某某饺子好吃不好吃的问题。我有个经验:各种饺子馆的饺子肯定不是最好吃的。很多北方风味的餐馆都卖饺子。品种可能不多,但味道比饺子馆的强。比如,羲和雅苑虽然主打烤鸭,但他们家的三鲜饺子也不错。
美国政府停摆这个事情对股市影响真蛮大的,主要是不确定性。我分析了一个晚上,大家看我说得有没有道理,正常这种政府预算,反对党不同意,是正常的,就是要执政党拿一点东西出来妥协,没想到这次川子宁可关门,也不妥协,这背后可能有这么一个思考。本来川子就感觉zf公务员太多了,就想砍掉,不好砍,这次停摆,很多公务员可能就谋其他职业去了,即便后面再开张可能也不回来了,自然免费淘汰一部分人;另外就是让zf看到其实也没必要这么多公务员,为后面砍人铺垫。民主党可能也明白了,继续博弈下去,民众就会认为zf关门的责任主要是民主党要价太高,不利于自己后面选举重新执政,掉入了川子的陷阱。民主党现在同意只要那个预算案延迟一年再讨论就可以达成协议,这样把民众的怒火转移给川子,如果川子不让一步,那么责任就是川子了。现在川子有点不好办了,下周话不知道会怎么样。