“梁博,你之前提到那个什么抖音推荐模型,我有个问题,这种没有明确标签的算法驱动的黑盒方式,万一给用户推荐错了怎么办呢?想debug都没办法,这不是很危险吗?”答:首先,模型在上线前,都会做回归测试,比如任选100万个用户,把最近10条他们停留时间长的内容(或者点击的内容,搜索的,收藏的内容)做测试,看看用这个模型是否能高概率推荐出来,如果不能,说明模型出问题了。其次,推荐方法肯定也不唯一,也会有其他参照,或者新老模型交替服务,确保新模型验证性不够失控。最后,这些线上模型肯定有监控,如果新模型上去,停留时间大幅度变化,一定能监控到的,会有预案,要么回滚到老模型,要么调整一些参数控制个性化和热门的比例。方法很多的。
模型增大,我认为啊,一部分是提高精度,比如token的embedding的维数在增加,这个还有潜力增加。而层数提高,前馈神经网络维度提高都是增加记忆能力,这个部分受数据量影响不能无限制增加。 查看图片 //@硅谷陈源博士:ChatGPT 4.5 已经是万亿级别了,问题是训练数据已经快用完了,模型还在不断增大,上限在哪里?//@梁斌penny:现在deepseek算比较大了,满血版整个模型也就700GB,和训练数据比还是小太多了。当然如果加知识库就不好说了。模型本身还是发达压缩,学习到了本质的东西的。
@硅谷陈源博士
对大模型的一点胡思乱想,欢迎行家指教。1. 一直以来,我们习惯把机器学习和大模型看作是对数据的压缩。当模型本身比数据小的时候,这个说法很合理。但现在的大模型越来越大,最终如果参数量甚至超过了训练数据量本身,那它还算是“压缩”吗?还是更像是一种“记忆”?如果模型只是把见过的内容记下来,然后再现,那“智能”到底体现在哪里?是否更像是一种高效的记忆系统,而不是真正具有理解和推理能力的智能系统?2. 当前大模型的评测也存在类似的问题。大家热衷于让大模型“做题”。问题是,随着训练数据也来越大,覆盖的范围越来越广,许多测试题目可能已经包含在训练数据集里,模型在训练中早已见过。结果就是,我们可能不是在评测模型的泛化能力,而是在考它的“记忆力”。这不仅降低了评测的价值,也让模型之间的对比失去了公平性。一个真正有意义的评测体系,应该建立在完全独立、对模型来说全新的问题之上,才能真实地反映出模型的理解、推理和泛化能力。如何创建这样独立的测试数据集呢?#人工智能##大模型##计算机科学##人工智能和大模型的困境#
现在deepseek算比较大了,满血版整个模型也就700GB,和训练数据比还是小太多了。当然如果加知识库就不好说了。模型本身还是压缩训练数据了,学习到了本质的东西的。
@硅谷陈源博士
对大模型的一点胡思乱想,欢迎行家指教。1. 一直以来,我们习惯把机器学习和大模型看作是对数据的压缩。当模型本身比数据小的时候,这个说法很合理。但现在的大模型越来越大,最终如果参数量甚至超过了训练数据量本身,那它还算是“压缩”吗?还是更像是一种“记忆”?如果模型只是把见过的内容记下来,然后再现,那“智能”到底体现在哪里?是否更像是一种高效的记忆系统,而不是真正具有理解和推理能力的智能系统?2. 当前大模型的评测也存在类似的问题。大家热衷于让大模型“做题”。问题是,随着训练数据也来越大,覆盖的范围越来越广,许多测试题目可能已经包含在训练数据集里,模型在训练中早已见过。结果就是,我们可能不是在评测模型的泛化能力,而是在考它的“记忆力”。这不仅降低了评测的价值,也让模型之间的对比失去了公平性。一个真正有意义的评测体系,应该建立在完全独立、对模型来说全新的问题之上,才能真实地反映出模型的理解、推理和泛化能力。如何创建这样独立的测试数据集呢?#人工智能##大模型##计算机科学##人工智能和大模型的困境#
也不见得都是自己用。问问他是不是有“拼好桶”的网络互助小组。//@闫大夫聊肝病:关键是人家有四个卫生间啊//@冥王星1974:toto的马桶两万多一个,打五折还买三送一,省四万多
@武汉潘唯杰
北京某办公室,听到同事买了马桶,为啥大家都沉默了
据 Morning Consult 的民意调查,在 2022 年 4 月,有超过 80% 的中国受访者将美国视为敌人;2023 年 10 月,这一数字降至不到 50%。把这类民意数字和某些经济数字叠加在一起看,就会发现奇妙的关联。
@西雅图黄都督
把中国视为敌人的美国人比例正在减少…
上等的段子不是编出来的,就得是这样天然去雕饰。