peopleevents
梁斌penny 2025-02-03 19:26+08:00Z
原微博

61这个说明是大规模实验得出的,不是拍脑袋的

@丕子

感觉deeepseek工程师的风格很工程,在模型优化层面应该是枚举式的profiling,然后哪里短板优化哪里-----看MLA和lAuxiliary-Loss-Free有感。 ​​​另外v3的隐层数竟然是61 ​​​

上一页243/995每页 10总共 9943下一页