刚刚OpenAI神秘开源模型泄露!「闪现」1分钟被删配置被网友扒光

2025-09-19 19:56:00
miadmin
原创
31

运气的是,正在它被删除之前,Jimmy Apples生存了设备,正在只要不到「1分钟」的时分窗口!

这组参数像是一个基于MoE(Mixture of Experts)搀和专家架构的高容量模子,具备以下几个特质:

· 36层Transformer,每层或者有MoE道由;· 大范畴MoE设立(128个专家,每个token激活4个);· 词外越过20万,或者支柱众语种或代码搀和输入;· 上下文窗口为4096,但也有滑动窗口和扩展RoPE,讲明模子或者具备管理更长上下文的才华;· 应用RoPE的NTK插值版本,这是很众模子扩展上下文的一种办法(如GPT-4 Turbo应用的办法);· 留神力头众达64个,但键/值头只要8个,意味着模子用的是是Multi-QueryAttention(MQA)。

他不单也正在Hugging Face上察觉这个模子,以至另有一位OpenAI成员点赞了他的爆料推文。