3 月 28 日消息,初创公司 Databricks 近日发布公告,推出了开源 AI 模型 DBRX,声称是迄今为止全球最强大的开源大型语言模型,比 Meta 的 Llama 2 更为强大。
DBRX 采用 transformer 架构,包含 1320 亿参数,共 16 个专家网络组成,每次推理使用其中的 4 个专家网络,激活 360 亿参数。
Databricks 在公司博客文章中介绍,在语言理解、编程、数学和逻辑方面,对比 Meta 公司的 Llama 2-70B、法国 MixtralAI 公司的 Mixtral 以及马斯克旗下 xAI 开发的 Grok-1 等主流开源模型,DBRX 均优势胜出。
图 1:DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 方面的表现优于已有的开源模型。
在语言理解方面,DBRX 的分值为 73.7%,高于 GPT-3.5 的 70.0%、高于 Llama 2-70B 的 69.8%、Mixtral 的 71.4% 以及 Grok-1 的 73.0%。
模型  | 
DBRX Instruct  | 
Mixtral Instruct  | 
Mixtral Base  | 
LLaMA2-70B Chat  | 
LLaMA2-70B Base  | 
Grok-11  | 
| 
 Open LLM Leaderboard2 (Avg of next 6 rows)  | 
74.5%  | 
72.7%  | 
68.4%  | 
62.4%  | 
67.9%  | 
—  | 
ARC-challenge 25-shot  | 
68.9%  | 
70.1%  | 
66.4%  | 
64.6%  | 
67.3%  | 
—  | 
HellaSwag 10-shot  | 
89.0%  | 
87.6%  | 
86.5%  | 
85.9%  | 
87.3%  | 
—  | 
MMLU 5-shot  | 
73.7%  | 
71.4%  | 
71.9%  | 
63.9%  | 
69.8%  | 
73.0%  | 
Truthful QA 0-shot  | 
66.9%  | 
65.0%  | 
46.8%  | 
52.8%  | 
44.9%  | 
—  | 
WinoGrande 5-shot  | 
81.8%  | 
81.1%  | 
81.7%  | 
80.5%  | 
83.7%  | 
—  | 
GSM8k CoT 5-shot maj@13  | 
66.9%  | 
61.1%  | 
57.6%  | 
26.7%  | 
54.1%  | 
62.9% (8-shot)  | 
| 
 Gauntlet v0.34 (Avg of 30+ diverse tasks)  | 
66.8%  | 
60.7%  | 
56.8%  | 
52.8%  | 
56.4%  | 
—  | 
| 
 HumanEval5 0-Shot, pass@1 (Programming)  | 
70.1%  | 
54.8%  | 
40.2%  | 
32.2%  | 
31.0%  | 
63.2%  | 
在编程能力方面,DBRX 的得分为 70.1%,远超 GPT-3.5 的 48.1%,高于 Llama 2-70B 的 32.3%、Mixtral 的 54.8% 以及 Grok-1 的 63.2%。
Model  | 
DBRX  | 
GPT-3.57  | 
GPT-48  | 
Claude 3 Haiku  | 
Claude 3 Sonnet  | 
Claude 3 Opus  | 
Gemini 1.0 Pro  | 
Gemini 1.5 Pro  | 
Mistral Medium  | 
Mistral Large  | 
MT Bench (Inflection corrected, n=5)  | 
8.39 ± 0.08  | 
—  | 
—  | 
8.41 ± 0.04  | 
8.54 ± 0.09  | 
9.03 ± 0.06  | 
8.23 ± 0.08  | 
—  | 
8.05 ± 0.12  | 
8.90 ± 0.06  | 
MMLU 5-shot  | 
73.7%  | 
70.0%  | 
86.4%  | 
75.2%  | 
79.0%  | 
86.8%  | 
71.8%  | 
81.9%  | 
75.3%  | 
81.2%  | 
HellaSwag 10-shot  | 
89.0%  | 
85.5%  | 
95.3%  | 
85.9%  | 
89.0%  | 
95.4%  | 
84.7%  | 
92.5%  | 
88.0%  | 
89.2%  | 
HumanEval 0-Shot  | 
 70.1% temp=0, N=1  | 
48.1%  | 
67.0%  | 
75.9%  | 
73.0%  | 
84.9%  | 
67.7%  | 
71.9%  | 
38.4%  | 
45.1%  | 
GSM8k CoT maj@1  | 
72.8% (5-shot)  | 
57.1% (5-shot)  | 
92.0% (5-shot)  | 
88.9%  | 
92.3%  | 
95.0%  | 
 86.5% (maj1@32)  | 
91.7% (11-shot)  | 
66.7% (5-shot)  | 
81.0% (5-shot)  | 
WinoGrande 5-shot  | 
81.8%  | 
81.6%  | 
87.5%  | 
—  | 
—  | 
—  | 
—  | 
—  | 
88.0%  | 
86.7%  | 
在数学方面,DBRX 的得分为 66.9%,高于 GPT-3.5 的 57.1%,也高于 Llama 2-70B 的 54.1%、Mixtral 的 61.1% 和 Grok-1 的 62.9%。
Databricks 介绍,DBRX 是一个基于 MegaBlocks 研究和开源项目构建的混合专家模型 (MoE),因此每秒输出 token 的速度极快。Databricks 相信,这将为 MoE 未来最先进的开源模型铺平道路。
IT之家附上参考地址
- Introducing DBRX: A New State-of-the-Art Open LLM
 - dbrx-base
 - databricks / dbrx