Databricks 开源 DBRX:一款功能强大的新型企业级语言模型

Databricks 公司发布了 DBRX,这是一款性能优异的大语言模型,在各项测试中均超越了现有的开源模型。DBRX 的目标是为企业提供高质量、可定制的 AI 工具,帮助企业更好地利用生成式 AI 技术。

DBRX 的一大亮点是其出色的性能在语言理解、编程、数学和逻辑等任务上,DBRX 的表现均优于 LLaMA2-70B、Mixtral 和 Grok-1 等模型。根据 Databricks 的开源基准测试 Gauntlet,DBRX 在 30 多项测试中均名列前茅,这表明开源模型的质量正在不断提升。

DBRX 在语言理解 (MMLU)、编程 (HumanEval) 和数学 (GSM8K) 等方面的表现均优于现有的开源模型

值得注意的是,DBRX 在大多数测试中甚至超越了 GPT-3.5。这对于企业来说意义重大,因为越来越多的企业开始使用开源模型替代专有模型,以获得更高的效率和控制权。Databricks 在其 12,000 多个客户中观察到了这一趋势,许多客户通过定制开源模型来满足特定需求,从而获得了更高的质量和速度。

DBRX 的另一个关键特性是其混合专家 (MoE) 架构,该架构基于 MegaBlocks 研究和开源项目构建。MoE 架构能够在保持较小的活跃参数数量(360 亿个)的情况下,实现更快的词元(Token)生成速度,而模型的总参数数量为 1320 亿个。这意味着 MoE 架构能够在速度和性能之间取得平衡,以更快的速度训练更大的模型。

DBRX Instruct 的性能可与 Gemini 1.0 Pro 和 Mistral Medium 相媲美。在 Inflection Corrected MTBench、MMLU、HellaSwag 和 HumanEval 等测试中,DBRX Instruct 的得分高于 Gemini 1.0 Pro,而 Gemini 1.0 Pro 在 GSM8k 测试中表现更强。

Databricks 使用高达 32K 词元上下文窗口训练 DBRX,并完全在其平台上构建 DBRX,使用了 Unity Catalog 进行数据治理、Apache Spark™ 和 Lilac AI 进行数据处理和清理,以及 Mosaic AI 训练服务进行大规模模型训练和微调等工具。

Databricks 将 DBRX 设计为易于定制的模型,使企业能够提高其 AI 应用的质量。从今天开始,企业可以在 Databricks 平台上使用 DBRX,在 RAG 系统中利用其长上下文能力,并根据其私有数据构建自定义 DBRX 模型。该模型可通过 Databricks 的 GitHub 存储库Hugging Face 平台(DBRX Base、DBRX Instruct)访问。您还可以在 Hugging Face Space 平台上试用 DBRX Instruct 模型。

DBRX 的基础模型 (DBRX Base) 和微调模型 (DBRX Instruct) 的权重均可在 Hugging Face 平台上获得,并采用开放许可证。从今天开始,Databricks 客户可以通过 API 使用 DBRX,并使用 Databricks 提供的工具和技术,从头开始预训练自己的 DBRX 级模型,或者在我们提供的检查点之上继续训练模型。

参考资料

DBRX Base: https://huggingface.co/databricks/dbrx-base

DBRX Instruct: https://huggingface.co/databricks/dbrx-instruct?ref=maginative.com

DBRX Github: https://www.github.com/databricks/dbrx

DBRX Blog: https://www.databricks.com/blog/introducing-dbrx-new-state-art-open-llm

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/2906387.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Redis 主从复制原理,设计的真巧妙!

前言 今天继续来看看有关 Redis 的一个问题,主从复制。通常,对于大多数的场景来说,读比写更多,于是对于缓存的水平扩展,其中的一个方式 “主从复制” 就是一个常见的思路。有了主从复制,那么可以扩展出很多…

Kibana操作Elasticsearch教程

文章目录 简介ES文档操作创建索引查看索引创建映射字段查看映射关系字段属性详解typeindexstore 字段映射设置流程 新增数据新增会随机生成id新增自定义id智能判断 修改数据删除数据查询基本查询查询所有(match_all)匹配查询多字段查询词条匹配多词条精确…

大模型预测,下一个token何必是文字?

太快了太快了… 大模型的生成技能,已经到了普通人看不懂的境界! 它可以根据用户过去5年的体检报告,生成未来第1年、第2年、第3年的体检报告。 你看,这个生成的过程,是不是像极了ChatGPT,根据历史单词预测…

测开——测试用例设计题

1.测试手机的短信功能需要考虑哪些测试点? 考测试思维 是否能正常打开或进入短信界面短信可以正常编辑、修改、删除短信可以正常发送、接收短信页面的字体、颜色显示是否正常【UI界面 手机设置了字体颜色 大小是否同步】短信的字体是否能够调整同时给多个人发短信…

工业测试测量仪器与人工智能(AI)如何结合

工业测试测量仪器与人工智能(AI)的结合可以通过多种方式实现,其中一些主要方法包括: 1. 数据分析和预测 智能数据分析:利用AI算法对从传感器和测试仪器收集的数据进行分析,识别模式、趋势和异常&#xff0…

vue+elementUI搭建动态表头的表格

前提:以下代码是vue2项目结合elementUi完成的 数据结构 后端传来的数据是两个list,一个表头的list,一个表格内容的list // 表头 headTableAtts: [{ columnLabel: 姓名, columnName: name },{ columnLabel: 年龄, columnName: age },{ colu…

ensp中pc机访问不同网络的服务器

拓扑图如下,资源已上传 说明:pc通过2个路由访问server服务器 三条线路分别是192.168.1.0网段,192.168.2.0网段和192.168.3.0网段,在未配置的情况下,pc设备是访问不到server的 具体操作流程 第一;pc设备…

简单了解原型模式

什么是原型模式 区别于单例模式,原型模式的一个类可以有多个实例化的对象。 原型模式通过拷贝来产生新的对象,而不是new,并且可以根据自己的需求修改对象的属性。 实现Cloneable接口实现拷贝 而拷贝又分为浅拷贝和深拷贝,两者在…

python的神奇bug2

今天测试出一个很诡异的bug, 这个错误还真的很难发现 测试1 a [1,10,100] for i in a:print(i)if(i10):a[20,30,-1]一般来说我们在进行迭代时,a这个值时不能改动的,但是现在的问题时如果我不小心给改动了呢,结果如下 也就是说…

【数据结构刷题专题】—— 二分查找

二分查找 二分查找模板题&#xff1a;704. 二分查找 二分查找前提&#xff1a; 有序数组数组中无重复元素 左闭右闭&#xff1a; class Solution { public:int search(vector<int>& nums, int target) {int left 0;int right nums.size() - 1;while (left <…

基于unbantu的nginx的配置

目录 前言: 1.安装nginx并进行测试 1.1使用nginx -v 命令查看版本 1.2开启服务 查看端口 1.3测试 2.nginx的静态资源访问配置 2.1创建静态资源存放的目录 2.2写入目录中测试文件对应的内容 2.3修改配置文件 2.4 测试 3.虚拟主机配置 3.1创建目录 3.2写入测试…

SOLIDWORKS 2024 推荐硬件:开箱即用的配置以及升级优化的SOLIDWORKS硬件

SOLIDWORKS 2024已于2023年年末发布&#xff0c;使用SOLIDWORKS 2024的用户关注的问题之一就是&#xff1a;适合SOLIDWORKS2024这个版本的最佳硬件是什么&#xff1f; 这篇文章&#xff0c;硕迪科技将推荐SOLIDWORKS 2024的开箱即用的解决方案以及各个硬件的配置要求。 这些建议…

JavaEE 初阶篇-深入了解多线程等待与多线程状态

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 线程等待 1.1 线程等待 - join() 方法 1.1.1 main 线程中等待多个线程 1.1.2 main 线程等待 t2 线程且t2 线程等待 t1 线程 1.1.3 其他线程阻塞等待 main 线程 1.…

机器学习概论—增强学习

机器学习概论—增强学习 强化学习(Reinforcement Learning, RL)或者说是增强学习,是机器学习的一个领域,旨在使智能体通过与环境的交互学习如何做出决策,它是关于在特定情况下采取适当的行动来最大化奖励。它被各种软件和机器用来寻找在特定情况下应采取的最佳行为或路径…

在.Net6中用gdal实现第一个功能

目录 一、创建.NET6的控制台应用程序 二、加载Gdal插件 三、编写程序 一、创建.NET6的控制台应用程序 二、加载Gdal插件 Gdal的资源可以经过NuGet包引入。右键单击项目名称&#xff0c;然后选择 "Manage NuGet Packages"&#xff08;管理 NuGet 包&#xff09;。N…

视频素材免费哪个好?7个视频素材下载网站推荐

小伙帮们准备做视频的时候才发现&#xff0c;哎呀&#xff0c;高清视频素材哪里找啊&#xff1f;不用急&#xff0c;这次我们依旧从中国的宝藏网站开始&#xff0c;然后穿越全球&#xff0c;发现更多精彩的无水印视频素材网站 1&#xff0c;蛙学府&#xff08;中国&#xff09…

辅助驾驶-ACC

自适应巡航&#xff08;ACC&#xff09;使汽车能够自动调整自身速度与前车保持安全的行驶距离。 从整车系统层面考虑&#xff0c; ACC 是一个多种控制单元联合参与才能实现的功能。在这个系统中&#xff0c;雷达或者摄像头除了作为传感器提供目标车信息&#xff0c;核心的 ACC …

Postman中参数填写方式!

Postman中参数填写和请求方法有关&#xff0c;一般接口用例请求方法GET与POST常用&#xff0c;所以主要是这两种请求方法请求参数填写 一、GET请求方法参数填写 1、直接在URL中填写请求参数,如直接在URL中填写&#xff1a; http://www.example.com:8089/userapi?unamelisi&…

蓝桥杯练习题 近似GCD 双指针

题目 小蓝有一个长度为 n 的数组 4 (a1, a2,,an),数组的了数组被定义为从 原数组中选出连续的一个或多个元素组成的数组。数组的最大公约数指的是数 组中所有元素的最大公约数。 如果最多更改数组中的一个元素之后,数组的最大公约数为 g,那么称 g 为这个数组的近似GCD。 一个数…

大数据做「AI大模型」数据清洗调优基础篇

关于本文 近期一直在协助做AI大模型数据清洗调优的工作&#xff0c;主要就是使用大数据计算引擎Spark做一些原始数据的清洗工作&#xff0c;整体数据量大约6PB-8PB之间&#xff0c;那么对于整个大数据量的处理性能将是一个重大的挑战&#xff0c;关于具体的调优参数配置项暂时不…