LLaMA 数据集

LLaMA的训练数据集来源多样,涵盖了多个不同的数据集和预处理步骤。以下是详细的描述:
在这里插入图片描述

公开数据来源和预处理

  1. CommonCrawl [67%]

    • 使用CCNet管道(Wenzek等人,2020年)对2017年至2020年间的五个CommonCrawl转储进行预处理。
    • 删除行级别的数据,使用fastText线性分类器进行语言识别,以去除非英语页面。
    • 用n-gram语言模型过滤低质量内容。
    • 训练一个线性模型来对维基百科中用作参考文献的页面与随机抽样的页面进行分类,并丢弃未被分类为参考文献的页面。
  2. C4 [15%]

    • 使用多样化的预处理CommonCrawl数据集提高性能。
    • 公开的C4数据集(Raffel等人,2020年)包含重复数据删除和语言识别步骤。
    • 与CCNet的主要区别在于质量过滤,主要依赖于标点符号的存在或网页中的单词和句子的数量等判例。
  3. Github [4.5%]

    • 使用谷歌BigQuery上的GitHub公共数据集。
    • 只保留在Apache、BSD和MIT许可下发布的项目。
    • 用基于行长或字母数字字符比例的启发式方法过滤低质量的文件,并用正则表达式删除模板,如标题。
    • 在文件层面上对结果数据集进行重复计算,并进行精确匹配。
  4. 维基百科 [4.5%]

    • 包括2022年6月至8月期间的维基百科转储,涵盖20种使用拉丁字母或西里尔字母的语言。
    • 对数据进行处理,以删除超链接、评论和其他格式化的模板。
  5. 古腾堡和Books3 [4.5%]

    • 包括Gutenberg项目和ThePile(Gao等人,2020年)的Books3部分。
    • 在书籍层面上进行重复数据删除,删除内容重叠度超过90%的书籍。
  6. ArXiv [2.5%]

    • 处理arXiv的Latex文件,将科学数据添加到数据集中。
    • 按照Lewkowycz等人(2022年)的做法,删除第一节之前的所有内容,以及书目。
    • 删除.tex文件中的注释,以及用户写的内联扩展的定义和宏,以提高不同论文的一致性。
  7. Stack Exchange [2%]

    • 包括Stack Exchange的转储,涵盖不同领域的高质量问答网站。
    • 保留28个最大网站的数据,重新将HTML标签从文本中移出,并将答案按分数(从高到低)排序。

LLaMA的特点总结

  • 多样化数据来源:涵盖从网络抓取数据到书籍、科学论文和问答网站的数据。
  • 高效预处理:通过多种预处理技术确保数据的高质量和相关性,包括语言识别、质量过滤和重复数据删除。
  • 覆盖多语言:重点涵盖使用拉丁字母和西里尔字母的多种语言,提高模型的多语言处理能力。

LLaMA 2在训练设置和模型架构上大部分继承了LLaMA 1的配置,但也进行了几项重要的改进和调整。以下是详细的说明:

模型架构和预训练设置

  • 基础架构:LLaMA 2采用标准的Transformer架构(Vaswani等人,2017年)。
  • 预归一化:使用RMSNorm进行预归一化(pre-normalization)(Zhang和Sennrich,2019年)。
  • 激活函数:采用SwiGLU激活函数(Shazeer,2020年)。
  • 位置嵌入:使用旋转位置嵌入(RoPE,Su等人,2022年)。

主要改进

  • 上下文长度增加:与LLaMA 1相比,LLaMA 2增加了上下文长度,使得模型能够处理更长的输入序列。
  • 分组查询注意力(GQA):引入了分组查询注意力机制,这是一种改进的注意力机制,有助于提高模型的效率和性能。

总结

LLaMA 2在保持LLaMA 1基础架构的同时,通过增加上下文长度和引入分组查询注意力机制,进一步提升了模型的能力。这些改进使得LLaMA 2在处理长文本和提高计算效率方面表现更佳。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3249191.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

Vue3 + uni-app 微信小程序:仿知乎日报详情页设计及实现

引言 在移动互联网时代,信息的获取变得越来越便捷,而知乎日报作为一款高质量内容聚合平台,深受广大用户喜爱。本文将详细介绍如何利用Vue 3框架结合微信小程序的特性,设计并实现一个功能完备、界面美观的知乎日报详情页。我们将从…

生成式AI的未来:对话的艺术与代理的实践

生成式 AI 的发展方向,是 Chat 还是 Agent? 随着生成式AI技术的不断进步,关于其未来发展方向的讨论也愈发激烈。究竟生成式AI的未来是在对话系统(Chat)中展现智慧,还是在自主代理(Agent&#x…

《驾驭AI浪潮:伦理挑战与应对策略》

AI发展下的伦理挑战,应当如何应对? 人工智能飞速发展的同时,也逐渐暴露出侵犯数据隐私、制造“信息茧房”等种种伦理风险。随着AI技术在社会各个领域的广泛应用,关于AI伦理和隐私保护问题日趋凸显。尽管国外已出台系列法规来规范…

npm安装依赖包报错,npm ERR! code ENOTFOUND

一、报错现象: npm WARN registry Unexpected warning for https://registry.npmjs.org/: Miscellaneous Warning ETIMEDOUT: request to https://registry.npmjs.org/vue failed, reason: connect ETIMEDOUT 104.16.23.35:443 npm WARN registry Using stale data…

【扁平化多级双向链表】python刷题记录

进入链表的遍历模块了 好复杂的题目描述。。。 DFS深度遍历扁平拼接 """ # Definition for a Node. class Node:def __init__(self, val, prev, next, child):self.val valself.prev prevself.next nextself.child child """class Soluti…

Windows双网卡上网原理以及配置方法

目录 1. 背景 2. IP路由原理 3. windows双网卡上网解决方案 3.1. 基础配置解决方案 3.2. 高阶配置解决方案 1. 背景 在windwos上使用多网卡在工作和生活中是一个常见的操作,比如为了获取内部消息将有线连接到内部局域网中,为而了访问外网又将电脑的…

申请https证书的具体流程

申请HTTPS证书的具体流程通常涉及以下步骤,不过请注意,具体细节可能因不同的证书颁发机构(CA)而有所差异: 1、确定证书类型: 证书类型:根据需求选择合适的SSL证书类型。常见的有DV(…

Windows下使用Cygwin创建rsync服务端

1 下载Cygwin 访问官网Cygwin,点击setup-X86_64.exe即可开始下载 2 安装 前面全部默认。路径可以自己选择,站点选阿里云的,等待安装即可 3 配置 使用打开Cygwin安装后创建的快捷方式窗口,输入下面的指令将windows用户导入到cyg…

如何将几百兆的包优化到几十兆----记一次vue项目的打包优化过程

打包优化 现象 前段时间开发的时候遇到客户反馈的一个问题 界面无法打开,显示白屏,控制台无报错 经过我们在开发环境,测试环境反复测试都没复现出客户的问题,然后我们又不停的在生产环境上找问题,也没复现出来 最…

正点原子imx6uSD卡复制files文件到u盘rootfs的root内失败

进入rootfs的home目录 再进入root,一般是要输入密码的,更改权限,设置全部可以读写,删除原有的文件。再把files文件夹复制过来就行 后面找不带分区,哎。相当于内存卡就是启动u盘,进入了linux系统&#xff0c…

彻底解决idea的编解码问题

一、打开idea,找到Setting,点击File Encoding编解码设置,将以下标红的三个部分全部设置为UTF-8.同理如果你的项目使用的是GBK或者其他编码格式,那么也设置为统一。 二、点击Java Compiler设置补齐-encoding utf-8参数 三、如果你的项目使用到了tomcat,那么需要配置下tomca…

挖矿宝藏之硬盘分区

目录 一、硬盘分区的相关知识 二、主分区、活动分区、扩展分区、逻辑盘和盘符 三、硬盘分区原因 1.减少硬盘空间的浪费 2.便于文件的分类管理 3.有利于病毒的防治 四、硬盘分区的原则 1.方便性 2.实用性 3.安全性 五、利用Diskpart进行分区 1.命令行工具Diskpart …

谷歌浏览器自动填充密码时,el-input样式错乱

使用到谷歌浏览器的记忆功能,选择的内容为浏览器保存的内容时 会导致element-plus的el-input样式改变 只需要增加一个css样式,就可以解决问题 :deep .el-input__inner {box-shadow: 0 0 0 1000px #fff inset; }修改后

Chapter13 深度和法线纹理——Shader入门精要学习笔记

Chapter13 深度和法线纹理 一、深度和法线纹理的原理和获取1.背后的原理①深度纹理②法线纹理 2.如何获取3.查看深度和法线纹理 二、再谈运动模糊1.速度映射2.MotionBlurWithDepthTexture.cs3.MotionBlurShader 三、全局雾效 —— 屏幕后处理1.重建世界坐标interpolatedRay的求…

电脑压缩软件有哪些?整理了6个常用的,总有一款满足你的需求 !

对于长期需要借助电脑来办公的小伙伴来说,电脑压缩软件是不可获取的办公软件之一。电脑压缩软件具有多种重要作用,它们在日常的计算机使用、文件管理、网络传输和存储中扮演着不可或缺的角色。 下是电脑压缩软件的主要作用: 1、减少文件大小…

【C++】C++ 学生信息管理系统(源码+面向对象)【独一无二】

👉博__主👈:米码收割机 👉技__能👈:C/Python语言 👉公众号👈:测试开发自动化【获取源码商业合作】 👉荣__誉👈:阿里云博客专家博主、5…

C语言 ——— 在控制台上打印动态变化的菱形

目录 代码要求 代码实现 代码要求 输入 整数line &#xff0c;菱形的上半部分的长度就为line&#xff08;动态变化的菱形&#xff09; 菱形由 "*" 号构成 代码实现 #include<stdio.h> int main() {// 上半长int line 0;scanf("%d", &line)…

图解HTTP有感

目录 1、网络请求流程 2、HTTP报文结构 2.1、请求报文首部和响应报文首部 2.2、HTTP的首部字段有以下几种类型 3、HTTP的请求方式 4、响应状态码 5、HTTP安全 6、HTTP对用户身份的认证 7、全双工通信Websocket 7.1、什么是Websocket? 7.2、Websocket的主要特点&…

Linux系统及常用指令

目录 1、什么是Linux系统 2、为什么要用Linux系统 3、Linux系统的种类 4、如何安装Linux系统 5、常见的适配器种类 6、学习第一个Linux指令 7、安装ssh客户端软件 8、Linux系统的目录结构 9、Linux的常用命令 9.1 目录切换命令 9.2 查看目录下的内容 9.3 查看当前…

开源防病毒工具--ClamAV

产品文档&#xff1a;简介 - ClamAV 文档 开源地址&#xff1a;Cisco-Talos/clamav&#xff1a;ClamAV - 文档在这里&#xff1a;https://docs.clamav.net (github.com) 一、引言 ClamAV&#xff08;Clam AntiVirus&#xff09;是一个开源的防病毒工具&#xff0c;广泛应用…