【音频识别】十大数据集合集,宝藏合集,不容错过!

本文将为您介绍10个经典、热门的数据集,希望对您在选择适合的数据集时有所帮助。

1

RenderMe-360

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2023-05-24

  • 简介:

    RenFace是一个大规模多视角人脸高清视频数据集,包含多样的人脸表情、丰富的细粒度发型发色,同时也包含音素均衡的说话视频。可应用于:2D/3D数字人脸生成、人脸重建捕捉等领域。

  • 下载地址:

    https://renderme-360.github.io/; https://openxdlab.org.cn/home

2

ODSQA (Open-Domain Spoken Question Answering)

  • 发布方:

    台湾大学

  • 发布时间:

    2018

  • 简介:

    ODSQA 数据集是用于中文问答的口语数据集。它包含来自 20 位不同演讲者的三千多个问题。

  • 下载地址:

    https://github.com/chiahsuan156/ODSQA

  • 论文地址:https://arxiv.org/pdf/1808.02280v1.pdf

3

EDT

  • 发布方:

    Northwestern University

  • 发布时间:

    2021

  • 简介:

    EDT 数据集专为企业事件检测和基于文本的股票预测(交易策略)基准而设计。它包括 9721 篇带有令牌级事件标签的新闻文章和 303893 篇带有分钟级时间戳和综合股价标签的新闻文章。 EDT 包含用于三个目的的数据: 1. 企业事件检测; 2. 基于新闻的交易策略基准; 3.金融领域适配。

  • 下载地址:https://github.com/Zhihan1996/TradeTheEvent/tree/main/data

  • 论文地址:

    https://arxiv.org/pdf/2105.12825v2.pdf

4

WHAM! (WSJ0 Hipster Ambient Mixtures)

  • 发布方:

    三菱电机研究实验室·Whisper AI

  • 发布时间:

    2019

  • 简介:

    “WSJ0 Hipster Ambient Mixtures (WHAM!) 数据集将 wsj0-2mix 数据集中的每个双说话者混合与独特的噪声背景场景配对。它有一个名为 WHAMR! 的扩展,它还为语音信号添加了人工混响到背景噪音。噪音音频于 2018 年底在旧金山湾区的各个城市地点收集。环境主要包括餐馆、咖啡馆、酒吧和公园。音频是使用三脚架上的 Apogee Sennheiser 双耳麦克风录制的离地 1.0 到 1.5 米。”

  • 下载地址:https://renderme-360.github.io/; https://openxdlab.org.cn/home

  • 论文地址:https://arxiv.org/pdf/1907.01160v1.pdf

5

RenderMe-360

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2023-05-24

  • 简介:

    RenFace是一个大规模多视角人脸高清视频数据集,包含多样的人脸表情、丰富的细粒度发型发色,同时也包含音素均衡的说话视频。可应用于:2D/3D数字人脸生成、人脸重建捕捉等领域。

  • 下载地址:

    https://renderme-360.github.io/; https://openxdlab.org.cn/home

6

UrbanSound8K

  • 发布方:

    纽约大学城市科学与进步中心·纽约大学音乐与音频研究实验室

  • 发布时间:2014

  • 简介:

    “这个数据集包含来自 10 个类别的 8732 个城市声音的标记声音摘录 (<=4s):air_conditioner、car_horn、children_playing、dog_bark、drilling、enginge_idling、gun_shot、jackhammer、siren 和 street_music。这些类别来自城市声音分类法。有关数据集的详细说明及其编译方式,请参阅我们的论文。所有摘录均来自上传到 www.freesound.org 的现场录音。文件预先分类为十个文件夹(文件夹名为 fold1 “

  • 下载地址:https://urbansounddataset.weebly.com/urbansound8k.html

  • 论文地址:

    http://www.justinsalamon.com/uploads/4/3/9/4/4394963/salamon_urbansound_acmmm14.pdf

7

VCTK (CSTR VCTK Corpus)

  • 发布方:

    爱丁堡大学

  • 发布时间:

    2017   

  • 简介:

    这个 CSTR VCTK 语料库包含 110 位不同口音的英语使用者发出的语音数据。每位演讲者读出大约 400 个句子,这些句子选自报纸、彩虹段落和用于演讲口音档案的启发段落。经 Herald & Times Group 许可,报纸上的文字取自 Herald Glasgow。每个演讲者都有一组不同的报纸文本,这些文本是根据增加上下文和语音覆盖率的贪心算法选择的。文本选择算法的详细信息在以下论文中进行了描述:C. Veaux、J. Yamagishi 和 S. King,“语音库语料库:大型区域口音语音数据库的设计、收集和数据分析”,https:/ /doi.org/10.1109/ICSDA.2013.6709856。所有演讲者的彩虹段落和启发段落都是相同的。彩虹段落可以在英语档案的国际方言中找到:(http://web.ku.edu/~idea/readings/rainbow.htm)。启发段落与用于语音口音档案 (http://accent.gmu.edu) 的段落相同。可以在 http://www.ualberta.ca/~aacl2009/PDFs/WeinbergerKunath2009AACL.pdf 找到语音口音档案的详细信息。所有语音数据均使用相同的录音设置进行录音:全向麦克风 (DPA 4035) 和带宽非常宽的小型振膜电容麦克风 (Sennheiser MKH 800),采样频率为 96kHz,24 位,半消声室为爱丁堡大学。 (但是,两个扬声器 p280 和 p315 在使用 MKH 800 进行录音时存在技术问题)。所有录音都转换为 16 位,下采样到 48 kHz,并手动结束。

  • 下载地址:

    https://datashare.is.ed.ac.uk/handle/10283/2651

  •  论文地址:

    https://arxiv.org/pdf/1609.03499.pdf

8

OpenNLPLab/FAVDBench

  • 发布方:

    上海人工智能实验室

  • 发布时间:

    2023-07-19

  • 简介:

    在CVPR2023中我们提出了精细化音视频描述任务(Fine-grained Audible Video Description, FAVD)该任务旨在提供有关可听视频的详细文本描述,包括每个对象的外观和空间位置、移动对象的动作以及视频中的声音。我们同是也为社区贡献了第一个精细化音视频描述数据集FAVDBench。对于每个视频片段,我们不仅提供一句话的视频概要,还提供4-6句描述视频的视觉细节和1-2个音频相关描述,且所有的标注都有中英文双语。

  • 下载地址:

    https://github.com/OpenNLPLab/FAVDBench

  • 论文地址:

    https://openaccess.thecvf.com/content/CVPR2023/html/Shen_Fine-Grained_Audible_Video_Description_CVPR_2023_paper.html

9

AISHELL-3

  • 发布方:

    北京希尔科技

  • 发布时间:2020

  • 简介:

    AISHELL-3 是一个大规模、高保真的多说话人普通话语料库,可用于训练多说话人文本到语音(TTS)系统。该语料库包含大约 85 小时的情绪中性录音,由 218 位以汉语为母语的人讲过,总共有 88035 条话语。它们的性别、年龄组和母语口音等辅助属性在语料库中被明确标记和提供。相应地,在录音的同时还提供了汉字级和拼音级的成绩单。通过专业的语音标注和严格的语调质量检测,词音转录准确率在98%以上。

  • 下载地址:

    http://www.aishelltech.com/aishell_3

  •  论文地址:

    https://arxiv.org/pdf/2010.11567v2.pdf

10

Speech Commands

  • 发布方:

    Google AI Research

  • 发布时间:

    2017-08-03

  • 简介:

    语音命令是一个语音单词的音频数据集,旨在帮助训练和评估关键字识别系统。该数据集 (1.4 GB) 65,000了30个短词的一秒钟长话语,由数千个不同的人提供,由公众通过AIY网站提供。这是一套一秒的。wav音频文件,每个文件都包含一个口语单词。这些单词来自一小部分命令,并由各种不同的说话者说出。音频文件会根据它们包含的单词组织到文件夹中,并且此数据集旨在帮助训练简单的机器学习模型。

  • 下载地址:

    https://ai.googleblog.com/2017/08/launching-speech-commands-dataset.html

  •  论文地址:

    https://arxiv.org/pdf/1804.03209v1.pdf

 温馨  小贴士

如有您想了解的计算机方向数据集

请联系我们

免费为您提供数据集搜索服务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3280907.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

便携移动工作站,端侧 AI 大模型设备折腾笔记:ROG 幻 X 和 4090 扩展坞

为了本地测试和开发更丝滑&#xff0c;最近入手了一套新设备 ROG 幻 X Z13 和 ROG XG Mobile 4090 扩展坞。 基于这套设备&#xff0c;我搭了一套 Windows x WSL2 x CUDA 的开发环境。分享一下折腾记录&#xff0c;或许对有类似需求的你也有帮助。 写在前面 最近因为各种事情…

学习web前端三大件之HTML篇

HTML的全称为超文本标记语言&#xff0c;是一种标记语言。它包括一系列标签&#xff0c;通过这些标签可以将网络上的文档格式统一&#xff0c;使分散的Internet资源连接为一个逻辑整体。HTML文本是由HTML命令组成的描述性文本&#xff0c;HTML命令可以说明文字&#xff0c;图形…

单链表习题——快慢指针类习题详解!(2)

前言&#xff1a; 正如标题所言&#xff0c;小编今天要讲述快慢指针的相关习题&#xff0c;可能有些读者朋友会有些疑问了&#xff0c;这快慢指针是个什么东西&#xff1f;不要着急&#xff0c;下面紧跟小编的步伐&#xff0c;开启我们今天的快慢指针之旅&#xff01; 目录&…

安全基础学习-CRC理解与计算

由于一些任务要求需要了解CRC校验&#xff0c;于是来学习一下。 新人学习&#xff0c;大佬绕路。 前言 CRC即循环冗余校验码&#xff1a;是数据通信领域中最常用的一种查错校验码&#xff0c;其特征是信息字段和校验字段的长度可以任意选定。循环冗余检查&#xff08;CRC&…

Seata 入门与实战

一、什么是 Seata Seata 是一款开源的分布式事务解决方式&#xff0c;致力于提供高性能和简单易用的分布式事务服务。Seata 为用户提供了 AT、TCC、SAGA 和 XA 事务模式&#xff0c;为用户打造一站式的分布式事务解决方案。 二、Seata 组成 事务协调者&#xff08;Transacti…

Potree点云可视化库在Vue项目中的应用

本文由ScriptEcho平台提供技术支持 项目地址&#xff1a;传送门 Potree点云可视化库在Vue项目中的应用 应用场景介绍 Potree是一个用于大规模点云渲染和交互的开源JavaScript库。它提供了高效的点云可视化和处理功能&#xff0c;广泛应用于地理信息系统&#xff08;GIS&…

整理几个常用的Linux命令(Centos发行版)

如果工作中需要经常整理一些文档&#xff0c;需要汇总一下&#xff0c;现有的服务器资源信息&#xff0c;那么这篇文章适合你&#xff1b; 如果你是一名开发者&#xff0c;需要经常登录服务器&#xff0c;排查应用的出现的一些问题&#xff0c;那么这篇文章适合你&#xff1b;…

《最新出炉》系列初窥篇-Python+Playwright自动化测试-61 - 隐藏元素定位与操作

软件测试微信群&#xff1a;https://bbs.csdn.net/topics/618423372 有兴趣的可以扫码加入 1.简介 对于前端隐藏元素&#xff0c;一直是自动化定位元素的隐形杀手&#xff0c;让人防不胜防。脚本跑到隐藏元素时位置时报各种各样的错误&#xff0c;可是这种隐藏的下拉菜单又没…

【创新实践新纪元】SmartEDA如何引领学校电子设计实践基地的飞跃式发展

在这个日新月异的科技时代&#xff0c;电子设计已成为推动社会进步与创新的重要力量。而教育&#xff0c;作为培养未来科技人才的摇篮&#xff0c;如何更有效地提升学生的实践能力与创新思维&#xff0c;成为了摆在每所学校面前的重大课题。今天&#xff0c;就让我们一同探索Sm…

列表内容过多卡顿?有索引栏如何实现滚动加载?

&#x1f453;写在前面 很多小伙伴可能在开发业务中会遇到这种问题&#xff0c;数据列表过多&#xff0c;造成dom一次性渲染卡顿&#xff0c;本文主要介绍滚动加载&#xff0c;实现在有索引栏的列表中使用滚动加载的方法。 本文技术栈使用的是vue2vant2&#xff0c;其他框架组…

阿里云服务器 Ubuntu18.04 安装 mysql8.0并允许外部连接

参考教程&#xff1a; 官网教程 参考教程一 首先彻底删除mysql5.7 dpkg --list|grep mysql #查看 sudo apt-get remove mysql-common #卸载 sudo apt-get autoremove --purge mysql-server-5.7 #版本自己修改 dpkg -l|grep ^rc|awk {print$2}|sudo xargs dpkg -P #清除残留数…

vite打包文件配置到IIS出现页面、图片加载不出来的问题

问题描述&#xff1a; 用vitevue3开发的项目&#xff0c;打包后放在服务器上&#xff0c;然后配置了IIS&#xff0c;用链接访问后出现白页面。 解决方案&#xff1a; 修改vite.config.js文件中的base路径&#xff1a;/改为./ 解决方案&#xff1a; 1.查看页面报错原因&…

归并排序 python C C++ 代码及解析

一&#xff0c;概念及其介绍 归并排序&#xff08;Merge sort&#xff09;是建立在归并操作上的一种有效、稳定的排序算法&#xff0c;该算法是采用分治法(Divide and Conquer&#xff09;的一个非常典型的应用。将已有序的子序列合并&#xff0c;得到完全有序的序列&#xff…

二叉树——链式结构的实现

首先是分为三个文件进行实现&#xff1a;tree.h、tree.c、test.c tree.h 用链表来表示⼀棵⼆叉树&#xff0c;即用链来指示元素的逻辑关系。通常的方法是链表中每个结点由三个域组成&#xff0c;数据域和左右指针域&#xff0c;左右指针分别用来给出该结点左孩⼦和右孩⼦所在…

一键解析:由于找不到xinput1_3.dll,无法继续执行代码的问题,有效修复xinput1_3.dll文件

xinput1_3.dll是一个重要的动态链接库文件&#xff0c;它是DirectX软件包的一部分&#xff0c;主要负责处理游戏和多媒体应用程序中的输入功能。当用户尝试启动某些游戏或应用程序时&#xff0c;可能会遇到一个错误提示&#xff0c;指出“由于找不到xinput1_3.dll&#xff0c;无…

TypeScript 的主要特点和重要作用

还是大剑师兰特&#xff1a;曾是美国某知名大学计算机专业研究生&#xff0c;现为航空航海领域高级前端工程师&#xff1b;CSDN知名博主&#xff0c;GIS领域优质创作者&#xff0c;深耕openlayers、leaflet、mapbox、cesium&#xff0c;canvas&#xff0c;webgl&#xff0c;ech…

《昇思25天学习打卡营第三十三天|7月26号》

昇思25天学习打卡营 在昇思25天学习打卡营的第33天7月26号&#xff0c;我深入学习了Python编程。通过课程的系统学习和实践编程项目&#xff0c;我逐渐掌握了Python语言的基本语法和核心概念。 特别是在函数定义和数据结构的应用上&#xff0c;我学习到了一些新的东西。以为平…

苹果手机怎么录屏?一键操作,轻松掌握录屏技巧

最近新换了一台苹果手机&#xff0c;但苹果手机和安卓手机有挺多不相同的地方&#xff0c;就比如苹果手机怎么录屏我一直都没找到&#xff0c;有没有经常使用苹果手机的朋友可以帮帮我&#xff1f;先谢谢大家啦&#xff01;” 苹果手机作为全球领先的智能手机品牌&#xff0c;…

layui 乱入前端

功能包含 本实例代码为部分傻瓜框架&#xff0c;插入引用layui。因为样式必须保证跟系统一致&#xff0c;所以大部分功能都是自定义的。代码仅供需要用layui框架&#xff0c;但原项目又不是layui搭建的提供解题思路。代码较为通用 自定义分页功能自定义筛选列功能行内编辑下拉、…

面试经典算法150题系列-数组/字符串操作之多数元素

序言&#xff1a;今天是第五题啦&#xff0c;前面四题的解法还清楚吗&#xff1f;可以到面试算法题系列150题专栏 进行复习呀。 温故而知新&#xff0c;可以为师矣&#xff01;加油&#xff0c;未来的技术大牛们。 多数元素 给定一个大小为 n 的数组 nums &#xff0c;返回其…