语音识别--使用YAMNet识别环境音

⚠申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计3077字,阅读大概需要3分钟
🌈更多学习内容, 欢迎👏关注👀【文末】我的个人微信公众号:不懂开发的程序猿
个人网站:https://jerry-jy.co/

❗❗❗知识付费,🈲止白嫖,有需要请后台私信或【文末】个人微信公众号联系我

语音识别--使用YAMNet识别环境音

  • 使用YAMNet识别环境音
    • 一、任务需求
    • 二、任务目标
          • 1、学习TF Hub使用
          • 2、学习YAMNet网络
          • 3、学习tf模型推理
    • 三、任务环境
          • 1、jupyter开发环境
          • 2、python3.6
          • 3、tensorflow2.4
    • 四、任务实施过程
      • 1、导入 TensorFlow 和其他库
      • 2、从 TensorFlow Hub 加载 YAMNet
      • 3、加载类映射
      • 4、运行推理
    • 五、任务小结
  • 说明

使用YAMNet识别环境音


一、任务需求

YAMNet是一个预训练的深度神经网络,可以从521 个类别中预测音频事件,例如笑声、吠叫或警报声。

YAMNet采用MobileNetV1深度可分离卷积架构。它可以使用音频波形作为输入,并对来自AudioSet语料库的 521 个音频事件中的每一个进行独立预测。

在内部,该模型从音频信号中提取“帧”并批量处理这些帧。此版本的模型使用 0.96 秒长的帧,每 0.48 秒提取一帧。

该模型接受包含任意长度波形的一维 float32 张量或 NumPy 数组,表示为范围内的单通道(单声道)16 kHz 样本[-1.0, +1.0]。本教程包含帮助我们将 WAV 文件转换为支持格式的代码。

该模型返回 3 个输出,包括类分数、嵌入(我们将用于迁移学习)和对数梅尔谱图。

YAMNet 的一个特定用途是作为高级特征提取器 - 1,024 维嵌入输出。我们将使用基础 (YAMNet) 模型的输入特征,并将它们输入由一个隐藏tf.keras.layers.Dense层组成的较浅层模型。然后,我们将使用少量数据训练网络以进行音频分类,而无需大量标记数据和端到端训练。

首先,我们将测试模型并查看对音频进行分类的结果。然后,我们将构建数据预处理管道。

要求:加载并使用 YAMNet 模型进行推理。 使用 YAMNet 嵌入构建一个新模型来对环境音进行分类。 评估并导出您的模型。

二、任务目标

1、学习TF Hub使用
2、学习YAMNet网络
3、学习tf模型推理

三、任务环境

1、jupyter开发环境
2、python3.6
3、tensorflow2.4

四、任务实施过程

1、导入 TensorFlow 和其他库

这里我们要载入tensorflow_io,帮助我们轻松地从磁盘加载音频文件。

import osfrom IPython import display
import matplotlib.pyplot as plt
import numpy as np
import pandas as pdimport tensorflow as tf
import tensorflow_hub as hub
import tensorflow_io as tfio

2、从 TensorFlow Hub 加载 YAMNet

使用来自Tensorflow Hub的预训练 YAMNet 从声音文件中提取嵌入。

从 TensorFlow Hub 加载模型很简单:选择模型,复制其 URL,然后使用load函数。

yamnet_model_handle = 'https://tfhub.dev/google/yamnet/1'
yamnet_model = hub.load(yamnet_model_handle)

当然,这会涉及到网络下载,需要联网,并能顺利访问对应网址。为了避免不稳定的情况发生,我们下载好了模型,存放在/home/jovyan/datas/yamnet中,然后使用离线方式加载模型,这与上述在线方式并没有什么不同。

yamnet_model_handle = '/home/jovyan/datas/yamnet'
yamnet_model = hub.load(yamnet_model_handle)

加载示例文件

testing_wav_file_name = '/home/jovyan/datas/miaow_16k.wav'

现在我们还需要一个函数来加载音频文件,稍后在处理训练数据时也会用到它。

# 定义函数,加载音频文件,并确保采样率是正确的@tf.function
def load_wav_16k_mono(filename):""" 加载一个WAV文件,将其转换为浮点tensor,重新采样到16khz单通道音频 """file_contents = tf.io.read_file(filename)wav, sample_rate = tf.audio.decode_wav(file_contents,desired_channels=1)wav = tf.squeeze(wav, axis=-1)sample_rate = tf.cast(sample_rate, dtype=tf.int64)wav = tfio.audio.resample(wav, rate_in=sample_rate, rate_out=16000)return wav
testing_wav_data = load_wav_16k_mono(testing_wav_file_name)_ = plt.plot(testing_wav_data)display.Audio(testing_wav_data,rate=16000)

在这里插入图片描述
这是我们读取的样本之一,以上展示了声音内容及对应的波形图。

3、加载类映射

加载 YAMNet 能够识别的类名很重要。映射文件yamnet_model.class_map_path()以 CSV 格式存在。

class_map_path = yamnet_model.class_map_path().numpy().decode('utf-8')
class_names =list(pd.read_csv(class_map_path)['display_name'])for name in class_names[:20]:print(name)
print('...')
Speech
Child speech, kid speaking
Conversation
Narration, monologue
Babbling
Speech synthesizer
Shout
Bellow
Whoop
Yell
Children shouting
Screaming
Whispering
Laughter
Baby laughter
Giggle
Snicker
Belly laugh
Chuckle, chortle
Crying, sobbing
...

4、运行推理

YAMNet 提供帧级别的类分数(即每帧 521 分)。为了确定剪辑级别的预测,可以跨帧按类别聚合分数(例如,使用平均值或最大聚合)。这是由下面完成的scores_np.mean(axis=0)。最后,要在剪辑级别找到得分最高的类,我们需要取 521 个汇总分数中的最大值。

scores, embeddings, spectrogram = yamnet_model(testing_wav_data)
class_scores = tf.reduce_mean(scores, axis=0)
top_class = tf.argmax(class_scores)
inferred_class = class_names[top_class]print(f'The main sound is: {inferred_class}')
print(f'The embeddings shape: {embeddings.shape}')
The main sound is: Animal
The embeddings shape: (13, 1024)

五、任务小结

本实验完成学习使用TF Hub预训练模型相关内容,通过本实验我们学习到了加载并使用 YAMNet 模型进行推理相关知识,需要掌握以下知识点:

  • tfhub的使用方法
  • YAMNet网络的调用方法
  • 模型的加载和使用方法
  • 模型评估方法

–end–

说明

本实验(项目)/论文若有需要,请后台私信或【文末】个人微信公众号联系我

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3017647.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

HG-KN73J-S100 三菱伺服电机(750W型)

HG-KN73J-S100属于三菱MR-JE系列伺服系统,可以与伺服驱动器MR-JE-70A、MR-JE-70B、MR-JE-70C配套使用。HG-KN73J-S100完全替换HF-KN73J-S100。HG-KN73J-S100规格、HG-KN73J-S100参数。 HG-KN73J-S100参数说明:MR-JE低惯性/小容量、0.75Kw三菱伺服电机HG-…

【管理咨询宝藏94】某国际咨询公司供应链财务数字化转型方案

本报告首发于公号“管理咨询宝藏”,如需阅读完整版报告内容,请查阅公号“管理咨询宝藏”。 【管理咨询宝藏94】某国际咨询公司供应链&财务数字化转型方案 【格式】PDF版本 【关键词】国际咨询公司、制造型企业转型、数字化转型 【核心观点】 - 172…

SAP PP学习笔记12 - 评估MRP的运行结果

上一章讲了MRP的概念,参数,配置等内容。 SAP PP学习笔记11 - PP中的MRP相关概念,参数,配置-CSDN博客 本章来讲 MRP跑完之后呢,要怎么评估这个MRP的运行结果。 1,Stock/Requirements List and MRP List 在…

MySQL日志机制【undo log、redo log、binlog 】

前言 SQL执行流程图文分析:从连接到执行的全貌_一条 sql 执行的全流程?-CSDN博客文章浏览阅读1.1k次,点赞20次,收藏12次。本文探讨 MySQL 执行一条 SQL 查询语句的详细流程,从连接器开始,逐步介绍了查询缓存、解析 S…

这些CTF,不仅学技术,还有巨额奖金!

前言: 不会吧,不会吧,不会还有安全er不知道CTF是什么吧? 在程序员的世界里,也有ACM这样的编程大赛,成为各路编程高手一较高下展示能力的平台。 那在网络安全的圈子里,各路黑客红客白帽子们又…

Flutter弹窗链-顺序弹出对话框

效果 前言 弹窗的顺序执行在App中是一个比较常见的应用场景。比如进入App首页,一系列的弹窗就会弹出。如果不做处理就会导致弹窗堆积的全部弹出,严重影响用户体验。 如果多个弹窗中又有判断逻辑,根据点击后需要弹出另一个弹窗,这…

Gradle 进阶学习 之 build.gradle 文件

build.gradle 是什么? 想象一下,你有一个大型的乐高项目,你需要一个清单来列出所有的乐高积木和它们如何组合在一起。在软件开发中,build.gradle 就是这个清单,它告诉计算机如何构建(组合)你的软…

《Linux运维总结:ARM架构CPU基于docker-compose一离线部署consul v1.18.1集群工具》

总结:整理不易,如果对你有帮助,可否点赞关注一下? 更多详细内容请参考:《Linux运维篇:Linux系统运维指南》 一、部署背景 由于业务系统的特殊性,我们需要面向不通的客户安装我们的业务系统&…

【备战软考(嵌入式系统设计师)】09 - 嵌入式软件设计基础

嵌入式软件开发原理 嵌入式软件开发和我们传统的软件开发不一样。 就拿我们的QT开发,我们敲完代码之后直接编译运行exe看看效果,不行就改改再次编译运行,如果可以就打包exe文件相关的配置文件对吧,一套下来行云流水一气呵成。 …

Kansformer?变形金刚来自过去的新敌人

​1.前言 多层感知器(MLPs),也被称为全连接前馈神经网络,是当今深度学习模型的基础组成部分。 MLPs在机器学习中扮演着至关重要的角色,因为它们是用于近似非线性函数的默认模型,这得益于通用近似定理所保证的表达能力。然而,MLPs真的是我们能构建的最佳非线性回归器吗?尽管ML…

免费在线录屏、无需注册、免费可用、无限制

免费在线工具 https://orcc.online/ 在线录屏 https://orcc.online/recorder pdf在线免费转word文档 https://orcc.online/pdf 时间戳转换 https://orcc.online/timestamp Base64 编码解码 https://orcc.online/base64 URL 编码解码 https://orcc.online/url Hash(MD5/SHA…

5.7 线程

进程:解耦稳定,内容之间是不相关的,通信不便利,理论上进程的软硬件的切换时间以及创建开销非常大。--------》资源共享线程实现 线程的问题:本质就是不解耦,一个出问题别的就很有可能出问题,同…

关于获取邮件授权码

以网易邮箱为例: 第一步:登录之后点击设置 第二步:点击POP3/SMTP/IMAP 第三步:开启SMTP服务 开启哪个都可以 第四步: 扫描二维码开启服务 第五步: 使用手机扫面二维码发送短信 第六步: 得到授权码 将授权码写入配置文件

04-28 周日 FastAPI Post请求同时传递文件和普通参数

04-28 周日 FastAPI Post请求同时传递文件和普通参数 时间版本修改人描述04-28 周日V0.1宋全恒新建文档2024年5月6日14:20:05V1.0宋全恒完成文档的传递 简介 由于在重构FastBuild的时候,为了支持TLS是否启用,在接口中需要同时传递文件参数和其他参数&am…

matlab 基于拉依达检验法(3σ准则) 实现多类别多参数的批量异常样本检验 V2.0

简介 拉依达检验法(3σ准则)是一种统计学方法,用于检测数据中的异常值。这种方法基于正态分布的特性来确定数据点是否可能是异常值。以下是关于拉依达检验法(3σ准则)的详细介绍: 基本原理: 拉…

代码随想录第四十六天|单词拆分

题目链接:. - 力扣(LeetCode)

2.4V转3.8V/3.9V供电升压方案:为水表提供稳定电力

随着科技的不断发展,水表等智能设备在我们的生活中扮演着越来越重要的角色。为了让水表得以正常工作,稳定的电力供应是至关重要的。在这篇文章中,我们将探讨一种2.4V转3.8V/3.9V供电方案,以确保为水表提供稳定的电力。 为了实现2…

每日两题 / 138. 随机链表的复制 148. 排序链表(LeetCode热题100)

138. 随机链表的复制 - 力扣(LeetCode) 用哈希表记录原链表中的节点是否被复制过 遍历原链表并通过哈希表维护新链表 /* // Definition for a Node. class Node { public:int val;Node* next;Node* random;Node(int _val) {val _val;next NULL;rand…

STM32F407VET6 学习笔记1:GPIO引脚认识分类与开发板原理图

今日学习STM32F407VET6 ,首先从基本原理图、引脚方面开始做个初步理解并整理: 这里使用的学习开发板是在嘉立创购买的 立创梁山派天空星,芯片是 STM32F407VET6 主要对这个芯片的引脚做一些归纳认识、对开发学习板原理图设计进行认识理解:最…

23 JavaScript学习:验证API

JavaScript验证API 举例&#xff1a; <input id"id1" type"number" min"100" max"300" required> <button onclick"myFunction()">验证</button><p id"demo"></p><script>f…