语音识别--声音位置与起始位置检测

⚠申明: 未经许可,禁止以任何形式转载,若要引用,请标注链接地址。 全文共计3077字,阅读大概需要3分钟
🌈更多学习内容, 欢迎👏关注👀【文末】我的个人微信公众号:不懂开发的程序猿
个人网站:https://jerry-jy.co/

❗❗❗知识付费,🈲止白嫖,有需要请后台私信或【文末】个人微信公众号联系我

语音识别--声音位置与起始位置检测

  • 声音位置与起始位置检测
    • 一、任务需求
    • 二、任务目标
          • 1、掌握声音峰值检测方法
          • 2、掌握声音起始位置检测方法
    • 三、任务环境
          • 1、jupyter开发环境
          • 2、python3.6
          • 3、tensorflow2.4
    • 四、任务实施过程
      • 1、声音位置检测
      • 2、声音起始位置检测
    • 五、任务小结
  • 说明

声音位置与起始位置检测


一、任务需求

在本实验中,我们将学习如何通过检测声音强度,来确定声音的位置,及起始位置。

声音(起始)位置检测非常重要,例如对声音样本进行剪辑等。

要求:利用librosa识别声音峰值位置和起始位置

二、任务目标

1、掌握声音峰值检测方法
2、掌握声音起始位置检测方法

三、任务环境

1、jupyter开发环境
2、python3.6
3、tensorflow2.4

四、任务实施过程

1、声音位置检测

首先要学习的是函数librosa.onset.onset_detect,它通过在起始强度包络中挑选峰值来定位音符起始事件。

函数参数说明如下:

  • y:音频时间序列
  • sr:采样率
  • onset_envelope:预先计算的起始强度包络(可选参数)
  • units:编码检测到的起始事件的单位。默认情况下,使用“帧”。
  • backtrack:是否将检测到的起始事件回溯到最近的先前能量最小值

加载工具和数据

import librosa
import numpy as np
import librosa.display
import matplotlib.pyplot as plt
import IPython.display as ipd
y, sr = librosa.load('/home/jovyan/datas/classic_rock_beat.wav')
ipd.Audio(y,rate=sr)

计算声音位置对应的帧

# 估计开始的帧数
onset_frames = librosa.onset.onset_detect(y, sr=sr)
print(onset_frames)
[ 20  29  38  57  66  75  84  93 103 112 121 131 140 149 158 167 176 185196 204 213 232 241 250 260 269 278 288]

将帧转换为帧所对应的时间

onset_times = librosa.frames_to_time(onset_frames)
print(onset_times)
[0.46439909 0.67337868 0.88235828 1.32353741 1.53251701 1.74149661.95047619 2.15945578 2.39165533 2.60063492 2.80961451 3.041814063.25079365 3.45977324 3.66875283 3.87773243 4.08671202 4.295691614.55111111 4.73687075 4.94585034 5.38702948 5.59600907 5.804988666.03718821 6.2461678  6.45514739 6.68734694]

将声音转换为频谱图,并叠加声音位置

S = librosa.stft(y)
logS = librosa.amplitude_to_db(abs(S))
fig,ax = plt.subplots(nrows=2,sharex=True,figsize=(12,6))
librosa.display.specshow(logS,x_axis='time', y_axis='log',cmap='coolwarm',ax=ax[0])
ax[0].vlines(onset_times, 0, 10000, color='r')
ax[0].set_title('Spectrogram Show')librosa.display.waveplot(y,ax=ax[1])
ax[1].vlines(onset_times, y.min(), y.max(), color='r')
ax[1].set_title('Wave Show')

Text(0.5, 1.0, ‘Wave Show’)

在这里插入图片描述
红色竖线对应了声音位置,无论频谱图还是波形图,声音检测位置都十分准确。

2、声音起始位置检测

接下来我们将使用librosa.onset.onset_backtrack检测声音的起始位置,也称为回溯检测,本质是检测声音位置到最近的能量函数的前一个局部最小值。

该函数接收以下参数:

  • events: 事件帧(声音位置帧)的索引列表,由onset_detect计算得到
  • energy: 能量函数

接下来我们通过实验来学习如何寻找声音起始位置。

首先需要使用librosa.onset.onset_strength获取声音的能量函数

然后使用librosa.onset.onset_backtrack获取声音起始位置帧

oenv = librosa.onset.onset_strength(y=y, sr=sr)
onset_bt = librosa.onset.onset_backtrack(onset_frames, oenv)
plt.plot(oenv)

[<matplotlib.lines.Line2D at 0x7ff7cbe44d68>]

在这里插入图片描述

该图显示了声音在不同帧数的能量函数。

对频谱图强度做RMS均方根计算,得到频谱图的强度。

rms = librosa.feature.rms(S=S)
onset_bt_rms = librosa.onset.onset_backtrack(onset_frames, rms[0])
plt.plot(rms.T)

[<matplotlib.lines.Line2D at 0x7ff7cbdc4dd8>]

在这里插入图片描述

通过onset_backtrack函数,我们计算得到音频强度对应的起始位置。

将帧转换为时间位置,方便绘图

onset_bt_rms_time = librosa.frames_to_time(onset_bt_rms)

将检测到的声音起始位置叠加在之前的librosa.onset.onset_detect图上,方便比较二者的区别。

fig,ax = plt.subplots(nrows=2,sharex=True,figsize=(12,6))
librosa.display.specshow(logS,x_axis='time', y_axis='log',cmap='coolwarm',ax=ax[0])
ax[0].vlines(onset_times, 0, 10000, color='r',linestyle='--',linewidth=1,label='onset events')
ax[0].vlines(onset_bt_rms_time, 0, 10000, color='k',label='Backtrack detecte')
ax[0].set_title('Spectrogram Show')
ax[0].legend(bbox_to_anchor=(1.05, 1.0),loc='upper left')librosa.display.waveplot(y,ax=ax[1])
ax[1].vlines(onset_times, y.min(), y.max(), color='r',linestyle='--',linewidth=1)
ax[1].vlines(onset_bt_rms_time, y.min(), y.max(), color='k')
ax[1].set_title('Wave Show')

Text(0.5, 1.0, ‘Wave Show’)

在这里插入图片描述

从图中可以看出,红色虚线是检测到的声音事件的峰值位置,黑色是声音事件的起始位置,这在频谱图上可以看的更清晰。如果要做声音样本剪切,可以选择黑色位置做为起始点,可以一定程度上避免人工剪切带来的缺点。

五、任务小结

本实验使用的函数包括librosa.onset.onset_detectlibrosa.onset.onset_backtrack通过检测声音强度,来确定声音的位置,及起始位置。。通过本实验我们学习到了音频及其起始位置检测的相关知识,需要掌握以下知识点:

  • librosa.onset.onset_detect检测声音峰值位置
  • librosa.onset.onset_backtrack检测声音起始位置

–end–

说明

本实验(项目)/论文若有需要,请后台私信或【文末】个人微信公众号联系我

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://xiahunao.cn/news/3015368.html

如若内容造成侵权/违法违规/事实不符,请联系瞎胡闹网进行投诉反馈,一经查实,立即删除!

相关文章

代码随想录最后一天!

这是长达63天的最后一天一年的六分之一&#xff0c;我跟着卡哥完成了代码随想录的所有打卡。每天都写下了一篇关于自己做题的小博客。其中有的写的精细&#xff0c;有的潦草&#xff0c;但是都是我一路走来的脚步。 虽然有的题目还是不太理解&#xff0c;但是我依旧自信昂首&am…

Freeswitch-mod开发

文章目录 一、Freeswitch-mod开发1.1 介绍1.2 实战1.2.1 新建一个mymod.c或者mymod.cpp1.2.2 新建一个Makefile1.2.3 编译 二、Freeswitch-mod-自定义Dialplan模块2.1 介绍2.2 实战2.2.1 改造mymod.c&#xff08;代码是完整的&#xff0c;自己做区别看一下&#xff09;2.2.2 编…

淘宝数据分析——Python爬虫模式♥

大数据时代&#xff0c; 数据收集不仅是科学研究的基石&#xff0c; 更是企业决策的关键。 然而&#xff0c;如何高效地收集数据 成了摆在我们面前的一项重要任务。 本文将为你揭示&#xff0c; 一系列实时数据采集方法&#xff0c; 助你在信息洪流中&#xff0c; 找到…

突然断电,瀚高数据库启动失败

服务器临时断电后&#xff0c;数据库启动不起来 ps -ef|grep postgres 进到数据库的data目录下看下ls 看下 查看临时文件&#xff1a; ls -la /tmp 把这两个5866的文件改个名字张老师 加个bak就行 改完了pg_ctl start起一下

AUTOSAR中EcuM、ComM和CanNm的关联

ComM的内外部唤醒 ComM可以通过NM保持网络的唤醒&#xff0c;同时也可以通过SM激活通信&#xff0c;总之就像一个通信的总管。 下面通过两种唤醒源来解释ComM的状态机。 1、内部唤醒 ① 当ComM上电初始化时会首先进入NO COMMUNICATION状态&#xff0c;在该状态下ComM会持续循…

口感与风味的完善结合:精酿啤酒的多样风格

啤酒的世界是丰富多彩的&#xff0c;不同的啤酒有着各自与众不同的口感和风味。而Fendi club啤酒&#xff0c;作为精酿啤酒的代表&#xff0c;以其多样化的风格和卓着的口感&#xff0c;吸引了无数啤酒爱好者的目光。 Fendi club啤酒的多样风格&#xff0c;首先体现在其原料的选…

吴恩达深度学习笔记:深度学习的 实践层面 (Practical aspects of Deep Learning)1.13-1.14

目录 第二门课: 改善深层神经网络&#xff1a;超参数调试、正 则 化 以 及 优 化 (Improving Deep Neural Networks:Hyperparameter tuning, Regularization and Optimization)第一周&#xff1a;深度学习的 实践层面 (Practical aspects of Deep Learning)1.13 梯度检验&#…

element-plus el-cascader 懒加载实现-省市区街道选择及回显

大概思路&#xff1a; 准备一个接口可以通过父Id,查询到下一级省市区街道的信息&#xff1b;如下方的getRegionListOne确定后端的数据结构&#xff0c;需要在created里边处理数据回显逻辑el-cascader接收的数据格式是[‘’,‘’,‘’];后端的数据格式多为[{provinceId: ‘’, …

Postman轻松签名,让SHA256withRSA保驾护航!

前言 在接口测试中&#xff0c;我们经常需要对请求进行签名&#xff0c;以保证数据的安全性。而SHA256withRSA是一种较为常见的签名算法&#xff0c;它可以使用私钥对数据进行签名&#xff0c;使用公钥进行验签。 但是&#xff0c;实现该算法签名可能会涉及到一些繁琐的操作&…

利用生成式AI重新构想ITSM的未来

对注入 AI 的生成式 ITSM 的需求&#xff0c;在 2023 年 Gartner AI 炒作周期中&#xff0c;生成式 AI 达到预期值达到顶峰后&#xff0c;三分之二的企业已经将生成式 AI 集成到其流程中。 你问为什么这种追求&#xff1f;在预定义算法的驱动下&#xff0c;IT 服务交付和管理中…

如何把一个PDF文档每两页合并为一页?跟我学,5秒搞定!

想要将两张PDF的内容合并到一张A4纸上显示。 这需要用到PDF编辑软件&#xff0c;在迅捷PDF编辑器中的“打印”功能里进行设置。 下面给大家演示一下具体怎么操作&#xff1a; 01.打开迅捷PDF编辑器&#xff0c;导入PDF文件&#xff0c;找到左上角【打印】功能。 02.在弹出…

服务器2080ti驱动的卸载与安装

服务器2080ti驱动的卸载与安装 前言1、下载驱动2、驱动卸载与安装2.1 卸载原来驱动2.2 安装新驱动 3、查看安装情况 前言 安装transformers库&#xff0c;运行bert模型时出错&#xff0c;显示torch版本太低&#xff0c;要2.0以上的&#xff0c;所以更新显卡驱动&#xff0c;重…

黑马点评项目总结

登录 基于session登录 短信验证码登录 配置登录拦截器 向 Spring MVC 框架中添加拦截器&#xff0c;LoginInterceptor 是一个自定义的拦截器&#xff0c;用于拦截用户的登录请求。 excludePathPatterns这一句是设置拦截器需要放行的请求路径列表。 "/user/code", …

Java | Leetcode Java题解之第67题二进制求和

题目&#xff1a; 题解&#xff1a; class Solution {public String addBinary(String a, String b) {StringBuffer ans new StringBuffer();int n Math.max(a.length(), b.length()), carry 0;for (int i 0; i < n; i) {carry i < a.length() ? (a.charAt(a.leng…

基于云制造的智能工厂简单介绍

基于云制造的智能工厂是利用云制造服务平台&#xff0c;以制造资源层、现场控制层、车间执行层、企业管理层、平台应用层、企业协同的业务需求和集成协作为牵引&#xff0c;综合基于云制造服务平台的应用模式&#xff0c;同时考虑智能工厂整体安全&#xff0c;构建基于云制造的…

Gradio之blocks灵活搭建页面

这里写目录标题 搭建一个UI界面搭建上半部分的框架比例调节以及其他效果搭建下半部分左边部分搭建下半部分右边部分拓展-CSS的应用 使用标签搭建第二个页面示例 补充AccordionGroup() 搭建一个UI界面 搭建上半部分的框架 如下图&#xff0c;我们想要基本还原下图右边的UI界面…

【优选算法】——Leetcode——202—— 快乐数

目录 1.题目 2. 题⽬分析: 3.简单证明&#xff1a; 4. 解法&#xff08;快慢指针&#xff09;&#xff1a; 算法思路&#xff1a; 补充知识&#xff1a;如何求⼀个数n每个位置上的数字的平⽅和。 总结概括 5.代码实现 1.C语言 2.C 1.题目 202. 快乐数 编写一个算法来…

论文复现和点评《基于随机森林模型的个人信用风险评估研究》

作者Toby&#xff0c;来源公众号&#xff1a;Python风控模型&#xff0c;论文复现和点评《基于随机森林模型的个人信用风险评估研究》 最近Toby老师看到一篇论文热度比较高&#xff0c;下载量有665次&#xff0c;论文标题是《基于随机森林模型的 个人信用风险评估研究》 论文篇…

陪诊系统|陪诊小程序成品|陪诊系统功能

随着人们对健康的日益关注以及医疗技术的不断进步&#xff0c;陪诊小程序应运而生&#xff0c;通过提供陪同就医、医疗服务和健康管理等功能为患者和家庭成员提供了更多的便利和选择。本文将分析陪诊小程序的关键功能&#xff0c;以便更好地理解其在医疗领域的作用。 在陪诊小程…

练习项目后端代码解析注解篇(annotation)

前言 本来想从接口处入手的&#xff0c;但是一下看到接口里几十个方法&#xff0c;眼睛有点抗拒&#xff0c;想想还是先看作者写的自定义注解吧。 项目里有三个自定义注解&#xff1a; 分别是AccessLimit注解、OperationLogger注解、VisitLogger注解 AccessLimit注解 这是一…