电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛

标题: 关于音频检索技术 [打印本页]

作者: chenchao8848 时间: 2006-7-26 13:18 标题: 关于音频检索技术

基于内容的音频检索fficeffice" />

一般步骤：1 先得到音频的特征

2 在特征突变的地方分割出数据片断

3 对数据片断进行分类，是语音或者是音乐，另外还有静音和噪音（此处需要一些特征值如过零率，亮点等）

4 根据分类的不同对音频建立索引库

作者: chenchao8848 时间: 2006-7-26 13:19

音频信号特征提取与表达寻找原始音频信号表达形式，提取能代表原始信号的数据。

分为两种：

1 提取每个叠加音频帧的特征

首先对音频数据进行加窗处理形成帧，加窗大小在几到凡十微秒，相邻帧之间一般有30%-50%的叠加。然后对每一帧作离散傅立叶变换(DFT)，实际上常用快速傅立叶变换(FFT )，得到傅立叶系数F(w)和频域能量，最后应用不同算法计算相应的帧特征。常见特征有:

平均能量

过零率:指在一个短时帧内，离散采样信号值由正到负和由负到正变化的次数。

静音比：表示静音的声音片段的比例。

频率中心(亮度）

带宽

谐音

音调，可通过频谱估计

子带能量:将频域划分为4个子带区间并计算各自的子带能量

线性预测系数:在一个短时帧内，用有限个参数的数学模型来近似表示音频采样序列x(n)，这些参数就成为x(n)的重要特征，叫做线性预测系数。

倒谱系数，如LPC倒谱系数，Delta倒谱系数，Mel倒谱系数MFCC

作者: chenchao8848 时间: 2006-7-26 13:20

2 对音频片断，提取音频帧的统计特征。对帧特征计算其标准偏差、数学期望和方差把帧特征推广成片段特征。

作者: chenchao8848 时间: 2006-7-26 13:21

分类根据音频的特征值可将音频分类。常见的分类方法是:首先计算输入音频片段的频谱中心，如果其频谱中心值比预先设定的阈值高，则认为它是音乐;否则它是语音，但由于有的音乐也具有低的频谱中心值，因此它也可能是音乐。其次，计算静音比，如果它的静音比低，则认为它是音乐;否则，认为它是语音或独奏音乐。最后计算平均过零率GCR，如果它有着非常高的GCR 可变性，则它是语音，否则则它是独奏音乐。

作者: chenchao8848 时间: 2006-7-26 13:22

检索1。语音识别ASR

2。音乐：

l 结构化，Midi，音符描述，可精确匹配

l 基于样本

ü 特征集

对每种声音(包括查询)抽取听觉特征集，将其表示成一个矢量。通过计算查询音乐和每个存储音乐片段相应的特征矢量之间的近似度来计算它们的相似性。可对每个帧计算其特征矢量，然后用统计学中的参数来表示每个特征。查询矢量和每个存储的音乐片段的特征矢量之间的欧几坦德距离或Manhattan距离，可用作它们之间的距离。

ü 音调

作者: chenchao8848 时间: 2006-7-26 13:27

语音信号处理中的端点检测技术是从包含语音的一段信
号中确定出语音的起始点及结束点3有效的端点检测技术不
仅能使系统的处理时间减少到最少5处理帧数最少6&提高系
统的处理实时性&而且能排除无声段的噪声干扰&从而使后续
的识别性能得以较大提高3
根据端点确定与以后判决是否有关&常用的端点检测方
法有显式法4隐式法及综合法3
显式法7端点确定与以后判决无关3
隐式法7端点确定与以后判决有关3
综合法7即先用显式法确定大致的端点&后用隐式法精确
定出端点3
隐式法在实时处理时要用到反馈判决机制&算法压力大&
现有的1*2芯片很难胜任3综合法虽然算法压力较小&但算
法较为复杂3能量与过零率检测法是一种最常用方法&但其并
非实时化的算法&这种方法需要大量存储空间储存语音原始
数据3下面介绍一种基于语音能量状态变迁的显式端点检测
方法3
二4基于语音能量状态变迁的端点检测方法
基于语音能量状态变迁的端点检测方法包含了一个测定
短时能量的前向过程3先用自适应均衡能量的方法估测出语
言信号的背景平均能量&在此基础上测定语言能量轮廓&把每
个短时语言能量按一定的能量门限值转换为状态值3最后按
能量门限值和能量状态数值序列的逻辑关系进行端点检测3
这种方法算法压力小&存储空间小&很适合在1*2上实时运
行3该方法的基本实现框图如图8所示
其能量状态变迁示意如图,所示
9 9 9 9
3
图8 基于语音能量状态变迁的端点检测方法框图
9
9
: 9
;
<
<
<
<
<
自适应能量能量脉冲检测端点确定
图, 能量状态变迁示意图
.> .= 声明语音结束
./
.0
.+
.,
.8
上升下降态/
能量下降态0
能量持续态+
能量上升态,
静音态8
起始态-
声明语音开始
图,中&根据能量的大小和持续时间&将整个语音过程分
成六个状态&分别是初始态5-64静音态5864能量上升态5,64
能量持续态5+64能量下降态5064上升下降态5/64其状态变迁
的条件取决于转变的条件3其中7
.87初始态次数大于背景能量的统计帧数3
.,7能量大于起始能量阈值3
.+7能量大于持续能量阈值3
.07能量小于起始能量阈值3
./7能量大于起始能量阈值3
.>7上升下降态次数大于突起干扰能量帧数5例如嘴唇摩
擦声4重呼吸4牙齿摩擦声都是突起干扰63
.=7能量小于起始能量阈值并且能量下降态次数大于最
大无声语音间隔帧数3

作者: gloria 时间: 2006-11-16 10:11

版主做过音频检索的项目吗？

我现在在做这方面的调研，有很多不懂的，希望版主多多指教！！

作者: chenchao8848 时间: 2006-11-16 13:37

呵呵

语音方面的处理不多

刚做了一个声音振动的项目借鉴了一下语音处理方面的技术所以也就相关的研究，看了一下相关的资料．

如果有什么问题可以提出来讨论一下

作者: gloria 时间: 2006-11-16 14:29

目前国内音频检索技术的发展情况怎么样了？

做这个的多吗？有什么单位在做啊？

你有相关的资料吗？

作者: gloria 时间: 2006-11-16 14:47

我知道中科院的中科信利语音实验室在哼唱检索中取得了很大的进展！

作者: chenchao8848 时间: 2006-11-17 09:55

基于压缩域特征话者识别的多媒体分类检索

在这里先送你一篇文章看看,了解一下基本的技术.

[Post=3]

cixkUNA7.rar (434.09 KB)
[/Post]

附件: [关于音频检索技术] cixkUNA7.rar (2006-11-17 09:54, 434.09 KB) / 下载次数 305
http://bbs.eccn.com/attachment.php?aid=241&k=d5b5e43eea6ea7f87fcd44af3a2f8ac8&t=1718400230&sid=jJxjqZ

作者: gloria 时间: 2006-11-30 15:03

谢谢版主！！！

好久没来了！最近忙开题呢！！终于结束了！题目就定为基于内容的音频检索技术研究了。

现在已经知道音频检索是怎么一回事了。具体怎么做还不是很明白了！

作者: gloria 时间: 2006-11-30 15:06

文章我已经下下来了，大体浏览了一下！非常不错！我要仔细研读了！有问题再和版主讨论！！

再次感谢版主！！！

作者: gloria 时间: 2006-11-30 15:48

终于读完了！的确是篇好文章！获益匪浅啊！

版主有好文章多给我几篇吧！谢谢了！！！

作者: xiaoyuewanli 时间: 2006-12-8 10:19

原来做过，没什么结果。。。5555

作者: scvbluebaby 时间: 2007-2-28 15:20

做这个有前途么？你们觉的呢？

作者: chenchao8848 时间: 2007-3-1 10:00

还是有很大的市场的

一个比较成熟的应用领域,大家都喜欢使用

关于前途的问题还是看个人的价值观趋向

欢迎讨论^

作者: cathielee 时间: 2007-11-2 16:31

thank you for sharing

作者: ourxiaozi 时间: 2008-10-9 21:04

thanks!

作者: fjczd 时间: 2009-1-4 13:31

QUOTE:

以下是引用gloria在2006-11-16 14:29:00的发言：

目前国内音频检索技术的发展情况怎么样了？

做这个的多吗？有什么单位在做啊？

你有相关的资料吗？

建议到www.cpubbs.com看看,那的资料不少,人气也挺旺的

欢迎访问我的博客
http://blog.sina.com.cn/mylabview
labview开发工具及翔实资料(正版破解)

作者: weisili 时间: 2009-1-25 13:04

啊，我一直想做一个唱K的软件，但是没有MTV只用MP3，按版主的这种说法看来是有希望了

作者: fest 时间: 2009-2-10 17:08

学习了

作者: fest 时间: 2009-2-10 17:08

楼主好人啊

欢迎光临电子技术论坛_中国专业的电子工程师学习交流社区-中电网技术论坛 (http://bbs.eccn.com/)