盛大语音创新院哼唱搜索正式开源

分类: 产品资讯 作者: admin 2010-11-17

humming
哼唱检索是语音领域中比较基础的技术之一,并且哼唱搜索是一个非常好的了解语音技术的样例,所以我们提供了这个开源产品,作为对于语音技术感兴趣的朋友的一个学习和了解的材料。尽管语音哼唱搜索技术比较简单,不过盛大语音创新院在这款哼唱检索开源软件实现过程中采用了很多新的技术和思路,实现了非常好的搜索效果,并且识别率极高,已经达到了世界领先水平。

语音哼唱检索介绍

语音哼唱检索是一种基于旋律内容的音乐检索方式,指用户哼唱歌曲旋律的一个片段(八秒左右)作为输入检索源从数据库中检索与哼唱的旋律类似的音乐;相对于传统的基于关键字形式的用户接口,哼唱检索给用户提供了更便捷、更友好的查询方式,不仅作为传统检索方式的一种有益补充,而且能给用户带来更佳的搜索体验。

语音哼唱检索可以在很多场景应用,比如卡拉OK 点歌系统;移动设备上的音乐检索;互联网音乐搜索引擎;歌曲演唱评分与纠错等等。

盛大网络语音哼唱检索开源软件介绍:

盛大语音创新院哼唱检索开源软件,从结构上可以分为三部分:

  • 旋律库构建模块,
  • 哼唱旋律特征提取模块,
  • 旋律相似度搜索模块。

构建旋律库模块,通过对MIDI文件的分析,提取MIDI歌曲的主旋律作为旋律模板,保存在旋律数据库中;检索时,首先从输入的哼唱语音中提取旋律特征(现在用的是基频曲线和音符序列特征),然后在旋律库中检索与输入语音相似的旋律模板,并按照相似度排序后作为哼唱检索结果输出。

盛大语音创新院哼唱检索开源软件特点:

为音频信息处理领域的入门学习者提供了完整的学习案例和试验平台;本软件具有良好的扩展性,用户可根据需求制作自己的音乐旋律库;识别准确率高,响应速度快,本软件的前身LWX(LW1, LW3)在2008年的国际哼唱音乐检索评测中获得第一名,详情请参见http://www.music-ir.org/mirex/wiki/2008:Query-by-Singing/Humming_Results

盛大语音创新院介绍

盛大语音创新院目前有近20人的团队,团队成员均为国内语音领域的资深专家,团队成员曾在从2002年到2010年数届NIST(美国国家标准技术署, National Institute of Standards and Technology ,NIST, ww.nist.gov )比赛中取得多项第一的成绩。NIST目前举办着多项计算机领域的高水平评测项目,每一项都代表着该领域的世界顶尖水平。

盛大语音创新院哼唱检索开源软件版权及相关说明:

  • 本次开源的语音哼唱检索引擎涉及3850行代码,除特别声明外本软件所含所有源代码均遵守GPL(General Public License)协议第三版本;
  • 盛大网络语音哼唱检索软件使用到了盛大模糊检索引擎,该引擎是盛大智能检索系统的一部分,在本软件中以二进制库文件的形式提供,文件名为SDFuzzySearch.lib或SDFuzzySearch.dll。该引擎将在半年后(2011年5月18日)对外开源。
  • 为方便大家对本软件进行测试和评估,制作了一个可检索100首音乐的旋律库,对于旋律库,盛大网络提供的权利仅限于此。任何人不得将其用于除此以外的任何用途特别是商业用途。
  • 本软件引用了部分第三方代码,例如midfile.h, midfile.c。并且该代码的软件许可证允许其随本软件一起发布。任何人对这些第三方代码的使用将遵守其本身的软件许可证,该许可证将在这些第三方源代码的文件顶部找到。

盛大语音创新院哼唱检索软件: 下载(下载包中提供了安装和使用说明)

标签: