All Stories

Rnnoise是如何工作的

几个月前,看到一个开源的Rnn降噪程序,我对其作了修改对一个带噪音频进行降噪,发现效果真的比传统的降噪算法(webrtc中的降噪模块)好了很多。当时看着挺复杂的,我没有深究它的原理,几个星期前总监让我做一个自研的Rnn降噪程序,我查询了一些资料,发现Rnnoise的设计真的挺自然而精妙的…

声源定位-GCC-PHAT

前几天工作中发现DOA这东西挺好玩的,于是这两天在做声源方向估计的工作,我使用GCC-PHAT(广义互相关-相位变换)实现了声源方向估计,遗憾的是,由于条件所限,只实现了双麦克风下的声源估计。。。

图片转音频

第一次接触到声谱图,在声谱图上编辑音频的时候,我就在想如果我在声谱图上编辑出各种图案,最终的音频会变成什么样子?前一阵子在某平台上看到一篇文章,里面说到某次演唱会上一个歌手就把自己的头像放进了自己的歌曲的最后一段里,并在最后突然显示出来。这听起来真是一件很有趣的事。最近我就用python实现了一个程序,把自己的自拍照转为音频,并且让音频能比较清晰的播放出有意义的声音······

使用c/c++实现utf8编码转gbk编码的两种方法

最近工作中遇到一个问题,需要把中文语句转换成对应的音素,如“增大音量”需要转换成“[z-eng] [d-a] [ii-in] [l-iang]”。boss给我提供了一个python实现的程序,需要我用c/c++实现一遍。python实现中大致分为两步:汉字转拼音、拼音转音素。其中汉字转拼音python中是由一个库实现的,要如何用c来实现这一功能呢?我在网上找到一个把gbk编码的汉字映射成拼音的表,但是程序要求的输入是utf8编码的汉字,所以就需要实现utf8编码转gbk编码。

回声消除算法

无论是在空旷的屋子里还是幽深的山谷中,我们都很容易听到回声。回声虽然听着很好玩,但是在一些场景中却必须要去除回声,比如免提电话、电话会议系统等情形。本文将主要讨论回声消除算法的归一化最小均方算法(Normalized Least Mean Square)。