通过采集大量的样本制作音频检测数据集,其中挖掘声音的背景中包含车辆等噪声,以适应多种场景。




利用深度学习的方法来识别挖掘声音,采用深度残差网络(Resnet)来进行分类,Resnet是一种比较常用的分类算法,能够解决传统卷积神经网络由于网络的加深造成的梯度爆炸和梯度消失问题,具有较高的准确率和计算效率。

这是Resnet34的网络结构,该网络除了开始卷积池化和末端的池化全连接之外,引入了残差块,解决网络深度太大时梯度消失的问题。
首先将经过预处理的含挖掘和不含挖掘的音频从时域转换为频域生成梅尔频谱,作为神经网络的输入部分,对网络进行多次迭代训练直至模型达到收敛,将训练好的模型用于识别挖掘的声音,达到了较高的准确率(97%)。




这是预测的流程
。