婴儿啼哭是向成年人反映婴儿生理机能的主要交流形式。检测婴儿哭闹的类型有助于了解婴儿的现状,有助于早期发现病理疾病[1]。科学家们认为,婴儿的哭声和成人的哭声一样,因此,对婴儿哭声识别的研究应参考成人的语音识别。婴儿哭闹的声学信息在不同类型的哭闹中显示出显著差异,这将有助于使用机器学习进行婴儿哭闹识别[2]。过去正在进行许多婴儿哭闹识别研究,可将其分为两大类,即使用声学参数的统计分析和分类研究以及与机器学习相关的婴儿哭闹辨识研究。在本文中,我们将建议使用机器学习方法来建立一个模型,该模型可用于对不同类型的婴儿哭声进行分类。成人语音识别中使用的机器学习类型可以在婴儿的哭声识别研究中重复,前提是不同类型哭声的声学特征有明确的边界。因此,婴儿的哭声识别实验过程与成人的语音识别研究过程相同。RBN和CNN是两种著名的深度学习神经网络模型,已用于图像和语音识别[3]。婴儿哭声的声学特征首先被转换为接近人类耳朵感知的数学模型,称为梅尔频率倒谱系数(MFCC)[4]。RBN具有分布式隐藏状态,可以对不同的婴儿哭声进行建模和分类。这可以确保馈送到RBN中的声学特征与不同类型的婴儿哭闹相关联,使得RBN可以将高维的原始数据定位为可以馈送到CNN中的相关的低维数据。由于隐藏层之间没有连接,RBN在很大程度上将原始MFCC分解为仅可见的隐藏连接,这意味着婴儿的哭声识别问题被转换为二分图问题,该问题可以使用RBN中的吉布斯采样或其他数学模型解决[5]。通过将RBN堆叠成几层,形成的深层信任网可以与CNN联系起来。CNN在图像识别中的应用是因为它能够很好地处理通常由曲线和边界形成的图像的原始数据的维度。然而,CNN不适合直接对MFCC本地频率进行模式化,因为在该CNN中存在卷积层,该卷积层具有以有限带宽对输入信号进行卷积的滤波器。为了解决这个问题,我们建议使用RBN作为CNN的预训练,使该MFCC像一个静态频谱一样,可以进行相关变换,并在相关的局部过程频谱中表示婴儿的哭声[6]。
声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。