语音情感识别的应用与挑战
情绪在人与人之间的交流中起着重要作用。情绪识别具有很大的应用价值,成功检测人类情绪状态对于社交机器人、医疗保健、教育质量评估等一些人机交互系统具有重要意义。本文的主要观点是:
1、情感识别的基础知识和应用场景。
2、语音情感识别技术及其面临的挑战简介。
3、如何解决数据不足,我们的解决方案是什么。
1. 什么是情绪识别?
情绪是一个人对外部事件或对话活动的态度。人类的情绪一般分为:快乐、愤怒、悲伤、恐惧和惊奇。机器分析收集到的信号以获得人的情绪状态。这个过程就是情绪识别。通常,可用于情绪识别的信号包括两方面,一是呼吸、心率、体温等生理信号,二是面部表情、言语、手势等行为表现。由于获取简单,人脸和语音通常用于识别对象的情感。情绪识别有助于系统了解对象的情绪状态及其对主题或问题的态度。
在人工智能(AI)产品与人的交互过程中情感交流-语音情感识别的应用与挑战,如果能够准确把握人的当前情绪状态,并能大幅提升基于情绪状态的反应,那么人工智能产品的用户体验将得到极大提升。这在产品推荐、舆情监测、人机对话等方面具有重要意义。例如,在销售过程中,了解用户对产品的满意度,可以帮助平台制定更好的销售策略;在影视行业,了解观众对节目的情绪,有助于制定更精彩的剧情,安排具体的节目。在线时间;在人机对话中,把握人的情绪状态可以帮助智能机器人做出适当的反应,及时表达安慰和理解,提升用户体验;在舆情方面,行政部门了解公众对热门事件的情绪倾向,把握舆情走向,更及时有效地监测舆情,为政策制定提供支持。情感识别也可以应用于许多现实世界的场景。情感识别算法具有很高的研究价值。情感识别也可以应用于许多现实世界的场景。情感识别算法具有很高的研究价值。情感识别也可以应用于许多现实世界的场景。情感识别算法具有很高的研究价值。
考虑到获取难度、隐私等因素,本文的工作重点是使用语音识别说话者情绪的语音情感识别(SER)任务。
2. 语音情感识别技术介绍
言语是日常生活中交流的主要媒介,它不仅传达思想,而且表达说话者的情绪状态。语音情感识别的目标是从语音中识别出人类的情感状态。它主要包括两个步骤:特征提取和分类器构建。
音频信号输入是一个近似连续的数值。为了提取音频特征,通常首先对音频进行分帧、加窗并进行短时傅里叶变换(STFT)。然后得到维度T×DT \times DT×D的谱特征,其中TTT表示帧数与时间长度有关,DDD为特征维度,每个维度对应不同的频率。有一些工作也对该频谱进行了一些梅尔过滤。
频谱特征包含丰富的信息,如语音内容、节奏、语调、语调等。与情感相关的语音特征提取仍然是一个不成熟的研究方向。深度学习的出现简化了人工特征提取过程,采用数据驱动的方法,使用情感标签作为监督信号,训练深度模型提取情感相关的潜在语义特征。由于音频输入的序列化特性,深度特征提取通常也有基于CNN/GRU/LSTM的方法,或者基于CRNN或CNN+Attention的方法。
传统的机器学习方法可以基于人工语音特征或深度语音特征构建分类器,如高斯混合模型(GMM)、隐马尔可夫模型(HMM)、支持向量机(SVM)等经典方法。此外,由于深度学习的发展,基于神经网络的分类器可以与深度特征提取器一起进行端到端的训练,以获得情感分类器。
3. 语音情感识别的挑战
我们已经介绍了语音情感分析中常用的方法,但是语音情感识别在实践中也面临一些挑战:
情绪主观性和模糊性问题:语音情绪识别是一个相对年轻的领域,缺乏官方对情绪的定义标准。不同的听众可能对同一演讲的情绪有不同的看法。另外,一段演讲往往有情绪变化,主观性很强,导致很多研究工作缺乏普遍性。