【CN109885713A】基于语音情绪识别的表情图像推荐方法以及装置【专利】

cckp
0 ℃
2021-04-12

整理文档很辛苦，赏杯茶钱您下走！

还剩 ... 页未读，继续阅读 >>

免费阅读已结束，点击下载阅读编辑剩下 ... 页

阅读已结束，您可以下载文档离线阅读编辑

资源描述

(19)中华人民共和国国家知识产权局(12)发明专利申请(10)申请公布号(43)申请公布日(21)申请号201910005338.9(22)申请日2019.01.03(71)申请人刘伯涵地址266580山东省青岛市黄岛区长江西路66号(72)发明人刘伯涵　(51)Int.Cl.G06F16/58(2019.01)G06F16/53(2019.01)G10L15/02(2006.01)G10L15/08(2006.01)G10L25/03(2013.01)G10L25/63(2013.01)H04L12/58(2006.01)(54)发明名称基于语音情绪识别的表情图像推荐方法以及装置(57)摘要本发明是关于一种基于语音情绪识别的表情图像推荐方法、装置、电子设备以及存储介质。所述方法包括：获取即时通信软件的当前交互窗口中的最新若干条语音信息，并提取所述语音信息的音频特征向量；将所述语音信息的音频特征向量与多个情绪特征模型进行匹配，其中所述多个情绪特征模型分别对应多个情绪分类之一；将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类，作为所述语音信息的情绪分类；基于所述语音信息的情绪分类确定一个或多个目标表情图像，并将所述目标表情图像推荐给当前用户。本发明提高了选择表情图像的效率。权利要求书2页说明书9页附图3页CN109885713A2019.06.14CN109885713A1.一种基于语音情绪识别的表情图像推荐方法，其特征在于，包括：获取即时通信软件的当前交互窗口中的最新若干条语音信息，并提取所述语音信息的音频特征向量；将所述语音信息的音频特征向量与多个情绪特征模型进行匹配，其中所述多个情绪特征模型分别对应多个情绪分类之一；将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类，作为所述语音信息的情绪分类；基于所述语音信息的情绪分类确定一个或多个目标表情图像，并将所述目标表情图像推荐给当前用户。2.根据权利要求1所述的表情图像推荐方法，其特征在于，所述音频特征向量包括：能量特征向量、发音帧数特征向量、基音频率特征向量、共振峰特征向量、谐波噪声比特征向量以及梅尔倒谱系数特征向量中的一种或多种。3.根据权利要求1所述的表情图像推荐方法，其特征在于，所述方法还包括：获取多条被预先标记好情绪分类标签的语音信息作为样本语音信息；基于所述样本语音信息对初始情绪特征模型进行训练，得到所述情绪特征模型。4.根据权利要求3所述的表情图像推荐方法，其特征在于，基于所述样本语音信息对初始情绪特征模型进行训练包括：根据情绪分类标签，对各所述样本语音信息进行聚类处理，得到预设情绪分类的聚类结果；以及根据所述聚类结果以及所述初始情绪特征模型，将每个聚类中的所述的样本语音信息的特征向量训练为一个所述情绪特征模型。5.根据权利要求1所述的表情图像推荐方法，其特征在于，将所述语音信息的音频特征向量与多个情绪特征模型进行匹配，包括：分别计算所述语音信息的音频特征向量与所述各所述情绪特征模型之间的似然概率；如果一所述情绪特征模型对应的似然概率最大且大于预设阈值，则认为该所述情绪特征模型与所述语音信息相匹配。6.根据权利要求1所述的基于语音情绪识别的表情图像推荐方法，其特征在于，所述基于所述语音信息的情绪分类确定一个或多个目标表情图像，包括：预先对与所述当前用户关联的所有表情图像进行分析，以为各所述表情图像标记情绪分类标签；如果一个或多个表情图像的情绪分类标签与所述语音信息的情绪分类相匹配，则将所述一个或多个表情图像均确认为目标表情图像。7.根据权利要求1所述的基于语音情绪识别的表情图像推荐方法，其特征在于，将所述目标表情图像推荐给当前用户，包括：根据预设规则，从所述目标表情图像中选取一个或多个表情图像作为优先推荐表情图像；直接向当前用户呈现所述优先推荐表情图像，以供所述当前用户选择；在接收到控件展开操作时，向当前用户呈现所述优先推荐表情图像之外的目标表情，以供所述当前用户选择。权　利　要　求　书1/2页2CN109885713A28.一种基于语音情绪识别的表情推荐装置，其特征在于，所述装置包括：特征向量提取模块，用于获取即时通信软件的当前交互窗口中的最新若干条语音信息，并提取所述语音信息的音频特征向量；特征模型匹配模块，用于将所述语音信息的音频特征向量与多个情绪特征模型进行匹配，其中所述多个情绪特征模型分别对应多个情绪分类之一；情绪分类确定模块，用于将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类，作为所述语音信息的情绪分类；目标表情推荐模块，用于基于所述语音信息的情绪分类确定一个或多个目标表情图像，并将所述目标表情图像推荐给当前用户。9.一种电子设备，其特征在于，包括：处理器；以及存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据权利要求1至7中任一项所述的方法。10.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至7中任一项所述方法。权　利　要　求　书2/2页3CN109885713A3基于语音情绪识别的表情图像推荐方法以及装置技术领域[0001]本发明涉及语音识别技术领域，具体而言，涉及一种基于语音情绪识别的表情图像推荐方法、装置、电子设备以及计算机可读存储介质。背景技术[0002]目前各种社交软件逐步普及，且移动设备的使用率更高，因为其功能多、使用方便、费率低、个性化等特点，通过社交软件聊天沟通甚至已经逐步取代了部分电话、短信的沟通方式。其中在社交软件聊天时，聊天表情的使用是不可或缺的一部分功能，聊天表情是社交软件个性化沟通的一种体现方式，设计、制作聊天表情也已经成为一种职业和商业。[0003]为了推广聊天表情及增加沟通的乐趣，有些社交软件在聊天时，通过针对用户输入的聊天内容进行触发表情，当用户输入的文字内容能够与系统库中表情进行匹配时，便在聊天界面进行提示，然后用户可以选择表情进行发送。但目前有使用这种推荐方式的社交系统比较少，且是采取精确匹配的方式，有一个字匹配不到表情就不会提示。[0004]在相关技术中，围绕表情图像推荐这个主题的方案都是对用户输入的文本内容进行分析，并根据分析结果进行表情推荐。但一方面，由于文字本身承载感情的能力有限，而且多数用户的并不具备非常专业的文字表达能力，因此输入的文本内容经常难以承载其当时的情感信息；这样，基于文本内容分析而向用户推荐的表情经常与用户想要表达的感谢不符；另一方面，在用户刚开始一个新的聊天时，由于上下文信息较少，这样则很难准确的基于文本内容进行表情推荐。[0005]因此，需要提供一种更加有效的表情图像推荐方法，以至少能够解决上述一个或多个技术问题。[0006]需要说明的是，在上述背景技术部分公开的信息仅用于加强对本发明的背景的理解，因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。发明内容[0007]本发明的目的在于提供一种基于语音情绪识别的表情图像推荐方法、装置、电子设备以及计算机可读存储介质，进而至少在一定程度上克服由于相关技术的限制和缺陷而导致的一个或者多个问题。[0008]根据本发明的一个方面，提供一种基于语音情绪识别的表情图像推荐方法，包括：[0009]获取即时通信软件的当前交互窗口中的最新若干条语音信息，并提取所述语音信息的音频特征向量；[0010]将所述语音信息的音频特征向量与多个情绪特征模型进行匹配，其中所述多个情绪特征模型分别对应多个情绪分类之一；[0011]将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类，作为所述语音信息的情绪分类；[0012]基于所述语音信息的情绪分类确定一个或多个目标表情图像，并将所述目标表情说　明　书1/9页4CN109885713A4图像推荐给当前用户。[0013]在本发明的一种示例性实施例中，所述音频特征向量包括：能量特征向量、发音帧数特征向量、基音频率特征向量、共振峰特征向量、谐波噪声比特征向量以及梅尔倒谱系数特征向量中的一种或多种。[0014]在本发明的一种示例性实施例中，所述方法还包括：[0015]获取多条被预先标记好情绪分类标签的语音信息作为样本语音信息；[0016]基于所述样本语音信息对初始情绪特征模型进行训练，得到所述情绪特征模型。[0017]在本发明的一种示例性实施例中，基于所述样本语音信息对初始情绪特征模型进行训练包括：[0018]根据情绪分类标签，对各所述样本语音信息进行聚类处理，得到预设情绪分类的聚类结果；以及[0019]根据所述聚类结果以及所述初始情绪特征模型，将每个聚类中的所述的样本语音信息的特征向量训练为一个所述情绪特征模型。[0020]在本发明的一种示例性实施例中，将所述语音信息的音频特征向量与多个情绪特征模型进行匹配，包括：[0021]分别计算所述语音信息的音频特征向量与所述各所述情绪特征模型之间的似然概率；[0022]如果一所述情绪特征模型对应的似然概率最大且大于预设阈值，则认为该所述情绪特征模型与所述语音信息相匹配。[0023]在本发明的一种示例性实施例中，所述基于所述语音信息的情绪分类确定一个或多个目标表情图像，包括：[0024]预先对与所述当前用户关联的所有表情图像进行分析，以为各所述表情图像标记情绪分类标签；[0025]如果一个或多个表情图像的情绪分类标签与所述语音信息的情绪分类相匹配，则将所述一个或多个表情图像均确认为目标表情图像。[0026]在本发明的一种示例性实施例中，将所述目标表情图像推荐给当前用户，包括：[0027]根据预设规则，从所述目标表情图像中选取一个或多个表情图像作为优先推荐表情图像；[0028]直接向当前用户呈现所述优先推荐表情图像，以供所述当前用户选择；[0029]在接收到控件展开操作时，向当前用户呈现所述优先推荐表情图像之外的目标表情，以供所述当前用户选择。[0030]根据本发明的一个方面，提供一种基于语音情绪识别的表情推荐装置，所述装置包括：[0031]特征向量提取模块，用于获取即时通信软件的当前交互窗口中的最新若干条语音信息，并提取所述语音信息的音频特征向量；[0032]特征模型匹配模块，用于将所述语音信息的音频特征向量与多个情绪特征模型进行匹配，其中所述多个情绪特征模型分别对应多个情绪分类之一；[0033]情绪分类确定模块，用于将匹配结果为相匹配的所述情绪特征模型所对应的情绪分类，作为所述语音信息的情绪分类；说　明　书2/9页5CN109885713A5[0034]目标表情推荐模块，用于基于所述语音信息的情绪分类确定一个或多个目标表情图像，并将所述目标表情图像推荐给当前用户。[0035]在本发明的一个方面，提供一种电子设备，包括：[0036]处理器；以及[0037]存储器，所述存储器上存储有计算机可读指令，所述计算机可读指令被所述处理器执行时实现根据上述任意一项所述的方法。[0038]在本发明的一个方面，提供一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据上述任意一项所述的方法。[0039]本发明的示例性实施例中的基于语音情绪识别的表情图像推荐方法，首先提取用户最近的语音信息的音频特征向量，并基于音频特征向量确定语音信息的情绪分类，其次基于语音信息的情绪分类确定一个或多个目标表情图像，并将目标表情图像推荐给当前用户。一方面，解决了解决了相关技术中从庞大的系统表情库找到与目前情绪较为匹配的表情工作量较大且需要耗费较长时间的问题。另一方面，当前用户可以直接从推荐的表情图像中选取喜欢的表情图像，不需要在表情库中浏览大量的表情图像来进行选择，减少了选择表情图像花费的时间，提高了选择表情图像的效率。再一方面，相比于基于文本分析的情绪识别而言，基于语音信息的音频特征向量识别的情绪更加准确，因此推荐表情图像的准确性也可以相应的得到提高。[0040]应当理解的是，以上的一般描述和后文的细节描述仅是示例性和解释性的，并不能限制本发明。附图说明[0041]通过参照附图来详细描述其示例实施例，本发明的上述和其它特征及优点将变得更加明显。[0042]图1示出了根据本发