讲解员:说话人识别

说话人或声音识别是一种利用个人声音进行识别的生物识别方式。(这是一种不同于“语音识别”的技术,“语音识别”是在单词被铰接时进行识别,而不是一种生物识别技术。)说话人的识别过程依赖于受个人声道的物理结构和个人行为特征影响的特征。

由于可用来收集语音样本的设备(例如,电话网络和计算机麦克风),它是远程身份验证的一种流行选择。由于易于集成,说话人识别与其他一些生物识别方法的不同之处在于,语音样本是动态捕获的,或在一段时间(如几秒钟)内捕获的。分析是在一个模型上进行的,在该模型中,随时间的变化被监控,这类似于其他行为生物特征,如动态签名、步态和击键识别。

语音识别的生理组成部分与个人声道的物理形状有关,声道由气道和发声的软组织腔组成。为了产生语言,这些成分与下巴、舌头和喉头的物理运动以及鼻腔通道的共振一起工作。说话的声学模式来自于气道的物理特征。

口型和发音是这种生物计量学的行为组成部分。说话人识别有两种形式:文本依赖(约束模式)和文本独立(无约束模式)。

在一个使用“文本依赖”语音的系统中,个人提出一个固定的或提示的短语,该短语被编程到系统中,可以提高性能,特别是与合作用户。

“文本独立”系统不了解演示者的措辞,在提交样本的个人可能没有意识到收集或不愿意合作的情况下更加灵活,这是一个更困难的挑战。

语音样本是水平轴上的时间波形,垂直通道上的响度波形。说话人识别系统分析语音的频率内容,并比较信号的质量、持续时间、强度动态和音调等特征。

在“文本依赖”系统中,在收集或登记阶段,个人说出一个简短的单词或短语(话语),通常使用麦克风捕捉,可以像电话一样简单。将声音样本从模拟格式转换为数字格式,提取个人声音的特征,然后创建模型。大多数“依赖文本”的说话人验证系统使用隐马尔可夫模型(HMMs)的概念,这是一种基于随机模型的方法,为个体发出的声音提供统计表示。HMM代表了语音状态的潜在变化和随时间的变化,使用上面提到的质量I持续时间/强度动态/音高特征。

另一种方法是高斯混合模型,这是一种与HMM密切相关的状态映射模型,常用于无约束的“文本独立”应用程序。和HMM一样,这种方法使用声音来创建一些表示各种声音形式的矢量“状态”,这些状态是个体生理和行为的特征。

这些方法都比较输入语音和存储语音“状态”之间的异同,以产生识别决策。注册后,在识别阶段,从提交的样本中提取相同的质量/持续时间/响度/音高特征,并与声称或假设的身份模型和其他发言者的模型进行比较。其他说话者(或“反说话者”)模型包含各种个体的“状态”,不包括声称或假设的身份。将输入语音样本和登记的模型进行比较,以产生一个“似然比”,表明输入样本来自声称或假设的说话者的可能性。如果语音输入属于声称或假设的身份,则得分将反映样本更接近声称或假设的身份模型,而不是“反说话者”模型。

说话人识别系统看似容易实现,但这却导致了该过程的重大弱点,以及对传输通道和麦克风变动性和噪声的敏感性。

当终端用户注册了一个干净的固定电话,并尝试使用一个嘈杂的移动电话进行验证时,系统可能会面临问题。无法控制影响输入系统的因素会显著降低性能。除了使用提示语的系统外,说话者验证系统也容易受到通过使用录音的欺骗攻击。反欺骗措施要求说出一个指定的和随机的单词或短语,以对抗这一弱点。

例如,系统可能请求一个随机生成的短语,以防止来自预先录制的声音样本的攻击。用户无法预测所需的随机样本,因此无法成功尝试对系统进行“回放”欺骗攻击。

目前在“文本无关”说话人识别领域的研究主要集中在超越之前讨论的低层次光谱分析。虽然光谱信息水平仍然是识别的驱动力,但将高阶特征与低阶光谱信息融合已成为一种流行的实验室技术。

说话人的识别特征,如节奏、速度、调制和语调,是基于人格类型和父母的影响;语义学、个人语言、发音和特质与出生地、社会经济地位和教育水平有关。

更高层次的特征可以与底层的低层次光谱信息相结合,以提高“文本无关”说话人识别系统的性能。

来源:国家科学技术委员会

文章主题

||||

最新的生物识别金宝搏App钱显示错误技术新闻

评论

对“讲解员:说话人识别”的3个回答

留下一个回复

这个网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据

本周阅读次数最多

公司的特色

生物识别技术研究

生物识别技术白皮书

生物识别事件

解释生物识别技术

Baidu