语音生物识别入门

这是一篇由Steve Hoffman撰写的客座文章,他是SayPay科技公司的首席执行官。

概述

像苹果的Siri和OK Google这样的语音识别服务已经成为将数据输入手机这一繁琐、令人沮丧和耗时的工作的便捷替代品。语音识别已经存在多年,包括Dragon(Nuance)、Cortana(微软)和Alexa(亚马逊)等产品。因此,人们自然会认为语音和语音识别是同义词。

语音识别是练习使用软件识别声波并将其转换为数字表示,以便执行搜索或文本听写。与键入的单词相比,语音识别可以是一种惊人的时间 - 节省工具。

语音识别(或有时称为“说话人识别”)是将语音表达与特定的、唯一的数字表示相匹配,作为身份验证的一种手段。语音识别引擎分析大量语音数据样本,这些数据包含不同年龄、性别、种族背景、社会和地理背景的各种人所说的话。该系统创建的数字表示具有非常高的正确解释概率。每个人的声音都是基于生理和行为特征的独特构造。生理方面是根据每个人的口、喉、喉、鼻腔的大小和形状,体重等因素;这就形成了我们自然的音高、音调和音色。行为属性是那些基于语言、教育/影响和地理位置形成的,并导致说话的抑扬顿音、语调变化、口音和方言。

语音识别建模

语音识别比语音识别更具体,需要更多的处理和分析。语音识别将更广泛的自由应用于将语音转换为文本,而语音识别不仅必须将语音转换为文本,还必须分析和比较每个语音和一个主声纹的多达100个独特特征。

启动一个成功的语音识别程序首先需要为预期的地理位置收集一组语音样本。虽然英语是全世界通用的语言,但每个单词或句子的发音都因每个人所学的语言属性而有所不同。因此,英语的发音因国家和地区而异。即使在英国,当来自伦敦、苏格兰和爱尔兰的人说英语时,英语也很独特。在美国,口音与来自东北、南部和西部不同地区的口音是不同的。

每个位置需要多少语音数据样本并不是固定的,但语音越多,模型的质量越高。为了验证语音解决方案的有效性,语音数据专家们推荐了以500个声音为起点的数据集。

招生

语音识别有效性与在注册期间仔细和刻意最佳实践之后直接相关。注册通常是一种简单而快速的过程,要求用户讲三个或四次的密码或一系列。自然而然地说出最重要的做法,然后在没有背景或环境噪声的情况下注册环境。使用您的正常声音自然地说话是重新创建每个附加语音条目的最佳方式,以便与主语音打印进行比较。自然而然地使用相同的色调,体积等。好像你在你旁边的熟人谈到。更容易复制您的自然声音,而不是任何其他方式。许多人犯了更严重的体积,力甚至听起来讲的错误 - 尽量避免使用语音识别时避免这些陷阱。作为背景噪声(例如,交通,粉丝,其他人发言,音乐/电视,机械等)扭曲了入学或比较期间语音集合的纯度,用户应该额外地小心寻求噪音很少或没有噪声的环境。输入设备也会影响语音处理的质量;较新的手机通常具有更高质量的数字麦克风和噪声消除处理。 (If you’ve ever noticed a small pin-hole on the back of your phone, that is a microphone that collects background noise and generates inverse sound waves for noise cancellation.)

自学

在语音注册之后,新用户有时会遇到比经验丰富的同行更低的成功率,并且可能需要在每次成功之前提交多次语音尝试。语音识别是一门不完善的科学,但在使用过程中可以获得较高的准确率。新用户有时不像那些有经验的人那样放松,他们已经学会了语音处理的细微差别和特性。学习曲线通常不太难,大多数人在几次尝试后就掌握了。此外,大多数语音引擎都是自学习的,并在每个后续条目中细化每个人的声纹。每一次声纹更新都会添加一个新的样本,该样本丰富了整个语音模型的速度和广度,从而不断提高成功率。随着时间的推移,即使是从中等到中等噪音环境提交的条目也可以接受。

声音处理

高质量的语音识别需要在服务器类设备上进行上游处理。虽然提供了一些本地设备验证的解决方案,但误报率(误接受语音输入,而不是原始所有者)急剧增加。与能够分析和评分数百个验证条件的大型在线数据集相比,本地认证仅限于测试更少的验证条件。188游戏盒子下载考虑部署语音认证解决方案的公司应该以提供虚假接受率(FAR)~ 0.01%和虚假拒绝率(FRR) ~1%-3%的行业标准的解决方案为目标。请记住,大多数解决方案并不依赖语音作为身份验证的唯一因素。对于多因素身份验证,语音识别只是两个或多个因素中的一个,就像识别用户设备一样。

语音身份验证有两个主要的味道文本相关,文本独立。文本依赖性比较了6-10个音节语音“样本”对主“语音打印”并计算精度分数。文本独立捕获更长的语音输入到语音模型中,并识别跨越更广泛的频谱的语音方式。文本依赖项需要较少的数据,但每个用户的活动注册(虽然〜30秒)。文本独立需要有明显更多的数据,需要更长的时间来处理,但无需请求任何特定话语的情况下重新加入用户。两者都已成功部署用于呼叫中心识别,但文本依赖性是网站登录等功能的唯一可行选项,必须快速方便。

语音评分

语音引擎对每次语音尝试进行评分,并以红色、黄色或绿色指示灯类型的状态响应身份验证管理器。绿灯表示以高分通过;黄灯表示已通过,但成绩不佳;红灯当然意味着参赛作品以不可接受的分数失败。绿灯输入自动添加到声纹模型;如果二级身份验证因素(如PIN或密码)成功,则添加黄灯条目。不添加红灯状态。一些口音很重的用户或说话不符合集体规范的用户可能会在早期使用语音识别时感到沮丧。这些用户可能需要使用PIN或密码来覆盖语音拒绝,以提供身份验证,直到他们的语音指纹配置文件被更多的语音样本充实。

基于数字的语音认证

使用数字的优势提供了密码短语或其他生物识别方法无法提供的新机会。说出一个值允许用户同时提供他们的身份和身份验证凭证——就像在一个自包含的包中组合用户名和密码一样。当前用于登录的密码短语用例要求用户输入或说出他们的账号,然后系统提示他们说出密码短语。为什么用户需要执行两个动作,当说账号可以识别用户和包含他们的生物识别身份?随着客户体验成为所有服务的中心主题,客户要求的任何不必要的行动都需要仔细检查。

与密码相比,数字的第二个优势是能够识别特定的交易或“身份验证事件”,这将语音生物识别技术扩展到有限的网站登录之外。当交易收到数字ID时,它使用户能够直接为该功能提供服务,而无需通过简单地说出交易ID来支付账单或批准电汇等不必要的导航。该ID可以是分配给交易的各种号码中的任何一个,包括发票、账户或客户号码。在SayPay,我们使用一种算法自动创建一个交易标识符,该算法将用户、金额和交易各方转换为保证唯一的8位数值。当用户说出每一个独特的“语音标记”时,他们应用他们的生物特征签名,该签名以不可否认的方式形成。即使身份验证争议在生物识别技术中可能很少见,但语音令牌在数字上相当于公证人印章,可以保护各方,并为各方提供无可争辩的保证。

基于数字的语音解决方案的第三个优点是无法回放。密码短语提供商声称,他们可以通过比较每个语音提交和所有之前提交的声音来检测重放尝试。这意味着你的声音在每次提交时都是不同的,同时也是独特的。使用一个独特的值,每次消除了这一论点,从未云的声音生物计量功效的讨论。

数字的第四个优点是三因素身份验证。默认的SayPay解决方案提供了三因素认证,包括每个用户拥有的东西(移动设备)、用户所在的东西(唯一的声音)和用户知道的东西(每个唯一的SayPay“语音token”)。密码短语解决方案(例如,“…我的声音是我的密码”)默认情况下只提供双因素身份验证,每个用户都有(移动设备),用户是(唯一的声音)。三因素认证——安全团队的圣杯,但被认为过于厌恶客户体验——现在是可能的,可行的和可取的。

语音数字的第五个优势是可以匿名。如果用户在公共场所说出银行的通用密码,他们是在轻率地让所有人都知道他们正在登录银行。对于大多数客户来说,这可能不是一个主要的问题,但它应该向产品经理发出警告,因为在长期承诺使用密码短语时,它可能是一个始终存在的、不可逆转的采用和使用障碍。此外,研究表明,客户更喜欢使用一种标准的方法,比如为每个身份验证使用唯一的代码,而不是为每个银行关系使用不同的密码短语。如果不考虑几年之后的新方式(因为在早期没有充分考虑更好的选择,所以需要客户重新注册),入职已经足够困难了。

语音密码中的早期先驱可能是缺乏高质量数字麦克风和噪音消除的技术限制。为所有用户建模相同的密码是一个更简单的练习,因为每个机构的值保持不变。但是,基于数字的解决方案的附加值不能忽略。动态生成的八位数值有100,000,000个置换;添加Alpha字符和可变性增加到2.8万亿。基于数字的解决方案需要分析全价值,并将用户语音解析为单独的输入值进行单独的分析和比较 - 这反过来又实现了更高水平的用户身份验证保证。

概括

语音识别和语音识别是一个使用语音的两个单独的技术;首先用于搜索和检测,以及后者用于用户身份验证。语音识别需要基于主题和方言等本地语音属性为预期用户群配置和校准的语音数据模型。

语音识别的成功率是基于可靠的数据模型、有纪律的登记和持续的使用,其中每个单独的声音指纹和数据模型在总体上不断改进。

语音验证包括分析多达100个独特特征的语音输入记录,并将结果与存储的语音指纹进行比较;结果是一个评分信号,如果声音比较是高度准确的(绿色),可能是准确的(黄色)或高度不准确的(红色)。

语音身份验证有两种主要形式:文本相关和文本无关。文本相关将语音“样本”与主“声纹”进行比较,而文本无关将在更宽的频谱范围内执行更长的语音输入。

188游戏盒子下载考虑部署语音认证解决方案的公司应定位解决方案,提供业界范围远远〜.01%,frr〜1%-3%。通常优于基于数字的方法在密码,以促进的灵活性,安全性,标准化和用户体验增加。

免责声明:BiometricUpdate.com博客已提交内容。在这个博客中表达的观点是作者的观点,不一定反映BiometricUpdate.com的观点。

文章主题

||||

最新的生物识别金宝搏App钱显示错误技术新闻

注释

对“语音生物识别入门”的14条回复

发表评论

该网站使用Akismet来减少垃圾邮件。了解如何处理您的评论数据

本周阅读次数最多

公司的特色

生物识别技术研究

生物识别技术白皮书

生物识别事件

解释生物识别技术