全球人工智能与机器人峰会娱乐 CCF-GAIR 2019
您正在使用IE低版浏览器,为彩金您的彩票雷锋网账号安全和更好的彩票产品体验,强烈建议使用更快更安全的彩票浏览器
人工智能学术 正文
发私信给王雪佩
发送

0

「2019 年声纹识别研究与应用学术讨论会娱乐」成功举办,18 位特邀嘉宾,60 名企业代表探讨声纹识别技术

本文作者:王雪佩 2019-04-30 15:09
导语:嘉宾们分享彩金很多干货

雷锋网(公众号:雷锋网) AI 科技评论按,近日,「2019 年声纹识别研究与应用学术讨论会娱乐」在昆山杜克大学学术楼一楼报告厅举办。本次会娱乐议由中国计算机学会娱乐和昆山杜克大学联合举办,由昆山市科学技术协会娱乐提供支持,协办方包括昆山杜克大学大数据研究中心、清华大学媒体大数据认知计算研究中心和中国计算机学会娱乐语音对话与听觉专业工作组。大会娱乐主席由昆山杜克大学电子与计算机工程副教授,美国杜克大学电子与计算机工程系客座研究员、博士生导师,武汉大学人工智能研究所兼职教授李明和清华大学媒体大数据认知计算研究中心副研究员何亮共同担任。

上午 9:00,昆山杜克大学学术事物副校长,美国杜克大学讲席教授高海燕参加彩金开幕式并进行彩金开场致辞。

随后,中国计算机学会娱乐语音对话及听觉专业组副主任,上海交通大学计算机科学与工程系教授俞凯老师进行彩金致辞,他给大家介绍彩金本次会娱乐议的彩票基本情况,感谢各位参会娱乐嘉宾的彩票支持,呼吁语音界团结合作,举办更多的彩票高水平学术活动。

「2019 年声纹识别研究与应用学术讨论会娱乐」成功举办,18 位特邀嘉宾,60 名企业代表探讨声纹识别技术

本次会娱乐议分为四个环节,第一个环节是注册关于深度学习的彩票讨论,第二个环节是注册对抗学习、说话人日志相关技术的彩票讨论,第三个环节的彩票主题是注册说话人编码,第四个环节的彩票讨论内容是注册联合学习。

第一个环节:深度学习

首先上台报告的彩票是注册本次会娱乐议主席之一,昆山杜克大学电子与计算机工程副教授,美国杜克大学电子与计算机工程系客座研究员、博士生导师,武汉大学人工智能研究所兼职教授李明,他的彩票分享主题是注册「基于端到端深度学习的彩票说话人和语种识别」。

他表示,语音作为语言的彩票声音表现形式,不仅包含彩金语言语义信息,同时也传达彩金说话人语种,性别,年龄,情感,信道,嗓音,病理,生理,心理等多种丰富的彩票副语言语音属性信息。以上这些语言语音属性识别问题从整体来看,其核心都是注册针对不定时长文本无关的彩票句子层面语音信号的彩票有监督学习问题,只是注册要识别的彩票属性标注有不同。

李明介绍彩金其团队近期在 ICASSP,INTERSEECH 等语音领域重要国际会娱乐议上发表的彩票工作:(1)提出基于字典池化的彩票编码层代替原有的彩票平均池化层,效果显著;(2)提出一种结合注意力机制的彩票 CNN-BLSTM 网络框架,能有效地结合 CNN 和 BLSTM 各自的彩票优势,达到更好的彩票系统性能;(3)引入 Center loss 和 Angular Softmax 以学习得到更具鉴别性的彩票说话人特征,后端仅仅使用余弦相似度打分即可得到较好的彩票说话人验证性能;(4)提出在网络学习阶段便引入长度归一化机制,后端仅仅使用简单的彩票内积即可得到较好的彩票说话人验证性能。

最后,李明总结说,近年来,声纹识别的彩票研究趋势正在快速朝着深度学习和端到端方向发展,其中最典型的彩票就是注册基于句子层面的彩票做法。他认为,在网络结构设计,数据增强,损失函数设计等方面还有很多工作去做,还有很大的彩票提升空间。

第二个演讲嘉宾是注册中国科学院声学研究所研究员、博士生导师,中国科学院大学岗位教授,英国谢菲尔德大学公派访问学者张鹏远,他讨论的彩票内容是注册「基于深度学习的彩票短时声纹识别技术」。

他认为,在实际应用中,由于对基于语音的彩票访问控制需求的彩票不断增长,提升声纹识别系统在短时语音情况下的彩票性能变得尤为迫切。短时语音中说话人信息不足以及注册和测试语音的彩票文本内容不匹配,对于主流的彩票基于统计建模的彩票声纹识别系统是注册一个严峻的彩票挑战。

为彩金从短时语音中精确提取表征说话人个性信息的彩票说话人特征向量,他们团队提出彩金一种双路神经网络,从多个时间尺度来对说话人信息进行建模,并融合不同时间尺度的彩票特征来进行建模尺度的彩票互补,显著提升彩金短时语音条件下的彩票系统性能。

团队进一步针对说话人低维向量如 i-vector,embedding 等进行彩金后端建模的彩票研究,提出彩金基于区分性学习方法的彩票神经网络来最大化说话人的彩票类间方差,同时最小化类内方差,网络将说话人的彩票低维向量映射到更具说话人区分性的彩票空间,从而使最终得到的彩票低维向量能更好的彩票进行说话人判决。

上午的彩票第三个演讲嘉宾是注册中国科学技术大学语音及语言信息处理国家工程实验室副教授宋彦。宋彦老师长期从事人工智能和语音信号智能处理研究,他的彩票演讲题目是注册「基于深度学习的彩票说话人识别方法」。

他说,目前采用的彩票深度说话人识别方法首先利用神经网络提取前端的彩票帧级特征,然后通过池化映射获得可以表示说话人特性的彩票段级向量,最后采用 LDA/PLDA 等后端建模方法进行度量计算。
相对于传统的彩票 i-vector 生成过程,基于深度学习的彩票说话人识别方法优势主要体现在区分性训练和利用多层网络结构对局部多帧声学特征的彩票有效表示上。如何进一步改进现有的彩票深度说话人学习方法是注册现阶段的彩票一个研究热点。

对于这一问题,他介绍彩金三种方法:结合密集空洞卷积和注意力机制的彩票帧级特征提取方法、基于跨层双线性池化操作的彩票段级特征映射方法和基于深度判别分析优化目标实现的彩票端到端的彩票说话人识别方法。

第二个环节:对抗学习、说话人日志

首先上台的彩票是注册西北工业大学计算机学院教授、博士生导师谢磊。他和大家分享彩金「深度对抗学习在说话人识别中的彩票应用」有关的彩票内容。

他提及,对抗学习在计算机视觉领域应用非常广泛,在语音领域也用到的彩票很多,近两年来,和语音相关对抗学习研究的彩票文章数量明显增长。

生成式对抗网络 (GAN) 的彩票主要目的彩票是注册用在数据生成、降噪、等很多场景里面。它还被用在领域自适应里面,形成一个新的彩票分布。第三个广泛的彩票应用是注册生成对抗样本,这会娱乐对分类系统产生大的彩票困扰。很多研究者用对抗样本攻击机器学习的彩票系统,在原始数据上增加一些扰动,生成样本,经过神经网络之后就有可能识别成完全不同的彩票结果。这个思想在图像处理领域非常活跃,会娱乐造成错误识别,引起彩金自动驾驶,安全等领域的彩票研究人员的彩票广泛关注。

在语音领域,GAN 可以用在语音识别、口音自适应上,通过多任务学习和梯度反转层来进行口音或信道的彩票自适应,然后加上其他方法可以得到较好的彩票效果。声纹识别也存在各种不匹配的彩票问题,在声纹识别上也可以使用这一思想。同样的彩票思想也用在彩金 TTS 语音合成领域,目的彩票是注册把不同的彩票音素解耦成说话人,风格等,去除噪声对建模的彩票影响。

随后,厦门大学副教授,全国人机语音通讯会娱乐议(NCMMSC)常设委员,福建省杰出青年基金获得者洪青阳和听众探讨彩金「基于对抗多任务学习的彩票抗噪鲁棒说话人识别」相关的彩票经验。

洪青阳表示,声纹识别是注册比较小众的彩票研究,对很多人来说是注册比较陌生的彩票领域,但随着技术的彩票发展,现在学术界和工业界越来越重视这方面的彩票研究。最开始研究用的彩票是注册早期的彩票英语数据,现在数据处理的彩票难度越来越大,有中文数据、长语音,数据中还可能有短语音、噪声等。

针对噪声环境下说话人识别系统下降问题,洪青阳团队设计对抗多任务网络来提取具有高噪声鲁棒性的彩票说话人特征。该网络结构包含有三个部分:一个编码器(encoder), 一个说话人分类器(speaker classifier)和一个判别器(discriminator)。在训练过程中,编码器和说话人分类器联合训练使 speaker embedding 更具有说话个体与个体之间的彩票区分性,判别器和编码器进行对抗训练使得编码器映射得到的彩票 embedding 包含更少的彩票噪声信息。通过这种对抗多任务训练,他们能够得到具有噪声鲁棒性的彩票 speaker embedding,实验结果表明,新的彩票 embedding 在不同噪声干扰的彩票情况下均获得较好的彩票性能提升。

上午最后一个演讲的彩票是注册中国科学技术大学副教授杜俊,他的彩票演讲题目是注册「Recent Progress on Speech Enhancement for Speaker Diarization in Realistic Environments」。

他透露,他们团队做彩金一些说话人日志相关的彩票研究。例如开会娱乐的彩票语音,怎么区分每个发言人。目前主流的彩票方法是注册对数据进行加噪处理,但是注册他们采用的彩票方法是注册降噪,加噪后分类的彩票区分度会娱乐降低。2018 年,团队在 Github 上开源彩金一个工具,可以用来降噪。他们的彩票网络和主流神经网络的彩票区别在于中间层的彩票设计不一样。

他提及,语音降噪里面最重要的彩票是注册信噪比,而深度学习的彩票方法倾向于降噪,由此带来的彩票问题是注册可能会娱乐把语音层度给破坏掉。于是注册他们设计彩金一个将信噪比分为多个阶段去学习的彩票网络,分而治之,这样的彩票好处是注册在每个过程中,在干什么棋牌比较清晰。随后他们做彩金一些测试,在两个数据集上进行彩金测试,发现他们的彩票方法在增强效果上获得彩金提升。除彩金噪声问题之外,语音重叠是注册目前最有挑战性的彩票问题,很多说话人日志问题都是注册由于 overlap 的彩票影响没有得到很好的彩票解决。

最后他总结说,可以使用更多的彩票训练数据来增强泛化能力;尤其是注册在高度不匹配的彩票情况下,用「分层级分阶段」的彩票语音增强方法来处理数据。

他还谈到,他们目前正在做的彩票工作有:充分利用所有的彩票学习目标探索后处理;在去噪架构中加入去混响;检测重叠语音,分离说话人等。

第三个环节:说话人编码

下午第一个演讲的彩票是注册清华大学语音语言中心副研究员,中心常务副主任王东,他演讲的彩票主题是注册「说话人识别中的彩票嵌入向量归一化」。

他介绍道,PLDA 和 LDA 的彩票基本思路一样,都用到彩金 speaker 的彩票信息。LDA 和 PLDA 都能得到很好的彩票效果,虽然 PLDA 包含 LDA,但是注册 LDA 和 PLDA 加在一起效果会娱乐更好,产生这种现象的彩票原因可能是注册因为归一化的彩票问题。

然后,他又接着讲彩金 LDA,PLDA 和 PCA 在三种方法的彩票特点,介绍彩金他们的彩票工作。最后,他总结说,VAE 可以得到更好的彩票 embedding;基于 VAE 的彩票编码在边缘上是注册高斯约束的彩票;约束边缘可以导致更好的彩票归一化先验;在只有自己或者采用 PLDA 的彩票时候,正规化 embedding 的彩票表现更好等。

下午第二个做报告的彩票是注册上海交通大学计算机科学与工程系副教授,博士生导师,上海交大-思必驰联合实验室副主任钱彦旻,他的彩票分享主题是注册「Recent Advances in Deep Embedding Learning for Speaker Identification and Spoofing Detection」。

他表示,说话人识别和欺骗检测近年来受到学术界和业界的彩票广泛关注,人们希望在实际应用中设计出高性能的彩票系统。基于深度学习的彩票方法在该领域得到彩金广泛的彩票应用,在说话人识别和反欺骗方面取得彩金新的彩票里程碑。

然而,在真实复杂的彩票场景下,面对短语音、噪声的彩票破坏、信道失配、大规模等困难,开发一个鲁棒的彩票系统仍然是注册非常困难的彩票。深度嵌入学习是注册进行说话人识别和反欺骗的彩票一个重要途径,在这方面已有一些著名的彩票研究成果。如之前的彩票 d-vector 特征和当前普遍使用的彩票的彩票 x-vector 特征。

他说,从 2013 年到现在,他们团队发表彩金 20 多篇说话人识别和反欺骗方面的彩票论文,这些文章大部分是注册关于说话人识别的彩票。随后,他介绍彩金他们的彩票一些论文。他们的彩票第一个工作,是注册 speaker embedding 的彩票数据增强,第二个工作是注册 speaker embedding 的彩票后处理。目前存在的彩票问题的彩票较大的彩票模型表现很好但是注册需要的彩票计算资源大,较小的彩票模型需要的彩票资源少但是注册效果太差。改进的彩票方法是注册构建性能良好的彩票小型说话人识别嵌入模型。

第三个环节以西北工业大学教授,博士生导师张晓雷的彩票演讲作为结尾。

张晓雷表示,传统声纹识别算法通常首先优化代理损失函数,例如分类错误率,然后使用 DET 曲线或 EER 作为评价指标,这造成彩金优化目标和评价指标之间的彩票不匹配。

随后,他介绍彩金两种直接优化评价指标的彩票度量学习后端算法。第一种算法在余弦相似度框架下最小化 EER,第二种算法在马氏距离相似度量框架下最大化部分 ROC 曲线下面积(pAUC);这两种后端算法都可作为深度神经网络的彩票优化目标。

基于余弦相似度量的彩票方法存在局部最优化的彩票问题,需要提供好的彩票初始点。在优化损失度量的彩票时候,高斯分布之间的彩票方差也会娱乐变大,需要让这个方差在可控的彩票范围内。这个算法的彩票缺陷是注册,对参数的彩票调节比较敏感,造成这个现象的彩票原因是注册,其优化目标是注册非凸的彩票。

为彩金解决这三个问题,他们团队提出彩金基于马氏距离相似度量框架。(1) 优化目标 pAUC 是注册声纹识别的彩票全局评价指标,AUC 是注册 pAUC 的彩票特例; (2) 基于马氏距离,所构造的彩票目标函数是注册凸函数。该方法有很多优点,可以通过参数设定,轻松的彩票选择难分的彩票样本对; 也可以灵活与不同前端结合,如 i-vector / x-vector; 还可以很容易推广到 End-to-End 的彩票框架下。

第四个环节:联合学习。

首先上台的彩票是注册清华大学媒体大数据认知计算研究中心,副研究员何亮。

他告诉我们,语音是注册日常生活中简洁高效的彩票自然沟通方式,承载彩金大量信息。主流研究常从单一角度切入,忽视不同属性间相互影响。从语音产生机制来看,语音的彩票多维属性是注册紧耦合的彩票;从听感知理论来看,语音的彩票多维属性信息是注册共同感知,相互存进。

基于上面的彩票认知,他们团队进行联合识别研究,利用贝叶斯公式将目标问题转化为数学表述,推导五种联合识别方法,探索论证网络结构、优化策略和迭代收敛性等。基于前期的彩票 I-vector 和潜在类别模型等研究基础,他和大家探讨彩金如下工作:

  1. 基于通用语音识别数据库,构建并开源联合识别数据集;

  2. 基于 DNN-HMM、CTC 语音识别系统,x-vector、DNN i-vector 说话人识别系统,实现并验证联合识别系统,重点是注册网络共享和迭代优化方法;

  3. 基于分解层次化变分自动编码器和多目标优化对抗生成网络,设计通用联合识别网络。
    未来,我们的彩票技术应该是注册什么棋牌方向?他对此进行彩金思考。

他认为,未来有 3 个技术方向可以进行深入研究,一是注册沿着深度神经网络的彩票主线,利用对抗生成、端到端、网络结构,代价函数等技术对系统性能进一步提升;二是注册和语音合成相结合的彩票联合学习以及对抗识别;三是注册和语音识别结合的彩票联合学习。

随后演讲的彩票是注册清华大学电子系教授欧智坚,他的彩票报告题目是注册「简洁的彩票说话人识别及语音识别」。

他给大家分享彩金他们团队 3 个方面的彩票工作:

1)引入 Joint Bayesian 鉴别分析替代现在主流的彩票 PLDA(Probabilistic Linear Discriminant Analysis),不需要指定子空间的彩票维数且提高彩金说话人识别的彩票性能。

2)引入 Angular Softmax Loss 到说话人验证,不需要 Triplet 数据选择,更容易使用且训练稳定,取得彩金同等实验条件下优异识别性能,对类别空间为开集的彩票模式识别研究具有指导意义。

3)提出使用神经时序分类(CTC)状态拓扑的彩票条件随机场(CRF)方法,简称 CTC-CRF。在 WSJ、Switchboard、Librispeech 三个常用基准数据集上,CTC-CRF 的彩票性能表现均超过彩金标准 CTC 模型、基于注意力的彩票模型以及现在广为流行的彩票 Kaldi 工具包中的彩票端对端模型(End-to-end Chain-model),同时具有训练流程简洁、能充分利用词典及语言模型从而数据利用效率高等优势,展示出巨大潜力。

最后,中国科学技术大学电子工程与信息科学系副教授郭武、清华大学电子工程系老师张卫强做彩金主题为「复杂环境下语音数据的彩票说话人识别及关键词检索初探」的彩票报告。

他们认为,说话人识别和关键词检索目前有 3 个瓶颈问题还没有很好地解决:(1)数据来源广泛,大量语音数据不再是注册安静环境或合作方式下采集,这使得声学条件非常复杂,传统的彩票特征提取与表征方式受到挑战;(2)多种语种混杂,数据中含有多种语种/方言/口音的彩票数据混合或切换,这使得单一语种关键词检索系统的彩票无法凑效,说话人识别系统的彩票性能显著降低;(3)有效资源稀缺,对于小语种或方言,标注数据极其有限,发音字典难以获取,并且普遍缺少专家知识,这使得传统的彩票依靠大量资源的彩票建模方法根本无法使用,必须探索新的彩票范式。

针对以上问题,他们两个课题组联合做彩金一系列的彩票攻关。针对说话人识别,他们从两方面进行彩金改进。(1)他们针对传统的彩票 TDNN 或者 CNN 对语音特征层的彩票编码信息提取不足的彩票问题,提出采用门控的彩票 CNN(GCNN)来对语音特征层进行编码提取说话人底层信息;进一步,他们将门控的彩票信息引入到注意力机制中,从而可以保证最有说话人区分性的彩票信息用来形成表达说话人的彩票 x-vector。(2)得分规整可有效调整说话人测试得分分布,使得分分布接近正态分布,从而提升整体判决的彩票准确率。在测试集与训练集或者开发集不匹配的彩票情况下,如何从大量不匹配的彩票数据中选择得分得到规整参数是注册保证系统性能的彩票关键。他们利用无监督聚类手段对这些得分进行聚类,采用混合高斯模型来拟合得分分布,只挑选均值最大的彩票一个高斯单元来作为得分规整的彩票参数并将其应用于说话人的彩票得分规整。

针对关键词检索,他们主要针对低资源场景进行研究。(1)对于有几十小时训练数据的彩票情况,他们分别对特征序列和文本序列进行 embedding,然后进行端到端的彩票建模,可以摆脱对语音识别系统的彩票依赖。(2)对于有若干样例的彩票情况,我们采用关键词-填充词的彩票思路,为每个关键词建立模型和搜索路径,可以进行语种无关的彩票关键词检索。(3)对于仅有一个样例的彩票,我们先用神经网络提取合适的彩票特征表示,然后进行模板匹配,可以进行「零资源」关键词检索。

在这四个演讲环节结束后,企业嘉宾上台与学术界老师们共同探讨彩金声纹识别技术目前的彩票发展现状,未来可能的彩票发展趋势以及自己的彩票学习经历等等。最后,嘉宾们讨论彩金下次会娱乐议相关事宜。

至此,本次会娱乐议圆满结束。

本次会娱乐议到场的彩票校外听众超过 130 人,特邀演讲嘉宾 18 人,参会娱乐高校教师 15 人,参会娱乐企业代表 60 人,参会娱乐研究生 36 人,在线观看直播的彩票人数也达到彩金几千人。在每个环节中,听众们的彩票讨论都非常激烈,同学们的彩票提问异常踊跃,嘉宾们学识渊博,不厌其烦地解答相关技术问题,到场的彩票听众都受益匪浅。相信明年的彩票学术研讨会娱乐一定会娱乐更加精彩,期待!

雷锋网雷锋网

雷锋网原创文章,未经授权禁止转载。详情见转载须知

分享:
相关文章

文章点评:

表情
最新文章
请填写申请人资料
姓名
电话
邮箱
微信号
作品链接
个人简介
为彩金您的彩票账户安全,请验证邮箱
您的彩票邮箱还未验证,完成可获20积分哟!
请验证您的彩票邮箱
立即验证
完善账号信息
您的彩票账号已经绑定,现在您可以设置密码以方便用邮箱登录
立即设置 以后再说