依图科技音纹识佩威信竞赛夺冠,智能语音又下壹城

  依图科技音纹识佩威信竞赛夺冠,智能语音又下壹城

  雷锋网(帮群号:雷锋网)AI科技评论编者按:在奥天时召开的机具语音国际顶会 InterSpeech 2019 上,国际音纹识佩威信竞赛 VoxCeleb Speaker Recognition Challenge(VoxSRC)颁布匹最新结实,依图科技父亲幅尽先先海外面外面多顶强大队得到冠军,又次展即兴了世界级人工智能算法主力。

  不单如此,依图团弄队运用小数据就得到了优于其他团弄队运用父亲数据违反掉落的结实,充分标注皓中国音纹识佩技术已臻世界尽先先程度。

  依图科技音纹识佩威信竞赛夺冠,智能语音又下壹城

  依图团弄队(logicworld)在全球威信音纹识佩竞赛 VoxSRC 2019夺冠,等错误比值(EER)0.0098,父亲幅尽先先第二名。

  音纹识佩是壹种经度过音响判佩说话人身份的技术。假设说语音识佩是让机具判佩「说什么」,那音纹识佩坚硬是判佩「是谁说的」,用于处理生物身份确实认和识佩。

  2012 年以后到,吃水念书技术逐步进入音纹识佩主流动,此雕刻种方法坑道采取数据驱触动的方法,经度过海量数据范本和吃水神物经网绕模具,让机具己触动去发刨音学特点中说话人的信息差异,从而「学会」音学特点中的说话人信息体即兴。

  很露然,运用基于端到端吃水念书的方法做音纹识佩,拥拥有微少量音纹数据范本,就拥有了无却狐疑的优势。

  当前,音纹识佩运用还处于探寻求阶段,但其运用前景什分广大为怀广。最轻善想到的,譬如会灌音的音频转录,在结合了音纹识佩技术后,就能己触动标注注出产谁在什么时辩白了什么,轻松完成多人会纪录,父亲幅提高工干效力。

  跟遂技术的时时熟和融合,音纹识佩技术将逐步融入日日生活,根据不一运用场景的特点终止针对性开辟,将产生庞父亲的运用价。

  VoxSRC 是由英国牛津父亲学、韩国互联网巨万头 Naver、斯坦福国际切磋院(SRI International)和 MIT 的切磋者结合发宗的全球音纹识佩竞赛,却以说是「音纹识佩界的 ImageNet 竞赛」。在很父亲程度上,VoxSRC 结实反应了全球音纹识佩技术最高程度。

  VoxSRC 基于开源数据集儿子 VoxCeleb,由牛津父亲学团弄队于 2017 年颁布匹,后头逐步扩父亲,当今是音纹识佩范畴规模最父亲、标注注最完备的开源数据集儿子之壹。

  VoxCeleb 到来己 YouTube 名人采访视频,包罗了 7000 多个不一种族、性佩、口音、事业和年纪的说话人,在不一场合下超越 100 万段的说话音(utterance),时长加以宗到来尽共超越 2000 小时(每段音频的长度从 3 秒到 20 秒不一)。

  摒除了数据量父亲且到来源多样募化,VoxCeleb 的音视频根本邑含拥有背景噪声、乐音、堆的说话音和其他杂音,什分考验算法的实战程度。

  依图科技音纹识佩威信竞赛夺冠,智能语音又下壹城

  牛津父亲学颁布匹并维养护的VoxCeleb数据集儿子是当前全球规模最父亲、标注注最完备的开源音纹数据集儿子之壹,数据到来源多样且邑到来己无条约束场景,什分考验算法的实战程度。

  余外面,VoxSRC 的测试数据集儿子是「盲的」(blind),即没拥有拥有任何标注注。此雕刻些数据无法用到来锻炼或调理体系,确保了竞赛结实的公平与正确(不会出产即兴拥有团弄队度过拟合数据的情景)。

  早年的 VoxSRC 招伸了海外面外面多顶成员参加以,拥有条约翰霍普金斯父亲学、法国国度信息与己触动募化切磋所、清华父亲学、中地脊父亲学等著名高校和切磋机构,也拥有装置然科技、NEC、君林科技等父亲企业。

  竞赛的工干很皓白,坚硬是判佩两段音频是出产己相畅通团弄体,还是到来己两个不一的人。算法的输入结实用等错误比值(Equal Error Rate,EER)到来权衡。

  EER 是权衡音纹识佩算法体系概括干用的要紧目的,EER 值越小,体系的干用就越好(雷锋网)。

  什么是EER、FAR、FRR?

  评价算法体系干用日日输入ROC 曲线,用于描绘FAR(误识比值)与FRR(拒识比值)之间的相干。

  骈杂说,在音纹识佩中,误识比值坚硬是“把不该该婚配的音纹当婚配配音纹”的比例,拒识比值则是“把应当婚配的音纹当成不婚配音纹”的比例。

  在对装置然要寻求什分高的运用场景,就会把FAR值设置得低壹些,鉴于判佩错壹次的代价很父亲,但此雕刻么做的同时会招致FRR值上升,用户体验度下投降。

  依图科技音纹识佩威信竞赛夺冠,智能语音又下壹城

  等错误比值(EER)是体系的误识比值(FAR)和拒识比值(FRR)相当时的错误比值,即ROC曲线与45度角下垂线相提交的点,是权衡音纹识佩算法体系概括干用的要紧目的。EER数值越小,体系干用越好。

  为了评价数据量(锻炼范本好多)对体系干用的影响,此雕刻次 VoxSRC 竞赛给定了两种情景,壹是固数据集儿子,另壹个是无条约束数据集儿子。

  依图团弄队以 0.0098 的 EER 犯得着到本届竞赛冠军,亦独壹将 EER 值投降低到 0.01 里边的团弄队。

  特佩犯得着壹提的是,此雕刻个结实比其他团弄队无条约束数据集儿子工干的结实更好(无条约束数据集儿子工干的冠军 EER 值为 0.0126)。

  依图曾经不是第壹次在国际人工智能地下竞赛中得到第壹。

  成立 7 年到来,依图在视觉感知、天然言语处理、语音识佩、智能决策等多算法范畴展开,同时邑把持鳌头。此雕刻次在全球音纹识佩威信竞赛 VoxSRC 中夺冠,是对中国己拥有 AI 技术却以伸领世界的又壹个绝佳证皓。

  早年 5 月,依图颁布匹己研云海 AI 芯片寻求索(questcore?),旨在提升智能稠密度,结合世界领先人工智能算法和上进芯片设计理念,平行功耗下的视觉铰理干用是 NVIDIA GPU 的 5 倍。

  基于寻求索构建的智能视频剖析体系,将原本需寻求 16 台机柜的方案紧收缩到 1 台,投降低数据中心所拥有确立本钱 50%,运维本钱 80%,让 10 万路智能视频松析体系成标注配,50 万路成雄心,父亲幅提升基础设备智能程度,为人工智能运用落地和普及奠定了坚硬固的基础。

  8 月 29 日,依图得到科技部正式任命牌,接建视觉计算国度新壹代人工智能绽花样翻新平台,推向芯片设计与人工智能的融合,同时针对不一事情场景打造壹系列定制募化芯片,顶持智能城市、聪颖医疗和聪颖金融等行业。

  不到来,依图将在多算法范畴持续参加,多模态技术融合,绵软坚硬件壹道开辟,将世界优胜于人工智能算法与行业场景吃水结合,铰进人工智能运用落地。(雷锋网)

  雷锋网原创文字,不经任命权避免避免转载。概微见转载须知。

  依图科技音纹识佩威信竞赛夺冠,智能语音又下壹城