低资源下实时语音图像翻译技术
2019年7月20日
大数据平台和数据应用
黄申博士
腾讯低资源多媒体翻译技术负责人
腾讯低资源多媒体翻译技术负责人,CCF委员。毕业于中科院自动化所模式识别与智能系统专业。在各类国际语音会议和刊物中发表论文23篇,美国专利10余篇;2011年加入杜比实验室负责VoIP多语种电话会议系统的关键解决方案。2016年加入腾讯OCR和翻译等多媒体AI技术在互联网内容安全上的应用;获2017年公司技术突破奖。现已将声纹识别,音频指纹,关键词唤醒,多语种语音转文字,关键词检索,说话人和语种识别,多语种OCR识别,民族语言翻译技术和智能审核解决方案,落地应用在公司内外各大多媒体安全场景中;获WMT世界机翻大赛汉英项目第2名,CWMT民族语机翻大赛第1名,OLR世界东方语种识别大赛第2名;某部委评测维藏语识别技术第1名;近年来,积极打造蒙藏维哈朝等一带一路低资源语种识别系统,旨在将多媒体AI技术发挥出显著的社会效能。
  • 分享简介

    高资源如中英等实时翻译系统已经相当成熟。本演讲将重点介绍如何在低资源,数据稀少情况下,搭建出可以在工业级应用的语音实时翻译系统和OCR实时翻译系统;

    中国是一个200多种语言的国家,不同语言之间的交流经常会存在障碍,以维吾尔族为例,目前能够运用汉语顺利交流的人群只占有约36%,能够消除语言交流的障碍,打造在低资源下可以进行音视图文交流的巴别塔,一直是团队的目标。利用低资源语音识别技术,听懂民族语言;利用低资源语言OCR技术,看懂民族语言;而如何把听懂和看懂转化为理解,就需要作为核心“大脑”的低资源语言机器翻译技术,把这些内容转化为大部分人可以看懂的汉语。本分享将重点介绍腾讯低资源语种AI团队在国内外一系列大赛中获奖的语言语音识别多媒体技术,以及在打造多媒体实时翻译的落地方案。

  • 分享提纲

    1. 腾讯的任务和技术布局;

    2. 低资源语音识别技术的声学模型和语言模型;

    3. 低资源OCR技术;

    4. 端到端语音翻译;

    5. 端到端OCR翻译;

    6. 实时多媒体翻译技术的算法和工程;

    7. DEMO个知识点(可以突出具体的实际行业实例)

    8. 互动答疑

  • 分享收益

    目标:帮助听众知道如何将前沿的语音识别,OCR和翻译技术结合,打造在不同语种下的实时多媒体翻译系统

    要点:低资源语音图像翻译技术的建模,解码和应用

    启示:如何通过低资源技术,节省ai团队的运营成本,同时打造实时多媒体翻译平台


热门推荐