
黄申博士
腾讯低资源多媒体翻译技术负责人
腾讯低资源多媒体翻译技术负责人,CCF委员。毕业于中科院自动化所模式识别与智能系统专业。在各类国际语音会议和刊物中发表论文23篇,美国专利10余篇;2011年加入杜比实验室负责VoIP多语种电话会议系统的关键解决方案。2016年加入腾讯OCR和翻译等多媒体AI技术在互联网内容安全上的应用;获2017年公司技术突破奖。现已将声纹识别,音频指纹,关键词唤醒,多语种语音转文字,关键词检索,说话人和语种识别,多语种OCR识别,民族语言翻译技术和智能审核解决方案,落地应用在公司内外各大多媒体安全场景中;获WMT世界机翻大赛汉英项目第2名,CWMT民族语机翻大赛第1名,OLR世界东方语种识别大赛第2名;某部委评测维藏语识别技术第1名;近年来,积极打造蒙藏维哈朝等一带一路低资源语种识别系统,旨在将多媒体AI技术发挥出显著的社会效能。
-
分享简介
高资源如中英等实时翻译系统已经相当成熟。本演讲将重点介绍如何在低资源,数据稀少情况下,搭建出可以在工业级应用的语音实时翻译系统和OCR实时翻译系统;
中国是一个200多种语言的国家,不同语言之间的交流经常会存在障碍,以维吾尔族为例,目前能够运用汉语顺利交流的人群只占有约36%,能够消除语言交流的障碍,打造在低资源下可以进行音视图文交流的巴别塔,一直是团队的目标。利用低资源语音识别技术,听懂民族语言;利用低资源语言OCR技术,看懂民族语言;而如何把听懂和看懂转化为理解,就需要作为核心“大脑”的低资源语言机器翻译技术,把这些内容转化为大部分人可以看懂的汉语。本分享将重点介绍腾讯低资源语种AI团队在国内外一系列大赛中获奖的语言语音识别多媒体技术,以及在打造多媒体实时翻译的落地方案。
-
分享提纲
1. 腾讯的任务和技术布局;
2. 低资源语音识别技术的声学模型和语言模型;
3. 低资源OCR技术;
4. 端到端语音翻译;
5. 端到端OCR翻译;
6. 实时多媒体翻译技术的算法和工程;
7. DEMO个知识点(可以突出具体的实际行业实例)
8. 互动答疑
-
分享收益
目标:帮助听众知道如何将前沿的语音识别,OCR和翻译技术结合,打造在不同语种下的实时多媒体翻译系统
要点:低资源语音图像翻译技术的建模,解码和应用
启示:如何通过低资源技术,节省ai团队的运营成本,同时打造实时多媒体翻译平台
热门推荐
-
提升领导力:OKR目标管理和激励查看主题
-
京东宙斯618大促开放平台技术架构实践查看主题
-
知识中台:基于知识图谱如何快速构建垂直领域的智能客服查看主题
-
低资源下实时语音图像翻译技术查看主题
-
算法变现经验谈查看主题
-
高性能JVM:从原理到实践深度解析查看主题
-
云原生应用的微服务与Serverless实践查看主题
-
构建企业DevOps度量体系-DevOps驱动价值的交付查看主题
-
《极致产品规划及高效用户需求洞察》--工作坊查看主题
-
项目管理的研发治理查看主题
-
云原生消息系统Apache Pulsar简介查看主题
-
自适应安全技术实践查看主题
-
超大型运维平台的面向终态设计查看主题