-
AI应用落地的实际问题及应对2019年7月20日算法变现经验谈是分享者在电商应用关联规则算法创造过亿营收的经验与心得。本次案例选取其中图书推荐的“最佳拍档”优化为实例,结合分享者的亲身经历讲述千万价值背后的算法流程,即问题发现,ROI评估,算法的研发,Debug工具开发及ABtest上线测试的过程。通过严格遵守这一系列算法流程,详细地阐述:1.算法如何保障收益,2.小算法为何能产生大收益的原因。前者有效克服了算法人员最大的通病:期望“多点开花”而盲目投入,导致最终无产出;后者从业务视角出发剖析算法模型,介绍了算法融合业务数据产出更多收益的过程。
-
低资源下实时语音图像翻译技术2019年7月20日
高资源如中英等实时翻译系统已经相当成熟。本演讲将重点介绍如何在低资源,数据稀少情况下,搭建出可以在工业级应用的语音实时翻译系统和OCR实时翻译系统;
中国是一个200多种语言的国家,不同语言之间的交流经常会存在障碍,以维吾尔族为例,目前能够运用汉语顺利交流的人群只占有约36%,能够消除语言交流的障碍,打造在低资源下可以进行音视图文交流的巴别塔,一直是团队的目标。利用低资源语音识别技术,听懂民族语言;利用低资源语言OCR技术,看懂民族语言;而如何把听懂和看懂转化为理解,就需要作为核心“大脑”的低资源语言机器翻译技术,把这些内容转化为大部分人可以看懂的汉语。本分享将重点介绍腾讯低资源语种AI团队在国内外一系列大赛中获奖的语言语音识别多媒体技术,以及在打造多媒体实时翻译的落地方案。
-
知识中台:基于知识图谱如何快速构建垂直领域的智能客服2019年7月20日
在这个“效率为王,流量即金”的时代,随着互联网金融、移动电商、O2O等新的经济形态的兴起和发展,行业市场也随着产生了新的变化:体验、尤其是服务体验的优劣很大程度上影响着企业运营的成败。人工智能技术的进步,语音识别技术、自然语言处理等技术的成熟,智能客服的发展很好的承接当下传统人工客服所面临的挑战。
智能客服包括智能应答、智能助手、智能助理等产品形态,核心还是高效准确解决客户问题,可能的优势包括:快、准、易,构建企业级的基于知识的智能客服中ToB和ToC的智能客服差异不同,从Google Next 18提出来做智能客服的行业级解决方案收效甚微、实现从互助、到自助和自主的智能客服,让用户感觉从“有点智障”,到“有点智能”到“比较智能”,需要客服系统智能化的架构升级、深度学习和知识图谱算法提升。
-
万亿级大数据平台的数据管理与设计实践2019年7月21日在数据智能阶段,“中台”应运而生。基于大数据平台对数据的进行存储、融合、分析、管理等“中台”的基础能力的支撑日益重要。本次分享将以一个国家级大数据平台建设为例,介绍百分点的超大规模实时数据分析与数据管理的典型架构和实战经验。在该案例中,我们搭建了以Kafka、Spark Streaming、ClickHouse、HBase、Ceph和ES为基础的大数据平台,承载了万亿级数据的存储、处理和应用, 平台支持了线上2000+亿/天,峰值500+万/秒的数据处理能力。并基于大数据平台建立了统一的数据资产管理平台支持多数据源的数据管理与融合分析, 实现对400+数据源,几千张表进行了数据集成与数据管理和加工。支撑了数据标签化构建,模型化构建,及知识图谱的构建的构建与存储。本次分享将介绍平台的设计理念、关键技术选型、数据管理与融合设计。
-
大数据平台架构与Hadoop集群治理实践2019年7月21日
结合团队近几年的一线实践经验,深度分享运营商大规模数据集群的治理实践经验,包括数据治理和集群治理工程的定位、背景、组织架构和方法论、实施路径、案例分析、成果收益、对外产品化进展等重点内容。
系统性介绍联通大数据平台(数千节点规模、近百PB数据量、日新增数据百TB以上、万亿级信令和互联网日志数据、数百个多租户模型运营)的整体架构,包括数据采集交换平台、核心生产平台、能力开放平台、点查询中心、安全网关、智能运维平台等关键子系统的技术架构和演进历程。
分享HadoopMR、Spark、Flink在平台数据采集加工等具体场景的应用情况,剖析典型的故障定位、踩坑经验和性能调优案例
-
机器学习的数据平台构建2019年7月21日微博的机器学习平台支撑了微博feed推荐、热门微博、个性化push等许多业务,数据平台是机器学习平台的重要组成部分。本次分享将结合作者在搭建机器学习数据平台的经验,重点介绍三方面的内容:1机器学习推荐业务中的数据构成,数据特点,面临的数据共享,数据标准统一等问题。2微博的机器学习平台在解决这些问题时的架构设计思路和相应的成果。3 在线数据存储是如何做到标准化,支持高并发,保证实时性的?