当前位置:糖网病 > 危害体现

优秀连获MITTR35先锋者CCF

先锋者,投身于引发未来创新活动的基础性研究工作。青年创新者勇于挑战技术极限,不断拓宽科学的疆土。

杰出工程师,在计算机工程技术及应用领域耕耘,捕捉核心技术的逻辑打好底层基石、建筑起一座座高楼。

年1月,科大讯飞AI研究院常务副院长刘聪凭借在智能语音和计算机视觉领域取得的成就,接连收获了这些荣誉:《麻省理工科技评论》年“35岁以下科技创新35人”、中国计算机学会(CCF)杰出工程师。

这两项殊荣,恰好折射出优秀科技工作者的重要品质:既有立足当下的毅力,也有抬头远望的视野。

MITTR35颁奖现场(右三为刘聪)

CCF理事长高文院士(左)为刘聪(右)颁奖

“学霸”的特别耳朵

科大讯飞从不缺学霸,刘聪也是其中一员。

上小学时,他和比自己高一届的同学一起参加“华罗庚数学金杯赛”,拿到了全市第一名。独立的习惯、好学的品质加上高标准严要求,刘聪在学业上一直遥遥领先。在中国科学技术大学学习的九年间,他也因为两个转折点与讯飞结下了不解之缘。

先是在保研时遇到师兄、也是现在讯飞的执行总裁胡郁当考官,刘聪顺利拿下当年科大与讯飞联合语音实验室唯一的保研名额;接着又在转博士时,面对继续钻研学术和探索技术结合实践落地的两条路,刘聪选择了后者,正式加入讯飞。与讯飞和语音识别的缘起,刘聪形容为“是机缘巧合,也是命中注定”。

早期对语音识别系统的研究,除了单点技术的提升外,更加依赖于技术整合的系统性创新。年,刘聪与团队做出了当时他们认为最好的语音识别系统,并通过发布讯飞语音云平台和讯飞输入法,开启了中文语音输入的时代。但是他们发现,在实验室环境测试90%以上的准确率,到了实际场景的准确率只有60%。

刘聪(右)早年研究技术场景

失落之下,迎风挑战。他不甘心只做一个可以背出各种理论的学霸,而要做一个能掌握实际能力的工程师。

伴随着深度学习的热潮与持续突破,基于云计算的数据涟漪效应,刘聪带领团队紧抓契机持续创新,推出业界首个基于深度学习框架的商用中文语音识别系统;接着又陆续以1年半左右的周期持续更迭新的技术框架。勇于“革自己的命”,最终,系统保持连续7年平均每年30%的相对错误率下降,使得目前输入法场景的识别率大大提高。

从60分到98分的进步,不止表现在CHiME等多项国际语音识别大赛的常胜,也体现在日常生活中的点滴:当你使用讯飞输入法时,语音输入又快又准,还能识别23种方言;当你开车与车载助手对话时,即使是有噪音TA依然能准确识别……

“聪”字里恰好有一个“耳”,也许是巧合,这个“耳”的主人,让大家听到的声音变得更加聪明。

当语音遇见计算机视觉

《麻省理工科技评论》年“35岁以下科技创新35人”榜单在刘聪的上榜理由中写道:

“获奖人成功主导了语音识别和计算机视觉之间的深度学习算法框架迁移,创造性地发现了两者的共通之处,进而将其引入实际应用层面。

刘聪在MITTR35颁奖现场演讲

在智能语音领域取得不俗成绩后,年,刘聪带领团队正式转入计算机视觉领域。从“听”到“看”,虽然机器的感官发生了变化,但他们却凭借在语音识别与深度学习领域的深厚积累,在技术层面为二者搭起了一座桥梁。

年,基于计算机视觉领域最常用的卷积神经网络CNN结构,刘聪与团队结合语音特性进行了针对性的重构和优化,提出深度全序列卷积神经网络DFCNN框架,教机器学会以“看语谱图”的方式来进行语音识别。

深度全序列卷积神经网络

类似的工作还有很多,利用语音检测与识别方案可以提升文本分析的效果,利用计算机视觉领域的模型和目标函数也可以优化语音唤醒等语音领域的任务。

两个领域之间在技术上的互通有无收效明显。在过去的年,科大讯飞在国际大赛上取得或刷新的12项世界第一中,有3个属于计算机视觉方向:IDRiD糖网病挑战赛、ICPRMTWI(多样式网络图像)国际识别挑战赛、国际自动驾驶领域评测任务Cityscapes;而在语音识别的国际大赛CHiME-5里,讯飞继上一届比赛全部第一后,再次包揽四项任务的所有冠军。

放眼应用落地,科大讯飞的医学影像辅助诊断系医院,影像云平台在去年末提供20余万例在线辅检服务;更有趣的是,讯飞参与研发的智能鸣笛抓拍系统结合了声源定位和图像识别技术,能够有效锁定违章鸣笛车辆,目前已在十余个省市设点应用。

讯飞医学影像辅助诊断系统

通过快速实现语音识别向计算机视觉算法框架的创新型迁移和借鉴,以刘聪为代表的讯飞人不仅仅希冀让世界听到中国声音,更想让世界看到中国慧眼。

创新、联合,在感受时代中前行

创新有多重要?

“我们会不断涌现出好的创意,创意需要转化为创新,创新需要应用于现实,新的创意继续被赋予。”在这生生不息的循环中,创新触发着挑战,也推动了合作。

刘聪坦言,分不是创新者和工程师的最终目标;在开放的时代,开放的技术与平台才是实现胜利的关键环节。与更多分的企业合作,能够创造更伟大的奇迹。年他曾参与发布的讯飞语音云平台如今已被称为讯飞开放平台,聚合了人工智能技术与生态服务,链接超92万的开发者,深入行业合作,助力百花齐放。

荣誉已是昨日云烟,思考未来,刘聪为自己设定的目标是向语音与视觉结合为主的多模态相关方向发展。音视频的全场景解析会有更多用武之地,识别语音内容和图像类别之外,还可以解析音频事件、情感含义、文字内容等——当然,技术要有价值,必须还要场景中落地应用。

与好团队一起把握住技术的下一个趋势是刘聪的心愿之一:“我们很幸运可以成长在这样一个核心技术突破和产业应用爆发的时代,我们也希望借势浪潮,尽力为时代做出更多贡献。”

桃核棉花编

Elaine责编

千山

预览时标签不可点文章已于修改收录于话题#个上一篇下一篇


转载请注明:http://www.ovvnom.com/whtx/17717.html