本文转载自 Robin.ly社区,Robin.ly和 TalentSeer 的创始人 Alex Ren 采访了AI Lab的负责人刘扬教授,采访中分享了自然语言处理技术的一些分析,以及她对于流利说如何把技术利用在教育领域的感想。
采访视频地址:https://youtu.be/rsIY2nuptD4
下文是采访的文字整理。
Alex:大家好,我是Alex,是BoomingStar Ventures的管理合伙人,也是Robin.ly的创始人。Robin.ly是一个视频内容平台,主要目的是为了提高工程师和研究人员对于AI,创业以及leadership方面的理解。我们邀请了很多AI方面的科学家,知名创业者,投资人,以及一些业内leader,来分享他们在这些领域的心得。今天的嘉宾是流利说硅谷AI Lab的负责人,刘扬教授,她将分享在自然语言处理以及conversational AI方面的体会。 刘教授在AI和自然语言处理领域有超过20年的经验,获清华大学本科和硕士学位,后又就读于普渡大学并取得博士学位,并在2011年获得了UT Dallas的终身教授职位。她曾获得NSF Career Award以及Air Force Young Investigator Award等荣誉,并任Google Visiting Scientist及Facebook Research Scientist等职位。2017年,刘教授加入了流利说,担任AI Lab负责人——流利说在2018年9月底成功在纽交所上市。刘教授在普渡读PhD时候的论文是关于语音识别, speech recognition,后在ICSI以及UT Dallas都选择了自然语言处理方向,考虑到当时深度学习和AI并非热门领域,能否介绍下您选择这个方向的初衷?
刘扬:其实我对这个领域的关注,不是从读博士时候开始而是在清华读本科的时候就开始了。1996年在做本科毕业论文时的主题就是中文的自动分词。中文是一个一个的字,并没有词的这个概念。但是无论做语音识别还是自然语言理解,都需要以词作单位,所以当时本科毕业论文做的就是中文自动分词。当时用的最简单的方法就是从左到右,找一个在字典中可以匹配出来的最长的词,或者再加一些统计模型,用一些HMM/隐藏马尔可夫模型,或其他的一些办法来完成。当时主要是为了语音识别,因为语音识别需要language model。从1996年开始,到现在我已经做了20年了。当时在中国从本科一直读到研究生,选择的余地有限。比如,考上清华,在电子系,我们班就是做信息这方面的科学研究,跟模式识别和AI的关系很紧密。当时我所在的组的实验室主要也是做语音识别。所以从本科毕业论文开始,做分词也好,做语音识别也好,以后就很自然的继续做下去。那时候不像现在的本科生,exposed的东西特别多,想想自己对什么东西有兴趣。我们那时候往往是被老师带上了这么一个项目,后来也确实觉得是挺有兴趣,就坚持下来了。
Alex:坚持下来的原因是觉得课题本身有意思?