专访“流利说”首席科学家林晖如何用机器学习帮我国人说好英语(流利说a video project)

因为长时刻“哑巴英语”式的语身教育,大有些以英语为第二言语的我国人一向都有着一个疑问,那就是擅长读写,却在不擅长口语。但因为本钱有限,不是每一个有英语口语前进需要的人都能得到外教的一对一辅导。关于这个疑问,英语流利说的处置办法是使用人工智能技能来协助我国人前进自个的口语水平。

流利说树立于2012年,到当前这款产品现已获得了约3600万用户。流利说的首要功用是供给文本并让用户跟读,然后体系会根据用户的发音精确度给出评分和主张。流利说app上供给的材料包括了从往常对话到留学、面试等许多场景,因而遭到了许多英语学习者的追捧。

但这项根据指定文本跟读的产品并不是这么简略,它不和其实躲藏着流利说想要用机器学习技能协助我国人全体前进英语水平的野心。

在承受pingwest品玩采访时,流利说首席科学家林晖标明,早在2012年公司刚刚树立时,这家公司就抉择要在言语学习中使用机器学习技能。但因为创业公司在数据上的短少,而机器学习又需要许多的数据才干被练习得很智能,因而流利说抉择先推出以上的跟读功用,搜集我国人的口语语音数据。

经过了4年时刻以及累计3600万用户的运用,如今流利说现已掌控了许多不一样口语水平的我国人说英语的语音数据。而且因为这些语音是跟拟定文本联系在一同的,所以它们是一种带标签的数据,对机器学习体系来说愈加名贵。

根据流利说和新浪教育一起发布的《我国英语口语白皮书》,流利说当前现已搜集了广泛的用户学习行为记载和长达2.75亿分钟、31.9亿句之多的巨大录音数据库。

到如今,流利说现已根据这些数据推出了两款效能型产品,别离是懂你英语和雅思流利说。其间懂你英语经过递归神经网络的深度学习模型,让流利说的自习气学习体系发生了自学习才能,让学生不断触摸到有关性越来越高的学习内容。

另外,流利说刚刚上线的雅思流利说相同使用了被以上语音数据练习过的人工智能体系,协助雅思备考生结束成果评价和备考方案。因为雅思考试口语期间评判上的片面性,雅思流利说可以精确地了解被测者的语义,然后给出一个相对客观的评分。

在上星期pingwest 举办的 hay!16 大会上,pingwest采访了流利说联合创始人兼首席科学家林晖,他向咱们具体说明了流利说这款产品4年间的产品条理:用东西堆集数据,用社区堆积用户,再用数据打造人工智能的口语学习效能,并完成商业化。

流利说首要团队成员,左一为林晖

林晖博士结业于华盛顿大学西雅图分校,曾任 谷歌 美国总部研讨科学家。他也是语音辨认、天然言语处置、深度学习及大数据发掘算法专家,曾在有关领域宣告三十余篇世界论文,具有多项我国及美国专利。

以下是采访实录:

pw:能简略聊一下你的自个阅历吗?

林晖:我2006年在华盛顿大学西雅图分校读了一个博士,研讨的方向首要是机器学习,理论方面的一些研讨,其时做了一些天然言语处置方面的使用。全体来说我从事这个领域大约十几年吧。在那之前我在清华做的也是技能方面的,其时我在电子系。那个时分msi也就是如今微软亚洲研讨院刚刚树立,其时我还没有想好说是去作业仍是出国,所以读了硕士,而且读硕时刻正好有个机缘在微软亚洲研讨院实习了半年。

我觉得msi这段阅历对我影响挺大的。那时分它其实是有一些比照前沿的,顶级的一些技能的研发,你可以看到今日ai火起来今后,大约有一多半的人之前都在msi呆过。他们那时分做的东西就是跟ai有关的,我那时分去做的也是做跟语音辨认有关的东西。

那段阅历让我感触就是,做一些比照新的技能,比照前沿的技能的研讨其实是很有意思的。所以在那之后,我抉择去国外读一个博士。当然其时做出这个选择的一个缘由是说:我觉得我在技能上、工程上没啥疑问,可是这种比照深化的技能,比方说机器学习我期望我再进修,再晓得得更多。所以我去美国读了一个博士,博士的方向也是比照偏机器学习理论的研讨,比照偏理论的东西。

在那个时分我就觉得,首要我对这种新的事物,不知道的一些有很强的猎奇心,我期望去探究、拓荒一些办法。另外我期望自个做的作业是真的可以不断,不止于使命,不止于发一些论文,而是有一些真实发生实践的价值,影响我们的日子,这就是我为啥会活泼的去工业界实习的缘由。

在我博士时刻我去了谷歌实习。谷歌给我的形象非常深化,它不一样于其他之前一切的大公司的研讨机构,它的研讨和出产是联系的非常紧密的,就跟产品和事务是紧密在一同的,它的科学家都是在产品组里边,都是跟事务组在一同的。你每天想的疑问都是想,咱们怎么样把这个事务再往前持续,你做的作业,做出来了,可以直接影响到百万千万的用户。

其时我觉得是挺有意思的,因为我在微软亚洲研讨院实习的时分做的是做与语音有关的东西,那时分我觉得语音辨认还不老到,而且作用也不好。但那时分谷歌做了一个产品叫 voice search(语音查找),我用了就觉得非常冷傲,它真的处置了我一些疑问。就是有时分不便利的时分,我要在手机上查找,就直接用语音查找,而且非常准,我觉得很有意思。

pw:那是啥时分?

林晖:那个时分是2010年、2011年,voice search其实出来蛮早的。可是谷歌有这个优势是啥?就是说它可以经过文本的search query(查找语句),来非常好的判别我们说的啥。因为根柢上我们查找的意图是差不多的,无非是不一样的方法,用语音仍是文本查找。可是谷歌之前集约了许多文本查找的查询的基础。

谷歌推进 voice search的战略对咱们如今做流利说其实也很有协助的,就是说怎么样去冷建议一个与人工智能有关的东西。其时谷歌做的是一个叫411的项目,就是经过用户去打一个电话,然后查询一个地名。看起来这个项目比照平平,可是它其实是在做搜集数据的作用。

因为在美国那时分电话仍是比照常见,所以经过这个项目,它堆集了许多的数据,也就是语音对应的文字的数据。

流利说其实也是这样一个战略,咱们一初步想处置的疑问是啥?用户开口的疑问,就是说哑巴英语,横竖我国人学这么多年都是哑巴英语,那咱们期望给口语做一个评测,做一个评分。本质上咱们想做的可以更多的是辨认你说啥。

可是咱们一初步没数据,作为一个创业公司,咱们那时分就三自个,那时分一初步做的时分也并没有去融资。

pw:哪一年头步做的?

林晖:咱们2012年9月初步做。那时分移动互联网刚起来,横竖这个具体故事也可以再聊,可是我如今先会集在数据这一块。

一初步其实咱们其实是没稀有据的,所以怎么可以做一个语音辨认的东西呢?后来其实这儿有一个蛮奇妙的当地,就是咱们经过先launch一个产品,这个产品可以帮你搜集数据,一起又处置了用户一些其他的疑问,这个作业就是语音的评分,跟读评分这件作业。

跟读评分比语音辨认会简略是因为啥?因为它的文本是给咱们自个的,你只需照着读,你其实不需要辨认出他具体说了啥,你只需看他说的跟那个预设的文本要说的是不是相同就行了。具体不是语音的波形比对,可是从原理上的确有点像。它的凌乱度没有像语音辨认那么凌乱,因为语音辨认你可以恰当于不断定性更大,我怎么晓得你要说啥,天马行空都可以。可是那个它比照限制,就是说我晓得你其实大约读这一句话的,假定你胡说,我给你一个低分就完了,我其实不需要晓得你胡说了啥。

当然咱们其时选用的就是使用一些开源的数据,来先做一些冷建议。因为它本身这个使命应战没有这么大,咱们可以把这个产品放出去,而且有还不错的领会。这样的话,当你这个技能真实落地,就会有许多人来用。在用这个的进程中,其实是给你供给了许多的数据,所以你用户越来越多,你的数据也会越来越多,这个数据可以反过来前进你的智能。

回到咱们一初步想做的,比方说我要辨认你说了啥内容的这件作业上,这批数据其实就是可认为语音辨认供给它的练习数据。在这儿面其实有一个点,一般的不是做这个领域的人可以不太理解,就是说光有录音数据其实没有用,你有许多的录音数据其实没用的,假定你不晓得那个录音对应的文字是啥,其实是没有用的。

pw:这是一个很聪明的办法。

林晖:对,就是经过这种游戏化的方法,这种用户产品的方法,堆集了许多带有文字标示录音这个作业,这个我觉得是今日咱们推出的这个产品,现已是往后的一个基石,我堆集了许多这样代标示的录音数据,它是掩盖了恰当于根柢一切我国人可以的水平,一切可以的水平期间。

pw:你们的免费用户有多少?

林晖:如今最新的数字是3600万。

pw:所以这四年,加上几千万用户其实可以堆集很许多的数据。

林晖:对,非常大的一个量。这批数据的价值其实非常非常大的,就先别说语音辨认这件作业,你想想这批数据掩盖了根柢上一切当地,咱们如今根柢上一切省、各个城市都掩盖了,他们的英语的一个录音,作为一个这种,不管你是做语音辨认仍是做言语学的研讨,都很有用。

当然咱们如今只是用了它语音辨认这一块的用处,因为它有文字的标示。再联系深度学习这件作业,我需要非常大的数据,再用深度的模型,咱们就可以做出一个非常精确的语音辨认的引擎来。当然这个语音辨认的引擎是专门为我国人打造的。它是最能听懂我国人说英语这件作业的,因为咱们的数据都是我国人的。

这个其实蛮有意思的,其他的大公司,比方说谷歌和苹果,他们也做英文的语音辨认,可是它不是关于我国人做的,这是一个差异化,咱们可以做得更笔直,比他们做得更深的当地。谷歌不会特定地为我国人,特别是我国学英语的人来做这个。所以咱们跟这个,咱们也跟谷歌去比照,因为他们的语音辨认的功用是翻开出来的。咱们可以去做一个side by side的比照。直接拿过来,咱们找一些咱们晓得正确答案的录音,然后来让这个机器辨认,看看谁辨认的比照精确,做了一个精确性的比照。

成果咱们跟一切可以国外的,包括国内的,比方讯飞进行比照。咱们发如今我国人说英语语音辨认这件作业上咱们是远远跨越世界上一切其他公司的。这一点其实是今日咱们可以在雅思流利说上做出一些别人没有东西的基石。

流利说是做一个从0到1的作业,咱们是把一个技能真的面向用户,面向产品,去给他们做一个改动。创业一年多今后,咱们再去听这些用户的录音,我觉得很欣喜的是,有些用的比照长时刻的用户的录音水平前进非常多,许多用户真的是完全纷歧样了,咱们有许多这样的比方。

pw:中心是一个啥样的期间呢?因为方才你说在技能上可以就是获取语音以?晔镜奈淖值氖荩歉鲋行目伤宰隽艘桓錾堆姆桨福湃盟执镎飧龅悖?

林晖:方才说的那个是英语流利说里边处置的一个疑问,它用游戏化的机制,用社区的方法。咱们也有社区,把言语学习也件作业变得让我们更情愿参加,更情愿开口。就是说言语学习这件作业说白了,80%仍是要靠练,你不练这个东西,它不是一个常识,你不练这个东西你是掌控不了的。

假定咱们让我们开口,经过排行榜,经过游戏化的机制,经过交际的机制让你开口,然后给你反应,然后你只需练的多了,天然会有前进。

当然后来咱们觉得,发音只是言语的一有些,用户可以许多需要是前进,全体系统的前进他的言语的才能,这也是为啥咱们后来推出了一个叫“懂你英语”的产品。

pw:懂你英语是一个啥样的产品?

林晖:它是本年7月发布的,可是研发其实时刻挺长的。咱们一初步想的是经过这种碎片化的内容,就是比照轻量级的。当然这也是咱们的一个特征,就是说你用户因为这个进来了,流量有了,可是其实里边有许多用户其实是有这种诉求是说,我期望比照体系的前进我的英语才能,而不是只练发音。

这就是为啥懂你存在。懂你是不管你水平怎么样,领先来给你做个定级查验,你的英语水平是一级仍是二级仍是三级。

pw:那个等级是共同的标准,仍是你们自个定的?

林晖:咱们跟欧标是匹配的,就是恰当于咱们有一个严肃的匹配。咱们如今大约分了七个仍是8个等级,8个等级,每个等级都对应欧标的比方说a1、a2、b1、b2这种,这个咱们做了对应表,这个做了严肃的对应。这个课程在全方位的帮你前进英语水平,不单是发音。

pw:所以其实你们是从2012年到本年首要做的作业是堆集数据,加来做这些具体的产品。

林晖:对,整个条理就是东西、社区,如今初步做效能。一初步是东西。

pw:东西、社区就是用来搜集数据的。

林晖:对,在这个进程中咱们搜集了非常多的数据,技能其实也在演进。产品和商业方法也在演进,产品的进化的途径就是东西。咱们先用一个东西的方法切入,人来了,他要练发音,练口语,进来了,怎么绑住他们?社区。怎么样变现?那就是效能,其实是这个条理。可是技能上是从跟读再到辨认,再到这种,除了发音以外一切纬度的评测。

其实懂你英语里边还有咱们中心技能的另外一块,就是所谓的自习气的学习的有些。就恰当于你可以认为之前的辨认是听觉,评测也是听觉,感知,可是人工智能需要认知和抉择计划。你到这个教育里边的话,它就是要可以懂你,为啥叫懂你英语。懂你英语不单是能听懂你,它要晓得你的常识点的缺陷,你的各种才能,你的技能都掌控到啥程度,它要懂你这个内容,和内容可以帮你前进啥。

有了这些今后,那它的另外一个技能就是它做抉择计划,怎么样一个方法来教你是可以最合适你的,最能协助你前进你的水平的。这儿面是咱们叫自习气学习的技能。它也用到了深度学习的一些发展。

pw:能不能大约讲一下这个自习气是怎么样运作的,以?执锏囊馔肌?

林晖:如今在线教育这一块,自习气其实还蛮火的,我们都在说做自习气。它本质上要处置的疑问就是千人千面,特性化教育,对症下药。每自个的学习途径是纷歧样的,那怎么做到这一点?自习气是这么做的,就是通用做法。其实也不难了解,一句话来说就是缺啥补啥。我要晓得你缺啥,我要晓得我这一块内容是补啥的,那我就给你啥,这是最简略的一个说明,其实比这更凌乱,可是根柢的思路是这样的,缺啥补啥。

一个学英语的人,他会说英语,他可以真的不晓得啥语法,他可以不晓得啥是定冠词,啥是不定冠词,这个东西其实不断定。

另外更大的缘由是说,你有了这个常识体系今后,你还得把你的内容挂上去,这件工刁难错常繁琐的。你愿望,比方说假定你有一千个,你要更细的话一万个,甚至十万个常识点,你要把你的内容都跟这个做对应,这个作业量大,比你编写这个教材的作业量要大得多得多。这件作业其实咱们觉得不太可靠。

所以咱们抉择仍是用早年的思路,也就是数据加深度学习。假定咱们可以有不断的数据进来,咱们再联系深度学习技能,是不是可以来处置这个疑问,那其实你想想,常识点的作用是啥呢?它其实就是处置了一个把学生和内容相关起来这件作业,缺啥补啥。

机器要晓得这种相关性,需要许多的数据,这个我觉得ok呀,咱们产品上线,用户在用,所以数据就连绵不断进来。

这个数据是啥?这个数据其实是我觉得互联网产品最奇特的当地。比方说谷歌的查找,它的数据其实也是连绵不断来的,可是这个数据很有价值,因为它来自用户点击。用户的点击行为就可以教到机器说用户喜爱啥,这个咱们在术语叫做带标签的数据。

到咱们这个场景里边,其实也是很有意思说,咱们这批数据也是带标签的,是啥?学生答题的数据。他答题的对错咱们是晓得的,学生答题的行为,答题的对错,这些数据就是你说的这种另一种方法的数据,另一个规划内的数据。

而且咱们也发现,跟着产品的上线,用户数据越来越多,咱们这个是越来越准的,这个准度怎么衡量?就是咱们的ai可以猜测一个学生答题的对错。如今比方我题库里边有一万道题,你做了大约一百道题今后,我根柢上可以以跨越90%的精确率,猜测你其他9990道题里边,你尽管没做,可是我能晓得你做对仍是做错你晓得吧。

咱们得看到,跟着我的用户进来的数据越来越多,我这个猜测精确性也是在不断攀升的,就是说这个智能是在不断进化的。

pw:后来参加你们的那个言语学家lance knowles博士首要担任啥作业?

林晖:他跟咱们协作的一个缘由就是,他试用了英语流利说后觉得咱们上的语音评分是他用过的世界上最佳的。他看到咱们的技能就非常想跟咱们协作,他如今是咱们的一个参谋。咱们联系他的理念和咱们的技能,想把把懂你英语的方法发扬得酣畅淋漓。其完成在用户用下来的感触就是,一初步可以有写不习气,可是其实逐渐发现,这真的是管用的,我觉得这是言语的中心。

pw:你们还推出了一个“雅思流利说”的付费产品,这个产品不和是用的啥技能呢?

林晖:雅思这件作业其实是沿着咱们整个技能条理的一个天然的产品。咱们期望用ai的技能,让教育,比方说言语学习这件作业更高效,把它的功率前进。那么你要做到功率前进这件作业,首要得把学习的进程数字化、量化。到言语学习这一块,前面很重要的就是,对这种口语才能的一个评判的一个数字化,一个量化,这就是很天然的一个技能要点。

后边的自习气是在你做了数字化、量化今后,怎么样去优化它的功率,怎么样去编列你的内容,怎么样选择这个战略,恰当于抉择计划的进程。前面这有些语音评测、语音评价,恰当所以感知的有些。这整个技能的条理是这样的。

当咱们把感知这一块做得满足好的时分,其实很天然的出来的产品就是雅思流利说,咱们可以给考雅思的用户,考生,供给必定的价值,可以帮他们处置像方才之前跟你聊的那些痛点,就是模考难,想得到反应难,周期长且贵。咱们用这样的技能来处置这样的疑问。

这儿面从技能上来看,条理上其实跟咱们正本想的是共同的,这是一个天然的产品出来。像之?档模确剿荡痈晾锉叨鸭镆舯嫒系挠锪希钅芴夜怂涤⒂锏谋嫒弦妫际钦飧龌6谡庵献鲆恍┨烊辉创χ茫烊辉戳私獾募寄埽龇从ΑU庥行┰勖蔷醯檬呛芑孤幸庖澹屑壑档摹?

pw:能不能讲一下仿照雅思考试的整个评判进程?

林晖:雅思的口语考试呢,是如今公认的可以比照客观、比照全部地衡量一自个口语水平的考试,它是一个真人考试,一个考生进来,你是面临一个真人考官,真人考官会问你疑问,你根据他问的疑问去答复。是一个真实的言语交流的进程,查询的是你的言语的运用才能。

这儿面关于雅思考生来说,他其实很难去做一个仿照,是因为他需要真人,你需要有这样评分才能的教师,这样的教师究竟少。所以雅思流利说就是从这个视点切入,咱们供给这样一个模考绩果,而且给你一个评分的陈述,这个陈述首要够精准,第二个它可以给你一些具体的主张和反应所以咱们在做雅思流利说重视的技能上的方针其实有好几个,第一个是评分的共同性,评分是不是满足精准跟你去真的雅思拿到的分数相同的。

而这个是怎么来做的?这儿面我也觉得是ai可以做得比照好的当地,就是ai比照客观。人不免片面,人不免会有过失,会犯错。特别是关于这种没有标准答案的查验。你写个作文,满分就仍是比相片面的东西,你让人去改,尽管有必定的雅思评分标准,可是人去改的时分,不免会有一些片面,会有一些过失。

那咱们的ai跟雅思考官断定的分数的共同性抵达了95.6%,就是现已跨越了雅思官方发布的这么一个共同性的数字,这个是咱们觉得机器可以做得非常好的当地,它更客观,它不会受你自个心境不坚决的影响,不会受你状况的影响,

第二块的话,就像之前也说到的,评分这件作业有用,可是还不可。考生必定期望我怎么前进分数,哪里有疑问,而这个时分是反应的技能起到作用。反应的技能就是根据之?档模钅芴夜擞⒂锉嫒险庖豢椋野涯愕纳欤幢隳闼档谋日绽茫日沼锌谝艋蛐碓趺囱梢跃嫉淖晌淖帧8菡飧鑫淖掷锤惴⒁粢酝獾姆从Α?

pw:语义了解的话,可以机器懂你说的话是啥意思,它怎么把这个意思跟标题联系起来呢?

林晖:这就是语义了解的一些要害的东西。比方说今日咱们一个论题是聊城市的,假定你聊一本书,那就是偏题了。就是从语义的视点来说,ai会晓得,首要你标题是关于城市的,它可以把这个,这就是所谓的语义,我对语义的了解,了解了你这个标题是讲城市的,你的答案我都检测出来,假定你讲的是书,这就是偏题。

pw:如今你们现已做了懂你英语和雅思流利说两个产品或许是效能,今后还会有哪些方案呢?

林晖:至于后续,我觉得必定有许多愿望空间,就像其时的流利说相同,咱们以一个产品技能的方法东西切入,再往后边,不管是直接切效能,直接切生意,仍是说一个啥样的比方,可以性都比照多。可是我觉得咱们的一个优势就是说,咱们可以把产品和技能联系的比照好,切入到一个用户的痛点,处置用户的一些疑问。

后边的话,必定有许多可以性,就比方雅思这块,咱们许多变现方法。假如今天比方全年50万雅思考生,一半的人都用咱们这个来备考,那你可以愿望不和的价值。

pw:如今付费用户有多少?

林晖:咱们的雅思流利说今日刚上线,所以这个无法计算。可是懂你英语是7月份上线的,如今这一块的数字咱们是不具体发布的,可是可以泄露的就是说,增加非常好,每个月的增加速度是30%。咱们如今非常有决心就是咱们的商业方法对错常安康的,这一块咱们非常有决心,在适合的时分咱们会把这个数字发布出来。 回来搜狐,查看更多

责任修改:

关于作者: ybomx

热门文章

发表评论