91精品啪在线观看国产线免费_国产xxxxx免费视频_免费禁漫天堂a漫h漫_一个色综合网站

世界今熱點(diǎn):萬根順:攻關(guān)語音識(shí)別技術(shù)

時(shí)間:2022-12-23 20:37:04

經(jīng)濟(jì)觀察報(bào) 記者 周應(yīng)梅 2012年,科大訊飛(002230)發(fā)布全球首個(gè)中文語音識(shí)別DNN系統(tǒng),將語音識(shí)別準(zhǔn)確率提升到80%,10年里語音識(shí)別技術(shù)突飛猛進(jìn),不斷拓寬應(yīng)用場(chǎng)景。拿現(xiàn)在最常見的“實(shí)時(shí)轉(zhuǎn)寫”功能來說,這在7年前是難以實(shí)現(xiàn)的。

2015年,25歲的萬根順加入科大訊飛,彼時(shí)他還是一個(gè)零基礎(chǔ)的新人,這些年則見證了一代又一代語音識(shí)別技術(shù)的革新,他也從參與者變成主導(dǎo)者。

萬根順形容自己剛進(jìn)科大訊飛時(shí)是菜鳥。7年時(shí)間里,他的成長(zhǎng)穩(wěn)扎穩(wěn)打,如今他已成為科大訊飛語音識(shí)別條線研究負(fù)責(zé)人。從參與攻關(guān)科大訊飛原創(chuàng)的DFCNN語音識(shí)別方案,到負(fù)責(zé)起新一代語音識(shí)別技術(shù)的研發(fā)落地。


(相關(guān)資料圖)

保持語音識(shí)別技術(shù)領(lǐng)先是每個(gè)訊飛人的信念,這種精神也在萬根順這樣年輕的技術(shù)骨干中得到傳承。

新人參與技術(shù)攻關(guān)

萬根順剛到訊飛研究院上班的第一天,就看到員工們?cè)谵k公室激烈討論,誰也不讓誰,這個(gè)氛圍一度讓他很緊張,因此一直刻在他的腦海里。后來這樣的場(chǎng)景不斷發(fā)生,他才知道這就是訊飛研究院同事們工作的方式。

2015年江蘇大學(xué)研究生畢業(yè)后,萬根順加入了訊飛研究院語音識(shí)別轉(zhuǎn)寫組,負(fù)責(zé)基礎(chǔ)算法研究。此前他的專業(yè)方向是圖像研究,進(jìn)入語音識(shí)別領(lǐng)域是從零開始。

2016年初,剛?cè)肼毎肽辏f根順就加入了訊飛DFCNN語音識(shí)別方案項(xiàng)目攻關(guān)。作為一個(gè)新人能有機(jī)會(huì)參與技術(shù)攻關(guān),讓萬根順倍感珍惜。這次經(jīng)歷也成為他職業(yè)生涯最重要的起點(diǎn)。

科大訊飛原創(chuàng)的DFCNN語音識(shí)別方案在2016年下半年正式推出,在過往RNN識(shí)別系統(tǒng)基礎(chǔ)上整體效果提升了15%以上,在語音識(shí)別效率、口語化處理、噪音降噪等功能上有較大的改善。

首次參與項(xiàng)目攻關(guān),萬根順見證了新系統(tǒng)的誕生,更體會(huì)到了科大訊飛的同事們?cè)诤诵募夹g(shù)保持國(guó)際領(lǐng)先的追求。

2010年開始,科大訊飛是中國(guó)首批開展深度神經(jīng)網(wǎng)絡(luò)語音識(shí)別技術(shù)研究的企業(yè)之一,2012年首個(gè)中文語音識(shí)別方案 DNN上線,2015年新的RNN語音識(shí)別方案開啟全面升級(jí),2016年推出DFCNN語音識(shí)別方案。2017年至今,科大語音識(shí)別方案又經(jīng)過了多次迭代,保持每年至少30%的效果提升。

在DFCNN語音識(shí)別方案出現(xiàn)之前,業(yè)界最好的語音識(shí)別方案是雙向RNN語音識(shí)別,不過這個(gè)方案的算法訓(xùn)練比較復(fù)雜,識(shí)別結(jié)果所需時(shí)間很長(zhǎng),難以在工業(yè)界推廣。在有噪音或者更復(fù)雜一些的場(chǎng)景,使用RNN語音識(shí)別方案會(huì)存在識(shí)別效果較差的情況。而像今天這樣的實(shí)時(shí)識(shí)別轉(zhuǎn)文字,更是難以想象。

攻關(guān)技術(shù)期間,團(tuán)隊(duì)每天的工作狀態(tài)與萬根順第一天進(jìn)辦公室的場(chǎng)景一樣,常常伴隨著激烈的討論,為共同的目標(biāo)集思廣益。他說,這是訊飛研究院同事們工作的態(tài)度,有想法直接講,不論你是新人,還是技術(shù)大牛、專家,都可以積極參與討論。

過去科大訊飛就將語音識(shí)別和深度學(xué)習(xí)結(jié)合,在訓(xùn)練策略上有多年積累。在此基礎(chǔ)上,DFCNN語音識(shí)別方案攻關(guān)時(shí)間僅花了半年,投入不到10個(gè)人的團(tuán)隊(duì)。另外,借鑒成熟領(lǐng)域的模型也成為突破點(diǎn)。科大訊飛在攻關(guān)DFCNN語音識(shí)別方案時(shí),就借鑒了圖像領(lǐng)域的算法模型,將語音信息轉(zhuǎn)化為一張張語譜圖。這很大程度上減少了輸入信息損失。

也是在這次攻關(guān)中,多次的實(shí)驗(yàn)下來,萬根順掌握了精準(zhǔn)的分析能力。在這個(gè)項(xiàng)目中,萬根順還見識(shí)到了行業(yè)前輩們“敢想敢做”的態(tài)度和專業(yè)能力。“當(dāng)時(shí)前輩們提出了一些設(shè)計(jì)方法,在幾年之后變成了一個(gè)主流。他們幾年前就能想到幾年后可能的發(fā)展趨勢(shì),后續(xù)對(duì)我觸動(dòng)很深。”“要大膽地去想,不要有所顧忌,只要能說服你自己的,堅(jiān)持做下去一定能夠有所收獲。”這樣的理念在萬根順心里樹立起來了。

一位技術(shù)骨干的成長(zhǎng)

萬根順研究語音識(shí)別時(shí)喜歡分析數(shù)據(jù)。他會(huì)花時(shí)間仔細(xì)聽音頻,去標(biāo)注語音識(shí)別錯(cuò)誤的一些詞或者內(nèi)容,找到識(shí)別不出來的原因。此前“因5毛錢”這個(gè)句子識(shí)別錯(cuò)誤就是他這樣發(fā)現(xiàn)的,當(dāng)時(shí)他發(fā)現(xiàn)語音識(shí)別模型會(huì)把“因5毛錢”中的“因5毛”,識(shí)別為“鸚鵡毛”,通過這樣細(xì)微的數(shù)據(jù),找規(guī)律后再去改進(jìn)。

找到問題后,改進(jìn)方式是在語音識(shí)別系統(tǒng)中加一些韻律信息,“因5毛錢”和“鸚鵡毛”兩句語音的停頓方式是不一樣的。通過小細(xì)節(jié),可以解決研究工作中的實(shí)際問題。

2017年,萬根順作為技術(shù)負(fù)責(zé)人,實(shí)現(xiàn)了DFCNN語音識(shí)別方案基礎(chǔ)上持續(xù)升級(jí),一年里進(jìn)行了多個(gè)版本的迭代升級(jí)。

除了參與攻關(guān)DFCNN語音識(shí)別方案外,對(duì)萬根順來講,職業(yè)生涯中比較重要的第二件事情是,2018年開始主導(dǎo)新一代語音識(shí)別框架的落地。

2019年科大訊飛首個(gè)基于ED框架的語音識(shí)別方案落地。新的識(shí)別方案在輸入法、訊飛聽見、辦公本、錄音筆等多個(gè)產(chǎn)品中應(yīng)用。

ED框架是科大訊飛第三代語音識(shí)別方案,創(chuàng)新過程持續(xù)時(shí)間比較長(zhǎng),一直從2018年到2020年。

萬根順坦言,從一個(gè)技術(shù)創(chuàng)新到真正的落地,中間經(jīng)歷了無數(shù)次打磨,對(duì)個(gè)人業(yè)務(wù)能力帶來了質(zhì)的提升。也是在這個(gè)過程里,萬根順對(duì)語音識(shí)別有了更深刻的認(rèn)識(shí),全面理解一個(gè)新系統(tǒng),見證了追求大規(guī)模產(chǎn)業(yè)化落地的目標(biāo)所需要面對(duì)的困難。

二代語音識(shí)別系統(tǒng)分了聲學(xué)模型跟語音模型,兩個(gè)模型需要聯(lián)合起來。到第三代,是一個(gè)統(tǒng)一的框架,整個(gè)系統(tǒng)結(jié)構(gòu)更加簡(jiǎn)潔,語音輸入輸出文字直接對(duì)應(yīng),效率進(jìn)一步提升,不同語種切換使用也可以識(shí)別,在用戶實(shí)用性上更加友好。

2021年開始,萬根順再次負(fù)責(zé)無監(jiān)督訓(xùn)練在語音識(shí)別中的應(yīng)用研究。面對(duì)不同場(chǎng)景設(shè)計(jì)的語音識(shí)別模型所需要的訓(xùn)練數(shù)據(jù),在加入無監(jiān)督訓(xùn)練功能后大大減少。

今年訊飛研究院所發(fā)布的“唇形+語音”的多模態(tài)語音交互技術(shù),就是引入無監(jiān)督訓(xùn)練的成果。基于多模態(tài)交互以及醫(yī)療認(rèn)知等技術(shù),科大訊飛還研發(fā)了一套抑郁癥定量篩查系統(tǒng)和老年認(rèn)知障礙篩查系統(tǒng)。

為了在語音識(shí)別領(lǐng)域保持技術(shù)領(lǐng)先,科大訊飛的做法是研發(fā)一代儲(chǔ)備一代。在研發(fā)新一代語音技術(shù)框架的時(shí)候,就會(huì)投入一部分人力去做下一代框架的預(yù)研。“中文語音識(shí)別要由中國(guó)人做到最好。”這種追求已經(jīng)內(nèi)化為科大訊飛員工的信念,并成了一種傳承。

目前科大訊飛下一代語音框架的預(yù)研已經(jīng)在準(zhǔn)備,萬根順表示,下一代將更加關(guān)注用戶體驗(yàn),以及重點(diǎn)會(huì)解決語音識(shí)別的語義合理性,讓識(shí)別更加準(zhǔn)確合理。

同時(shí),下一代系統(tǒng)更加強(qiáng)調(diào)系統(tǒng)自我進(jìn)化的能力,例如,讓系統(tǒng)自動(dòng)捕捉到對(duì)新詞識(shí)別效果差,然后實(shí)現(xiàn)自動(dòng)更新。

創(chuàng)新背后的機(jī)制

萬根順從新人成長(zhǎng)為可以獨(dú)立負(fù)責(zé)項(xiàng)目的技術(shù)骨干,并非一蹴而就。

剛進(jìn)入訊飛研究院,每個(gè)新人都會(huì)有一個(gè)導(dǎo)師。在萬根順的印象里,工作上導(dǎo)師會(huì)幫做一些明確的規(guī)劃。

他記得,當(dāng)時(shí)自己基礎(chǔ)差,導(dǎo)師會(huì)直接教一些工具的使用,以及為他規(guī)劃需要了解哪些方面的知識(shí),設(shè)計(jì)實(shí)驗(yàn)怎么定目標(biāo),怎么執(zhí)行,“導(dǎo)師會(huì)事無巨細(xì)給安排好。怎么做,做到什么樣的程度。”這讓他順利度過了適應(yīng)工作的階段。“一開始有了順利的過渡,往后一步一步走得更加踏實(shí)。”萬根順說。

訊飛研究院對(duì)新人的培養(yǎng)除了導(dǎo)師制,還有輪崗機(jī)制。員工可以自愿申請(qǐng),轉(zhuǎn)到同一個(gè)條線的其他方向,或跨領(lǐng)域輪崗,最長(zhǎng)是半年。“訊飛鼓勵(lì)系統(tǒng)性的思維模式創(chuàng)新,輪崗的目的是讓員工掌握的知識(shí)更加全面,了解的更多,才能基于整個(gè)系統(tǒng)去考慮創(chuàng)新模式。”萬根順表示。

在一次又一次的磨練中,能力提升是漸進(jìn)式的,這樣的培養(yǎng)機(jī)制讓新人能慢慢成長(zhǎng)。“當(dāng)公司讓你去獨(dú)立負(fù)責(zé)一個(gè)項(xiàng)目時(shí),你是有底氣的。多次參與重要項(xiàng)目之后,自己本身的能力有了很大提升。在共創(chuàng)模式下,不是一個(gè)人在戰(zhàn)斗,團(tuán)隊(duì)有很多人在支持你。”萬根順說。

智能語音與計(jì)算機(jī)視覺、NLP這些領(lǐng)域一樣已成為產(chǎn)業(yè)。因此關(guān)注各行各業(yè)研究進(jìn)展,是訊飛研究院語音識(shí)別團(tuán)隊(duì)必做的一件日常工作。萬根順說,這也是需要具備的一種思維。

現(xiàn)在萬根順已經(jīng)成為了新人的導(dǎo)師,他帶過不少新人。他強(qiáng)調(diào),讓新人參與更多重點(diǎn)項(xiàng)目,而不要因?yàn)樾氯藳]經(jīng)驗(yàn)就安排邊角料的工作。“給新人機(jī)會(huì),引領(lǐng)式指導(dǎo)。有一個(gè)想法后我不會(huì)讓新人直接執(zhí)行,而會(huì)先把想法分享給新員工,同時(shí)讓對(duì)方說出自己的看法,達(dá)成一致后再執(zhí)行。這樣效率會(huì)提高很多。”萬根順說這是自己指導(dǎo)新人的方式。

剛加入科大訊飛的兩年,萬根順給同事的印象是有拼勁,喜歡鉆研。幾年下來,萬根順的狀態(tài)更加松弛,日常與同事相處更加活潑輕松,慢慢打破設(shè)下的邊界。

在科大訊飛的七年里,萬根順也收獲了新家庭。萬根順在這里認(rèn)識(shí)了妻子,兩個(gè)人都在訊飛研究院工作。

標(biāo)簽: 語音識(shí)別技術(shù)

來源:經(jīng)濟(jì)觀察網(wǎng)
0
上一篇: 下一篇:

最近更新

  Copyright @ 2001-2013 techcloudconcepts.com All Rights Reserved 彩迅新聞網(wǎng) 版權(quán)所有 京ICP備12018864號(hào)-1

  網(wǎng)站所登新聞、資訊等內(nèi)容, 均為相關(guān)單位具有著作權(quán),轉(zhuǎn)載請(qǐng)注明出處

  未經(jīng)彩迅新聞網(wǎng)書面授權(quán),請(qǐng)勿建立鏡像 聯(lián)系我們:  291 32 36@qq.com

營(yíng)業(yè)執(zhí)照公示信息