您當(dāng)前的位置：首頁 > 互聯(lián)網(wǎng) > 互聯(lián)網(wǎng)創(chuàng)業(yè)

李開復(fù)：從1983到2017，我的幸運(yùn)與遺憾

時(shí)間：2017-08-17 09:58:20 來源：新浪科技作者：促進(jìn)網(wǎng)

　　今天跟大家講個(gè)故事。

　　1983-1988年，我正在卡內(nèi)基·梅隆大學(xué)讀計(jì)算機(jī)博士。

　　我正忙著暑期教書，秋天投身奧賽羅人機(jī)博弈（黑白棋游戲，那是機(jī)器第一次真正意義上打敗人類冠軍的比賽）。

　　我的導(dǎo)師瑞迪教授（Raj Reddy，圖靈獎(jiǎng)得主、卡內(nèi)基梅隆大學(xué)計(jì)算機(jī)系終身教授、美國工程院院士）從美國國防部得到了300萬美元的經(jīng)費(fèi)，用來做不指定語者、大詞庫、連續(xù)性的語音識別。

　　也就是說，他希望機(jī)器能聽懂任何人的聲音，而且可以懂上千個(gè)詞匯，懂人們自然連續(xù)說出的每一句話。

　　這三個(gè)問題都是當(dāng)時(shí)無解的問題。

　　而瑞迪教授大膽地拿下項(xiàng)目，希望同時(shí)解決這三個(gè)問題。他在全美招聘了30多位教授、研究員、語音學(xué)家、學(xué)生、程序員，以啟動(dòng)這個(gè)有史以來最大的語音項(xiàng)目。

　　我也在這30人名單之內(nèi)。

　　當(dāng)時(shí)的科研背景是，業(yè)界已經(jīng)有類似今天深度學(xué)習(xí)的算法，但一直沒有實(shí)現(xiàn)數(shù)據(jù)標(biāo)準(zhǔn)化，數(shù)據(jù)量也不足夠大。

　　美國幾大語音識別實(shí)驗(yàn)室（如MIT、 CMU、 SRI、 IBM、貝爾實(shí)驗(yàn)室）都是各用各的數(shù)據(jù)庫，測試數(shù)據(jù)不同，訓(xùn)練數(shù)據(jù)不同，使用的語言模型不同，測試的詞匯量也不同。所以都各稱業(yè)界第一，大家莫衷一是。

　　而每個(gè)大公司都有自己的商業(yè)需求，比如說在語音識別方面，當(dāng)年做打字機(jī)的IBM想做語音打字機(jī)，壟斷美國電信的AT&T要求貝爾實(shí)驗(yàn)室識別電話號碼，所以大公司并沒有動(dòng)力來幫助小公司或?qū)W校。而小公司和學(xué)校，往往只有資源做些較小的數(shù)據(jù)集，結(jié)果通常也不如大公司的好。

　　不僅如此，數(shù)據(jù)不標(biāo)準(zhǔn)對AI研究而言是致命的，最后導(dǎo)致很多問題，包括：

　　1、因?yàn)闇y試語料庫不同，最后識別結(jié)果，大家無法復(fù)制，也無法驗(yàn)證。彼此不認(rèn)可，而且因?yàn)閿?shù)據(jù)沒有打通，算法就更不可能打通了。

　　2、因?yàn)槊考易龅念I(lǐng)域不同，最后的結(jié)果都不可比。有些領(lǐng)域詞匯量小，比較容易，但是做出結(jié)果也可能不能通用。有些領(lǐng)域詞匯量大，但是約束很多，所以能說的內(nèi)容不多，導(dǎo)致比較容易識別，也不能通用。

　　3、因?yàn)槊考矣?xùn)練集不一樣大，而訓(xùn)練集越大，一般結(jié)果越好。所以，有可能結(jié)果做的好，被認(rèn)為并不是靠算法，而是靠數(shù)據(jù)量大。

　　4、對于學(xué)術(shù)單位來說，最大的問題來自于沒有足夠的資源（也沒有興趣）收集、清洗、標(biāo)注大量的語料。對于小公司來說，語料和計(jì)算力都是問題。

　　最后，瑞迪教授計(jì)劃采用“專家系統(tǒng)”來完成項(xiàng)目，因?yàn)檫@個(gè)方法需要的數(shù)據(jù)有限。

　　專家系統(tǒng)是早期人工智能的一個(gè)重要分支，你可以把它看作是一類具有專門知識和經(jīng)驗(yàn)的計(jì)算機(jī)智能程序系統(tǒng)，一般采用人工智能中的知識表示和知識推理技術(shù)來模擬通常由領(lǐng)域?qū)＜也拍芙鉀Q的復(fù)雜問題。

　　但我不認(rèn)同。

　　之前參加過的奧賽羅的人機(jī)博弈，讓我對統(tǒng)計(jì)概念有了充分的理解，我對瑞迪教授的研究方法產(chǎn)生動(dòng)搖。

　　我相信建立大型的數(shù)據(jù)庫，然后對大的語音數(shù)據(jù)庫進(jìn)行分類，有可能解決專家系統(tǒng)不能解決的問題。

　　另外，在1985年，美國標(biāo)準(zhǔn)局（NationalInstitute of Standards and Technology）也意識到數(shù)據(jù)不標(biāo)準(zhǔn)會(huì)影響科研進(jìn)步。所以在語音識別問題上，標(biāo)準(zhǔn)局設(shè)定了標(biāo)準(zhǔn)的語音和語言的訓(xùn)練集、測試集。要求每個(gè)學(xué)校的每個(gè)團(tuán)隊(duì)都用同樣的訓(xùn)練集來訓(xùn)練模型，可以自己調(diào)好系統(tǒng)參數(shù)，比賽最后一天大家拿到數(shù)據(jù)，有一天時(shí)間跑出結(jié)果，大家評比。

　　我從這個(gè)標(biāo)準(zhǔn)數(shù)據(jù)集和測試看到機(jī)會(huì)。

　　再三思考后，我決定鼓足勇氣，向瑞迪教授直接表達(dá)我的想法。我對瑞迪說：“我希望轉(zhuǎn)投統(tǒng)計(jì)學(xué)，用統(tǒng)計(jì)學(xué)來解決這個(gè)‘不特定語者、大詞匯、連續(xù)性語音識別’。”

　　我以為瑞迪會(huì)有些失望，沒想到他一點(diǎn)都沒有生氣，他輕輕地問：“那統(tǒng)計(jì)方法如何解決這三大問題呢？”

　　瑞迪教授耐心地聽完我激情的回答后，用他那永遠(yuǎn)溫和的聲音告訴我：“開復(fù)，你對專家系統(tǒng)和統(tǒng)計(jì)的觀點(diǎn)，我是不同意的，但是我可以支持你用統(tǒng)計(jì)的方法去做，因?yàn)槲蚁嘈趴茖W(xué)沒有絕對的對錯(cuò)，我們都是平等的。而且，我更相信一個(gè)有激情的人是可能找到更好的解決方案的。”

　　那一刻，我的感動(dòng)無以倫比。因?yàn)閷σ粋€(gè)教授來說，學(xué)生要用自己的方法作出一個(gè)與他唱反調(diào)的研究。教授不但沒有動(dòng)怒，還給予充分的支持，這在很多地方是不可想象的。

　　統(tǒng)計(jì)學(xué)需要大數(shù)據(jù)庫，我們?nèi)绾尾拍芙⑵鸫蟮臄?shù)據(jù)庫呢？

　　瑞迪教授看到我愁眉不展的樣子，再一次給了我支持。他說，“開復(fù)，雖然說我還是對你的研究方法有所保留，但是，在科學(xué)的領(lǐng)域里，其實(shí)也無所謂老師和學(xué)生的區(qū)別，我們都是面臨這一個(gè)難題的攻克者，所以，如果你真的需要數(shù)據(jù)庫，那么，讓我去說服政府幫你建立一個(gè)大的數(shù)據(jù)庫吧！”

　　瑞迪教授后來說服了美國政府部門和美國標(biāo)準(zhǔn)局收集并提供了大量數(shù)據(jù)。我用美國標(biāo)準(zhǔn)局提供的標(biāo)準(zhǔn)大數(shù)據(jù)，跟多家拿國家錢的機(jī)構(gòu)數(shù)據(jù)，后來一些不拿國家錢的單位（如：IBM，AT&T）也參與進(jìn)來，我可使用的數(shù)據(jù)越滾越大。

　　除了大數(shù)據(jù)，統(tǒng)計(jì)學(xué)的方法還需要非�？斓臋C(jī)器，瑞迪教授又幫我購買了最新的Sun 4機(jī)器。此后每次有新的機(jī)器，他都會(huì)說：“先問問開復(fù)要不要。” 做論文的兩年多，我至少花了他幾十萬美元的經(jīng)費(fèi)。

　　瑞迪教授的寬容再次讓我感覺到一種偉大的力量，這是一種自由和信任的力量。

　　在導(dǎo)師的支持下，我開始了瘋狂的科研工作。

　　當(dāng)時(shí)，我?guī)е硪晃粚W(xué)生一起用統(tǒng)計(jì)的方法做語音識別。同時(shí)，其他30多人用專家系統(tǒng)做同樣的問題。從方法上來說，我們在競爭，但是在瑞迪教授的領(lǐng)導(dǎo)下，我們分享一切，我們用同樣的樣本訓(xùn)練和測試。

　　在1986年底，我的統(tǒng)計(jì)系統(tǒng)和他們的專家系統(tǒng)達(dá)到了大約一樣的水平，40%的辨認(rèn)率。這雖然還是完全不能用的系統(tǒng)，但畢竟是學(xué)術(shù)界第一次嘗試這么難的問題，大家還是比較欣喜和樂觀的。

　　1987年5月，我們大幅度地提升了訓(xùn)練的數(shù)據(jù)庫，采用了新的建模方法，不但能夠用統(tǒng)計(jì)學(xué)的方法學(xué)習(xí)每一個(gè)音，而且可以用統(tǒng)計(jì)學(xué)的方法學(xué)習(xí)每兩個(gè)音之間的轉(zhuǎn)折。針對有些音的樣本不夠，我又想出了一種方法（generalized triphones）來合并其他的音。這三項(xiàng)工作居然把機(jī)器的語音識別率從原來的40%提高到了80%！后來又提高到96%。

　　統(tǒng)計(jì)學(xué)的方法用于語音識別初步被驗(yàn)證是正確的方向。

　　大家都相信了我用的機(jī)器學(xué)習(xí)方法和隱馬可夫模型算法，并且拋棄了不可行的專家系統(tǒng)（專家系統(tǒng)只達(dá)到60%的識別率）。在我的博士論文基礎(chǔ)上，后來的Nuance，微軟、蘋果等公司做出了業(yè)界最領(lǐng)先的產(chǎn)品。

　　1988年4月，我受邀到紐約參加一年一度的世界語音學(xué)術(shù)會(huì)議，發(fā)表學(xué)術(shù)論文。

　　這個(gè)成果撼動(dòng)了整個(gè)學(xué)術(shù)領(lǐng)域。這是當(dāng)時(shí)計(jì)算機(jī)領(lǐng)域里最頂尖的科學(xué)成果。

　　語音識別率大幅度提高，讓全世界語音研究領(lǐng)域閃爍出一道希望的光芒，從此，所有以專家系統(tǒng)研究語音識別的人全部轉(zhuǎn)向了統(tǒng)計(jì)方法。

　　會(huì)后，《紐約時(shí)報(bào)》派記者JohnMarkoff來到匹茲堡對我作了采訪，文章發(fā)表于1988年7月6日，占了科技版首頁的整個(gè)半版。在這篇文章里，馬可奧夫大力報(bào)道了我的論文的突破。當(dāng)時(shí)，我只覺得在和一個(gè)和藹可親的記者聊天，事后，我才知道這是一名才華橫溢的著名記者，三次提名普利策獎(jiǎng)，并在斯坦福兼教。

　　這是1988年，《紐約時(shí)報(bào)》對我博士論文的報(bào)道這是1988年，《紐約時(shí)報(bào)》對我博士論文的報(bào)道

　　后來，《商業(yè)周刊》把我的發(fā)明選為1988年最重要的科學(xué)發(fā)明。年僅26歲初出茅廬的我，第一次亮相就獲得這樣的成功，讓我感到很幸運(yùn)，也讓我有了繼續(xù)向科技高峰攀爬的動(dòng)力。

　　而我也因此拿到了卡內(nèi)基·梅隆大學(xué)的計(jì)算機(jī)博士學(xué)位，這離我1983年入學(xué)只有4年半的時(shí)間。在卡內(nèi)基·梅隆大學(xué)的計(jì)算機(jī)學(xué)院，同學(xué)們平均6年以上才能拿到博士學(xué)位，我用這么短的時(shí)間拿到博士學(xué)位，是一項(xiàng)新的紀(jì)錄。

　　我也因此破格留校，成為一名26歲的助理教授。

　　遺憾的是，雖然我找到了方向和基本方法，但以當(dāng)時(shí)的數(shù)據(jù)量級和計(jì)算水平，語音AI研究很難有商業(yè)化機(jī)會(huì)。我最終還是離開科研界，進(jìn)入商界，用產(chǎn)品改變世界。

　　30年過了，AI發(fā)展的土壤終于肥沃起來。

　　伴隨互聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)而來的大數(shù)據(jù)、高效的計(jì)算機(jī)運(yùn)算能力等條件都齊備了�？蒲腥藛T需要的數(shù)據(jù)集不再那么難以觸碰，只是需要有人牽頭讓更多的公司參與進(jìn)來。這在30多年前，我還是一個(gè)AI科研人員的時(shí)代，能接觸到真實(shí)世界里如此海量的數(shù)據(jù)，是個(gè)遙不可及的夢想。

　　我當(dāng)年受惠于瑞迪教授的幫助和指導(dǎo)，今天也非常希望能給更多和我一樣的年輕人，創(chuàng)造研究機(jī)會(huì)和條件。

　　所以，昨天創(chuàng)新工場、搜狗、今日頭條聯(lián)合發(fā)起“AI Challenger 全球AI挑戰(zhàn)賽”。三家公司分別投入大量資金、也拿出千萬量級高質(zhì)量開放數(shù)據(jù)集與寶貴GPU資源。

　　同時(shí)，我也倡導(dǎo)商界和科研界能采用大量的數(shù)據(jù)和標(biāo)準(zhǔn)的測試方法，也歡迎更多的數(shù)據(jù)公司能夠參與到這個(gè)平臺里。

　　希望我們推出的Challenger.ai，可以幫助到中國AI人才成長。

　　在我看來，這次AIChallenger絕對不只是一個(gè)活動(dòng)，也絕對不只是一個(gè)獎(jiǎng)金200萬、年底就結(jié)束的競賽，這是推進(jìn)中國AI人才成長的重大催化劑。

　　希望3年或5年后，我們再來回顧這一段時(shí)光，我們發(fā)現(xiàn)中美AI人才之間沒有落差了，還能想到AI Challenger在這樣重大過程中扮演了一個(gè)小小角，我就感到這一切都有價(jià)值。

　　你們可能無法想象，我有多么羨慕你們，生活在數(shù)據(jù)爆炸的時(shí)代，有人提供數(shù)據(jù)和獎(jiǎng)金池，讓有才華的人一展拳腳。

欄目更新

欄目熱門