• <tr id="mmmmm"><small id="mmmmm"></small></tr>
    • <noscript id="mmmmm"></noscript>
      <nav id="mmmmm"></nav>
    • <tr id="mmmmm"></tr>
      <nav id="mmmmm"><sup id="mmmmm"></sup></nav>

      婷婷色婷婷开心五月,一夲道岛国无码不卡视频,日韩人妻无码bd,亚洲另类无码专区首页

      ad9_210*60
      關(guān)鍵詞:
      臺灣網(wǎng)  >  經(jīng)貿(mào)  >   IT

      機器語音識別距人類只差0.4% 即將比肩人類

      2017年05月03日 09:52:32  來源:北京日報
      字號:    

        日前,美國一家公司宣稱專業(yè)速記員在記錄對話時,轉(zhuǎn)錄詞錯率為5.1%,而該公司最新研發(fā)的語音識別系統(tǒng)詞錯率已達到5.5%,超越之前的歷史最佳水準,樹立了新的里程碑。語音識別,是人工智慧領(lǐng)域的核心問題之一,0.4%的差距似乎意味著機器即將比肩人類。

        已過“甲子”之年

        斯坦福大學的相關(guān)研究者在2016年9月發(fā)佈了一篇名為《2030年的人工智慧與生活》的文章,提到:人工智慧領(lǐng)域正式誕生於1956年夏天,一場由約翰·麥卡錫組織的在美國達特茅斯暑期研究項目的研討會,在多年以後被認定為全球人工智慧研究的起點。

        其實,對於人工智慧子項目之一的語音識別來説,它的歷史甚至比60年還要久。

        語音識別的研究源頭可追溯至1950年,電腦科學之父阿蘭·圖靈在《思想》(Mind)雜誌上發(fā)表了題為“計算的機器和智慧”的論文,首次提出了機器智慧的概念,論文還提出了一種驗證機器是否有智慧的方法:讓人和機器進行交流,如果人無法判斷自己交流的對像是人還是機器,就説明這個機器有智慧了,這就是後來鼎鼎有名的人工智慧圖靈測試。

        圖靈測試的概念極大影響了人工智慧對於功能的定義,以此為途徑,卡內(nèi)基梅隆大學的兩位科學家希爾伯特·西蒙和曼紐爾·布盧姆做了大量的前期工作,非常精妙地證明了羅素《數(shù)學原理》52道中的38道。西蒙甚至宣稱在10年之內(nèi),機器就可以達到和人類智慧一樣的高度。

        在這一時期,科學家們也將語音識別比作“機器的聽覺系統(tǒng)”,該技術(shù)可以讓機器通過識別和理解,把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令。1952年,貝爾研究所、Davis等人研製了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。1960年,英國的Denes等人研製了第一個電腦語音識別系統(tǒng)。

        從“模擬”人腦到開創(chuàng)統(tǒng)計方法

        當20世紀50年代明確了人工智慧要模擬人類智慧這一大膽目標後,這一領(lǐng)域經(jīng)歷了近20年的輝煌。研究人員開展了一系列項目,表明電腦能夠完成一系列原本只屬於人類能力範疇之內(nèi)的任務(wù),例如證明定理、求解微積分、通過規(guī)劃來響應(yīng)命令、履行物理動作,甚至是模擬心理學家心理實驗、作曲家譜曲這樣的活動。

        但是,過分簡單的演算法以及計算能力的限制,嚴重阻礙了人們使用人工智慧來解決更加困難和多樣化的問題。

        這一階段在人工智慧的細分領(lǐng)域語音識別上,科學家們也走上了同樣的彎路。他們認為,電腦要完成語音識別這類只有人才能做的事情,必須先讓電腦理解自然語言,導致研究局限在人類學習語言的方式上了,即電腦模擬人腦,語言學者參與了大量的研究工作,但最後的成果卻近乎為零。伴隨著對未來繼續(xù)努力的失望,人工智慧包括語音識別都于20世紀70年代中期逐漸淡出公眾視野。

        轉(zhuǎn)機出現(xiàn)在統(tǒng)計語言學的創(chuàng)立上。這不得不提一個關(guān)鍵性人物——德里克·賈裏尼克和他領(lǐng)導的IBM華生實驗室,他們創(chuàng)新的使用統(tǒng)計方法,將當時的語音識別率從70%迅速提升到90%,同時語音識別的規(guī)模從幾百個單詞上升到幾萬個單詞,使得語音識別就有了從實驗室走向?qū)嶋H應(yīng)用的可能。

        在賈裏尼克之前,科學家們都把語音識別問題的核心歸結(jié)為語言學中的規(guī)則問題,而賈裏尼克將它當作通信問題後,用兩個隱含馬爾可夫模型(聲學模型和語言模型)把語音識別重新概括清楚了。

        這個框架結(jié)構(gòu)至今仍對語音識別影響深遠,它不僅從根本上使得語音識別有使用的可能,而且奠定了今天自然語言處理的基礎(chǔ)。賈裏尼克後來也因此當選美國工程院院士,並被某雜誌評為20世紀100名發(fā)明家之一。

        儘管賈裏尼克在1972年就提出了新的研究範式,但模擬人腦與統(tǒng)計學的方法之爭,卻持續(xù)了近十五年時間,語音識別領(lǐng)域歷經(jīng)了十五年的新舊交替後,最大的成果其實是在技術(shù)的應(yīng)用及産品化方面出現(xiàn)了進展。

        大進步的催化劑

        在網(wǎng)際網(wǎng)路大爆發(fā)的20世紀90年代,人工智慧的相關(guān)研究又一次停滯了。直到21世紀前10年,出現(xiàn)了一系列復興人工智慧研究進程的要素,尤其是下面這些重要的因素和核心技術(shù):

        大數(shù)據(jù)。得益於網(wǎng)際網(wǎng)路、社交媒體、移動設(shè)備和廉價的感測器,這個世界産生的數(shù)據(jù)量急劇增加。大數(shù)據(jù)是人工智慧發(fā)展的助推劑,這是因為有些人工智慧技術(shù)使用統(tǒng)計模型來進行數(shù)據(jù)的概率推算,如語音識別,通過數(shù)據(jù)的海洋中豐富的語料,使得技術(shù)不斷優(yōu)化。

        新演算法。演算法是解決一個設(shè)計程式或完成任務(wù)的路徑方法。在一個完整的工業(yè)界語音識別系統(tǒng)裏,最關(guān)鍵的是深度學習演算法,還有很多工作是專業(yè)領(lǐng)域相關(guān)的演算法,以及海量數(shù)據(jù)收集和工程系統(tǒng)架構(gòu)的搭建。這些演算法本身很重要,同時也是其他技術(shù)的推動者,比如機器學習演算法Google的TensorFlow目前就被開源使用。

        可以説,任何技術(shù)都有蓄能階段和爆發(fā)階段,人工智慧包括語音識別技術(shù)的爆發(fā)都得益於以上條件。這也不難理解,從語音識別來看,它是需要經(jīng)驗、數(shù)據(jù)和用戶反饋共同作用來提升表現(xiàn)的。需要利用用戶的反饋總結(jié)出一些特點。

        谷歌是最早在全球範圍內(nèi)大規(guī)模使用深度學習演算法的公司,也最早開創(chuàng)了用網(wǎng)際網(wǎng)路思維做語音識別。在這方面,科大訊飛受到谷歌的啟發(fā),迅速跟進成為國內(nèi)第一個在商用系統(tǒng)裏使用深度學習的公司。

        現(xiàn)有成績和待解難題一樣多

        語音識別技術(shù)已經(jīng)發(fā)展了幾十年,因為大數(shù)據(jù)和深度學習的應(yīng)用,這一領(lǐng)域的傳統(tǒng)強者成了谷歌、亞馬遜、蘋果和微軟這些美國科技巨頭,據(jù)統(tǒng)計,美國至少有26家公司在開發(fā)語音識別技術(shù),而中國則有近50家公司研究這一領(lǐng)域。

        儘管谷歌這些巨頭在語音識別技術(shù)上的技術(shù)積累和先發(fā)優(yōu)勢讓後來者似乎難以望其項背,但因為一些政策和市場方面的原因,當然也有部分原因是中文的複雜程度高於英語,所以國際巨頭的語音識別主要偏向於英語,中文領(lǐng)域的語音智慧機會則留給了科大訊飛、百度、搜狗等中國公司。在國內(nèi),這些本土化産品更為用戶所熟知。

        中文領(lǐng)域的識別難度在哪?舉個簡單的例子,魯迅《孔乙己》中的孔乙己之問:茴香豆的“茴”有幾種寫法?或者一個更有時代感的案例,如何形容物流很快?據(jù)説,在漢語裏回答這個問題竟然至少有3600種説法,比如第二天就到了、物流很給力、給快遞點讚等不盡其詳。儘管語音識別在近些年來取得了巨大的進步,但其實仍然還有很多的工作要做。

        此外,還有確保語音識別能在更為真實生活的環(huán)境中良好地工作。這些環(huán)境包括具有很多背景噪聲的地方,比如聚會場所或在高速路上駕駛的時候;還有在多人交談環(huán)境中將不同的説話人區(qū)分開。

        還有一個更深層次的難題是,如果需要實現(xiàn)人機對話、人機寫作,不只是需要用機器轉(zhuǎn)錄來自人類嘴巴的聲音信號,更要理解人們所説的話。

        從語音識別來看,下一個前沿是從識別走向理解,真正的人工智慧仍然還在遙遠的地平線上,在機器能理解其所聽到或看到的事物的真正含義之前,還需要很長時間的工作,有很長的路要走。

        或許也可以説,我們正在從一個人類必須理解電腦的世界,邁向一個電腦必須理解我們的世界。亞裏士多德曾説過,如果機器能幹很多活,豈不能讓人類解放出來,或許這一解放的起點就是“理解”。

        (作者為《機器人産業(yè)》雜誌副總編輯)

      [責任編輯:郭曉康]

      特別推薦
      點擊排名
      聚焦策劃
      婷婷色婷婷开心五月
    • <tr id="mmmmm"><small id="mmmmm"></small></tr>
      • <noscript id="mmmmm"></noscript>
        <nav id="mmmmm"></nav>
      • <tr id="mmmmm"></tr>
        <nav id="mmmmm"><sup id="mmmmm"></sup></nav>