仿生系列6--人機交流
導言:機器可以翻譯的語音命令越來越多。但是與人類大腦相比,人工智能計算機可以更好地理解語言信息嗎?
人類用了上千年的時間,才學會使用語言,然而計算機只花費了50年的時間就在語音識別和語義解讀技術上取得了令人刮目相看的成就。IBM公司開發(fā)的超級計算機沃森(Watson)可以“理解”比較復雜的語言含義,是目前世界上最智能的計算機系統(tǒng)之一。它的實力在今年2月份得到了驗證——成功挑戰(zhàn)美國王牌智力問答節(jié)目《危險邊緣》中的人類高手,沒費多少力氣就拿下了冠軍。這件事一度引起了轟動,因為對語言的理解過程是人類大腦中最復雜的處理過程。但是,沃森真的理解了人類的語言嗎?或者它只是“回想”起了存儲在硬盤里的標準化答案。
在語音識別的過程中,人類與計算機的相似性超出大多數(shù)人的想象。然而,在解讀語言信息時的決定性因素卻不相同,因為最復雜的計算機也只能按指令執(zhí)行計算,但是人類大腦常常是發(fā)散的,它可以理解錯綜復雜的信息。
識別:接收和分析語言
現(xiàn)在,抓取人類語音對于計算機而言難度并不大,比如售價100歐元的Dragon Naturally Speaking語音識別程序就可以非常出色地識別人類語音。語音識別的過程需要將“抓取”到聲音中的字詞與句子整合在一起,然后通過非常復雜的系統(tǒng)才能識別出語音的內容。為了正確地識別語言,首先要將識別出的語音轉換為數(shù)字信號。在這個過程中,語言識別系統(tǒng)必須過濾掉所有的背景噪音才可以處理真正的聲音。這是非常重要的一步,如果計算機將所有的聲音和噪音混合在一起,就無法理解真正需要的那句話了。
其實,人類的大腦也采用相同的識別模式,必須將聲波轉換成電信號,然后過濾掉噪音。然而,人類大腦對聲音的識別過程又遠比計算機“聰明”,當我們處在幾個人同時講話的嘈雜環(huán)境中時,耳朵會選擇性地直接屏蔽掉低于15dB的噪音,使大腦可以順利追蹤到其中一個人的聲音,與之順利交談(雞尾酒效應)。但是,計算機在這種環(huán)境下無法進行準確的區(qū)分,這是因為計算機對每個語音信號都采取同樣的處理方式,過濾器在嘈雜的環(huán)境中無能為力。
人類和計算機在處理過濾后的語音信號之前,都需要生成有效聲音的頻譜。對于人類而言,這個處理過程由耳朵完成;對于計算機而言,首先通過“快速傅里葉變換”將信號轉換為頻譜,然后頻譜經過“隱馬爾可夫模型”轉換為音節(jié),最后組成有意義的詞語和句子。計算機需要運用語音數(shù)據(jù)庫、語法模型庫和例句庫來區(qū)別同音字詞,例如“神馬”和“什么”、“閱讀”和“悅讀”等,驗證這些語音在句子結構中代表的真實含義。
目前最先進的語音識別程序可以識別出大約98%的語言信息,無法識別的部分,用戶可以通過人工手動糾正。雖然取得了如此好的成就,但是軟件仍然在識別方言和俚語的時候很難保證其準確性。因為與人類相比,計算機只能執(zhí)行指令,將聲音頻率化,無法靈活地判斷講話者的情緒信息、動作信息等。
解讀:語言在上下文中的含義
語音識別方面的很多問題可以通過更大的語音數(shù)據(jù)庫來解決。但是在理解人類的語言方面,計算機程序還面臨著許多基本性的問題。由于計算機沒有意識,所以只能依靠更復雜的規(guī)則來增強自己的語言理解能力,解讀聽到的語音含義。
在理解人類語言方面,計算機將希望寄托在語義網(wǎng)絡上,語義網(wǎng)絡由頂點和邊組成,其中,頂點代表的是概念,而邊則表示的是這些概念之間的語義關系。它可以回答諸如“今天北京朝陽區(qū)的氣溫是多少?”這樣的問題。在這個例子中,詞語“今天”對應著時間,“北京朝陽區(qū)”對應著地點,頂點之間的關聯(lián)(邊)就是“氣溫”。這就是為什么有了邊對頂點的限制,計算機就可能根據(jù)上下文來識別屋子里的“Windows(窗戶)”與微軟著名的操作系統(tǒng)“Windows(軟件)”的不同,識別可以吃的水果“Apple”與美國蘋果公司“Apple”的區(qū)別。
可以肯定的是,在有標準答案的問題上,計算機的能力遠比人類更強大,這一點已經被新的《危險游戲》王者——超級計算機沃森證明,沃森可以訪問由百科全書和詞典等組成的大約100GB的純文本資料庫。為了增加答案的準確性,沃森同時采用幾百種算法進行運算。在最后的分析過程中,沃森顯示的答案都是經過一些高級人工智能的算法,將所聽到的詞語(頂點)與詞語之間的關聯(lián)(邊),通過邏輯命令計算出來的。
此外,沃森還具有自學習的能力,它可以存儲新的知識,并且與已經存在的概念關聯(lián)起來形成更強大的語義網(wǎng)數(shù)據(jù)庫。我們可以將沃森視為高智商的大師嗎?顯然不能,因為沃森只能做到調用概念,并找出答案之間的關系而已,換句話說它并不能理解任何一句模棱兩可的話。
結論
人類可以做到同時與多人交流,根據(jù)情景理解對方所講語音的含義,機器則很難做到。相比而言,人類大腦的神經網(wǎng)絡非常復雜,關聯(lián)信息、最新事件、環(huán)境氛圍都會被納入考慮范圍,同時只會提取這些信息中的有用因素,不像計算機一樣只能盲目地保留所有細節(jié)。目前,計算機的唯一優(yōu)勢就是它的數(shù)據(jù)庫,原則上數(shù)據(jù)庫會收集、分類,并且隨時調用所有搜集到的語音信息,而人類的大腦中只保留了一小部分有用信息,大部分信息都被丟棄。綜合來看,計算機的語音識別和語義解讀能力與人類相比,還有很大的一段差距,但是沃森的出現(xiàn),讓我們相信人類與計算機交流的夢想并不會太遙遠。