自然語(yǔ)言是人類獨(dú)有的智慧結(jié)晶。自然語(yǔ)言處理(Natural Language Processing,NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向,旨在研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。用自然語(yǔ)言與計(jì)算機(jī)進(jìn)行通信,有著十分重要的實(shí)際應(yīng)用意義,也有著革命性的理論意義。由于理解自然語(yǔ)言,需要關(guān)于外在世界的廣泛知識(shí)以及運(yùn)用操作這些知識(shí)的能力,所以自然語(yǔ)言處理,也被視為解決人工智能完備(AI-complete)的核心問(wèn)題之一。對(duì)自然語(yǔ)言處理的研究也是充滿魅力和挑戰(zhàn)的。
自然語(yǔ)言處理的困難關(guān)鍵在于消除歧義問(wèn)題,如詞法分析、句法分析、語(yǔ)義分析等過(guò)程中存在的歧義問(wèn)題,簡(jiǎn)稱為消歧。而正確的消歧需要大量的知識(shí),包括語(yǔ)言學(xué)知識(shí)(如詞法、句法、語(yǔ)義、上下文等)和世界知識(shí)(與語(yǔ)言無(wú)關(guān))。由于歧義的存在給自然語(yǔ)言處理帶來(lái)兩個(gè)主要困難。
首先,當(dāng)語(yǔ)言中充滿了大量的歧義,分詞難度很大,同一種語(yǔ)言形式可能具有多種含義。特別是在處理中文單詞的過(guò)程中,由于中文詞與詞之間缺少天然的分隔符,因此文字處理比英文等西方語(yǔ)言多一步確定詞邊界的工序,即“中文自動(dòng)分詞”任務(wù)。通俗地說(shuō)就是要由計(jì)算機(jī)在詞與詞之間自動(dòng)加上分隔符,從而將中文文本切分為獨(dú)立的單詞。例如 “昨天有沙塵暴”這句話帶有分隔符的切分文本是“昨天|有|沙塵暴”。自動(dòng)分詞處于中文自然語(yǔ)言處理的底層,意味著它是理解語(yǔ)言的第一道工序,但正確的單詞切分又需要取決于對(duì)文本語(yǔ)義的正確理解。這形成了一個(gè)“雞生蛋、蛋生雞”的問(wèn)題,成為自然語(yǔ)言處理的第一條攔路虎。
除了在單個(gè)詞級(jí)別分詞和理解存在難度外,在短語(yǔ)和句子級(jí)別也容易存在歧義。例如 “出口冰箱”可以理解為動(dòng)賓關(guān)系(從國(guó)內(nèi)出口了一批冰箱),也可以理解為偏正關(guān)系(從國(guó)內(nèi)出口的冰箱);又如在句子級(jí)別,“做化療的是她的媽媽”可以理解為她媽媽生病了需要做化療,也可以理解為她媽媽是醫(yī)生,幫別人做化療。
其次,消除歧義所需要的知識(shí)在獲取、表達(dá)以及運(yùn)用上存在困難。由于語(yǔ)言處理的復(fù)雜性,合適的語(yǔ)言處理方法和模型難以設(shè)計(jì)。在試圖理解一句話的時(shí)候,即使不存在歧義問(wèn)題,我們也往往需要考慮上下文的影響。所謂的“上下文”指的是當(dāng)前所說(shuō)這句話所處的語(yǔ)言環(huán)境,包括說(shuō)話人所處的環(huán)境,或者是這句話的前幾句話或者后幾句話等。以“小A打了小B,因此我懲罰了他”為例。在其中的第二句話中的“他”是指代“小A”還是“小B”呢?要正確理解這句話,我們就要理解上句話“小A打了小B”意味著“小A”做得不對(duì),因此第二句中的“他”應(yīng)當(dāng)指代的是“小A”。由于上下文對(duì)于當(dāng)前句子的暗示形式是多種多樣的,因此如何考慮上下文影響問(wèn)題是自然語(yǔ)言處理中的主要困難之一。
此外,正確理解人類語(yǔ)言還要有足夠的背景知識(shí),特別是對(duì)于成語(yǔ)和歇后語(yǔ)的理解。比如在英語(yǔ)中“The spirit is willing but the flesh is weak.”是一句成語(yǔ),意思是“心有余而力不足”。但是曾經(jīng)某個(gè)機(jī)器翻譯系統(tǒng)將這句英文翻譯到俄語(yǔ),然后再翻譯回英語(yǔ)的時(shí)候,卻變成了“The Voltka is strong but the meat is rotten.”,意思是“伏特加酒是濃的,但肉卻腐爛了”。導(dǎo)致翻譯偏差的根本問(wèn)題,在于機(jī)器翻譯系統(tǒng)對(duì)于英語(yǔ)成語(yǔ)并無(wú)了解,僅僅是從字面上進(jìn)行翻譯,結(jié)果失之毫厘,謬之千里。
中培作為國(guó)內(nèi)資深I(lǐng)T教育機(jī)構(gòu),自然語(yǔ)言處理(NLP)學(xué)科自開(kāi)設(shè)以來(lái)就廣受好評(píng)。如果你也想學(xué)習(xí)自然語(yǔ)言處理(NLP),跟著老師學(xué)習(xí)是最快的捷徑。可以報(bào)名我們的12月20日-24日在上海舉辦的公開(kāi)課,名師大咖帶領(lǐng)你走進(jìn)自然語(yǔ)言處理(NLP)精彩世界,避免走彎路!
想了解更多IT資訊,請(qǐng)?jiān)L問(wèn)中培偉業(yè)官網(wǎng):中培偉業(yè)