預(yù)處理文本數(shù)據(jù)庫(kù)是任何自然語(yǔ)言應(yīng)用程序必須完成的強(qiáng)制性工作之一。大多數(shù)應(yīng)用程序都包含一些標(biāo)準(zhǔn)步驟,而有時(shí)您需要進(jìn)行一些自定義的預(yù)處理。那么自然語(yǔ)言預(yù)處理如何轉(zhuǎn)換數(shù)據(jù)?本文將討論在處理文本數(shù)據(jù)時(shí),個(gè)人使用的一些數(shù)據(jù)轉(zhuǎn)換步驟。我們還將討論這種轉(zhuǎn)換的局限性。數(shù)據(jù)預(yù)處理所采取的步驟并非對(duì)所有應(yīng)用程序都是強(qiáng)制性的,這些都是我發(fā)現(xiàn)在一段時(shí)間內(nèi)有用的。
自然語(yǔ)言預(yù)處理如何轉(zhuǎn)換數(shù)據(jù)?
下面提到的是一些通常更喜歡根據(jù)問(wèn)題陳述的定義方式進(jìn)行的轉(zhuǎn)換。
1. 小寫:計(jì)算機(jī)不是人,也就是說(shuō),對(duì)于計(jì)算機(jī),計(jì)算機(jī)和計(jì)算機(jī),這三個(gè)詞在直到經(jīng)過(guò)除非經(jīng)過(guò)相應(yīng)的培訓(xùn)之后才表示同一件事。對(duì)三個(gè)示例進(jìn)行簡(jiǎn)單的單詞計(jì)數(shù)操作,得出的計(jì)數(shù)均為1,這在處理語(yǔ)義時(shí)是不正確的。為此,要訓(xùn)練一個(gè)有效的系統(tǒng),需要大量的數(shù)據(jù)集,其中此類實(shí)例的上下文保持不變。解決此問(wèn)題的其他有效的簡(jiǎn)單方法是切換到類似的套管樣式。在實(shí)踐中,人們通常將單詞小寫。
2. 標(biāo)點(diǎn)刪除:標(biāo)點(diǎn)可能很棘手。通常,可以刪除邊界標(biāo)點(diǎn)符號(hào)而不會(huì)出現(xiàn)任何問(wèn)題,但是對(duì)于單詞中出現(xiàn)標(biāo)點(diǎn)符號(hào)的情況則不適用。這種情況不適用于令牌生成器。同樣,您將大大丟失單詞結(jié)構(gòu),即不要 ->不要,那么您將無(wú)法在同一函數(shù)上調(diào)用擴(kuò)展收縮函數(shù)。
3. 添加額外的空間:這是可以采取的預(yù)防措施。它要求您在詞法單元的末尾添加一個(gè)額外的空格,以進(jìn)行正確的標(biāo)記化。例如,使用現(xiàn)有的句子標(biāo)記器,盡管精度很高,但它們無(wú)法捕獲某些邊緣情況。即這是一本好書。我喜歡閱讀。使用?NLTK句子標(biāo)記器,該句子將被分割為一個(gè)句子。因此,在發(fā)送給NLTK之前將此類情況解決為“這是一本好書”。
4. 剝離結(jié)束:再次解決了下套管解決的相同問(wèn)題。想一想這樣一個(gè)場(chǎng)景,在不同的詞匯單位之間存在連續(xù)的空格或標(biāo)點(diǎn)符號(hào)。在進(jìn)行單詞/句子/段落分割時(shí),我們不希望我們的系統(tǒng)在計(jì)算機(jī)和計(jì)算機(jī)之間進(jìn)行區(qū)分。
5. 擴(kuò)展收縮:擴(kuò)展收縮簡(jiǎn)單地意味著正常化不 - >不 ,不 - >沒(méi)有等,但因?yàn)橛忻鞔_的情況是需要即得到照顧,這不是一個(gè)簡(jiǎn)單的任務(wù)來(lái)處理,他會(huì) ->他會(huì)/他會(huì)的。W列出了人們使用的常見(jiàn)英語(yǔ)收縮的詳盡列表。你可以在這里找到它。一個(gè)簡(jiǎn)單的解決方法是,對(duì)于每次出現(xiàn)的收縮,都使用Wikipedia列表中的貪婪選擇技術(shù)。
6. 詞干:詞干是通過(guò)去除邊界詞素將單詞轉(zhuǎn)換成詞根形式的過(guò)程。以我的個(gè)人經(jīng)驗(yàn),當(dāng)模型的輸入和輸出均為自然語(yǔ)言時(shí),應(yīng)避免使用詞干法。例如,在抽象匯總系統(tǒng)中。您不希望在摘要中看到詞干。詞干在分類任務(wù)中起著很好的作用,因?yàn)槲覀冞x擇的向量表示不會(huì)為未詞干的單詞創(chuàng)建冗余值。
7. 語(yǔ)料庫(kù)特定的停用詞:停用詞并不總是通用的。除了特定于語(yǔ)言的通用術(shù)語(yǔ)外,還有特定于語(yǔ)料庫(kù)的重復(fù)單詞,這些單詞在分析中也可能沒(méi)有用,但會(huì)產(chǎn)生噪音。添加語(yǔ)料庫(kù)特定重復(fù)閾值的決定通常是通過(guò)查找每個(gè)單詞的出現(xiàn)百分比來(lái)分析語(yǔ)料庫(kù)來(lái)決定的。我不會(huì)說(shuō)我們應(yīng)該始終刪除特定于語(yǔ)言的停用詞,因?yàn)榭赡艽嬖谥T如語(yǔ)法校正之類的用例,其中您的系統(tǒng)必須在句子中適當(dāng)添加文章?,F(xiàn)在,這里你不能把一,一個(gè)的在停止列表中。
8. 拼寫校正:拼寫校正是實(shí)現(xiàn)搜索引擎時(shí)應(yīng)進(jìn)行的重要轉(zhuǎn)換之一。實(shí)現(xiàn)可以像距離一樣傳統(tǒng),也可以像實(shí)現(xiàn)序列到序列模型一樣復(fù)雜?,F(xiàn)有的拼寫更正實(shí)現(xiàn)在應(yīng)用于名詞時(shí)效果很差,并且與動(dòng)詞配合得很好。
除了轉(zhuǎn)換之外,還需要將它們巧妙地堆疊在管道中。如果存在同時(shí)要求刪除標(biāo)點(diǎn)符號(hào)和收縮擴(kuò)展的應(yīng)用程序,則應(yīng)在收縮擴(kuò)展之后執(zhí)行標(biāo)點(diǎn)符號(hào)移除,否則將沒(méi)有意義。
上述就是關(guān)于自然語(yǔ)言預(yù)處理如何轉(zhuǎn)換數(shù)據(jù)的全部?jī)?nèi)容,想了解更多關(guān)于自然語(yǔ)言預(yù)處理的信息,請(qǐng)繼續(xù)關(guān)注中培偉業(yè)。