亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種基于SVM 的英/美式英語的文本分類方法

        2021-07-30 07:57:48成潔
        電子設(shè)計(jì)工程 2021年14期
        關(guān)鍵詞:美式英語英式文檔

        成潔

        (陜西國際商貿(mào)學(xué)院通識學(xué)院,陜西西安 712046)

        互聯(lián)網(wǎng)的發(fā)展使得英語文本易于在在線媒體中找到并廣泛傳播。廣泛的英文文檔和文本,使其中包含的英語類型之間的區(qū)分變得更加困難。實(shí)際上,了解文本中使用的英語類型對于學(xué)習(xí)英語很重要。英語在世界范圍內(nèi)的差異也很大,尤其是在詞匯和句法層面展現(xiàn)出的區(qū)域差異[1]。因此,非英語母語者沒有標(biāo)準(zhǔn)的英語參考文獻(xiàn)可以參考[2]。

        除了可以通過英語差異識別當(dāng)?shù)鼐用竦募炛?,英?美式英語的一致性還可以提高人們理解英語的知識水平。如先前的研究所述[3],通過對作者使用的英語類型進(jìn)行識別,可以知道作者的國籍信息。同時(shí),對于這些所獲得的信息,可以用作社會學(xué)研究、市場分析、翻譯機(jī)制和信息檢索的材料。

        雖然美式英語是世界上使用的標(biāo)準(zhǔn)英語之一,但還沒有對美式英語進(jìn)行分類??紤]到已經(jīng)進(jìn)行了關(guān)于英語識別的研究,該研究的重點(diǎn)是關(guān)注英式/美式英語文本的句子中使用的語言,而不是基于作者所在國家。數(shù)據(jù)來自英式英語的英國國家語料庫(British National Corpus,BNC)[4],美式英語的數(shù)據(jù)來自當(dāng)代美國英語語料庫(Corpus of Contemporary American English,COCA)[5]。根據(jù)在COCA 和BNC 進(jìn)行的數(shù)據(jù)檢索,所擁有的每個(gè)數(shù)據(jù)的標(biāo)簽為英式英語和美式英語類。因此,這項(xiàng)研究使用監(jiān)督學(xué)習(xí)對具有已知標(biāo)簽的訓(xùn)練數(shù)據(jù)集進(jìn)行學(xué)習(xí)。

        在這項(xiàng)研究中,使用SVM(支持向量機(jī))算法對英式英語和美式英語文本進(jìn)行分類。使用SVM 分類器可以很好地處理具有高維的輸入空間,并且在文本分類中具有良好的準(zhǔn)確性[6-10]。在這項(xiàng)研究中還提出了結(jié)合使用N-gram 特征和使用附加特征的方法,這是因?yàn)樵谝郧暗挠⒄Z語言識別研究中并未使用N-gram 組合[2-3]。此外,這項(xiàng)研究還將揭示詞干的影響和單詞詞典功能的影響。

        1 SVM算法原理

        SVM 的中心思想是把線性不可分問題用非線性變換將其從低維度空間(如:二維平面)轉(zhuǎn)換到高維度空間的線性可分割問題[7,11-13]。假設(shè)一個(gè)訓(xùn)練集,其中,xi是特征向量,yi∈{-1,1}是訓(xùn)練集中樣本的標(biāo)簽。那么SVM 算法學(xué)習(xí)函數(shù)如式(1)所示。

        它是樣本x與具有法向量w和偏移量b的分離超平面之間的距離。函數(shù)D可用于根據(jù)概念對集合中的圖像進(jìn)行排序。給定訓(xùn)練集中的l個(gè)正樣本和k個(gè)負(fù)樣本,SVM 的優(yōu)化問題被表述為:

        對于式(2),其約束條件如下:

        從式(2)可知,目標(biāo)函數(shù)的第一項(xiàng)與正類和負(fù)類之間的解的邊界成反比。最大的距離是被認(rèn)為最優(yōu)的解決方案。松弛變量ξi是對違反約束條件的訓(xùn)練集樣本的錯(cuò)誤分類的懲罰。參數(shù)C+和C-是調(diào)節(jié)寬度和訓(xùn)練誤差之間的常數(shù)。

        2 分類過程

        該節(jié)主要介紹了整個(gè)文本分類系統(tǒng)的處理過程。圖1 為整個(gè)文本分類系統(tǒng)流程示意圖。

        圖1 英美英語文本分類系統(tǒng)流程

        2.1 預(yù)處理

        已獲取的數(shù)據(jù)集根據(jù)其所屬的類別或類進(jìn)行標(biāo)記,按標(biāo)簽可分為英式英語和美式英語兩類。標(biāo)記是基于句子數(shù)據(jù)的來源或所獲得的引語:從英國國家語料庫獲得的數(shù)據(jù)將被標(biāo)記為英式英語類;相反,從當(dāng)代美國英語語料庫獲得的數(shù)據(jù)將被標(biāo)記為美式英語類。樣本數(shù)據(jù)示例如表1 所示。

        表1 樣本數(shù)據(jù)示例

        表1 是獲得數(shù)據(jù)的一個(gè)簡單例子。當(dāng)更深入地探討時(shí),colou(r顏色)詞匯基本上是用英式英語來寫的,color 這個(gè)詞是用美式英語寫的。然后句子將進(jìn)入一個(gè)標(biāo)點(diǎn)刪除過程,刪除文本中的標(biāo)點(diǎn)。在這項(xiàng)研究中,去除標(biāo)點(diǎn)符號的同時(shí)也去除句子中所包含的數(shù)字。

        在此之后,執(zhí)行一個(gè)大小寫折疊過程,目的是將所有字母轉(zhuǎn)換為小寫字母。這樣做是為了讓計(jì)算機(jī)能夠更容易地識別和區(qū)分現(xiàn)有的單詞。基本上,如果沒有完成折疊過程,那么“Colour”和“colour”是兩個(gè)不同的詞。下一步是標(biāo)記化,標(biāo)記化是將句子轉(zhuǎn)換為獨(dú)立單詞或標(biāo)記的過程。例如,表1中編號為1的句子改為“[each”“,room”“,has”“,a”“,colour”“,tv”]。

        預(yù)處理部分的最后一步是停止詞刪除過程。本研究中的停止詞是包含在nltk.corpus[14]的英語停止詞中的單詞,這些詞包括連詞、冠詞、to be 等。然后執(zhí)行詞干處理,詞干處理是將一個(gè)單詞轉(zhuǎn)換成一個(gè)基本詞的過程,通常是通過消除前綴、插入、后綴或組合來完成的。在這項(xiàng)研究中,使用了NLTK WordNet Lemmatization 庫[14]。

        2.2 詞性標(biāo)注

        在預(yù)處理階段,將從一個(gè)句子中獲得一組單詞。然而,從預(yù)處理結(jié)果中獲得的單詞集合仍然具有一些特征,其中一類單詞(POS 標(biāo)記)并不顯著,在文獻(xiàn)[3]中某些POS 標(biāo)簽被用作特征。詞性標(biāo)注是一個(gè)詞在句子中所起作用的標(biāo)注過程。標(biāo)簽是根據(jù)詞的類型而定的,在本研究中,先使用詞性標(biāo)記法進(jìn)行特征縮減。在文獻(xiàn)[3]和[15]的基礎(chǔ)上,本研究將刪除具有特定標(biāo)簽的詞。剩下的單詞包括名詞、動詞、形容詞和副詞。

        2.3 N-gram特征提取

        在此階段,使用N-gram 方法進(jìn)行特征提取。特征提取是在分類過程中產(chǎn)生具有顯著特征的對象,N-gram 是從文本中提取的字符或單詞序列。在這種情況下,N-gram 是從一個(gè)句子中提取的N個(gè)連續(xù)單詞的集合。該研究中使用的N是unigram(N=1)、bigram(N=2)和trigram(N=3)的特征。

        在短語“his mobile phone rang”中,將獲得unigram 特征“his”、“mobile”、“phone”、“rang”。至于bigram 的形式,將獲得“mobile”、“mobile phone”、“phone rang”等特征。然后以三聯(lián)圖的形式,對連續(xù)3 個(gè)單詞執(zhí)行相同的操作。

        2.4 特征選擇

        在獲得N-gram 形式的特征后,進(jìn)行特征選擇,以減少被認(rèn)為對分類過程沒有顯著影響的特征。選擇特征是通過給特征的文檔頻率(Document Frequency,DF)值賦予一個(gè)閾值來完成的,DF 是所有使用的數(shù)據(jù)或文檔的特征或術(shù)語出現(xiàn)的頻率。

        DF 值低于或等于閾值的特征將被刪除,在此假設(shè),當(dāng)單詞出現(xiàn)的次數(shù)較少,不會影響的整體結(jié)果[16]。給DF 設(shè)置一個(gè)閾值是一種最簡單的技術(shù),它可以減少具有大量語料源的詞匯或特征,并提高計(jì)算時(shí)間的效率。

        2.5 TF-IDF加權(quán)計(jì)算

        基于已獲得的特征,將與TF-IDF 矩陣的最終結(jié)果進(jìn)行加權(quán)計(jì)算。TF(Term Frequency)表示文檔中特征的頻率。IDF(Inverse Document Frequency,文檔反頻率)出現(xiàn)在DF(文檔頻率)中,DF 最初是一個(gè)詞在所有被調(diào)查的文檔中出現(xiàn)的次數(shù)。有時(shí),一個(gè)術(shù)語出現(xiàn)在大多數(shù)文檔中,導(dǎo)致獨(dú)特的術(shù)語搜索過程。如果一個(gè)詞廣泛出現(xiàn)在現(xiàn)有的所有文檔集中,IDF 的作用是減輕該詞的權(quán)重。

        在本研究中,TF 的計(jì)算使用可用特征數(shù)的原始值,公式如下:

        fi,j的值表示文檔中某個(gè)術(shù)語的頻率。而IDF 值由式(6)計(jì)算。

        N表示所有文檔的數(shù)量,dfi是包含項(xiàng)i的文檔的數(shù)量。然后通過式(7)計(jì)算TF 和IDF 的乘積值來獲得權(quán)重w。

        2.6 詞語字典

        除了從訓(xùn)練數(shù)據(jù)生成的特征外,還使用了兩個(gè)附加特征,這兩個(gè)特征是英式英語和美式英語的小型詞典。這本小詞典包含特定的詞匯和短語,在這兩種語言中都能找到。

        所建立的單詞和短語列表摘自英國牛津生活詞典,每一本詞典都有280 個(gè)單詞或短語。如果在數(shù)據(jù)或文檔中找到與已構(gòu)建的詞典匹配的單詞/短語,則詞典中的功能將被賦予“1”值,反之則被賦予“0”值。

        Simulation on Power System of Offshore Platform with Closed Bus-Tie(s)

        例如,在文檔1 中有單詞“soccer”,并且在美國英語詞典中有單詞“soccer”,因此在“American Dictionary”功能中將給出值1,加權(quán)示例見表2。

        表2 字典加權(quán)的樣本

        2.7 矩陣合并

        利用之前所述內(nèi)容,將TF-IDF 權(quán)重矩陣和單詞字典矩陣組合起來。表3 是所形成的最終矩陣樣本結(jié)果。

        表3 最終矩陣樣本

        2.8 學(xué)習(xí)過程

        建立分類系統(tǒng)時(shí),進(jìn)行了數(shù)據(jù)分割,將所擁有的數(shù)據(jù)分為訓(xùn)練集和測試集,目的是利用支持向量機(jī)(SVM)算法訓(xùn)練所擁有的分類系統(tǒng)。該模型將被訓(xùn)練以產(chǎn)生最佳超平面,從而將英式英語和美式英語分開。

        2.9 評 估

        在處理數(shù)據(jù)分布時(shí),該研究采用k-折疊交叉驗(yàn)證,k-折疊是一種交叉驗(yàn)證技術(shù),旨在將數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù),交叉驗(yàn)證是一種在執(zhí)行訓(xùn)練過程時(shí)不使用所有數(shù)據(jù)集的技術(shù)。訓(xùn)練過程完成后,使用訓(xùn)練過程中未包含的數(shù)據(jù)來測試從已執(zhí)行的訓(xùn)練過程中獲得的模型。k-fold 將數(shù)據(jù)分成盡可能多的k個(gè)部分。然后對數(shù)據(jù)的k-1 個(gè)部分進(jìn)行訓(xùn)練,剩下的1 個(gè)部分作為測試數(shù)據(jù)。然后重復(fù)k個(gè)數(shù)據(jù),直到所有數(shù)據(jù)都成為測試數(shù)據(jù)。研究采用k=10 進(jìn)行k-折疊交叉驗(yàn)證,即將90%的數(shù)據(jù)分為訓(xùn)練數(shù)據(jù)和10%的數(shù)據(jù)分為測試數(shù)據(jù)。

        經(jīng)過交叉驗(yàn)證過程,得到準(zhǔn)確度的評價(jià)和計(jì)算值。準(zhǔn)確度是分類器進(jìn)行分類時(shí)的準(zhǔn)確度,即表示分類器正確分類的測試數(shù)據(jù)量的百分比。同時(shí),選擇準(zhǔn)確度作為分類模型評估的衡量標(biāo)準(zhǔn),研究表明,使用準(zhǔn)確度等簡單指標(biāo)進(jìn)行評估時(shí),解釋每個(gè)類別中具有平衡量的數(shù)據(jù)。

        3 實(shí)驗(yàn)與評估

        3.1 實(shí)驗(yàn)配置和測試場景

        實(shí)驗(yàn)環(huán)境為Windows 10 64 位操作系統(tǒng)的臺式機(jī)一臺,其CPU 為英特爾I7 3.5 GHz 處理器,內(nèi)存為16 GB,GPU 為英偉達(dá)RTX 2060s。實(shí)驗(yàn)使用Python 3.7 語言在Anaconda3 64 位下進(jìn)行。

        3.2 實(shí)驗(yàn)結(jié)果

        3.2.1 最佳SVM模型(場景1)

        表4 內(nèi)核測試準(zhǔn)確性的結(jié)果

        表4 中的測試結(jié)果表明,線性核在處理英美英語分類數(shù)據(jù)集中基于所獲得的精度值的數(shù)據(jù)分布方面具有良好的性能。因此,在場景2 中,支持向量機(jī)算法將與線性核函數(shù)一起用作分類器。

        3.2.2 N-gram特征的最佳組合(場景2)

        基于場景1 中獲得的最佳SVM 模型,接下來進(jìn)行的分析是結(jié)合來自不同N值的N-gram 特征。在不增加字典的情況下,使用TF-IDF 進(jìn)行加權(quán)。

        基于表5,由Unigram-Bigram 特征生成的特征組合具有最佳的準(zhǔn)確度。因此,此特征將在稍后的場景3 中使用。

        表5 N-gram組合的結(jié)果

        3.2.3 阻塞效果(場景3)

        此外,在場景2 中測試結(jié)果得到的Unigram-Bigram 特性上,在沒有和使用詞干算法的情況下分別進(jìn)行測試。阻塞結(jié)果如表6 所示。

        表6 阻塞結(jié)果

        表6 的結(jié)果表明,在預(yù)處理階段去除了詞干算法,提高了系統(tǒng)性能,準(zhǔn)確度為92.1%。此外,該模型將用于場景4 中的測試。

        3.2.4 詞典特征的組合(場景4)

        通過為每個(gè)特征獲得的文檔頻率(DF)值提供閾值來執(zhí)行下一個(gè)分析。如果特征的DF 值小于或等于閾值,則該特征將從TF-IDF 加權(quán)矩陣中移除。表7 顯示了在給定閾值的情況下,在不使用從場景3獲得的詞干算法的情況下,對Unigram-Bigram 模型的測試結(jié)果。

        表7 DF閾值結(jié)果

        在給定DF 值閾值的基礎(chǔ)上,得到最佳閾值,其值為2,準(zhǔn)確度為94.0%。最后一個(gè)測試是添加單詞詞典作為新功能,使用的模型是Unigram-Bigram 模型,而不使用從場景3 獲得的詞干算法。

        基于圖2 所示的實(shí)驗(yàn)結(jié)果,通過使用選擇特征(閾值DF)和添加單詞字典特征,獲得了具有最佳精度值的實(shí)驗(yàn)結(jié)果。使用的閾值是基于從表7 獲得的最佳值,即為2。因此,系統(tǒng)的最佳值為96.5%。

        圖2 詞典特征測試結(jié)果

        3.3 結(jié)果評估

        通過對英美英語文本分類系統(tǒng)的研究可知,首先,采用線性核函數(shù)的支持向量機(jī)算法可以克服英美英語中數(shù)據(jù)分布的問題,從而得到該情況下的最優(yōu)支持向量機(jī)模型。其次在特征提取中結(jié)合N-gram 特征可以提高系統(tǒng)性能,在這種情況下,結(jié)合Unigram 和Bigram 形式。接著,對詞干處理過程有助于提高系統(tǒng)性能。在預(yù)處理階段詞干表明系統(tǒng)性能下降,這是由于詞干算法將單詞轉(zhuǎn)換為一個(gè)基本單詞,而在英式英語和美式英語中,有一些具有相同基本單詞的詞語具有不同的形式。然后在所使用的特征的組合上,可以得出結(jié)論,在文檔頻率中提供某些閾值可以提高系統(tǒng)性能和計(jì)算時(shí)間效率,此外,將附加字典作為另外的特征也可以提高系統(tǒng)性能。通過分析和測試,得到了最佳的系統(tǒng)性能,準(zhǔn)確度為96.5%。因此,該系統(tǒng)的性能優(yōu)于先前的研究[3],準(zhǔn)確率為77.32%。

        4 結(jié)論

        由于英式英語跟美式英語之間存在較大區(qū)別,為了更好區(qū)分英/美式英語的文本,以及其語義,文中提出一種算法,實(shí)現(xiàn)對英式英語和美式英語的區(qū)分。此外,更希望在此基礎(chǔ)上,通過對英式英語和美式英語中的模式和詞匯的區(qū)分,來實(shí)現(xiàn)對文本的預(yù)測。通過實(shí)驗(yàn)證明,該系統(tǒng)在分辨英式和美式英語文本的準(zhǔn)確度能夠達(dá)到96%左右。

        猜你喜歡
        美式英語英式文檔
        “英式英語”和“美式英語”啥區(qū)別?看完這些圖秒懂
        有人一聲不吭向你扔了個(gè)文檔
        英式英語和美式英語的拼寫為什么不同?
        英式苦啤酒
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        英式下午茶
        Coco薇(2015年12期)2015-12-10 03:32:51
        美式英語的演變
        海外英語(2013年3期)2013-08-27 09:37:01
        英式英語VS美式英語
        不讓他人隨意下載Google文檔
        電腦迷(2012年4期)2012-04-29 06:12:13
        日本中文字幕乱码中文乱码| 人妻无码Aⅴ中文系列| 国产高清一级毛片在线看| 亚洲精品国产熟女久久久| 老太婆性杂交视频| 又爽又黄又无遮挡的激情视频| 亚洲免费av电影一区二区三区| 91国内偷拍一区二区三区| 久久亚洲中文字幕精品一区四 | 国产一区二区三区 在线观看| 在线观看的网站| 欧美极品少妇性运交| 韩国无码精品人妻一区二| 综合久久精品亚洲天堂| 国产亚洲一区二区在线观看| 青青青国产精品一区二区| 日韩中文字幕无码av| 国产精品成人av一区二区三区| 久久精品国产亚洲7777| 成年视频国产免费观看| 91亚洲精品久久久蜜桃| 国产三级视频不卡在线观看 | 男女啪啪永久免费观看网站| 国产女人91精品嗷嗷嗷嗷| 丝袜美腿在线播放一区二区| 性久久久久久| 成人免费ā片在线观看| 99久久久精品国产性黑人| 中文字幕在线看精品乱码| 欧美放荡的少妇| 亚洲中文久久精品无码ww16| 99久久国语露脸国产精品| 在线日本国产成人免费精品| 人妻无码中文字幕| 97久久精品人人妻人人| 国产一级自拍av播放| 刺激一区仑乱| 亚洲av色先锋资源电影网站| 久久av一区二区三区下| 最新中文字幕一区二区| av潮喷大喷水系列无码|