劉佳玲
摘 要:筆者在調(diào)查之后發(fā)現(xiàn),我國語言研究人員在對聚類分析研究內(nèi),研究并不深入,同時也并不了解聚類分析實際應(yīng)用情況。本文在對聚類分析研究內(nèi),對聚類分析在外國語言學研究中的應(yīng)用進行了解,希望能夠?qū)垲惙治錾钊敕治鲅芯?。聚類分析屬于統(tǒng)計分析技術(shù),同時具有研究方法意義,可以對數(shù)據(jù)驅(qū)動形式深入了解,尤其是特別強調(diào)聚類分析在語言分析研究內(nèi)主要手段。
關(guān)鍵詞:聚類分析;語料庫;外國語言研究
前言:聚類分析也稱之為數(shù)值分類學,屬于統(tǒng)計分類領(lǐng)域內(nèi)主要技術(shù)。聚類分析在人工學及社會學等領(lǐng)域內(nèi)廣泛應(yīng)用,并且都取得了顯著應(yīng)用成果。在語言學分析研究內(nèi),語言分類依舊存在較多問題,但是語言研究人員主要采取定性方法進行劃分,很少借助計量手段進行劃分。根據(jù)現(xiàn)階段研究人員調(diào)查結(jié)果表示,我國語言類研究人員很少借助聚類分析對統(tǒng)計方式分析研究,聚類分析在外國語言學研究內(nèi)應(yīng)用還存在一定局限性,需要進一步分析研究。
一、聚類分析
聚類分析定義為:在沒有類別標記信息對象所構(gòu)成的集合內(nèi),每一個信息對象都具有n個屬性或者是特點。聚類分析按照集合內(nèi)不同信息對象所具有的算法將信息對象自動進行類別劃分,同時每個類別都可以自動識別,最大程度保證每一個組別內(nèi)信息對象都具有較高同質(zhì)性,與其他類別之間存在較大異質(zhì)性。
正常情況下,語言學家在對對象劃分內(nèi),按照指標對信息對象進行定性類別劃分。但是在面對大量指標情況下,尤其是定比數(shù)量指標定距數(shù)量指標,這種類別劃分也就無法劃分。在這種情況下,就可以借助聚類分析進行類別劃分。通過信息對象特征向量,對每一個信息對象標記,然后對其信息對象進行聚類劃分。聚類分析可以對數(shù)據(jù)結(jié)構(gòu)及模式了解,認識到不同變量之間所存在的關(guān)聯(lián)。聚類分析所具有的算法類別較多,同時新型聚類方式也在不斷進行完善創(chuàng)新。按照筆者調(diào)查統(tǒng)計,聚類分析在外國語言學研究內(nèi)應(yīng)用,應(yīng)用最為廣泛的一種方法為聚合型層次聚類法[1]。
二、聚類分析在外國語言學應(yīng)用現(xiàn)狀
本文在對聚類分析在外國語言學研究中應(yīng)用現(xiàn)狀分析研究內(nèi),主要對聚類分析在我國王國語言學研究內(nèi)應(yīng)用總體情況進行了解。在對該內(nèi)容進行解答內(nèi),筆者查閱了大量社科文獻,其中還包含外文文獻。筆者在對不同類別文獻類型劃分內(nèi),以聚類作為搜索核心,可以看見聚類在不同學科內(nèi)所具有的數(shù)量。這些數(shù)字可以有效體現(xiàn)出聚類分析在不同學科內(nèi)應(yīng)用頻率。
聚類分析在不同學習可搜索內(nèi),相關(guān)文獻篇數(shù)最多的為中國文學,文獻篇數(shù)為192,其中包含聚類一詞文獻篇數(shù)為20篇;第二名為中國語言文學,文獻篇數(shù)為1131,其中包含聚類一詞文獻篇數(shù)為142;第三名為外國語言文學,文獻篇數(shù)為571,其中包含聚類一詞文獻篇數(shù)為73[2].
三、聚類分析在語言研究中的應(yīng)用領(lǐng)域
聚類分析在語言領(lǐng)域研究內(nèi)應(yīng)用,主要應(yīng)用在三個方面上,分別為語義、句法型式、認知語言。正常情況下,聚類分析在應(yīng)用內(nèi)需要和語料庫數(shù)據(jù)相結(jié)合。
(一)詞匯語義學
在語言學內(nèi)存在這樣一個假設(shè):假設(shè)語言項目內(nèi)語境分布情況可以有效體現(xiàn)出該語言項目特征。語言成分可以有效體現(xiàn)出語言成分,并且體現(xiàn)出語言成分所存在的限制。語料庫在實際應(yīng)用內(nèi),可以為語言項目提供環(huán)境信息,例如語言出現(xiàn)頻率。按照語料庫所提出的特點信息,聚類分析在詞匯語義學內(nèi)應(yīng)用,可以客觀對詞匯反義詞及近義詞實際用法及意義進行對比分析。例如,gries在分析研究內(nèi)就提出,聚類方法在詞匯行為輪廓上應(yīng)用,可以對詞匯深入分析研究[3]。
(二)句法型式研究
人們可以借助聚類分析對語料庫內(nèi)所具有的句法結(jié)構(gòu)進行類別劃分,進而增加對句法深入分析研究。例如,在對語料庫內(nèi)部分單詞進行搜索內(nèi),就可以借助聚類分析方法進行識別提取,進而了解到該詞匯句法行為,對詞匯進行系統(tǒng)并且全面了解。借助聚類分析方式,可以對詞匯句法深入分析研究,編制詞典,并且也能夠提升外語教學質(zhì)量。
型式主要由三部分短語單位構(gòu)成,分別為名詞、動詞、足語,例如,v表示短語單位核心詞,into表示短語單位實際詞項,n表示短語單位名詞。對型式語法進行分析研究,主要目的就是希望可以對不同詞類所具有的型式抽象化歸納了解。
(三)語言文體變異研究
在整個語言文章內(nèi),包含較多語言結(jié)構(gòu)單位,進而在對特征統(tǒng)計。語言具有多種統(tǒng)計特征,例如句長、型符類符比、詞性比例等。在大部分實證分析研究內(nèi),可以對不同語言特點在文章內(nèi)所存在的變化進行里了解。文章在文體、題材、語言風格等方面所存在的差別,就會構(gòu)成不同語言結(jié)構(gòu)單位。不同特征頻率所發(fā)生的變化,進而構(gòu)成了風格十分迥異語篇風格,奠定文體基礎(chǔ)結(jié)構(gòu)特征。在對文體特點進行統(tǒng)計分析內(nèi),在1851年由數(shù)學家mor所提出,并且對其大膽創(chuàng)新[4]。
四、聚類分析優(yōu)勢
聚類分析在應(yīng)用內(nèi)最為顯著優(yōu)勢就是可以定量對信息對象客觀認知,了解不同信息對象可重復性。聚類分析在開展中,是以真實數(shù)據(jù)作為基礎(chǔ)條件,也就是說聚類分析結(jié)果具有客觀性,但是這并不表示可以完全排除主觀因素影響。聚類分析在三個方面上還存在一定主觀性,分別為計算方式、算法選擇、聚類數(shù)值特點。但是,聚類分析所應(yīng)用的數(shù)據(jù)指標在人為設(shè)定之后,聚類分析也就具有可檢驗特征,為聚類分析結(jié)果精確性進行判斷[5]。
從主觀定位層面來說,聚類分析方法所具有的重復性相對較低,主要原因是由于不同專家在總結(jié)經(jīng)驗及理論素養(yǎng)等方面存在顯著差別,無法對其復制,進而所得出的結(jié)果還存在顯著差別??偹苤?,科學研究是以可重復性及客觀性作為基礎(chǔ)特征及要求,因此聚類分析在應(yīng)用內(nèi)具有一定科學性。
五、聚類分析在外國語言學研究發(fā)展前景
二十一世紀作為大數(shù)據(jù)時代,語料庫所具有的數(shù)據(jù)信息更加豐富,聚類分析也越加完善成熟。截止到目前位置,大部分語言方面研究人員都語言數(shù)據(jù)深入分析研究,逐漸將研究重點放在語言用法數(shù)據(jù)上面。研究人員研究表示,語言直覺語言數(shù)據(jù)信息穩(wěn)定性十分有限,但是要是借助語言用法數(shù)據(jù),語言研究穩(wěn)定性可以顯著提升,有效提升語言研究生態(tài)效應(yīng)。由此可知,聚類分析在外國語言學研究應(yīng)用分析研究內(nèi),需要借助大規(guī)模語言數(shù)據(jù)對語言知識知識挖掘,龐大語言數(shù)據(jù)無法通過人工方式處理。聚類分析就是語言數(shù)據(jù)深入分析研究主要手段。外國語言研究人員需要對數(shù)據(jù)挖掘技術(shù)進行了解,尤其是聚類分析,進而才能夠?qū)φZ言深入分析研究[6]。
結(jié)論:聚類分析作為語言研究主要工具,需要與語料庫語言緊密結(jié)合。本文在分析研究內(nèi)發(fā)現(xiàn),外國語言學研究人員對聚類分析了解十分有限,并無法實際應(yīng)用,聚類分析由于具有較多優(yōu)勢,所以在聚類分析在外國語言學研究內(nèi)應(yīng)用還需要進一步完善,充分發(fā)揮出聚類分析優(yōu)勢。
參考文獻:
[1]周光華,李岳峰,孟群.模糊聚類分析在醫(yī)學圖像處理中的應(yīng)用[J].中國衛(wèi)生信息管理雜志,2011,04:69-73.
[2]朱永寬,谷涓涓.自適應(yīng)遺傳算法在聚類分析中的應(yīng)用[J].黑龍江科技信息,2010,25:52-53.
[3]岳鑫鑫.認知語言學在語篇分析中的應(yīng)用[J].黑龍江科技信息,2012,33:201.
[4]居祥,張燕,黃賢金.聚類分析在長江流域地區(qū)房地產(chǎn)價格研究中的應(yīng)用[J].經(jīng)濟地理,2013,03:79-83.
[5]張麗霞.反思性教學在外國語言學課程改革中的應(yīng)用研究[J].亞太教育,2016,35:238+237.
[6]屈家安,曹杰.主成分分析與聚類分析在青島夏季氣溫變化研究中的應(yīng)用[J].大氣科學學報,2014,04:517-520.