◆
(黃河水利職業(yè)技術(shù)學(xué)院)
所謂的聚類分析,又被稱為數(shù)值分類學(xué),這是一種多元統(tǒng)計(jì)分類技術(shù)。在社會(huì)各領(lǐng)域中,聚類分析都有著廣泛的研究與運(yùn)用,并取得了一定的成效。以外國(guó)語(yǔ)言學(xué)研究為例,相較于其他方法,聚類分析在語(yǔ)言統(tǒng)計(jì)中具有突出優(yōu)勢(shì),鑒于此,針對(duì)聚類分析在外國(guó)語(yǔ)言學(xué)研究中的應(yīng)用具有重要的研究?jī)r(jià)值。
在語(yǔ)義、句法型式、認(rèn)知語(yǔ)言學(xué)、心理學(xué)語(yǔ)言學(xué)、計(jì)算語(yǔ)言學(xué)以及社會(huì)語(yǔ)言學(xué)等多個(gè)領(lǐng)域,聚類分析都具有一定的應(yīng)用價(jià)值。通常情況下,聚類分析是結(jié)合到語(yǔ)料庫(kù)數(shù)據(jù)一起使用。關(guān)于聚類分析在外國(guó)語(yǔ)言研究中的應(yīng)用領(lǐng)域,具體闡述如下:
1.詞匯語(yǔ)義學(xué)
語(yǔ)言學(xué)中的有一個(gè)假設(shè):語(yǔ)言項(xiàng)目的語(yǔ)境分布信息對(duì)該語(yǔ)言項(xiàng)目的語(yǔ)義、功能特點(diǎn)進(jìn)行了揭示,語(yǔ)言成分的分布條件或限制就是語(yǔ)言成分的意義所在。語(yǔ)料庫(kù)將詞匯的分布環(huán)境信息涵蓋其中,以共現(xiàn)詞及其頻率為例,基于語(yǔ)料庫(kù)中的共現(xiàn)特征的頻率信號(hào)的獲取,劇烈分析可以對(duì)近義詞、反義詞的意義與用法有一個(gè)客觀、系統(tǒng)的辨析。相關(guān)人員就提出詞匯行為輪廓研究方法就對(duì)聚類分析加以運(yùn)用。值得一提的,實(shí)驗(yàn)表明,同(近)義詞的類或簇的心理現(xiàn)實(shí)性比較突出。在詞匯語(yǔ)義學(xué)中,在詞典編纂、外語(yǔ)教學(xué)領(lǐng)域聚類分析往往具有較強(qiáng)的適用性。
2.句法型式研究
在對(duì)語(yǔ)料庫(kù)中句法結(jié)構(gòu)進(jìn)行聚類時(shí),聚類分析能夠提供一定的幫助,并且在經(jīng)驗(yàn)數(shù)據(jù)性的句法研究中,聚類分析也具有適用性。例如人們?cè)诰垲愓Z(yǔ)料庫(kù)中某個(gè)單詞的全部索引時(shí),對(duì)該詞匯的全部句法型式進(jìn)行識(shí)別與提取,進(jìn)而就可以使我們對(duì)特定單詞的句法行為的認(rèn)識(shí)變得更加系統(tǒng)與全面。在基于數(shù)據(jù)驅(qū)動(dòng)的句法研究、詞典編纂以及外語(yǔ)教學(xué)而言,其應(yīng)用價(jià)值顯然是比較大的。
所謂的型式,就是短語(yǔ)單位,其組成部分包括名詞、形容詞以及補(bǔ)足語(yǔ)成分。研究型式句法是為了將不同詞類的所有型式抽象、歸納出來(lái)。在對(duì)句法型式進(jìn)行抽取與概括時(shí),聚類分析主要采取如下做法:首先對(duì)句法型式的一系列特征集合進(jìn)行建構(gòu),然后進(jìn)行每個(gè)索引行為中具體語(yǔ)言信息向?qū)?yīng)型式特征信息的轉(zhuǎn)換,基于對(duì)相似度算法的應(yīng)用,將聚類分析用于同一檢索詞析出的索引行中,并將每組索引行中的公共特征項(xiàng)提取出來(lái),最后使相關(guān)單詞的句法型式的自動(dòng)識(shí)別與提取得以實(shí)現(xiàn),具體如下圖所示。
3.語(yǔ)言風(fēng)格變異研究
對(duì)于一個(gè)語(yǔ)篇而言,其呈現(xiàn)的語(yǔ)言結(jié)構(gòu)單位的使用統(tǒng)計(jì)特征分為很多種,例如詞長(zhǎng)、句長(zhǎng)、型符類符比、詞性比例、句型比例等等。大量研究表明,根據(jù)文本體裁的不同,語(yǔ)言結(jié)構(gòu)特征就客觀而言存在變異。在語(yǔ)言結(jié)構(gòu)單位特征頻率分布的差異的影響下,語(yǔ)言風(fēng)格變異自然就會(huì)形成。語(yǔ)篇風(fēng)格、文體也是基于這些頻率分布差異得以構(gòu)成的。此外,站在一個(gè)作者的角度,其語(yǔ)言中表現(xiàn)出來(lái)的語(yǔ)言結(jié)構(gòu)單位的個(gè)性化使用統(tǒng)計(jì)特征也必然包含了很多種,我們可以統(tǒng)計(jì)出一個(gè)作者不同作品的語(yǔ)言使用情況,基于分析獲取該作者對(duì)不同語(yǔ)言結(jié)構(gòu)單位使用的統(tǒng)計(jì)特征。相反的,我們也可以通過(guò)作者對(duì)語(yǔ)言結(jié)構(gòu)單位使用的統(tǒng)計(jì)特征,將聚類分析運(yùn)用將作者身份已知的文本以及身份未知的文本分析中,然后以分析結(jié)果為參考,對(duì)這些匿名作品的作者進(jìn)行有效識(shí)別。
4.語(yǔ)言的地理變異
語(yǔ)言的地理變異又被稱為方言聚類,在語(yǔ)言學(xué)這一領(lǐng)域中聚類分析有著非常長(zhǎng)的應(yīng)用歷史。在上世紀(jì)80年代初,就有研究人員在方言分類的研究中運(yùn)用了聚類分析,并取得了理想的成效。之后,歐洲方言計(jì)量學(xué)研究中,以某些研究人員為代表的對(duì)聚類分析的應(yīng)用越來(lái)越廣泛。
5.語(yǔ)言的社會(huì)變異
語(yǔ)言變異與社會(huì)結(jié)構(gòu)之間有著非常復(fù)雜的關(guān)系,在研究中如果選擇傳統(tǒng)方法,顯然是無(wú)法取得理想的效果的,究其原因就在于傳統(tǒng)的研究方法的盲目性比較強(qiáng),并且系統(tǒng)性有所缺失,大部分情況下需要以個(gè)人經(jīng)驗(yàn)或靈感對(duì)語(yǔ)言提出假設(shè)并展開(kāi)研究,而相較于規(guī)模龐大的語(yǔ)言數(shù)據(jù)而言,個(gè)人經(jīng)驗(yàn)或靈感顯然是微不足道的。而聚類分析應(yīng)用則是傳統(tǒng)方法的問(wèn)題得到有效規(guī)避,這種方法能夠?yàn)檠芯空咴谝?guī)模龐大的語(yǔ)言數(shù)據(jù)中尋找數(shù)據(jù)結(jié)構(gòu)提供支持,然后與數(shù)據(jù)結(jié)構(gòu)為基礎(chǔ),對(duì)相關(guān)研究變量進(jìn)行有效分析、提取,使不同變量之間的關(guān)聯(lián)被系統(tǒng)性的發(fā)現(xiàn)出來(lái),然后通過(guò)假設(shè)對(duì)理論模型進(jìn)行建構(gòu)。
相較于定性的分類方法,聚類分析的客觀性與可重復(fù)性是其應(yīng)用價(jià)值的重要體現(xiàn)。聚類分析是以事實(shí)與數(shù)據(jù)為基礎(chǔ)得到運(yùn)用的,這是其客觀性特點(diǎn)的體現(xiàn)。當(dāng)然不可否認(rèn),聚類分析并沒(méi)有將所有主觀因素排除掉,在某些方面的選擇上其主觀性依然存在,例如算法選擇、距離計(jì)算方式以及聚類數(shù)值特征等等。然而,如果人們?cè)O(shè)定了聚類分析中的指標(biāo)、類的定義、距離計(jì)算方式以及算法等參數(shù),那么聚類的可重復(fù)性、可檢驗(yàn)性就得到突出,并且也提供一個(gè)基準(zhǔn)來(lái)比較不同分類方法的優(yōu)劣。以主觀定性為依托的分類方法具有較低的重復(fù)性,由于專家與新手的理論素養(yǎng)、經(jīng)驗(yàn)以及直覺(jué)存在很大的差別,因此復(fù)制起來(lái)存在較大難度,他們的分類結(jié)果也不盡相同。眾所周知,在科學(xué)研究中,客觀性與可重復(fù)性是最為基本的要求,因此,相較于定性分類,聚類分析的科學(xué)性更強(qiáng)。
此外,聚類分析在規(guī)模龐大的數(shù)據(jù)處理中也具有很高的應(yīng)用價(jià)值。對(duì)于小數(shù)據(jù)而言,人們可以對(duì)其結(jié)構(gòu)進(jìn)行有效分析,然后提出猜想和假設(shè)。但如果數(shù)據(jù)規(guī)模龐大且復(fù)雜程度較高,那么受限于認(rèn)知能力,人們可能并不能透過(guò)數(shù)據(jù)表面對(duì)其中的結(jié)構(gòu)與規(guī)律進(jìn)行研究與分析,同時(shí)提出的猜想與假設(shè)也可能不盡合理。而基于聚類分析的應(yīng)用,可以使大數(shù)據(jù)處理變得高效、準(zhǔn)確,使其中的結(jié)構(gòu)與規(guī)律得以發(fā)現(xiàn),為人們提出假設(shè)提供支持。
在大數(shù)據(jù)時(shí)代背景下,語(yǔ)料庫(kù)數(shù)據(jù)的內(nèi)容必然更加豐富,數(shù)據(jù)挖掘技術(shù)的應(yīng)用也取得了重大突破?,F(xiàn)階段,人們逐漸開(kāi)始質(zhì)疑對(duì)內(nèi)省式語(yǔ)言數(shù)據(jù)的可靠性,并對(duì)語(yǔ)言用法數(shù)據(jù)加以運(yùn)用。由此可見(jiàn),在未來(lái)在面對(duì)規(guī)模龐大的語(yǔ)言數(shù)據(jù)時(shí),只有通過(guò)數(shù)據(jù)挖掘,才能夠?qū)崿F(xiàn)語(yǔ)言知識(shí)的獲取。而人工與肉眼顯然是無(wú)法處理這些語(yǔ)言數(shù)據(jù)的,此時(shí)聚類分析的價(jià)值就體現(xiàn)出來(lái)。作為外國(guó)語(yǔ)言研究這,必須對(duì)聚類分析以及其他的數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究與學(xué)習(xí),促使自身研究能夠與時(shí)代發(fā)展形勢(shì)相適應(yīng)。
參考文獻(xiàn):
[1]孫仕光,張萍.聚類分析在外國(guó)語(yǔ)言學(xué)研究中的應(yīng)用[J].懷化學(xué)院學(xué)報(bào),2016,(3) :108-113.
[2]劉佳玲.聚類分析在外國(guó)語(yǔ)言學(xué)研究中的應(yīng)用[J].科學(xué)與財(cái)富,2017,(19) :97.
[3]陳芯瑩,劉海濤.語(yǔ)義、句法網(wǎng)絡(luò)作為語(yǔ)體分類知識(shí)源的對(duì)比研究[J].計(jì)算機(jī)工程與應(yīng)用,2014,(02) :10-14+43.
[4]陳芯瑩,劉海濤.句法復(fù)雜網(wǎng)絡(luò)作為語(yǔ)體分類的知識(shí)源研究[J].計(jì)算機(jī)工程與應(yīng)用,2013,(08) :32-36.
[5]陳芯瑩,劉海濤.句法復(fù)雜網(wǎng)絡(luò)作為語(yǔ)體分類的知識(shí)源研究[J].計(jì)算機(jī)工程與應(yīng)用,2012.