亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于向量空間模型的文本風(fēng)格相似度分析
        ——以女性文學(xué)為例

        2014-03-21 03:28:09邢翠鵑
        文教資料 2014年29期
        關(guān)鍵詞:分詞文檔向量

        邢翠鵑

        (南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

        基于向量空間模型的文本風(fēng)格相似度分析
        ——以女性文學(xué)為例

        邢翠鵑

        (南京師范大學(xué) 文學(xué)院,江蘇 南京 210097)

        本文主要用向量空間模型(Vector Space Model,VSM)來分析女性文學(xué)代表作家的作品,通過TF-IDF計算文本特征項的權(quán)重,最后根據(jù)計算結(jié)果來分析這些女性文學(xué)作家作品的文本風(fēng)格相似度。并以此證明同時代不同作家或不同時代同類作家(女性文學(xué)作家)的文本是同中有異,異中有同,此外還分析了部分特征詞的分布情況。

        向量空間模型 TF-IDF 文本相似度 女性文學(xué)

        引言:

        文本中的相似度計算是自然語言處理領(lǐng)域中的關(guān)鍵問題之一,在信息檢索、信息抽取、專利分析等領(lǐng)域都有著重要的應(yīng)用價值。面對現(xiàn)代網(wǎng)絡(luò)信息時代的海量信息,我們可以通過文本相似度算法來為信息分類,以提高信息檢索的效率。早在20世紀(jì)30年代,西方文體學(xué)界即開始引入定量分析,尤其是統(tǒng)計學(xué)的方法[1],而將計算方法應(yīng)用于漢語語言風(fēng)格學(xué)研究最早始于20世紀(jì)70、80年代,人們用詞頻統(tǒng)計等方法來考證《紅樓夢》的作者歸屬問題。這種方法也得到了我國語言風(fēng)格學(xué)界一些學(xué)者的肯定,如黎運(yùn)漢先生就專文論述了語言風(fēng)格研究中常用的三種方法:分析綜合法、比較法和統(tǒng)計法。他指出,“統(tǒng)計法適用于各種語言風(fēng)格的研究”,因為“風(fēng)格特點(diǎn)的質(zhì)必然反映在語言因素的量上”,“風(fēng)格學(xué)應(yīng)用它提供的數(shù)據(jù),從質(zhì)和量的統(tǒng)一上研究風(fēng)格現(xiàn)象,進(jìn)而認(rèn)識風(fēng)格的本質(zhì)”[2]。

        1.向量空間模型[3]

        向量空間模型是一種用來表示文檔的方法,它的思想是將文檔分解為由詞條特征構(gòu)成的向量。具體做法是將文檔進(jìn)行分詞,然后計算文檔中每個詞條的權(quán)重,權(quán)重計算可以利用TF-IDF算法,由計算得到的權(quán)重構(gòu)成一個矢量空間,即形成這個文檔的向量空間。這里,文檔(Document)用D來表示,如此這樣,文檔Dj就可以表示成如下的向量空間:

        其中,m表示文檔D中分詞的特征詞條數(shù);Wij為詞條ti在文檔Dj中的權(quán)重。

        向量空間模型假定某個文本di由一個特征向量(t1,t2,…,tn)表示,ti是出現(xiàn)在文本di中的特征項,n表文本di中各種不同特征項。特征項ti對應(yīng)有一個特征權(quán)重wi=TF(wi,di)*IDF(wi),TF(wi,di)正比例于某個特征項在文本di中出現(xiàn)的頻率,IDF(wi)反比例于某個特征項在文本集合中出現(xiàn)的頻率。di對應(yīng)于一個n維的向量Di=(w1,w2,…,wn),顯然,特征權(quán)重度量了相應(yīng)特征項的統(tǒng)計重要性。

        TF-IDF是一種經(jīng)典的基于統(tǒng)計分析的特征項權(quán)重計算方法。最早由G.salton在1973年提出①。TF(term frequency)是指關(guān)鍵詞詞頻,即一篇文章中關(guān)鍵詞出現(xiàn)的頻率;IDF(inverse document frequency)是指逆向文本頻率,即關(guān)鍵詞在不同文檔中的分布情況。它的基本思路是:一個詞在一個文本中出現(xiàn)的頻率越高,說明它區(qū)分該文本的能力越強(qiáng)(TF);一個詞在不同文本中出現(xiàn)的范圍越廣,說明它區(qū)分文本的能力越低(IDF)。經(jīng)過Salton的多次論證,信息檢索領(lǐng)域廣泛地使用TF-IDF算法計算權(quán)重,其經(jīng)典計算公式為:

        根據(jù)以上分析,容易獲得兩個直觀結(jié)果:a)某個特征項在文本中出現(xiàn)的頻率越高,則這個特征項對這個文本越具有標(biāo)志能力,賦予這個特征項的特征權(quán)重應(yīng)該越大;b)某個特征項在文本集合中各個文本內(nèi)出現(xiàn)的頻率越高,那么用這個特征項對文本集合中的文本進(jìn)行分類的區(qū)分能力越弱。例如在英文文本中,“the”出現(xiàn)的頻率很高,但是這個單詞對各文本的區(qū)分能力卻很差。

        2.研究對象

        女性文學(xué)是誕生于一定的社會歷史條件下,以五四新文化運(yùn)動為開端,具有現(xiàn)代人文精神內(nèi)涵,以女性為經(jīng)驗主體、思維主體、審美主體和言說主體的文學(xué)。在這一界說之下,女性文學(xué)的視野是開放的、發(fā)展的系統(tǒng),而不是封閉靜止的,應(yīng)該是女作家基于性別主體意識、生別視角表現(xiàn)的關(guān)注女性命運(yùn)、女性情感、女性生命的文學(xué),或者是基于超性別意識(隱含性別主體意識)、超性別視角(隱含性別視角)表現(xiàn)的包括女性生存在內(nèi)的、具有人類普遍意義的文本。女性文學(xué)仍是一個有待探索和完善的命題。

        中國的女性文學(xué)從五四時期到二十世紀(jì)九十年代共有三次高潮,每次高潮都有自己不同的主題和不同的具有代表性的作家作品,本文就選取了不同時期的十位作家——丁玲、蕭紅、張愛玲,楊絳,張潔,王安憶,鐵凝,林白,陳染,魏微——的總計六十五部作品作為研究的對象。

        3.實(shí)驗過程

        3.1 選取文本

        首先根據(jù)研究需要,選取有代表性的女性文學(xué)作家十位及其代表作品總計六十五部,文本規(guī)模2247419詞次。具體分布情況如下:

        表1:語料分布情況表

        3.2 文本預(yù)處理

        選定語料后,對這些文本進(jìn)行整理,主要是去掉一些無關(guān)的字符,例如:有關(guān)文檔來源的電子鏈接等。

        3.3 文本分詞及詞性標(biāo)注

        文本分詞是文本分類的基礎(chǔ)。簡單地說,就是用分詞算法把文本切分成字、詞和短語。目前常用的自動分詞方法有:

        A.最大匹配法(Maximum Matching Word Segmentation)

        正向最大匹配(MM):假如分詞依據(jù)的詞典中最長詞條為n個字符,對待分詞文本自左向右取n個字符,與詞典進(jìn)行匹配,若詞典中存在該詞條,則將該詞條切分出去,繼續(xù)取n個字符進(jìn)行匹配,直到文本處理完畢;若詞典中不存在該詞條,則減去該詞條最后一個字符,繼續(xù)與詞典進(jìn)行匹配,重復(fù)該過程。還有逆向最大匹配法,過程與正向最大匹配法一樣,不過方向是自右向左。最大匹配法分詞方法的優(yōu)點(diǎn)有:速度快、直觀;與詞表規(guī)模幾乎無關(guān);現(xiàn)代漢語語料(含一定未登錄詞)的分詞精度在85%左右;其缺點(diǎn)有:幾乎無法解決未登錄詞問題(只能猜對未登錄的單字)、過于依賴詞表,跨領(lǐng)域性較差、分詞精度有待提高 (交集型歧義只能猜對一半;組合型歧義,只合不分)。其他的特點(diǎn)有切分一致度高。

        B.最大概率法分詞[7](Maximum Probability Word Segmentation)

        又稱為基于統(tǒng)計的分詞方法。從形式上看,詞是穩(wěn)定的字的組合。相鄰的字同現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞,因此字與字相鄰共現(xiàn)的概率能夠較好地反映成詞的可信度。這種分詞方法的基本思想是:一個待切分的漢字字符串可能包含多種分詞結(jié)果,將其中概率最大的那個詐為該字串的分詞結(jié)果。主要的語言統(tǒng)計模型和決策算法有:互信息、N元文法模型、最大熵模型等。其特點(diǎn)有:若每個詞語的概率相等,則退化為最大匹配法、分詞精度一般在90%左右、沒有利用上下文信息,對交集型歧義字串采取千篇一律的切分方式、對于組合型歧義的消解基本無效、對于交集型歧義(偽歧義消解效果好、真歧義消解效果差[8]),對此可嘗試?yán)迷~的轉(zhuǎn)移概率(二元模型)。

        詞性標(biāo)注(Part of Speech Tagging,POS)就是對文本中每一個詞賦予相應(yīng)的詞性標(biāo)記,包括對標(biāo)點(diǎn)符號的標(biāo)記。它代表了一個詞的語法特征,也稱語法標(biāo)記、詞語附碼[17]。具體過程是從待分析詞串中取一個Span:對詞串中的每個詞,查詞庫,(1)若查到,將該詞所有詞性標(biāo)記取出,登記在數(shù)組Tags[i][j]中,i代表詞的序號,j代表詞性標(biāo)記序號,將該詞該標(biāo)記的出現(xiàn)次數(shù)登記在Freqs[i][j]數(shù)組中;(2)若未查到,將開放類詞性標(biāo)記賦給該詞,登記在Tags[i][j]中,將Freqs[i][j]的值置為1。對Span中的每個詞的每個可能的詞性標(biāo)記;(3)計算該標(biāo)記的累計費(fèi)用;(4)記錄該標(biāo)記的最佳前驅(qū)標(biāo)記當(dāng)Span中最后一個詞的詞性標(biāo)記確定下來后,順次取出各詞的最佳前驅(qū)標(biāo)記,即得到詞性標(biāo)注結(jié)果。將Span類數(shù)據(jù)重新初始化,準(zhǔn)備下一個Span的標(biāo)注。例如:實(shí)現(xiàn)/v祖國/n的/u完全/a統(tǒng)一/vn,/w是/v海內(nèi)外/s全體/n中國/ns人/n的/u共同/b心愿/n。/w(采用北京大學(xué)的詞類標(biāo)記集)

        本文的語料是用最大概率法分詞,用ICTCLS軟件進(jìn)行詞性標(biāo)注。之后又對其結(jié)果進(jìn)行人工校對,修改了部分標(biāo)注。接下來形成詞頻表。

        3.4 去停用詞

        去停用詞就是按照停用詞表中的詞語將語料中對文本內(nèi)容識別意義不大但出現(xiàn)頻率很高的詞、符號、標(biāo)點(diǎn)及亂碼等去掉。一個句子,可能由名詞、動詞、形容詞、副詞、語氣詞等組成,而只有名詞和動詞能很好地標(biāo)記文本,像有些副詞如“非?!钡群鸵恍┨撛~“的、并且”等在文本中的出現(xiàn)頻率很高,但是幾乎不能標(biāo)記文本,這類詞就要用停用詞表來去掉。

        3.5 計算

        首先利用公式算出每個文本的權(quán)值,再對其進(jìn)行降序排列,從高到低依次選擇權(quán)值比較大的2050個詞語作為文本的特征項。由于特征項代表了一部作品中最重要的信息,因此文本的相似度就可以由特征項向量間的相似度來描述。

        用VSM表示D1和D2兩個文本向量:

        D1=D1(w11,w12,…w1n)

        D2=D2(w21,w22,…w2n)

        如果使用N維空間中兩個向量直接的距離來表示文本間的相似程度,設(shè)Sim(D1,D2)表示這種相似程度。一般使用向量間的內(nèi)積,或兩向量夾角的余弦值來表示相似系數(shù)Sim(D1,D2)。

        (1)向量間的內(nèi)積公式:

        (2)向量夾角的余弦公式:

        4.實(shí)驗結(jié)果及分析

        4.1 通過公式(3)計算得出中國女性文學(xué)不同時期六位代表作家作品之間的相似度如下:

        表2:中國女性文學(xué)不同時期六位代表作家作品間的文本相似度

        觀察表1我們可以看到:女性文學(xué)的三個不同時期中,1)每個時期的兩個代表作家之間的文本相似度都比較大,例如:張愛玲和蕭紅都是五四時期到五六十年代的女性文學(xué)作家,其文本相似度就是0.68,張潔和楊絳都是七八十年代我國女性文學(xué)的代表作家,其文本相似度就是0.52,陳染和楊絳都是九十年代我國女性文學(xué)的代表作家,其文本相似度就是0.84,其原因就是處于同一個社會環(huán)境中的作家文本風(fēng)格會有一定程度的類似;2)不同時期的時期作家作品之間的文本相似度與前者相比就低一些,例如,張愛玲與不同時代作家作品之間文本相似度是0.07、0.55、0.13、0.09就明顯比其與同時代的女性文學(xué)作家蕭紅的文本相似度0.68低一些,其他作家也都是類似情況,這正是由不同時代的不同社會環(huán)境以及作家自身的不同經(jīng)歷所造成的;3)總體來說,無論哪個時代女性文學(xué)作家之間的文本相似度還算比較穩(wěn)定,因此這些作家都被定義為女性為學(xué)作家,其作品也就是女性文學(xué)作品,這是由于此類作家群 (包括歷時的和共時的)基本都堅持女性主義思想,有鮮明的女性主義立場。

        4.2 通過公式(1)計算得出一些有代表性的特征詞的不同分布情況如下

        圖1:特征詞權(quán)重分布圖

        在句子中,名詞和動詞是最具有標(biāo)志性的詞語,本文選出了四個名詞(“現(xiàn)實(shí)、動物、友人、磚窯”)和四個動詞(“預(yù)感、留心、吃醋、躲避”)分別分析(結(jié)果如表3):1)首先,每個詞在不同的作家作品里都有不同的權(quán)重,例如動詞“留心”在作家丁玲的作品中權(quán)重就明顯高于其他作家的作品,而名詞“友人”在作家陳染的作品中權(quán)重就明顯高于其他作家作品;2)如果看同一個作家,有的作家相對偏向于使用某一些詞語而不是另一些詞語,而另外的作家則偏向于使用另外一些詞語,例如作家丁玲,就多使用動詞“留心”和“預(yù)感”,這首先是跟作家本人的敏感性格有關(guān),另外也與作家本身身為女性的感性和細(xì)心以及其所處的社會環(huán)境有關(guān)。

        5.結(jié)論

        本文的實(shí)驗證明,在比較大的文本語料中,使用基于TF-IDF加權(quán)的向量空間模型算法來計算文本相似度是比較可靠的,也就是說,我們可以把此方法推廣到信息檢索、專利分析等領(lǐng)域中。只是在不同的領(lǐng)域中應(yīng)該加入其它的改進(jìn)的加權(quán)算法,以進(jìn)一步提高信息分類與識別的準(zhǔn)確率。

        注釋:

        ①Salton G,Clement T Y.On the Construction of Effective Vocabularies for Information Retrieval[C]//Proc.of 1973 Meeting on Programming Languages and Information Retrieval.New York,USA:ACM Press,1973.

        [1]曾毅平,朱曉文.計算方法在漢語風(fēng)格學(xué)研究中的應(yīng)用[J].福建師范大學(xué)學(xué)報(哲學(xué)社會科學(xué)版),2006(1): 14-17.

        [2]黎運(yùn)漢.漢語風(fēng)格探索[M].北京:商務(wù)印書館,1990.

        [3]陶惠,張妍,郝光權(quán).基于向量空間的文檔聚類算法分析[J].電腦知識與技術(shù),2011(7):4780.

        [4]Zhongguo Li,Maosong Sun.Punctuation as Implicit Annotations for Chinese Word Segmentation[J].Computational Linguistics,2009(4):505-512.

        [5]Shivakumar N,Garcia-Molina H.Building a scalable and accurate copy detection mechanism [C].Edward A.Fox,P Gary Marchionin.i International Conference on Digital Libraries,Maryland,United States:1996,160-168.

        猜你喜歡
        分詞文檔向量
        向量的分解
        有人一聲不吭向你扔了個文檔
        聚焦“向量與三角”創(chuàng)新題
        結(jié)巴分詞在詞云中的應(yīng)用
        智富時代(2019年6期)2019-07-24 10:33:16
        基于RI碼計算的Word復(fù)制文檔鑒別
        值得重視的分詞的特殊用法
        向量垂直在解析幾何中的應(yīng)用
        向量五種“變身” 玩轉(zhuǎn)圓錐曲線
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        国产肥熟女视频一区二区三区| 国产精品自拍网站在线| 在线观看国产白浆一区三区| 亚洲 欧美 国产 制服 动漫| 亚洲学生妹高清av| 99综合精品久久| 国产一区二区三区精品毛片| 日韩人妻熟女中文字幕a美景之屋 国产suv精品一区二区四 | 宅男噜噜噜| 亚洲精品国产av一区二区| 97超碰国产成人在线| 少妇被粗大的猛烈进出免费视频 | 亚洲国产精品久久久天堂不卡海量| 国产黑色丝袜在线观看网站91| 变态另类人妖一区二区三区| 亚洲日本一区二区一本一道| 精品人妻VA出轨中文字幕| 国产少妇一区二区三区| 国产av在线观看久久| 99国内精品久久久久久久| 亚洲精品aⅴ无码精品丝袜足| 宅男天堂亚洲一区二区三区| 亚洲av中文无码乱人伦在线咪咕| 色偷偷av亚洲男人的天堂| 2021最新久久久视精品爱| 成人在线观看av毛片| 丰满少妇呻吟高潮经历| 精品2021露脸国产偷人在视频| 一个人的视频免费播放在线观看| 久久久99精品免费视频| 蜜桃视频一区二区三区在线观看| 99久久精品一区二区三区蜜臀| 亚洲天码一区二区三区| 精品国产青草久久久久福利| 九九精品视频在线观看| aaaaa级少妇高潮大片免费看| 一区二区视频观看在线| 亚洲美女主播内射在线| 国模雨珍浓密毛大尺度150p| 视频一区欧美| 亚洲国产天堂av成人在线播放|