亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于風(fēng)格特征融合的文檔分割方法

        2020-10-15 11:01:46劉汪洋
        關(guān)鍵詞:特征情感

        劉 剛 王 凱 劉汪洋 曹 揚(yáng) 李 濤

        1(哈爾濱工程大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院 黑龍江 哈爾濱 150001) 2(中電科大數(shù)據(jù)研究院有限公司 貴州 貴陽(yáng) 550081)

        0 引 言

        隨著數(shù)據(jù)時(shí)代的到來(lái),人們獲取相關(guān)資料,相互共享信息的途徑也十分廣泛。無(wú)論是文學(xué)作品還是學(xué)術(shù)論文,所產(chǎn)生的剽竊行為都屢禁不止,這種行為令人深惡痛絕。更有甚者,簡(jiǎn)單修改文章的內(nèi)容以逃過(guò)現(xiàn)有的剽竊檢測(cè),為當(dāng)今學(xué)術(shù)界造成惡劣影響。

        基于此,人們對(duì)論文的剽竊檢測(cè)研究不單單是停留在簡(jiǎn)單的字符串判斷方面,對(duì)于作者的寫作風(fēng)格和寫作習(xí)慣的研究也越來(lái)越受到人們的關(guān)注。寫作風(fēng)格不僅能反映一個(gè)作者的寫作習(xí)慣,更能運(yùn)用在剽竊檢測(cè)系統(tǒng)和用戶畫像技術(shù)上,對(duì)作者的識(shí)別也有很好的幫助,給剽竊檢測(cè)系統(tǒng)提供一個(gè)新的研究角度,對(duì)網(wǎng)上匿名文章作者的判斷也提供了強(qiáng)有力的支持。不同人在進(jìn)行寫作時(shí)會(huì)形成自己獨(dú)特的風(fēng)格特點(diǎn),主要體現(xiàn)在用詞、句、段、修辭手法、情感等方面,這些是作者在不經(jīng)意間養(yǎng)成的寫作習(xí)慣,所以通過(guò)對(duì)文章的寫作風(fēng)格特征的提取來(lái)推斷文章的所屬是有效的。

        1 相關(guān)理論與工作基礎(chǔ)

        國(guó)外語(yǔ)言學(xué)學(xué)家在文本風(fēng)格研究方面早已起步,1985年Cary Taylor通過(guò)寫作風(fēng)格發(fā)現(xiàn)一首9節(jié)詩(shī)歌是莎士比亞的作品,中國(guó)的語(yǔ)言學(xué)家也通過(guò)寫作風(fēng)格推測(cè)紅樓夢(mèng)的作者原創(chuàng)性。中文方面,對(duì)于四大名著之一的《紅樓夢(mèng)》是不是同一個(gè)人寫的問(wèn)題備受爭(zhēng)議,華中師范大學(xué)博士生劉悅基于語(yǔ)料庫(kù)對(duì)四大名著《紅樓夢(mèng)》的部分寫作風(fēng)格進(jìn)行統(tǒng)計(jì)[1],驗(yàn)證了前80回和后40回的用詞習(xí)慣有所差異,間接地證明了后40回可能出自其他作者。

        1.1 風(fēng)格特征提取

        早期的風(fēng)格研究主要是利用統(tǒng)計(jì)的方法,對(duì)詞匯、句子、段落的規(guī)律進(jìn)行統(tǒng)計(jì),利用統(tǒng)計(jì)的規(guī)律來(lái)約定一個(gè)人的風(fēng)格。風(fēng)格特征提取最早是對(duì)單特征進(jìn)行研究,隨著單特征不能滿足實(shí)驗(yàn)結(jié)果,多特征融合應(yīng)運(yùn)而生。近年來(lái),把機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)的算法引入到風(fēng)格提取和作者識(shí)別中,并且取得了好的結(jié)果。

        由于中文的多變和困難,所以在對(duì)中文的風(fēng)格提取上,比外文的風(fēng)格提取明顯更加困難,中文需要考慮到分詞系統(tǒng)的準(zhǔn)確性,句子結(jié)構(gòu)也比較復(fù)雜。盡管中文的風(fēng)格提取比外文更困難,但對(duì)于中文風(fēng)格的研究仍然受到了廣泛的關(guān)注。

        1.2 文本分割技術(shù)

        文本分割技術(shù)把一篇文章根據(jù)某些特征分成幾個(gè)獨(dú)立的片段,該技術(shù)在文本預(yù)處理、自然語(yǔ)言處理中占用很重要的比重。由于文本分割的目的不同,所以使用的方法和特征也有所不同。Tian等[2]提出了一種多級(jí)MSER技術(shù),該技術(shù)從一組不同顏色通道文本圖像中提取的穩(wěn)定區(qū)域中識(shí)別出最優(yōu)質(zhì)的文本候選。為了識(shí)別最優(yōu)質(zhì)的文本候選,定義了一個(gè)分割得分,利用四個(gè)度量來(lái)評(píng)估每個(gè)穩(wěn)定區(qū)域的文本概率。該方法在ICDAR2003和SVT數(shù)據(jù)集上進(jìn)行評(píng)估,實(shí)驗(yàn)表明它優(yōu)于流行的文檔圖像二值化方法和最先進(jìn)的場(chǎng)景文本分割方法[2]。

        在中文方面,劉耀等[3]提出了一種基于領(lǐng)域本體對(duì)文本進(jìn)行線性分割的方法。該方法利用初始概念自動(dòng)獲取結(jié)構(gòu)化語(yǔ)義概念集合,并根據(jù)獲取的概念、屬性及屬性詞在文本中出現(xiàn)的頻次、位置和關(guān)系等因素為段落賦予語(yǔ)義標(biāo)簽,挖掘文本的子主題信息,將擁有相同語(yǔ)義標(biāo)注信息的段落劃分為相同語(yǔ)義段落,實(shí)現(xiàn)了文本不同子主題之間的分割,分割效果能夠滿足實(shí)際應(yīng)用需求,并優(yōu)于現(xiàn)有的無(wú)須訓(xùn)練語(yǔ)料的文本分割方法。

        2 多特征提取與融合

        利用網(wǎng)絡(luò)資源中的電子小說(shuō)進(jìn)行全文下載,選取風(fēng)格差異比較明顯的20個(gè)文檔,作為實(shí)例進(jìn)行實(shí)驗(yàn)效果的風(fēng)格特征分析,其中10篇來(lái)自古龍,另外10篇來(lái)自瓊瑤。

        2.1 單維風(fēng)格特征

        2.1.1詞長(zhǎng)度

        在中文風(fēng)格方面,可以使用分詞之后的詞匯長(zhǎng)度,觀察作者在用詞方面對(duì)兩字詞語(yǔ)、三字詞語(yǔ)、四字詞語(yǔ)以及四字以上詞語(yǔ)的使用習(xí)慣。有研究發(fā)現(xiàn)在雙字詞語(yǔ)的使用頻率上,張愛玲的使用頻率是0.17,而魯迅的使用頻率高達(dá)0.43。

        在英文方面是統(tǒng)計(jì)單詞字母?jìng)€(gè)數(shù),而在中文上統(tǒng)計(jì)的平均詞長(zhǎng)度的范圍比較小,平均詞長(zhǎng)度基本范圍在2~4之間,但是縮小比較范圍同樣可以看出實(shí)驗(yàn)效果。因此把詞長(zhǎng)度作為最后分類的一個(gè)參數(shù)。

        2.1.2平均句子長(zhǎng)度

        平均句子長(zhǎng)度是統(tǒng)計(jì)作者對(duì)文本句子長(zhǎng)度的使用習(xí)慣,對(duì)比長(zhǎng)短句的使用頻率。統(tǒng)計(jì)出每一個(gè)句子的長(zhǎng)度,進(jìn)行平均求和,平均句子長(zhǎng)度以“?!?、“!”和“?”為一組標(biāo)記,統(tǒng)計(jì)句子中字?jǐn)?shù)長(zhǎng)度的平均值作為最后分類的參數(shù),如圖1所示。

        圖1 平均句子長(zhǎng)度

        可以看出,古龍文檔的平均句子長(zhǎng)度明顯比瓊瑤的平均句子長(zhǎng)度長(zhǎng),可以通過(guò)這個(gè)特征來(lái)區(qū)分出不同寫作風(fēng)格。

        2.1.3情感偏向

        情感分析一直都是對(duì)情感詞的統(tǒng)計(jì)來(lái)分析文章情感,Xia等[4]在情感分析上使用神經(jīng)網(wǎng)絡(luò)等,并且對(duì)比了實(shí)驗(yàn)的結(jié)果,驗(yàn)證了其有效性。Sailunaz等[5]使用機(jī)器學(xué)習(xí)基于各種基于用戶和Twitter的參數(shù)來(lái)計(jì)算用戶的影響分?jǐn)?shù),對(duì)Twitter進(jìn)行情感分析。本文使用網(wǎng)絡(luò)中訓(xùn)練的情感字典對(duì)文章進(jìn)行情感分析。對(duì)使用情感詞典來(lái)進(jìn)行情感分析的算法的形式化描述如算法1所示。

        算法1情感分析算法

        輸入:測(cè)試文本D1。

        輸出:Pos,Neg,AvgPos,AvgNeg,Res。

        1.BEGIN

        2. 對(duì)中文語(yǔ)句進(jìn)行分句,以句號(hào)為句子結(jié)束標(biāo)志;

        3. 查找分句中情感詞,記錄其是積極還是消極,及其位置;

        4. 查找情感詞前的程度詞,匹配程度詞表,找到即停止搜尋;

        5. 為程度詞設(shè)權(quán)值,乘以情感值;

        6. 查找情感詞前的否定詞,匹配否定詞表,直至找到全部否定詞;

        7. 若數(shù)量為奇數(shù),乘以-1;

        8. 若數(shù)量為偶數(shù),乘以1;

        9. 判斷分句結(jié)束處是否存在感嘆號(hào);

        10. 是,往前尋找情感詞,且相應(yīng)的情感值+2;

        11.每個(gè)分句計(jì)算所得的情感值,存在數(shù)組(list);

        12.遍歷所有分句,計(jì)算AvgPos,AvgNeg;

        13.END

        14.返回所有分句的Pos,Neg,AvgPos,AvgNeg,Res;

        其中:Pos表示積極參數(shù)的結(jié)果;Neg表示消極參數(shù)的結(jié)果;AvgPos表示積極參數(shù)的平均值;AvgNeg表示消極參數(shù)的平均值;Res代表最后情感偏向結(jié)果取AvgPos和AvgNeg相加的結(jié)果。通過(guò)實(shí)驗(yàn)取Res作為最后的分類參數(shù)。文檔風(fēng)格提取情況如圖2所示。

        其中情感方差之差為積極情感方差減去消極情感方差。通過(guò)分析圖2(c),發(fā)現(xiàn)古龍和瓊瑤寫作時(shí)的情感傾向,大多都是消極情感,而且瓊瑤情感方差差值的波動(dòng)范圍,完全包含在古龍的差值波動(dòng)范圍之中。所以對(duì)于一個(gè)文檔,即便情感傾向發(fā)生變化也無(wú)法判斷是由于作者改變還是文檔情節(jié)內(nèi)容改變而導(dǎo)致的。因此,該特征中易出現(xiàn)特征冗余問(wèn)題。

        2.2 多維風(fēng)格特征

        2.2.1詞匯特征

        用詞方面可以體現(xiàn)一個(gè)人的文學(xué)功底,可以根據(jù)用詞的豐富程度去評(píng)判作者的寫作風(fēng)格。詞匯特征[6]可以定義為詞的長(zhǎng)度、詞頻、占比和密度等方向,詞匯特征如表1所示。

        表1 詞匯特征表

        這8個(gè)維度可以概括一個(gè)人在用詞上的習(xí)慣,把這8個(gè)特征作為最后的分類參數(shù)的其中8個(gè)。

        詞長(zhǎng)特征提取實(shí)例如圖3所示,縱坐標(biāo)表示文檔中不同詞長(zhǎng)出現(xiàn)的頻率。

        圖3 詞匯特征

        可以看出,雙字詞特征和詞匯豐富度存在與情感偏向一樣的特征冗余問(wèn)題,兩個(gè)作者在對(duì)這雙字詞的使用頻率上重合范圍很大,沒(méi)有什么明顯的個(gè)人特色。古龍的詞匯豐富度大致在0.06~0.12之間,瓊瑤的詞匯豐富度大致在0.08~0.14之間,兩位作者的詞匯豐富度有很大范圍的重合,差異度不大。但是從三字詞和四字詞的使用頻率上可以看出存在差別,瓊瑤對(duì)三字詞的使用明顯沒(méi)有古龍頻繁,但是瓊瑤對(duì)四字詞使用要比古龍多得多,詞長(zhǎng)中的三字詞和四字詞可以體現(xiàn)出兩位作者的寫作風(fēng)格差異。

        2.2.2特殊標(biāo)點(diǎn)符號(hào)

        標(biāo)點(diǎn)符號(hào)能反映作者寫作時(shí)顯性或隱性運(yùn)用銜接內(nèi)容的行文習(xí)慣。作者在寫作過(guò)程中為了提高輸入效率和精簡(jiǎn)篇幅,往往頻繁地使用標(biāo)點(diǎn)符號(hào)以表達(dá)特殊的情緒。在作者使用短句和非正式文法時(shí),對(duì)標(biāo)點(diǎn)的統(tǒng)計(jì)可以看出作者對(duì)句型的使用習(xí)慣,比如感嘆句往往伴隨著感嘆符號(hào)一起使用,問(wèn)句往往伴隨著問(wèn)號(hào)一起使用,但是常用的標(biāo)點(diǎn)符號(hào)共性太強(qiáng),不能統(tǒng)計(jì)出一個(gè)作者的使用情況,所以需要使用特殊標(biāo)點(diǎn)符號(hào)。

        特殊標(biāo)點(diǎn)符號(hào)特征統(tǒng)計(jì)冒號(hào)、分號(hào)、千百分號(hào)、單位符號(hào)、左右引號(hào)、左右括號(hào)、嘆號(hào)、省略號(hào)、破折號(hào)、問(wèn)號(hào)和頓號(hào),表示為P1-P11:

        F={P1,P2,P3,P4,P5,P6,P7,P8,P9,P10,P11}

        (1)

        特殊標(biāo)點(diǎn)使用簡(jiǎn)單統(tǒng)計(jì)的方法,將特殊標(biāo)點(diǎn)的統(tǒng)計(jì)作為最后分類算法的參數(shù),需要?jiǎng)h除標(biāo)點(diǎn)符號(hào)頻率為0的標(biāo)點(diǎn),所以該特征的維度最高是11維度,如圖4所示。

        (a)逗號(hào)的使用比例 (b)句號(hào)的使用比例

        可以看出,在感嘆號(hào)和冒號(hào)的使用比例上,可以明顯地體現(xiàn)出古龍與瓊瑤寫作風(fēng)格的差異,其他標(biāo)點(diǎn)符號(hào)的使用比例無(wú)法明顯分辨出寫作風(fēng)格的差異,同樣存在特征冗余問(wèn)題。

        2.2.3同義詞

        同義詞是中文文體中一個(gè)特有的分支,體現(xiàn)了中文的語(yǔ)言多樣性,在同義詞的使用上也可以體現(xiàn)作者的語(yǔ)言功底和對(duì)詞語(yǔ)的駕馭能力。對(duì)同義詞的使用習(xí)慣也可以看出一個(gè)作者的用詞習(xí)慣,從同義詞的使用情況出發(fā),對(duì)同義詞的使用習(xí)慣進(jìn)行統(tǒng)計(jì),總結(jié)出作者的寫作習(xí)慣[7]。同義詞算法如算法2所示。

        算法2同義詞特征統(tǒng)計(jì)

        輸入:同義詞林,兩段計(jì)算文檔D1和D2。

        輸出:SynVec。

        1.BEGIN

        2. 同義詞林預(yù)處理,加載同義詞林;

        3. 對(duì)滑動(dòng)窗口中的中文語(yǔ)句進(jìn)行分詞;

        3. 分裂查找文檔D1和D2中同義詞,找到同義詞表相應(yīng)的位置,詞頻加1;

        4. 同義詞和詞頻組成一個(gè)同義詞對(duì),更新同義詞表,刪除詞頻為0的同義詞;

        5. 比較兩個(gè)滑動(dòng)窗口同義詞表,對(duì)位,0補(bǔ)位;

        6. 刪除詞頻相同的同義詞,降維;

        7. 同義詞向量集合作為最后同義詞的參數(shù);

        8. 輸出SynVec;

        9.END

        本文對(duì)哈工大同義詞詞林精減,通過(guò)測(cè)試文本集中的文檔,將其中從未出現(xiàn)的同義詞刪掉,如果一個(gè)同義詞詞組中一個(gè)也沒(méi)有出現(xiàn),就將這組同義詞刪掉,形成新的同義詞詞林,最后根據(jù)測(cè)試結(jié)果將同義詞詞林精減到只有2 200組。獲得剩余同義詞和詞頻組成同義詞向量,其中D1和D2代表兩片測(cè)試文檔,SynVec代表同義詞向量結(jié)果。

        本文選擇了同義詞林中的一組同義詞“人,士,人物,人士”,并統(tǒng)計(jì)其在10篇文檔中的使用分布情況,結(jié)果如表2所示。

        表2 同義詞結(jié)果示例 %

        根據(jù)表格中的數(shù)據(jù)可以看出,古龍的文檔在“人,士,人物,人士”這一同義詞組中,基本上只使用“人”這個(gè)詞語(yǔ),而瓊瑤除了使用“人”這一詞語(yǔ)外,還少量地使用了“人物”這一詞語(yǔ)。因此可以通過(guò)同義詞詞組中同義詞的使用偏好,來(lái)觀察到作者的寫作特點(diǎn)。

        2.2.4虛 詞

        虛詞本身是沒(méi)有意義的,它的意義是它在句子中的地位,虛詞的數(shù)量有限,出現(xiàn)的頻率沒(méi)有實(shí)詞高,大約占詞匯使用率的1/3左右??梢娞撛~在整個(gè)文章的占比還是很大的,并且它數(shù)量有限,容易統(tǒng)計(jì),根據(jù)這個(gè)特性可以表示作者的風(fēng)格特征。

        本文增加虛詞的數(shù)量,通過(guò)自定義虛詞表作為基準(zhǔn),對(duì)虛詞表的虛詞使用情況進(jìn)行計(jì)算。首先制作虛詞表,虛詞表來(lái)源是《現(xiàn)在漢語(yǔ)虛詞詞典》,虛詞表中一共有840個(gè)虛詞,和同義詞表相同,虛詞表較大,含有一些生僻和不常用的虛詞,會(huì)影響結(jié)果的計(jì)算。以搜狗新聞數(shù)據(jù)集為基準(zhǔn),對(duì)虛詞表的虛詞進(jìn)行TF-IDF統(tǒng)計(jì),刪除TF-IDF過(guò)低的詞。通過(guò)多次清洗,最后精簡(jiǎn)到230個(gè)虛詞。選用230個(gè)虛詞首先能控制在一個(gè)合理的數(shù)量中,這230個(gè)虛詞能體現(xiàn)虛詞在新聞集中的重要程度,最后形成一個(gè)虛詞TF-IDF詞對(duì)表。在虛詞表中隨意選擇“被”這個(gè)虛詞,計(jì)算其在20篇文檔中的出現(xiàn)頻率。文檔風(fēng)格提取情況如圖5所示。

        圖5 虛詞特征

        3 風(fēng)格裂縫的識(shí)別

        3.1 風(fēng)格裂縫

        風(fēng)格裂縫指的是一個(gè)文本風(fēng)格發(fā)生轉(zhuǎn)變的位置,換句話說(shuō)一個(gè)文章可能由不同作者共同完成,所以在作者識(shí)別之前進(jìn)行基于作者分段技術(shù)變得尤為重要,即找出這篇文章每一個(gè)行文作者對(duì)應(yīng)的行文部分,風(fēng)格裂縫點(diǎn)如圖6所示。通過(guò)寫作風(fēng)格分段,目標(biāo)是找到風(fēng)格裂縫點(diǎn),即風(fēng)格發(fā)生轉(zhuǎn)變的位置。風(fēng)格裂縫識(shí)別是通過(guò)風(fēng)格的特征提取結(jié)合分類算法的技術(shù),采用滑動(dòng)窗口、降維等技術(shù),找出風(fēng)格裂縫點(diǎn)。風(fēng)格裂縫是在多風(fēng)格特征提取的基礎(chǔ)之上提出的一個(gè)概念,通過(guò)風(fēng)格裂縫的識(shí)別能更好地進(jìn)行分段技術(shù)。

        圖6 風(fēng)格裂縫示例圖

        3.2 滑動(dòng)窗口

        滑動(dòng)窗口以5個(gè)句子為一個(gè)整體,進(jìn)行風(fēng)格特征識(shí)別。每次向下滑動(dòng)一個(gè)句子,對(duì)每個(gè)窗口進(jìn)行風(fēng)格統(tǒng)計(jì),當(dāng)風(fēng)格發(fā)生轉(zhuǎn)變時(shí),每次風(fēng)格和上一次發(fā)生的結(jié)果有逐漸的變化,直到風(fēng)格相似度又趨近不變,則這個(gè)位置產(chǎn)生風(fēng)格裂縫。

        但是實(shí)際情況是有極少可能出現(xiàn)理想狀態(tài),為了更好地找到風(fēng)格裂縫,需要在特征提取和分類算法上進(jìn)行調(diào)優(yōu)。因?yàn)檎撐钠^小,5個(gè)句子所含的信息量較少,很大的可能性會(huì)出現(xiàn)偶然現(xiàn)象,假定每次的風(fēng)格裂縫位置有很大的可能性發(fā)生在每個(gè)段的段尾。為了提高準(zhǔn)確率,只能犧牲召回率。假定每次風(fēng)格裂縫必然會(huì)發(fā)生在段尾,即假定文章中的每一段有且僅有一個(gè)作者。滑動(dòng)窗口示例如圖7所示。

        圖7 滑動(dòng)窗口示例圖

        3.3 參數(shù)權(quán)重法

        針對(duì)第2節(jié)中風(fēng)格特征分析產(chǎn)生的特征冗余問(wèn)題,每一個(gè)參數(shù)在風(fēng)格裂縫識(shí)別過(guò)程中占用的權(quán)重不盡相同,所以在查找風(fēng)格裂縫的時(shí)候需要找出每個(gè)參數(shù)的權(quán)重,然后通過(guò)參數(shù)調(diào)節(jié)的權(quán)重進(jìn)行風(fēng)格裂縫識(shí)別。

        參數(shù)權(quán)重法首先對(duì)所有參數(shù)權(quán)重進(jìn)行遍歷,通過(guò)多組新聞集進(jìn)行遍歷,對(duì)參數(shù)進(jìn)行調(diào)優(yōu),最后找出每個(gè)特征的最優(yōu)參數(shù),虛詞和同義詞精減之后分別選用同一組參數(shù)作為權(quán)重,在訓(xùn)練過(guò)程中選中搜狗新聞集作為語(yǔ)料庫(kù)。

        算法描述:首先對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,對(duì)數(shù)據(jù)集合進(jìn)行特征提取,把數(shù)據(jù)集打亂順序存到文件里,在其他特征參數(shù)權(quán)重不變的情況下,借用控制變量法的思想,控制詞長(zhǎng)度參數(shù)(WLP)從0.01到0.99進(jìn)行計(jì)算,其他參數(shù)為0.5,得到在其他參數(shù)不變的情況下參數(shù)WLP的最優(yōu)值,最優(yōu)值是以兩篇文本相似度最低為標(biāo)準(zhǔn)。再在其他參數(shù)不變的情況下,以平均句子長(zhǎng)度參數(shù)(ASLC)從0.01到0.99進(jìn)行計(jì)算,得到ASLC的最優(yōu)值,以此遍歷所有的參數(shù)。然后都以上一次參數(shù)最優(yōu)的結(jié)果為基準(zhǔn),繼續(xù)上面的方法進(jìn)行循環(huán),直到參數(shù)最優(yōu)值不變?yōu)橹?,得到參?shù)權(quán)重組,目的是通過(guò)參數(shù)權(quán)重法發(fā)現(xiàn)每一個(gè)參數(shù)的有效性,刪除無(wú)效參數(shù)。

        得到的參數(shù)權(quán)重組,發(fā)現(xiàn)其中一些參數(shù)權(quán)重過(guò)小,這類特征對(duì)結(jié)果起到積極影響較小,但是會(huì)影響實(shí)驗(yàn)的效率,所以刪除這些參數(shù)。

        4 基于融合特征的風(fēng)格聚類

        4.1 實(shí)驗(yàn)思路

        文本的特征提取是風(fēng)格識(shí)別的主要方法,該方法對(duì)風(fēng)格特征進(jìn)行了層次分類,運(yùn)用層次的角度進(jìn)行特征的提取,加入特征與文章之間的一個(gè)映射關(guān)系。特征提取包括單維特征和多維特征兩種,利用參數(shù)權(quán)重法對(duì)特征優(yōu)化,把每個(gè)特征提取的結(jié)果作為最后K-means++分類器[8]的輸入,通過(guò)滑動(dòng)窗口找到風(fēng)格裂縫,通過(guò)識(shí)別的風(fēng)格裂縫點(diǎn)進(jìn)行文章分段。

        語(yǔ)料庫(kù)選用自己構(gòu)建的新聞?wù)Z料庫(kù),語(yǔ)料集的主題包括利用爬蟲技術(shù)在人民日?qǐng)?bào)官網(wǎng)收集的關(guān)于時(shí)政、法制、旅游等方面的新聞,以及從虎撲新聞官網(wǎng)爬取關(guān)于體育的新聞。由于新聞集合中存在一些時(shí)間、圖片、圖片介紹和攝影師姓名等雜質(zhì)。首先對(duì)新聞進(jìn)行雜質(zhì)處理,選取文中的正文。把新聞存成.csv文件,以作者姓名為新聞的標(biāo)注,把1 300篇新聞分為1 150個(gè)訓(xùn)練集和150個(gè)測(cè)試集,訓(xùn)練集和測(cè)試集的比例約為9:1。為了驗(yàn)證小篇幅的準(zhǔn)確性能,又把150篇測(cè)試集分為100篇,并按照篇幅存儲(chǔ),剩余50篇按照段落存儲(chǔ),大概是215段新聞。

        4.2 單特征風(fēng)格裂縫識(shí)別結(jié)果

        對(duì)提取的7類風(fēng)格特征進(jìn)行單獨(dú)實(shí)驗(yàn),分別驗(yàn)證每一個(gè)風(fēng)格特征對(duì)風(fēng)格裂縫識(shí)別的效果,基于段落級(jí)別進(jìn)行風(fēng)格裂縫識(shí)別,取作者一時(shí)政編輯曹昆、作者二體育編輯郝帥、作者三法制編輯袁勃、作者四旅游編輯田虎、作者五時(shí)政編輯王政淇的新聞集融合作為測(cè)試集。實(shí)驗(yàn)結(jié)果如表3所示。

        表3 單特征實(shí)驗(yàn)結(jié)果展示表 %

        本次實(shí)驗(yàn)放寬了召回率,這樣準(zhǔn)確率會(huì)隨之減小,但是當(dāng)前F值會(huì)相對(duì)增大。隨著召回率的降低,召回結(jié)果的減小,準(zhǔn)確率也會(huì)隨之提升5~10個(gè)百分點(diǎn)。從結(jié)果可以看出,單維度特征維度偏少,效果不佳,情感分析結(jié)果較差,對(duì)風(fēng)格裂縫識(shí)別作用較??;多維特征風(fēng)格結(jié)果中,虛詞、同義詞和特殊標(biāo)點(diǎn)的使用對(duì)風(fēng)格影響較大,F(xiàn)值偏高,相比而言詞匯特征過(guò)于復(fù)雜,對(duì)風(fēng)格裂縫識(shí)別成中性。

        4.3 參數(shù)權(quán)重優(yōu)化

        在語(yǔ)料庫(kù)方面首先隨機(jī)抽取上述5名編輯作者的100篇文章形成一個(gè)小樣本的訓(xùn)練集,用來(lái)對(duì)參數(shù)權(quán)重法進(jìn)行訓(xùn)練。對(duì)訓(xùn)練集進(jìn)行預(yù)處理,把每一個(gè)作者的文檔集放到一個(gè).txt文件中,對(duì)每一個(gè)作者的文檔集風(fēng)格特征進(jìn)行提取,形成風(fēng)格特征向量。首先提取平均句子長(zhǎng)度參數(shù),進(jìn)行分詞處理,分詞處理過(guò)后提取平均詞長(zhǎng)度、詞匯特征、特殊標(biāo)點(diǎn)符號(hào);再提取虛詞進(jìn)行虛詞TF-IDF算法,提取同義詞填充同義詞向量;最后計(jì)算訓(xùn)練集的情感偏向。

        在計(jì)算平均句子長(zhǎng)度時(shí),以“?!薄埃 薄??”作為評(píng)定句子結(jié)尾的三個(gè)標(biāo)志,以每一個(gè)字作為一個(gè)長(zhǎng)度計(jì)算。在分詞過(guò)程中采用粗粒度分詞系統(tǒng),例如“北京大學(xué)”在粗粒度分詞系統(tǒng)中不會(huì)被拆開,在細(xì)粒度分詞中會(huì)被拆分成“北京”和“大學(xué)”兩部分。本文在長(zhǎng)度和詞性特征上需要保證詞匯的完整性。

        在訓(xùn)練過(guò)程前預(yù)先設(shè)定7個(gè)參數(shù)權(quán)重,分別是平均句子長(zhǎng)度、詞長(zhǎng)度、情感偏向、詞匯特征、特殊標(biāo)點(diǎn)、同義詞和虛詞,所有同義詞使用同一個(gè)特征權(quán)重,所有虛詞也使用同一權(quán)重。實(shí)驗(yàn)結(jié)果如表4所示。

        表4 參數(shù)權(quán)重法結(jié)果

        可以看出,作者四在詞長(zhǎng)度上明顯與其他作者不同,經(jīng)過(guò)實(shí)驗(yàn)發(fā)現(xiàn)作者四的平均詞長(zhǎng)度為3.213 2,三字詞、四字詞占的比重較大,而其他作者都是在2~3之間徘徊。句子長(zhǎng)度對(duì)結(jié)果影響較小,作者二、作者四和作者五句子長(zhǎng)度較為相似,與其他句子差距也較小。情感分析對(duì)文章影響最小的原因是5名作者都是客觀的新聞,對(duì)主觀情感偏移較小。詞匯特征的參數(shù)沒(méi)有明顯的規(guī)律說(shuō)明多個(gè)特征影響權(quán)重不同,但是肯定是對(duì)風(fēng)格裂縫識(shí)別實(shí)驗(yàn)有積極的影響。特殊標(biāo)點(diǎn)符號(hào)的使用次數(shù)較為平均,只有作者三的特殊標(biāo)點(diǎn)和大家較為相似。同義詞和虛詞上效果就比較明顯,參數(shù)值較大,對(duì)結(jié)果影響也較大。從實(shí)驗(yàn)結(jié)果上看,同義詞和虛詞對(duì)結(jié)果影響較大,但是其他特征在特殊情況也能體現(xiàn)自己的寫作風(fēng)格。從寫作風(fēng)格提取結(jié)果進(jìn)行風(fēng)格相似度計(jì)算,發(fā)現(xiàn)作者一、作者三、作者五相似度較高。

        4.4 風(fēng)格裂縫識(shí)別實(shí)驗(yàn)

        4.4.1新聞集實(shí)驗(yàn)

        風(fēng)格裂縫識(shí)別數(shù)據(jù)集隨機(jī)抽取上述5名編輯作者的20篇新聞,按照段落拆分,以段落為一個(gè)部分在實(shí)驗(yàn)開始的階段使用滑動(dòng)窗口技術(shù),每次向下滑動(dòng)一個(gè)句子,每次窗口句子數(shù)量為5個(gè)。隨著實(shí)驗(yàn)的進(jìn)行,在K-means++聚類的結(jié)果中聚類結(jié)果較差,因?yàn)槊恳淮巫兓癁橐粋€(gè)句子,變化的幅度較小,每一次變化不明顯導(dǎo)致聚類時(shí)鄰近的窗口結(jié)果偏差較小。加上以段落結(jié)尾為風(fēng)格裂縫出現(xiàn)的位置,準(zhǔn)確率才會(huì)有所回升。在聚類過(guò)程中會(huì)導(dǎo)致K的結(jié)果不確定,是K-means++算法中心點(diǎn)不準(zhǔn)確導(dǎo)致的,所以許多聚類錯(cuò)誤情況出現(xiàn)。實(shí)驗(yàn)結(jié)果如表5所示,可視化圖如圖8所示。

        表5 利用滑動(dòng)窗口進(jìn)行風(fēng)格裂縫識(shí)別結(jié)果 %

        圖8 基于滑動(dòng)窗口K-means可視化圖

        最后,本文放棄滑動(dòng)窗口改用識(shí)別段落轉(zhuǎn)換符,即把每一個(gè)段落視為一個(gè)作者完成的內(nèi)容,以每個(gè)段落為單位進(jìn)行風(fēng)格特征提取,再根據(jù)提取的風(fēng)格特征進(jìn)行K-means聚類算法。實(shí)驗(yàn)結(jié)果如表6所示,可視化圖如圖9所示。

        表6 基于段落進(jìn)行風(fēng)格裂縫識(shí)別 %

        圖9 基于段落K-means可視化圖

        雖然滑動(dòng)窗口的提出是為了盡可能全面地找出所有的風(fēng)格裂縫點(diǎn),但是由于每次變化一個(gè)句子,對(duì)結(jié)果變化不明顯,風(fēng)格聚類效果一般?;诙温溥M(jìn)行風(fēng)格裂縫識(shí)別效果要好于利用滑動(dòng)窗口的實(shí)驗(yàn),在準(zhǔn)確率和召回率上都有所提升,在評(píng)估值上也能提升10個(gè)百分點(diǎn)。

        4.4.2小說(shuō)集實(shí)驗(yàn)

        《紅樓夢(mèng)》后40回原創(chuàng)性檢測(cè)一直是文學(xué)家討論的主要對(duì)象,本文對(duì)分割裂縫識(shí)別最后的實(shí)驗(yàn)就是以《紅樓夢(mèng)》為背景。使用《紅樓夢(mèng)》電子小說(shuō)的網(wǎng)絡(luò)資源進(jìn)行全文下載,以每一回作為一個(gè)整體,進(jìn)行風(fēng)格特征提取,其中虛詞不再使用本文的虛詞表,而是使用22個(gè)文言文虛詞表。對(duì)120回進(jìn)行基于風(fēng)格特征提取的風(fēng)格聚類,結(jié)果統(tǒng)計(jì)分成前40回,中間40回,后40回,K-means算法的K值為2,結(jié)果如表7所示,可視化圖如圖10所示。

        圖10 紅樓夢(mèng)結(jié)果分析可視化圖

        從結(jié)果可以看出,前80回的準(zhǔn)確率較高,后40回相對(duì)偏低。通過(guò)對(duì)單獨(dú)特征的實(shí)驗(yàn)結(jié)果發(fā)現(xiàn),平均句子長(zhǎng)度、情感分析和虛詞對(duì)結(jié)果影響較大,前80回與后40回在句子長(zhǎng)度上有明顯的區(qū)別。情感分析影響較大的原因是,前80回偏積極,后40回偏消極,虛詞對(duì)實(shí)驗(yàn)結(jié)果影響最大,22個(gè)虛詞表對(duì)實(shí)驗(yàn)結(jié)果影響較為積極。

        5 結(jié) 語(yǔ)

        本文提出一種多特征融合和無(wú)監(jiān)督的機(jī)器學(xué)習(xí)算法相結(jié)合的方法進(jìn)行風(fēng)格裂縫識(shí)別。其中多特征融合是為了更好地提取作者的風(fēng)格特征,而機(jī)器學(xué)習(xí)是以滑動(dòng)窗口或段落為基準(zhǔn)的,基于提取的特征進(jìn)行分類,利用聚類算法對(duì)風(fēng)格特征進(jìn)行聚類,從而找到風(fēng)格裂縫的位置。分別對(duì)新聞?wù)Z料集和小說(shuō)語(yǔ)料集進(jìn)行實(shí)驗(yàn),得出基于段落的裂縫識(shí)別比基于滑動(dòng)窗口的實(shí)驗(yàn)效果在評(píng)估值上高出10個(gè)百分點(diǎn),因此基于滑動(dòng)窗口的實(shí)驗(yàn)思路仍需進(jìn)一步改進(jìn)。

        猜你喜歡
        特征情感
        抓住特征巧觀察
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        新型冠狀病毒及其流行病學(xué)特征認(rèn)識(shí)
        被情感操縱的人有多可悲
        失落的情感
        北極光(2019年12期)2020-01-18 06:22:10
        如何表達(dá)“特征”
        情感
        不忠誠(chéng)的四個(gè)特征
        如何在情感中自我成長(zhǎng),保持獨(dú)立
        抓住特征巧觀察
        人妻精品久久久一区二区| 一区二区三区中文字幕p站| 日本精品视频免费观看| 成午夜福利人试看120秒| 中文字幕一区二区人妻性色| 午夜福利视频合集1000| 亚洲视频99| 无码人妻精品中文字幕免费| 麻豆视频av在线观看| 欧美黑人又粗又大xxxx| 99亚洲男女激情在线观看| 内射精品无码中文字幕| 国产亚洲欧美成人久久片| 国产va在线播放| 一本久道视频无线视频试看| 日本老熟妇五十路一区二区三区| 亚洲最大免费福利视频网| 亚洲国色天香卡2卡3卡4| 欧美在线日韩| 免费国产自拍视频在线观看| 亚洲国产av一区二区四季| 久久不见久久见免费视频6 | 久久人人做人人妻人人玩精 | 国产一区二区三区韩国| 亚洲精品在线观看一区二区| 日本熟女精品一区二区三区| 亚洲av综合色区| 久久久无码中文字幕久...| 日韩www视频| 国产精品美女黄色av| 少妇精品偷拍高潮少妇在线观看 | 无码毛片aaa在线| 国产美女久久久亚洲综合| 亚洲精品456在线播放狼人| 久久久久人妻精品一区二区三区| 中国少妇内射xxxx狠干| 99福利在线| 午夜宅男成人影院香蕉狠狠爱| 国产精品午夜夜伦鲁鲁| 国产精品无码久久久久久久久久| 成人无码视频在线观看网站|