吳航天 田凱 段新春
中國(guó)人民解放軍火箭軍工程大學(xué) 導(dǎo)彈工程學(xué)院 陜西西安 710025
在我們的閱讀過程中會(huì)遇到不同作家的作品,而不同的作家有著不同的寫作風(fēng)格都有所不同。本文以魯迅、朱自清、張愛玲、古龍四位作家的若干文章為例,選取適當(dāng)?shù)奶卣鳎炕治霾煌骷业膶懽黠L(fēng)格,并能分析附錄中的文章出自哪位作家之手。
流程如下:
首先,使用MATLAB編譯特征提取程序,其主要功能為:將中文段落中的所有漢字轉(zhuǎn)換Unicode區(qū)位碼。生成二維矩陣,每一個(gè)漢字對(duì)應(yīng)兩位UNICODE區(qū)位碼,例如“吳”對(duì)應(yīng)“52,84”;其次,查找所需特征如虛詞(常用虛詞“的、地、得、所、嗎、呢、吧、啊、且、了”等)在《Unicode區(qū)位碼對(duì)照表》中對(duì)應(yīng)的編碼[1]。
對(duì)上述數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化處理的計(jì)算公式如下:
以被測(cè)樣本的統(tǒng)計(jì)數(shù)據(jù)繪制特征曲線,并將其插入總體特征曲線圖進(jìn)行比對(duì),查找與其相似度最高的特征曲線,該曲線所對(duì)應(yīng)的作者即為被測(cè)樣本文檔的作者。
Fi和Fj之間的相關(guān)系數(shù)定義如下:
相關(guān)系數(shù)能夠描述兩個(gè)特征項(xiàng)之間的線性相關(guān)度。
試驗(yàn)的結(jié)果還與所選取的特征量有關(guān)。例如,僅以文章節(jié)奏(即標(biāo)點(diǎn)符號(hào)的使用)作為特征量,其結(jié)果如下:
r 1.0000 0.2266 0.2266 1.0000 t 1.0000 0.2766 0.2766 1.0000 y 1.0000 -0.7242 -0.7242 1.0000 u 1.0000 0.2127 0.2127 1.0000
結(jié)果表明:在標(biāo)點(diǎn)符號(hào)使用習(xí)慣的相似度分析中,選取《背影》第一段作為待測(cè)文章與四位作家的相似度分別為22.66%,27.66%,-72.42%(呈現(xiàn)負(fù)相關(guān)),21.27%,即與作家二(魯迅)的相似度最大,而真實(shí)作者(朱自清)的相似度排名第二,試驗(yàn)結(jié)果具有一定程度的有效性。因此,本模型在一定程度上能有效識(shí)別文章的作者,但其準(zhǔn)確性還需經(jīng)大量試驗(yàn)來驗(yàn)證[2]。
對(duì)此,我們隨機(jī)抽取了朱自清、魯迅、張愛玲、古龍四位作家各50篇作品(節(jié)選)(總計(jì)27.6萬(wàn)宇字),共計(jì)200次試驗(yàn)來進(jìn)行驗(yàn)證。試驗(yàn)表明,該模型對(duì)于朱自清、魯迅、張愛玲、古龍四位作家作品的作者識(shí)別成功率分別為61.32%、69.43%、71.89%、73.97%。顯然,作者識(shí)別率會(huì)隨試驗(yàn)次數(shù)與被檢驗(yàn)內(nèi)容的增加而進(jìn)一步提高。