亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于社交網(wǎng)絡(luò)的小說聚類

2018-12-21 01:56:22樓鍇毅霸元婕李紹昂

軟件工程 2018年10期

樓鍇毅霸元婕李紹昂

摘要：目前小說的受眾群體越來越大，其中蘊含著巨大的商業(yè)價值。文本聚類的研究領(lǐng)域也在突飛猛進，但對于其中的現(xiàn)實領(lǐng)域：小說聚類，相關(guān)的研究卻較少。本文研究了一種基于小說中的社交網(wǎng)絡(luò)對其進行聚類的方法。該方法首先提取出小說中的社交網(wǎng)絡(luò)，在得到網(wǎng)絡(luò)的特征向量后，基于其進行聚類，并將結(jié)果與依據(jù)小說作者的劃分進行對比。實驗結(jié)果表明，該方法可以在一定程度上反映出不同作者寫作風格的不同，效果可以接受，并擁有進一步提升的可能。

關(guān)鍵詞：小說；社交網(wǎng)絡(luò)；聚類算法

中圖分類號：TP391.1 文獻標識碼：A

Abstract：At present，more and more people are reading novels，which contains great commercial value.The research field of text clustering is also advancing by leaps and bounds，but for the real practice—novel clustering，there are few related researches.This paper uses a method based on social network in the novel to cluster it.The method first extracts the social network in the novel.After obtaining the feature vector of the network，it clusters based on it and compares the result with the division according to the author of the novel.The experimental result shows that the method can reflect the different writing styles of different authors to a certain extent，the effect is acceptable，and further improvement is possible.

Keywords：novels；social network；clustering algorithm

1 引言（Introduction）

隨著第三產(chǎn)業(yè)的發(fā)展，移動互聯(lián)網(wǎng)時代的到來，文娛產(chǎn)業(yè)對人們?nèi)粘Ｉ畹挠绊懺絹碓酱?，特別是近幾年小說的受眾群體越來越大，因此基于小說的各種文學定量分析越來越成為重要的課題。與此同時，以機器學習和統(tǒng)計方法為基礎(chǔ)，各種各樣的文本分類技術(shù)也在飛速發(fā)展。特別是在近幾年來，基于CNN、RNN等深度神經(jīng)網(wǎng)絡(luò)的相關(guān)方法取得了很好的結(jié)果，因此人們對文學分析定量方法的研究興趣也日益增加[1，2]。

小說的關(guān)鍵維度包括形式、結(jié)構(gòu)、人物、情節(jié)等。目前來講，人們對其的定量研究大多集中在形式和內(nèi)容上。而對于小說中的情節(jié)、結(jié)構(gòu)、人物關(guān)系等，由于其量化較為復雜，而少有研究[3]。在本文中，我們實現(xiàn)了基于小說中的社交網(wǎng)絡(luò)的聚類。我們首先提取出小說中的社交網(wǎng)絡(luò)，之后得到其特征向量并根據(jù)其進行聚類。因此，聚類的結(jié)果也是根據(jù)小說結(jié)構(gòu)進行的分組，通過與小說作者的對比，我們也能得到小說社交網(wǎng)絡(luò)與小說的風格流派和作者風格特征的聯(lián)系程度。

2 相關(guān)工作（Related work）

2.1 文本分類

文本分類的相關(guān)研究可以追溯到20世紀50年代，而到目前它已經(jīng)成為了NLP領(lǐng)域的經(jīng)典問題，一直到現(xiàn)在都是人們研究的熱點。而其算法的發(fā)展，也伴隨著人工智能研究領(lǐng)域的發(fā)展而不斷地更新。在20世紀，文本分類往往基于規(guī)則和語料庫，其雖有準確率高等優(yōu)點，但是耗費資源過多、可移植性很差。到了20世紀90年代的時候，人工智能的研究領(lǐng)域開始向基于統(tǒng)計和數(shù)據(jù)驅(qū)動的方法過度，與此同時基于特征工程和各種分類器的文本分類方法也開始逐漸興起。

但是傳統(tǒng)分類方法依然存在著諸多不足，比如特征表達能力較弱，成本較高，等等。近年來，隨著深度學習的發(fā)展，基于其的一些方法也開始被應用到了文本分類的領(lǐng)域。深度學習解決文本分類問題，一般都是先解決文本表示，之后利用CNN、RNN等自動獲取特征表達能力，從而端到端的解決問題[4]。

2.2 文學計算分析

自從計算機誕生之后，人們便一直嘗試將其算法應用到文學分析的領(lǐng)域，即文學的計算分析。這種方法往往用定量的方式，基于文本的語言結(jié)構(gòu)特征對文章的風格進行刻畫。因此，這種研究方法最重要的就是兩個問題：語言特征的選擇和研究方法的選擇。不過一般來講，大多數(shù)方法利用的都是基于主題和內(nèi)容的特性。然而對于一部小說來講，我們不應該只從標點、詞法、句法、語義的維度進行分析。這種文學形式還有情節(jié)、人物、敘事結(jié)構(gòu)，等等?？梢哉f每一部小說都是一個社會的縮影[5]。

因此，人們也逐漸開始關(guān)注量化情節(jié)的方法，以及人物對情節(jié)的影響。特別是可以將小說刻畫成社交網(wǎng)絡(luò)，并通過其研究小說中的情節(jié)結(jié)構(gòu)。目前，通過提取復雜網(wǎng)絡(luò)并基于其分析文本已經(jīng)成為了一個十分重要的學術(shù)流派。人們的研究表明，通過提取小說中的人物關(guān)系網(wǎng)絡(luò)來分析小說中社會結(jié)構(gòu)、意義和作者觀點是完全可行的。

3 網(wǎng)絡(luò)的構(gòu)建（Network construction）

3.1 人物的自動識別

社交網(wǎng)絡(luò)起源于網(wǎng)絡(luò)社交，目前可以理解為一種形容人際關(guān)系的網(wǎng)絡(luò)結(jié)構(gòu)，其本身作為一種復雜網(wǎng)絡(luò)，可以反映出網(wǎng)絡(luò)中點與點之間的聯(lián)系。而在小說中，每個人物正是社交網(wǎng)絡(luò)中的結(jié)點，人物與人物之間的關(guān)系為社交網(wǎng)絡(luò)的邊。因此，一般將其分為四個步驟：人物角色標記、角色指代消解、人物關(guān)系識別與網(wǎng)絡(luò)關(guān)系表示[6]。在人物角色標記中，需要識別出所有表示人的單詞；在角色指代消解中，需要將代詞或者非人名的詞替換為其指代的人名；在人物關(guān)系識別中，需要識別并提取人與人之間的關(guān)系；關(guān)系網(wǎng)絡(luò)表示則是將網(wǎng)絡(luò)用數(shù)學模型表示出來。

在人物自動識別這一步驟中，需要解決的問題是人物關(guān)系識別和指代消解，其也被稱為命名實體識別。而對于這類問題，籠統(tǒng)地可以分為三種解決的方法：基于規(guī)則的方法、基于統(tǒng)計的方法和近年來興起的基于深度學習的方法?；谝?guī)則的方法一般由語言學專家手工構(gòu)造規(guī)則模版，因此存在代價大、移植性差等缺點，目前只有在數(shù)據(jù)量小或者非常特殊的場合才會使用。基于統(tǒng)計的方法有：隱馬爾科夫模型、較大熵模型、支持向量機、條件隨機場等，這類方法一般對語料庫的依賴較大。近年來隨著深度學習的發(fā)展，人們也將其應用到了命名實體識別中，一般方法為將NN、CNN、RNN與條件隨機場結(jié)合[7，8]。本文采用的方法是條件隨機場，采用開源工具CRF++。

條件隨機場，一般簡稱為CRF，由于其具備長距離依賴性和交疊性能力，是目前一種非常常用的用于命名實體識別的，判別式的概率圖模型[9]。定義無向圖G=（V，E），單詞序列x=（x1，x2，…，xn），每個單詞x_i有對應的實體類型標記yi，標記序列集合y={yi}。則節(jié)點集合V為單詞或其對應的實體標記類型，邊集合E表示單詞對應節(jié)點與該單詞實體標記類型對應節(jié)點間的連線，于是（x，y）構(gòu)成一個條件隨機場。由于鏈式結(jié)構(gòu)為最簡單的結(jié)構(gòu)和建模方式，因此人們一般采用的是線性鏈條件隨機場，如圖1所示。

轉(zhuǎn)移函數(shù)和狀態(tài)函數(shù)均為特征函數(shù)，一般取0或1，即滿足特征函數(shù)的為1，否則為0。若將它們統(tǒng)一用特征函數(shù)的形式來表示，再加上歸一化的過程，則可以得到最終條件隨機場的條件概率公式為

對于其中的參數(shù)，一般采用極大似然法進行估計，并采用迭代技術(shù)來確定參數(shù)。

3.2 網(wǎng)絡(luò)的構(gòu)建

對于小說中的人物關(guān)系識別，一般有兩種方法：基于人物對話的方法和基于人物共現(xiàn)的方法[6]。第一種方法為只考慮小說中的對話，即如果兩個角色有語言或者對話的交互，就將兩個角色進行關(guān)聯(lián)，得到的網(wǎng)絡(luò)為人物對話網(wǎng)絡(luò)。這種方法為目前大多數(shù)文獻所采用，尤其是對于劇本這種只通過對話來進行角色間互動的文本，該方法十分有效。但是，對于大多數(shù)小說，人物間的許多互動都是通過敘述者的描述或者間接的互動來完成的。這時我們就應該考慮第二種方法，即通過人物間的共現(xiàn)關(guān)系來構(gòu)建網(wǎng)絡(luò)，每當兩個角色出現(xiàn)在同一個文本窗口或者語境下時，將二者進行關(guān)聯(lián)，得到的網(wǎng)絡(luò)為人物共現(xiàn)網(wǎng)絡(luò)。在本文中，我們使用Python庫Networkx來構(gòu)建網(wǎng)絡(luò)，并將其存儲在表示人物關(guān)系的鄰接矩陣中。

4 計算與聚類（Calculation and clustering）

4.1 特征選擇

我們可以把特征分為兩種。第一種為網(wǎng)絡(luò)的拓撲特征，其指標有度分布、集聚系數(shù)、網(wǎng)絡(luò)特征路徑長度、直徑、主節(jié)點的相關(guān)性等。但是對于小說而言，其更像一個小型的社會，所以我們還應該考慮社會指標。一些?？紤]的社會指標包括男性角色比例、視角的比例，等等。通過這些特征，我們可以分析出小說中社交網(wǎng)絡(luò)的結(jié)構(gòu)特性，并根據(jù)其進行聚類[5]。

4.2 聚類

本文采用k-means算法進行聚類，它是目前最簡單的聚類算法之一，也是應用最廣泛的一種聚類算法。其具體過程可以分為四步：選擇k個初始聚類中心，根據(jù)對象與中心的距離對其重新劃分，計算更新后的均值，迭代至測度函數(shù)收斂。在算法中，k值即為數(shù)據(jù)集中作者的個數(shù)，初始聚類中心為數(shù)據(jù)集中隨機選擇的k個值，距離將采用余弦距離，即通過向量空間中兩個向量夾角的余弦值來衡量個體間差異的大小，公式為

5 實驗（Experiment）

5.1 實驗語料

本文共選取了65篇小說作為語料，分別來自作家卡夫卡、張愛玲、老舍、狄更斯，數(shù)據(jù)集見表1。

5.2 評測指標

本文主要采用常見的三種指標：準確率、召回率與F1值。

其中，A表示正確識別的相關(guān)小說數(shù)，B表示識別的小說數(shù)，C表示相關(guān)的小說總數(shù)。

5.3 實驗結(jié)果

由于我們的語料分別來自四位作家，因此在我們的聚類算法中，將k設(shè)為4。最終算法將會把所有的小說分為四類，我們以每類含有的最多的小說作者作為該類的標簽，并以此作為評價的基準。我們將計算準確率、召回率、F_1值，并將其作為評價我們算法的依據(jù)。實驗結(jié)果如表2所示。

6 結(jié)論（Conclusion）

目前的文學定量分析方法大多是基于文本的形式和內(nèi)容，對于結(jié)構(gòu)、情節(jié)、人物關(guān)系等的量化與分析方法較少。在本文中，我們基于小說本身就是一個小型社會的特點，研究了基于社交網(wǎng)絡(luò)對小說進行聚類的方法。在實驗中，我們發(fā)現(xiàn)小說的社交網(wǎng)絡(luò)能夠在一定程度上反映出小說的風格流派及作者的風格特征。該方法具備一定的實用性，并且有進一步提升的可能。

參考文獻（References）

[1] Abualigah L M，Khader A T，Al-Betar M A.Unsupervised feature selection technique based on harmony search algorithm for improving the text clustering[C].International Conference on Computer Science and Information Technology，IEEE，2016：1-6.

[2] Scrivner O，Davis J.Interactive Text Mining Suite： Data Visualization for Literary Studies[C].Corpora in the Digital Humanities，2017.

[3] Jarynowski A，Boland S.Social Networks Analysis in Discovering the Narrative Structure of Literary Fiction[J].Biuletyn Instytutu Systemow Informatycznych，2013，12（2）：35-42.

[4]Ji Y L，Dernoncourt F.Sequential Short-Text Classification with Recurrent and Convolutional Neural Networks[C].North American Chapter of the Association for Computational Linguistics，2016：515-520.

[5] Ardanuy M C，Sporleder C.Structure-based Clustering of Novels[C].The Workshop on Computational Linguistics for Literature，2014：31-39.

[6] 劉海燕，尹曉虎.文學作品中的“小世界”——菲茨杰拉德小說人物關(guān)系網(wǎng)絡(luò)的實證分析[J].統(tǒng)計與信息論壇，2015，30（12）：102-107.

[7] Chen L C，Papandreou G，Kokkinos I，et al.Semantic Image Segmentation with Deep Convolutional Nets and Fully Connected CRFs[J].Computer Science，2015（4）：357-361.

[8] Ritter A，Clark S，Etzioni O.Named entity recognition in tweets：an experimental study[J].Emnlp，2011，61（3）：1524-1534.

[9] Lafferty J D，Mccallum A，Pereira F C N.Conditional Random Fields：Probabilistic Models for Segmenting and Labeling Sequence Data[C].Eighteenth International Conference on Machine Learning.Morgan Kaufmann Publishers Inc.2001：282-289.

作者簡介：

樓鍇毅（1996-），女，本科生.研究領(lǐng)域：數(shù)據(jù)挖掘.

霸元婕（1997-），女，本科生.研究領(lǐng)域：數(shù)據(jù)挖掘.

李紹昂（1997-），男，本科生.研究領(lǐng)域：數(shù)據(jù)挖掘.