亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞同現(xiàn)網(wǎng)絡(luò)與支持向量機(jī)的論文甄別

        2010-12-31 00:00:00孫文俊
        現(xiàn)代情報(bào) 2010年7期

        [摘 要]單詞在句子中的交互不是隨機(jī)的,而是基于一定的規(guī)則,這種規(guī)則可以通過(guò)語(yǔ)言網(wǎng)絡(luò)進(jìn)行研究。詞同現(xiàn)網(wǎng)絡(luò)是人類(lèi)語(yǔ)言網(wǎng)絡(luò)的一種表現(xiàn)形式,它利用單詞在句子中的相鄰關(guān)系來(lái)確定一個(gè)連接。文中采用語(yǔ)言網(wǎng)絡(luò)分析的方法對(duì)論文進(jìn)行甄別:將論文用詞同現(xiàn)網(wǎng)絡(luò)表示,計(jì)算網(wǎng)絡(luò)的特征參數(shù)并輸出一個(gè)向量來(lái)表征論文,然后運(yùn)用支持向量機(jī)對(duì)論文進(jìn)行分類(lèi)。結(jié)果表明,使用該方法對(duì)高水平的論文和文本發(fā)生器產(chǎn)生的論文具有很好的甄別效果,對(duì)領(lǐng)域差別大的論文甄別效果也較顯著。

        [關(guān)鍵詞]詞同現(xiàn)網(wǎng)絡(luò);論文甄別;語(yǔ)言網(wǎng)絡(luò)分析;小世界網(wǎng)絡(luò)

        DOI:10.3969/j.issn.1008-0821.2010.07.025

        [中圖分類(lèi)號(hào)]G434 [文獻(xiàn)標(biāo)識(shí)碼]A [文章編號(hào)]1008-0821(2010)07-0087-06

        Paper Discrimination Based-on Word Co-occurrence

        Network and Support Vector MachineSun Wenjun Du Juan

        (School of Management,Harbin Institute of Technology,Haerbin 150001,China)

        [Abstract]Words in human language interact in sentences in non-random ways,but in a subtle manner that can be described in terms of a network of word interactions.Word co-occurrence network is a form of the human language complex network;it uses the co-occurrence of words in a sentence to define connections.This paper discriminates papers using language network analysis method:employ the word co-occurrence network of papers to represent them,then calculate the various parameters of the network and output a vector;finally, apply support vector machines to discriminate papers.The experimental results show that the classifier built by this method behaves well on high quality papers and unauthentic papers generated by text generators,and it also discriminates the papers which come from different area significantly.

        [Keywords]language network analysis;word co-occurrence network;paper discrimination;small-world network

        活躍在科研前線(xiàn)的學(xué)者們,不僅要自己花費(fèi)許多時(shí)間撰寫(xiě)論文及基金申請(qǐng)書(shū),也要評(píng)審大量的論文投稿、學(xué)位論文或是基金及項(xiàng)目申請(qǐng)書(shū)。通常,學(xué)者們進(jìn)行評(píng)審之前,有一個(gè)基本的前提假設(shè):所評(píng)審的文本是有意義的。一位學(xué)者要在很短的時(shí)間內(nèi)對(duì)自己并不是完全熟悉的論文做出盡量客觀全面的評(píng)價(jià),這并不是很容易能夠?qū)崿F(xiàn)的,誤判并不鮮見(jiàn)——將一篇好論文評(píng)為差,或者相反。有的時(shí)候,一篇論文盡管詞語(yǔ)晦澀,但只要符合格式規(guī)范、無(wú)語(yǔ)法錯(cuò)誤,就會(huì)給評(píng)審人留下好印象,使之更傾向于認(rèn)為這是一篇有意義有價(jià)值的論文;反之,如果一篇論文格式與語(yǔ)法錯(cuò)誤連連,評(píng)審人就很難有耐心看下去,會(huì)傾向于認(rèn)為這是一篇無(wú)價(jià)值的劣質(zhì)論文。

        但是,形式是具有欺騙性的。嚴(yán)謹(jǐn)?shù)恼Z(yǔ)法與中規(guī)中矩的格式并不能保證所傳達(dá)的信息是有意義和價(jià)值的。這方面最著名的例子,是語(yǔ)言學(xué)家喬姆斯基(Chomsky)構(gòu)建的名句“無(wú)色的綠想法猛烈地睡”(“Colorless green ideas sleep furiously”)。這個(gè)句子在句法上沒(méi)有任何問(wèn)題,但在語(yǔ)義上卻是毫無(wú)意義的。喬姆斯基創(chuàng)造這個(gè)句子是為了說(shuō)明僅僅只是語(yǔ)法的正確無(wú)法保證其在語(yǔ)義上有意義。近年來(lái)上演的Sokal事件[1]、Dada Engine事件[2]、Bogdanov兄弟事件[3]以及SCIgen事件[4]等都是對(duì)此強(qiáng)有力的證明。以上事件中的偽學(xué)術(shù)論文,是被曝光了知名度高的,可以想象,有不少類(lèi)似的劣質(zhì)學(xué)術(shù)論文濫竽充數(shù),浪費(fèi)了審稿人時(shí)間、占據(jù)了學(xué)術(shù)發(fā)表資源、污染了人類(lèi)的知識(shí)體系。

        人工產(chǎn)生或是文本發(fā)生器自動(dòng)生成的劣質(zhì)論文,有一個(gè)共同特點(diǎn)——語(yǔ)法與規(guī)范上均無(wú)可挑剔,在語(yǔ)義上卻是晦澀難懂乃至毫無(wú)意義。這些偽論文,應(yīng)該與嚴(yán)肅認(rèn)真的、有學(xué)術(shù)價(jià)值的高水平論文有著本質(zhì)的區(qū)別。

        甄別偽論文,語(yǔ)言網(wǎng)絡(luò)分析應(yīng)該可以起到重要的作用。一些研究者[5-6]將Barabasi和Albert的生長(zhǎng)與優(yōu)先連接動(dòng)力學(xué)模型(簡(jiǎn)稱(chēng)BA模型)[7-8]應(yīng)用到了語(yǔ)言網(wǎng)絡(luò)上,試圖解釋人類(lèi)語(yǔ)言小世界網(wǎng)絡(luò)特征與無(wú)標(biāo)度特征的演化起源,并取得了較好的結(jié)果。BA模型及其衍生模型表明,人類(lèi)自然語(yǔ)言網(wǎng)絡(luò)的節(jié)點(diǎn)——詞匯或概念——之間并不是隨機(jī)任意連接的,而是在演化過(guò)程中新節(jié)點(diǎn)(也即新詞匯或概念)基本按照優(yōu)先連接的方式與舊節(jié)點(diǎn)連接。所謂優(yōu)先連接,就是一個(gè)新節(jié)點(diǎn)更傾向于與連接數(shù)(也稱(chēng)為度)較高的舊節(jié)點(diǎn)相連。按此規(guī)則進(jìn)行生長(zhǎng)的網(wǎng)絡(luò),就會(huì)得到一個(gè)具有無(wú)標(biāo)度特征的小世界網(wǎng)絡(luò)。

        通過(guò)仔細(xì)研究Dada Engine及SCIgen文本發(fā)生器的生成規(guī)則[2,6],可以得知這些文本發(fā)生器所生成論文中的核心概念(詞匯)是被隨機(jī)選擇的,概念之間的關(guān)系也是隨機(jī)生成的,論文的結(jié)構(gòu)比較松散。而創(chuàng)作有學(xué)術(shù)價(jià)值的高水平論文時(shí),必然要求作者邏輯思維嚴(yán)謹(jǐn),論文中的內(nèi)容圍繞待解決的問(wèn)題和闡述的理論進(jìn)行說(shuō)明,其核心詞匯的選擇范圍是明確的,遣詞造句都是圍繞著一個(gè)中心問(wèn)題展開(kāi),新加入的詞匯和概念更傾向于與核心詞匯發(fā)生關(guān)系,論文的結(jié)構(gòu)更加緊湊。如果我們將論文的創(chuàng)作過(guò)程看作是一個(gè)網(wǎng)絡(luò)的生長(zhǎng)過(guò)程,文本發(fā)生器產(chǎn)生的偽論文的生長(zhǎng)過(guò)程與上面提到的BA模型及其衍生模型中的優(yōu)先連接機(jī)制是不同的,而高水平的真論文的生長(zhǎng)過(guò)程與之類(lèi)似。一個(gè)合理的假設(shè)是,由Dada Engine及SCIgen之類(lèi)文本發(fā)生器生成的偽論文,以及由人工產(chǎn)生的偽論文(如Sokal[1]和Bogdanoff兄弟[3]的文章)與高水平的真論文在語(yǔ)言網(wǎng)絡(luò)結(jié)構(gòu)上有明顯的區(qū)別。

        在本研究中,我們使用監(jiān)督學(xué)習(xí)來(lái)區(qū)分真論文與偽論文,具體實(shí)現(xiàn)的方法為:將論文用語(yǔ)言網(wǎng)絡(luò)的形式表示,計(jì)算網(wǎng)絡(luò)的各種特征參數(shù)并輸出一個(gè)向量來(lái)表征文本的特征信息,然后運(yùn)用支持向量機(jī)(Support Vector Machine SVM)來(lái)對(duì)論文進(jìn)行分類(lèi)。實(shí)驗(yàn)結(jié)果表明,對(duì)于文本發(fā)生器產(chǎn)生的偽論文與高水平的真論文,使用這種方法是可以準(zhǔn)確實(shí)現(xiàn)分類(lèi)的,論文的水平差別越大,分類(lèi)效果越好。這證明了我們的假設(shè):偽論文與高水平的真論文在網(wǎng)絡(luò)結(jié)構(gòu)上有明顯的區(qū)別。

        1 相關(guān)工作

        2006年美國(guó)Indiana University信息學(xué)學(xué)院的Mehmet M.Dalkilic等人開(kāi)發(fā)出了偽論文探測(cè)器(Inauthentic Paper Detector)[9],它利用人類(lèi)自然語(yǔ)言文本中的語(yǔ)義短程及長(zhǎng)程重復(fù),用可壓縮性的大小來(lái)表征一篇文章的特征,以這些特征來(lái)判定文章是否由機(jī)器隨機(jī)生成。它的出現(xiàn)引起了廣泛的注意,并取得了一定的成功,但也存在不少問(wèn)題。比如,據(jù)[10]報(bào)道,該偽論文探測(cè)器將Sokal的偽論文[1]評(píng)為“偽,21%的幾率為真”,將SCIgen生成的某個(gè)文本評(píng)為“偽,21%的幾率為真”。但是,[10]還報(bào)道,一些由Dada Engine生成的偽論文,被偽論文探測(cè)器判為真,概率高達(dá)94.7%,84.8%,86.6%,95.4%和95.8%,而一些古典名著,卻被它判為偽??梢?jiàn),盡管Indiana University的研究者們做了一次值得激賞的努力,他們的偽論文探測(cè)器及其背后的理論與方法在準(zhǔn)確地甄別偽論文方面還有很長(zhǎng)的一段路要走。

        對(duì)論文進(jìn)行甄別,本質(zhì)上是一個(gè)對(duì)文本進(jìn)行二分類(lèi)的過(guò)程,即將論文分為真論文與偽論文兩類(lèi)。國(guó)內(nèi)外關(guān)于文本分類(lèi)都有了較為深入的研究,從使用的文本特征來(lái)看,學(xué)者們進(jìn)行了多種嘗試。對(duì)于英法德等語(yǔ)種,文本可以由單詞、優(yōu)化合并后的單詞集、短語(yǔ)、優(yōu)化合并后的短語(yǔ)集、n-gram和其它特征項(xiàng)進(jìn)行表示,學(xué)者們對(duì)這些特征項(xiàng)進(jìn)行仔細(xì)的對(duì)比研究后發(fā)現(xiàn),使用優(yōu)化合并后的單詞集作為特征項(xiàng)在文本分類(lèi)中效果最好。在此我們不采用單詞集作為特征項(xiàng)有如下原因:(1)它對(duì)詞匯的順序不敏感:對(duì)真論文中的這些詞匯進(jìn)行隨機(jī)的排列組合后生成的文本,使用基于該特征項(xiàng)的模型根本就分辯不出來(lái)。(2)標(biāo)準(zhǔn)的文本分類(lèi)模型都是基于特定的類(lèi)別(如:學(xué)術(shù)、新聞、應(yīng)用、文學(xué)等),分類(lèi)的成功與否依賴(lài)于對(duì)文本中的某些詞匯是否能正確識(shí)別。而真論文從語(yǔ)義上來(lái)看一般可能屬于多個(gè)文本類(lèi)別,單純通過(guò)某些詞匯不一定能正確判定。(3)一般的文本分類(lèi)模型需要基于大的標(biāo)準(zhǔn)語(yǔ)料庫(kù),但標(biāo)準(zhǔn)語(yǔ)料庫(kù)似乎不能輕易收集到,而基于小的語(yǔ)料庫(kù),卻不能準(zhǔn)確地預(yù)測(cè)[9]。基于以上原因,我們選擇使用語(yǔ)言網(wǎng)絡(luò)分析的方法可能會(huì)更勝任論文甄別的任務(wù)。

        人類(lèi)語(yǔ)言是典型的復(fù)雜系統(tǒng),它在詞法、句法、語(yǔ)義等層次上都表現(xiàn)出高度的復(fù)雜性[11],在不同的層次和角度去對(duì)語(yǔ)言進(jìn)行研究,將會(huì)建立不同的語(yǔ)言復(fù)雜網(wǎng)絡(luò)。國(guó)外的學(xué)者們已在英語(yǔ)等語(yǔ)言上建立了不同的網(wǎng)絡(luò)進(jìn)行研究,如:詞同現(xiàn)網(wǎng)、句法依存網(wǎng)、語(yǔ)義網(wǎng)、概念網(wǎng)、詞匯聯(lián)想網(wǎng)、辭典網(wǎng)如有基于Rogets Thesaurus、基于WordNet等。國(guó)內(nèi)的學(xué)者們基于漢語(yǔ)本身的特點(diǎn),研究了漢語(yǔ)特有的詞法網(wǎng)絡(luò)的特性[14]。

        Cancho和Sole基于規(guī)模為107詞次的英語(yǔ)國(guó)家語(yǔ)料庫(kù)(British National Corpus BNC)建立了一個(gè)詞同現(xiàn)網(wǎng)絡(luò),發(fā)現(xiàn)該網(wǎng)絡(luò)具有小世界效應(yīng)(平均路徑長(zhǎng)度小于3)和無(wú)標(biāo)度特性(網(wǎng)絡(luò)中節(jié)點(diǎn)的度滿(mǎn)足冪律分布),并發(fā)現(xiàn)了人類(lèi)語(yǔ)言存在一個(gè)數(shù)量級(jí)為103的核心詞典,其規(guī)模并不隨著語(yǔ)言進(jìn)化而發(fā)生顯著變化,同時(shí),還發(fā)現(xiàn)核心詞典在語(yǔ)言網(wǎng)絡(luò)中的度分布表現(xiàn)為兩個(gè)不同斜率的區(qū)段,其中一段度較大,構(gòu)成了為語(yǔ)言使用者所共用的核心詞典,而另一段度相對(duì)較小,為特定領(lǐng)域所使用的詞匯[12]。Dorogovtsev和Mendes提出了模擬人類(lèi)語(yǔ)言進(jìn)化的優(yōu)先連接算法,該算法從一個(gè)初始網(wǎng)絡(luò)開(kāi)始,通過(guò)加入新詞來(lái)擴(kuò)展之前的網(wǎng)絡(luò)。新詞與已有詞的連接、已有詞之間的連接按照與已有詞度的大小成正比的概率生成擴(kuò)展隨機(jī)網(wǎng)絡(luò),發(fā)現(xiàn)人類(lèi)語(yǔ)言是一個(gè)演化中的由詞匯構(gòu)成的無(wú)標(biāo)度小世界網(wǎng)絡(luò)[13],他們的模型也驗(yàn)證了Cancho和Sole的實(shí)證發(fā)現(xiàn)[12]。清華大學(xué)的劉知遠(yuǎn)等基于北京大學(xué)《人民日?qǐng)?bào)(1998年上半年)》1 300萬(wàn)字左右的人工分詞語(yǔ)料庫(kù)和國(guó)家語(yǔ)委5 000萬(wàn)字左右的人工分詞語(yǔ)料庫(kù)構(gòu)建了漢語(yǔ)的詞同現(xiàn)網(wǎng)絡(luò),發(fā)現(xiàn)了漢語(yǔ)的小世界網(wǎng)絡(luò)特性[14]。

        在實(shí)證方面,基于海量語(yǔ)料庫(kù)發(fā)現(xiàn)了語(yǔ)言(及進(jìn)化)網(wǎng)絡(luò)具有小世界特性;在理論方面,從網(wǎng)絡(luò)生長(zhǎng)的動(dòng)力學(xué)模型角度來(lái)模擬網(wǎng)絡(luò)的生長(zhǎng)進(jìn)化,解釋了實(shí)證研究的發(fā)現(xiàn),說(shuō)明符合人類(lèi)語(yǔ)言表達(dá)規(guī)律的語(yǔ)料庫(kù)是具有小世界網(wǎng)絡(luò)特性的。不過(guò)目前還沒(méi)有學(xué)者從實(shí)證的角度來(lái)研究小規(guī)模語(yǔ)料(例如一篇論文)的網(wǎng)絡(luò)特征。一般認(rèn)為的復(fù)雜網(wǎng)絡(luò)其結(jié)點(diǎn)數(shù)都是成千上萬(wàn)的,雖然網(wǎng)絡(luò)的規(guī)模對(duì)網(wǎng)絡(luò)的平均路徑長(zhǎng)度、聚集系數(shù)等的大小會(huì)有影響,但是根據(jù)[15],杜海峰、李樹(shù)茁等人研究發(fā)現(xiàn)網(wǎng)絡(luò)規(guī)模并不會(huì)影響小世界網(wǎng)絡(luò)、隨機(jī)網(wǎng)絡(luò)及規(guī)則網(wǎng)絡(luò)之間本質(zhì)的差別,所以本文對(duì)一篇論文的網(wǎng)絡(luò)結(jié)構(gòu)特性的研究是有意義的。在此我們提出使用語(yǔ)言網(wǎng)絡(luò)來(lái)表征一篇論文,并從語(yǔ)言網(wǎng)絡(luò)分析的角度來(lái)判斷論文的真?zhèn)巍?/p>

        2 方 法

        2.1 詞同現(xiàn)網(wǎng)絡(luò)簡(jiǎn)介

        詞同現(xiàn)網(wǎng)絡(luò)是人類(lèi)語(yǔ)言復(fù)雜網(wǎng)絡(luò)的一種表現(xiàn)形式,它利用單詞在句子中的相鄰關(guān)系來(lái)確定一個(gè)連接,構(gòu)建方便且代表性強(qiáng)。詞同現(xiàn)網(wǎng)絡(luò)的構(gòu)造規(guī)則很簡(jiǎn)單[12]:文本中的每一個(gè)單詞對(duì)應(yīng)著詞同現(xiàn)網(wǎng)絡(luò)的一個(gè)節(jié)點(diǎn);如果一個(gè)句子中兩個(gè)單詞的間隔小于等于1,則認(rèn)為網(wǎng)絡(luò)中相應(yīng)的兩個(gè)結(jié)點(diǎn)之間存在連接。對(duì)論文中所有的句子進(jìn)行上述處理,即可得到該論文的詞同現(xiàn)網(wǎng)絡(luò)。句子中兩個(gè)詞的鄰接相關(guān)是最常見(jiàn)的,雖然也存在一些間隔大于1的相關(guān)詞對(duì),但如果在模型中考慮這種遠(yuǎn)距離關(guān)聯(lián),則會(huì)引入大量的無(wú)關(guān)詞對(duì),降低詞同現(xiàn)網(wǎng)絡(luò)對(duì)論文表征的準(zhǔn)確性。采取這個(gè)策略,一方面可較充分地反映詞與詞之間的上下文相關(guān)關(guān)系(可能是語(yǔ)法上、意義上或是約定成俗的),另一方面,又可使模型的復(fù)雜性得到較好的控制[14]。

        2.2 語(yǔ)言網(wǎng)絡(luò)拓?fù)鋮?shù)簡(jiǎn)介

        網(wǎng)絡(luò)的拓?fù)鋮?shù)又稱(chēng)為靜態(tài)幾何量,它們是研究網(wǎng)絡(luò)的基礎(chǔ)。平均路徑長(zhǎng)度、聚集系數(shù)和度分布稱(chēng)為復(fù)雜網(wǎng)絡(luò)的三大統(tǒng)計(jì)特性[16],它們較系統(tǒng)地反映了網(wǎng)絡(luò)中的節(jié)點(diǎn)位置、連接狀況、密度、節(jié)點(diǎn)間路徑遠(yuǎn)近等各類(lèi)結(jié)構(gòu)特征。下面分別對(duì)它們作簡(jiǎn)要介紹:

        2.2.1 平均路徑長(zhǎng)度

        平均路徑長(zhǎng)度是復(fù)雜網(wǎng)絡(luò)一個(gè)重要的全局幾何量,它描述了網(wǎng)絡(luò)中節(jié)點(diǎn)間的疏密程度,即網(wǎng)絡(luò)有多小。兩節(jié)點(diǎn)間的距離為連接兩者的最短路徑的邊的數(shù)目,所有節(jié)點(diǎn)對(duì)之間距離的平均值稱(chēng)為網(wǎng)絡(luò)的平均路徑長(zhǎng)度L:L=∑i≠j∈Gdijn(n-1)/2其中,n為網(wǎng)絡(luò)中節(jié)點(diǎn)的個(gè)數(shù),dij為i,j兩節(jié)點(diǎn)間的距離。具有小世界特性的網(wǎng)絡(luò)其平均路徑長(zhǎng)度會(huì)很短,遠(yuǎn)小于網(wǎng)絡(luò)規(guī)模[17](因此稱(chēng)這種網(wǎng)絡(luò)為“小世界”網(wǎng)絡(luò))。對(duì)小世界網(wǎng)絡(luò)而言L(fǎng)≈ln(n)/ln(〈k〉)。

        2.2.2 聚集系數(shù)

        聚集系數(shù)C用來(lái)描述網(wǎng)絡(luò)中節(jié)點(diǎn)的平均聚集情況。比如在社會(huì)網(wǎng)絡(luò)中,你朋友的朋友可能也是你的朋友。C的計(jì)算方法為:假設(shè)節(jié)點(diǎn)i與其他ki個(gè)節(jié)點(diǎn)相連,如果這ki個(gè)節(jié)點(diǎn)都相互連接,則存在ki(ki-1)/2條邊,而ki個(gè)節(jié)點(diǎn)之間的實(shí)際邊數(shù)為mi條,則節(jié)點(diǎn)i的聚集系數(shù)為Ci=miki(ki-1)/2(0Ci1)。網(wǎng)絡(luò)的聚集系數(shù)就是整個(gè)網(wǎng)絡(luò)中所有節(jié)點(diǎn)聚集系數(shù)的平均:C=1n∑i∈GCi(0C1)。聚集系數(shù)越大,說(shuō)明網(wǎng)絡(luò)越緊密。極端情況下,當(dāng)網(wǎng)絡(luò)中所有節(jié)點(diǎn)均為孤立節(jié)點(diǎn)時(shí),C=0;當(dāng)網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)均與其余n-1個(gè)節(jié)點(diǎn)連接時(shí),C=1。對(duì)于隨機(jī)網(wǎng)絡(luò)而言,C≈〈k〉/n,遠(yuǎn)小于1,而大規(guī)模的實(shí)際復(fù)雜網(wǎng)絡(luò)表現(xiàn)出顯著的聚集效應(yīng)[18],表1[19]展示了3個(gè)真實(shí)網(wǎng)絡(luò)和同等規(guī)模隨機(jī)網(wǎng)絡(luò)的最短路徑長(zhǎng)度和聚集系數(shù),可以看出實(shí)際網(wǎng)絡(luò)的聚集系數(shù)是遠(yuǎn)大于隨機(jī)網(wǎng)絡(luò)的。表1 3個(gè)真實(shí)網(wǎng)絡(luò)和同等規(guī)模隨機(jī)網(wǎng)絡(luò)的最短路徑長(zhǎng)度和聚集系數(shù)

        網(wǎng) 絡(luò)LLrandCCrand萬(wàn)維網(wǎng)

        3.13.350.10780.00023電力網(wǎng)

        18.712.40.080.005演員合作網(wǎng)3.652.990.790.00027

        2.2.3 度分布

        度分布函數(shù)P(k)定義為在隨機(jī)情況下挑選出的節(jié)點(diǎn)其度為k的概率。節(jié)點(diǎn)的度分布刻畫(huà)了網(wǎng)絡(luò)中每個(gè)節(jié)點(diǎn)與其他節(jié)點(diǎn)連接的數(shù)量分布規(guī)律,是網(wǎng)絡(luò)結(jié)構(gòu)的重要幾何特征。一個(gè)符合冪律分布的復(fù)雜網(wǎng)絡(luò)關(guān)鍵特征是網(wǎng)絡(luò)核心節(jié)點(diǎn)的存在,即少數(shù)節(jié)點(diǎn)度很大,而絕大多數(shù)節(jié)點(diǎn)度很小。不同的是,隨機(jī)網(wǎng)絡(luò)的度分布服從泊松分布,大多數(shù)網(wǎng)絡(luò)節(jié)點(diǎn)的度都集中于平均度附近,遠(yuǎn)離峰值的節(jié)點(diǎn)數(shù)呈指數(shù)減小,隨著節(jié)點(diǎn)度數(shù)的增大或減小,其概率呈指數(shù)式遞減[16]。圖1是隨機(jī)網(wǎng)絡(luò)與小世界網(wǎng)絡(luò)節(jié)點(diǎn)度分布P(k)的比較。

        圖1 隨機(jī)網(wǎng)絡(luò)與小世界網(wǎng)絡(luò)節(jié)點(diǎn)度分布的比較

        其中實(shí)線(xiàn)是隨機(jī)網(wǎng)絡(luò),虛線(xiàn)是小世界網(wǎng)絡(luò)。

        左圖為線(xiàn)性坐標(biāo)表示;右圖為對(duì)數(shù)-對(duì)數(shù)坐標(biāo)表示。

        2.3 數(shù)據(jù)來(lái)源

        真論文樣本我們選取了3種期刊/會(huì)議錄用的論文:MIS Quarterly(MISQ)、夏威夷系統(tǒng)科學(xué)國(guó)際會(huì)議(HICSS)、某知名國(guó)際會(huì)議。這3種期刊接收投稿范圍較廣,具有多樣化和開(kāi)放性的特點(diǎn)。我們?cè)趯?shí)際數(shù)據(jù)收集過(guò)程中通過(guò)Google scholar各下載了近百篇MISQ和HICSS的論文,由于搜索過(guò)程的隨機(jī)性,收集到的樣本不會(huì)只是局限于某個(gè)研究?jī)?nèi)容、某個(gè)年限或是某些作者的論文。此外,我們獲得了某國(guó)際會(huì)議從2004-2008年這5年所有的錄用與未錄用論文,實(shí)驗(yàn)中隨機(jī)各選取了500篇作為樣本。

        在偽論文樣本方面,由于未錄取的論文收集難度大,因此我們除了收集到某國(guó)際會(huì)議的未錄用論文外,沒(méi)有收集到其它期刊/會(huì)議的未錄用論文。為了發(fā)現(xiàn)文本發(fā)生器產(chǎn)生的偽論文與高水平論文的區(qū)別,我們?cè)贒ada Engine與SCIgen上各收集了350篇隨機(jī)生成的后現(xiàn)代論文及計(jì)算機(jī)領(lǐng)域的偽論文進(jìn)行了實(shí)驗(yàn)。

        2.4 具體實(shí)現(xiàn)

        對(duì)于任意一篇論文,首先做一些預(yù)處理:去除論文的作者與單位、致謝、參考文獻(xiàn)、文本中所有的圖表以及括號(hào)內(nèi)解釋說(shuō)明的內(nèi)容及參考說(shuō)明、對(duì)所有的數(shù)字進(jìn)行歸一化處理等等。由于不同來(lái)源的論文其篇幅有著很大的差別,為了使網(wǎng)絡(luò)規(guī)模(一般指節(jié)點(diǎn)數(shù))不影響實(shí)驗(yàn)結(jié)果,我們將所有的樣本切割成某國(guó)際會(huì)議投稿平均大小的文本,用切割后的文本進(jìn)行實(shí)驗(yàn)。預(yù)處理之后構(gòu)建論文的詞同現(xiàn)網(wǎng)絡(luò),計(jì)算出它的結(jié)點(diǎn)數(shù)、邊數(shù)、平均度數(shù)、最大度數(shù)、平均路徑長(zhǎng)度、網(wǎng)絡(luò)直徑、聚集系數(shù)等等,將這些參數(shù)組成一組向量來(lái)表征網(wǎng)絡(luò)的特征。在處理過(guò)程中,為了體現(xiàn)論文樣本與隨機(jī)網(wǎng)絡(luò)的差別,我們生成了與論文詞同現(xiàn)網(wǎng)絡(luò)同樣規(guī)模(結(jié)點(diǎn)數(shù),平均度相等)的隨機(jī)網(wǎng)絡(luò),計(jì)算出它的聚集系數(shù)、直徑、平均路徑長(zhǎng)度等,使用樣本論文的網(wǎng)絡(luò)參數(shù)與它的差來(lái)體現(xiàn)它們之間的區(qū)別。最終輸出的向量各維度組成如下:(聚集系數(shù)之差(與同規(guī)模的隨機(jī)網(wǎng)絡(luò)),直徑之差,平均路徑長(zhǎng)度之差,網(wǎng)絡(luò)結(jié)點(diǎn)數(shù),有效的邊數(shù),平均度數(shù),最大度數(shù))。

        本文使用了支持向量機(jī)來(lái)構(gòu)造分類(lèi)器,支持向量機(jī)算法的主要目標(biāo)是找出一個(gè)超平面,使得它能夠盡可能多的將兩類(lèi)數(shù)據(jù)點(diǎn)正確的分開(kāi),同時(shí)使分開(kāi)的兩類(lèi)數(shù)據(jù)點(diǎn)距離分類(lèi)面(超平面)最遠(yuǎn)。具體實(shí)現(xiàn)時(shí),我們使用了LibSVM軟件及其提供的工具包[20]來(lái)完成分類(lèi)器的構(gòu)造,實(shí)現(xiàn)步驟如下:

        (1)標(biāo)準(zhǔn)化訓(xùn)練集數(shù)據(jù)后在訓(xùn)練集上做交叉驗(yàn)證,通過(guò)網(wǎng)格搜索法對(duì)每個(gè)參數(shù)對(duì)做交叉驗(yàn)證,選擇交叉驗(yàn)證精度最高所對(duì)應(yīng)的參數(shù)C和g;

        (2)將得到的參數(shù)對(duì)在訓(xùn)練集合上做模型訓(xùn)練,將得到的模型保存;

        (3)標(biāo)準(zhǔn)化測(cè)試集數(shù)據(jù),用測(cè)試集對(duì)訓(xùn)練得出的模型進(jìn)行測(cè)試,輸出預(yù)測(cè)結(jié)果和識(shí)別率。

        3 實(shí)驗(yàn)與結(jié)果

        表2列出了幾個(gè)由SCIgen與Dada Engine產(chǎn)生論文的聚集系數(shù)之差及平均路徑長(zhǎng)度之差,可以看出,Dada Engine、SCI gen產(chǎn)生的論文與隨機(jī)網(wǎng)絡(luò)相比,聚集系數(shù)之差,均大于0;平均路徑長(zhǎng)度相差不多,即論文詞同現(xiàn)網(wǎng)絡(luò)的聚集系數(shù)大于隨機(jī)網(wǎng)絡(luò)的聚集系數(shù),平均路徑長(zhǎng)度與隨機(jī)網(wǎng)絡(luò)的無(wú)明顯差別,這表明由Dada Engine與SCIgen生成的偽論文有一定的小世界網(wǎng)絡(luò)特性。這個(gè)結(jié)果并不奇怪,因?yàn)镈ada Engine和SCI gen采用了計(jì)算機(jī)語(yǔ)言學(xué)中的遞歸躍遷網(wǎng)絡(luò)(recursive transition networks(RTN),是“語(yǔ)境獨(dú)立語(yǔ)法”的一種圖論表達(dá))模型[2],可以按事先定義好的語(yǔ)法規(guī)則隨機(jī)產(chǎn)生論文。它們沒(méi)有拼寫(xiě)和語(yǔ)法錯(cuò)誤,符合人文學(xué)界和計(jì)算機(jī)領(lǐng)域?qū)W術(shù)論文的規(guī)范(包括標(biāo)題、作者、摘要、引言、結(jié)論、參考文獻(xiàn)等),句子結(jié)構(gòu)復(fù)雜。在Dada Engine的基礎(chǔ)上,SCI gen采用的是計(jì)算機(jī)領(lǐng)域的專(zhuān)有詞匯,還可以自動(dòng)生成科學(xué)論文中常見(jiàn)的圖,令其生成的論文更具有欺騙性。可以看出,文本發(fā)生器生成的論文是受語(yǔ)法和一些其它規(guī)則約束的,因此它們會(huì)表現(xiàn)出一定的小世界特性。表2 由SCIgen與Dada Engine產(chǎn)生的部分樣本的

        聚集系數(shù)之差及平均路徑長(zhǎng)度之差

        樣本來(lái)源C-CrandD-DrandSCI gen0.3410.00340.3290.020.3340.01960.3540.058Dada Engine0.290.0020.3160.05860.2260.0570.314-0.002

        具體實(shí)驗(yàn)說(shuō)明如下:將MISQ、HICSS、某會(huì)議錄用論文、未錄用論文、SCI gen分別作為真論文樣本,將SCI gen、Dada Engine、某會(huì)議錄用論文、未錄用論文、HICSS作為偽文本樣本,進(jìn)行了表3的實(shí)驗(yàn),每個(gè)組合實(shí)驗(yàn)5次,表中識(shí)別率選取的是5次的平均值。實(shí)驗(yàn)過(guò)程中, MISQ、HICSS、某會(huì)議錄用及未錄用論文、SCI gen網(wǎng)絡(luò)的結(jié)點(diǎn)數(shù)平均在550~600之間。一般情況下,識(shí)別率越高,說(shuō)明兩種樣本的網(wǎng)絡(luò)結(jié)構(gòu)差別越大。表3 不同類(lèi)別樣本使用分類(lèi)器分類(lèi)的識(shí)別率(單位:%)

        偽論文真

        文MISQHICSS某會(huì)議

        錄用某會(huì)議

        未錄用SCI genSCI gen100100100100NADada Engine100100100100100某會(huì)議未錄用81.775.453NA100某會(huì)議錄用80.773.7NA53100HICSS64.5NA73.775.4100

        通過(guò)表3的數(shù)據(jù),我們可以觀察到如下結(jié)果:

        (1)MISQ、HICSS和某會(huì)議的投稿對(duì)SCI gen 和Dada Engine產(chǎn)生的論文具有很好的識(shí)別效果(均達(dá)到了100%的識(shí)別率),說(shuō)明人手工書(shū)寫(xiě)的論文與文本發(fā)生器產(chǎn)生的論文在詞同現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)上有著明顯的區(qū)別。一個(gè)合理的解釋是,MISQ、HICSS與某會(huì)議錄用的論文是被專(zhuān)家認(rèn)可的,是人類(lèi)知識(shí)體系中的一部分,因此,它們與文本發(fā)生器產(chǎn)生的垃圾信息是有著本質(zhì)區(qū)別的。而投稿于某會(huì)議未用的論文,其作者都是經(jīng)過(guò)縝密的思考,本著認(rèn)真的態(tài)度完成論文的,因此,我們相信,即使是未錄用的論文,其語(yǔ)言網(wǎng)絡(luò)也是遵循人類(lèi)語(yǔ)言網(wǎng)絡(luò)的基本特征和人類(lèi)知識(shí)體系的結(jié)構(gòu)規(guī)律,它與文本發(fā)生器產(chǎn)生的文本也是有本質(zhì)區(qū)別的。

        (2)當(dāng)MISQ作為真文本時(shí),按識(shí)別率從高到低排序,依次是SCI gen和Dada Engine(100%)、某會(huì)議未錄用論文(81.7%)、錄用論文(80.7%)、HICSS(64.5%),說(shuō)明以上樣本與MISQ的差別越來(lái)越小。在此,我們只考慮3個(gè)來(lái)源于管理科學(xué)領(lǐng)域的樣本,如果將MISQ的論文質(zhì)量看作最高,則可以推斷接下來(lái)按論文質(zhì)量排序依次是HICSS、會(huì)議錄用論文、未錄用論文,這與事實(shí)相符,說(shuō)明論文詞同現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)之間的差異大小可以作為論文質(zhì)量的一個(gè)參考。將HICSS作為真文本的實(shí)驗(yàn)(與某會(huì)議錄用論文及未錄用論文的識(shí)別率分別為75.4%和73.7%)也在一定程度上證實(shí)了這一點(diǎn)。

        (3)某會(huì)議錄用論文與未錄用論文的識(shí)別率僅為53%,說(shuō)明投稿于該會(huì)議的論文在詞同現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)上沒(méi)有明顯的區(qū)別,將MISQ、HICSS與該會(huì)議錄用論文及未錄用論文訓(xùn)練建模時(shí),其識(shí)別率差別不大(與MISQ區(qū)分時(shí)分別為81.7%和80.7%,與HICSS區(qū)分時(shí)分別為75.4%和73.7%),也驗(yàn)證了這一結(jié)論。出現(xiàn)這種情況有二種解釋:第一,可能某會(huì)議的審稿過(guò)程具有一定的主觀性,錄用與未錄用比較隨機(jī),所以本模型無(wú)法進(jìn)行準(zhǔn)確地判定。第二,可能是本模型存在缺陷,無(wú)法更進(jìn)一步區(qū)分水平差別不大的論文。具體是哪種原因,還有待于我們進(jìn)一步收集更多其它期刊與會(huì)議的數(shù)據(jù)進(jìn)行驗(yàn)證,同時(shí),也需要對(duì)模型的輸入作進(jìn)一步的改進(jìn),以使輸入更能代表一個(gè)文本。這將是我們以后研究的方向。

        (4)SCI gen與Dada Engine這兩個(gè)生成機(jī)制類(lèi)似的文生發(fā)生器產(chǎn)生的論文有著明顯的區(qū)別,它們能被本模型準(zhǔn)確區(qū)分(識(shí)別率達(dá)到100%)。一個(gè)合理的解釋是:Dada Engine產(chǎn)生的論文是人文領(lǐng)域后現(xiàn)代主義風(fēng)格的學(xué)術(shù)論文, 而SCI gen產(chǎn)生的文本是自然科學(xué)界計(jì)算機(jī)領(lǐng)域的學(xué)術(shù)論文,它們?cè)陬I(lǐng)域、行文的風(fēng)格及思路上有著極大的差別,這應(yīng)該是它們產(chǎn)生區(qū)別的主要原因。

        通過(guò)該實(shí)驗(yàn),我們可以得出的結(jié)論是,使用詞同網(wǎng)絡(luò)表征一個(gè)論文的方式建模所得到的分類(lèi)器,對(duì)高水平的論文及文本發(fā)生器產(chǎn)生的文本具有很好的分類(lèi)效果,但是對(duì)于水平差別不大的論文卻很難區(qū)分,不過(guò)可以通過(guò)定義參照論文,使用待判定論文與參照論文的識(shí)別率大小來(lái)判定論文的水平。最后,使用本模型可以區(qū)分來(lái)自于不同領(lǐng)域的論文。

        4 討 論

        本文使用語(yǔ)言網(wǎng)絡(luò)分析的方法來(lái)對(duì)真?zhèn)握撐倪M(jìn)行甄別,在國(guó)內(nèi)外都屬首創(chuàng)。以文本發(fā)生器產(chǎn)生的偽論文作為樣本與高水平的真論文進(jìn)行區(qū)分,主要是為了探討文本發(fā)生器產(chǎn)生的垃圾信息與人類(lèi)大腦產(chǎn)生的知識(shí)描述是否存在質(zhì)的差別,實(shí)驗(yàn)結(jié)果驗(yàn)證了我們的推斷。這種方法簡(jiǎn)單易行,很容易在垃圾信息過(guò)濾及垃圾論文甄別中廣泛使用,在當(dāng)前互聯(lián)網(wǎng)上信息爆炸、信息污染的情況下,具有極大的使用價(jià)值。

        本文研究的目的是發(fā)現(xiàn)偽論文與真論文的詞同現(xiàn)網(wǎng)絡(luò)結(jié)構(gòu)是否存在區(qū)別,用監(jiān)督學(xué)習(xí)的支持向量機(jī)方法用來(lái)構(gòu)建分類(lèi)器,識(shí)別效果不錯(cuò)。目前,支持向量機(jī)己經(jīng)廣泛地運(yùn)用到了文本分類(lèi)上,而且經(jīng)過(guò)學(xué)者們的研究,支持向量機(jī)是眾多分類(lèi)模型中表現(xiàn)最好的模型之一,當(dāng)然我們也可以使用其它方法構(gòu)建分類(lèi)器對(duì)真?zhèn)握撐倪M(jìn)行區(qū)分,這在以后的研究中可以嘗試。

        一般來(lái)說(shuō),確定一個(gè)論文是否有意義是很困難的,在此,我們不敢說(shuō)找到一種好的方法來(lái)區(qū)分有意義的論文和垃圾論文,我們只是強(qiáng)調(diào)使用語(yǔ)言網(wǎng)絡(luò)分析的方法可以找出文本發(fā)生器產(chǎn)生的論文或者與之類(lèi)似的(如精神病人寫(xiě)出來(lái)的)文本。可以區(qū)分它們一個(gè)可能的原因是,文本發(fā)生器產(chǎn)生的論文的語(yǔ)言網(wǎng)絡(luò)與按照人類(lèi)正常的思維習(xí)慣認(rèn)真撰寫(xiě)的論文的語(yǔ)言網(wǎng)絡(luò)相比前者更接近于隨機(jī)網(wǎng)絡(luò),真論文具有更強(qiáng)的中心性,遣詞造句更具有規(guī)則性,這有助于將問(wèn)題闡述得更清楚。當(dāng)然,對(duì)于一些模仿某種寫(xiě)作風(fēng)格杜撰出來(lái)的論文,即使它們并沒(méi)有表達(dá)出任何有意義的想法,目前我們的模型可能很難區(qū)分。對(duì)于人類(lèi)知識(shí)表示的深層次規(guī)律還有待于我們進(jìn)一步發(fā)現(xiàn),以便將來(lái)進(jìn)一步優(yōu)化模型。

        參考文獻(xiàn)

        [1]Alan Sokal.Transgressing the Boundaries:Toward a Transformative Hermeneutics of Quantum Gravity.Social Text 46/47:217-252,1996.

        [2]BULHAK,A.(1996):On the simulation of postmodernism and mental debility using recursive transition networks.Dept.of Computer Science,Monash Univ.TR 96/264.URL:http:∥www.elsewhere.org/pomo/

        [3]http:∥math.ucr.edu/home/baez/bogdanoff/[EB].

        [4]Ziming Zhuang,Ergin Elmacioglu,Dongwon Lee,C.Lee Giles.Measuring conference quality by mining program committee characteristics.Proceedings of the 7th ACM/IEEE-CS joint conference on Digital libraries,225-234,2007.URL:http:∥pdos.csail.mit.edu/scigen/

        [5]Steyvers M,Tenenbaum J B.The large-scale structure of semantic networks:statistical analyses and a model of semantic growth[J].Cognitive Science:A Multidisciplinary Journal,2005,29(1):41-78.

        [6]Sole R V,Murtra B C,Valverde S,et al.Language Networks:Their Structure,F(xiàn)unction and Evolution[J].Trends in Cognitive Sciences,2006.

        [7]Barabasi A L,Albert R.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.

        [8]Albert R,Barabasi A L.Statistical Mechanics of Complex Networks[J].Reviews of Modern Physics,2002,74(1):47297.

        [9]Mehmet M.Dalkilic,Wyatt T.Clark,James C.Costello,Predrag Radivojac.Using Compression to Identify Classes of Inauthentic Texts.604-608.Proceedings of the 2006 SIAM International Conference on Data Mining,2006.URL:http:∥montana.informatics.indiana.edu/fsi/about.html

        [10]http:∥improbable.com/2006/07/22/inauthentic-paper-detector/

        [11]Sole R V,Murtra B C,Valverde S,et al.Language Networks:Their Structure,F(xiàn)unction and Evolution[J].Trends in Cognitive Sciences,2006.

        [12]Cancho R F I,Sole R V.The Small World of Human Language[J].Proceedings of the Royal Society of London Series B-Biological Sciences,2001,268(1482):2261-2265.

        [13]Dorogovtsev S N,Mendes J F F.Language as an Evolving Word Web[J].Proceedings of the Royal Society of London Series B-Biological Sciences,2001,268(1485):2603-2606.

        [14]劉知遠(yuǎn),孫茂松.漢語(yǔ)詞同現(xiàn)網(wǎng)絡(luò)的小世界效應(yīng)和無(wú)標(biāo)度特性[J].中文信息學(xué)報(bào),2007,21(6):52-58.

        [15]杜海峰,李樹(shù)茁,等.小世界網(wǎng)絡(luò)與無(wú)標(biāo)度網(wǎng)絡(luò)的社區(qū)結(jié)構(gòu)研究[J].物理學(xué)報(bào),2007,56(42).

        [16]Wang Xiaofan.Recent Advances in Complex Networks[J].Journal of System Simulation,2002,11(14):1472-1478.

        [17]Watts D J,Strogatz S H.Collective dynamics of‘small-world’networks[J].Nature,1998,393:440-442.

        [18]Barabasi A L,Albert R.Emergence of scaling in random networks[J].Science,1999,286(5439):509-512.

        [19]M.E.J.Newman Models of the Small World J.Stat.Phys.101,819-841(2000).

        [20]http:∥www.csie.ntu.edu.tw/~cjlin/[EB].2010-02-02.

        粗大挺进尤物人妻一区二区| 国产av国片精品有毛| 国产精品多p对白交换绿帽| 亚洲av无码乱码国产精品fc2 | 久久91精品国产91久| 国产精品一区二区三密桃| 日本女优中文字幕看片| 日本高清色一区二区三区 | 国产va免费精品观看精品| 欧美日韩视频无码一区二区三| 国产成人午夜福利在线小电影| 亚洲精品色播一区二区| 日本边添边摸边做边爱| 男人j进女人j啪啪无遮挡| 国产成人精品自在线无码| 人妻精品人妻一区二区三区四五| 国产让女高潮的av毛片| 日日碰狠狠添天天爽| av中文字幕不卡无码| 亚洲美女av二区在线观看| 国产成人精品无码免费看| 黑人巨大av在线播放无码| 国产成人亚洲综合无码DVD| 中文字幕一区二区网址| 国产精品国产三级国产a| 亚洲乱码av中文一区二区| 久久国产乱子精品免费女| 亚洲一区二区蜜桃视频| 欧美成人看片一区二区三区尤物| 国内少妇偷人精品视频免费| 国产传媒剧情久久久av| 亚洲成人av在线第一页| 精品国产一区二区三区免费| 中文字幕av一区二区三区| 白色白在线观看免费2| 亚洲人成精品久久久久| y111111少妇影院无码| 日本中出熟女一区二区| 久久久久亚洲av无码a片| 免费无码毛片一区二区三区a片| 成人综合亚洲欧美一区h|