亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于自然語言Python的長文本比較研究

2018-09-20 10:34:12姜安印馮龍飛

圖書與情報 2018年2期

關(guān)鍵詞：人工智能

姜安印　馮龍飛

摘要：文本比較作為人工智能的重要應(yīng)用，在語言分析、比較研究乃至學(xué)術(shù)誠信等方面有著廣泛應(yīng)用。文章以中國古代具有重要經(jīng)濟學(xué)價值的《管子》和西方古典主義經(jīng)濟學(xué)重要著作《國富論》作為比較范本，借助Python語言及相關(guān)模塊，以較高的效率和精度實現(xiàn)了長文本比較。研究發(fā)現(xiàn)，通過人工智能自然語言處理語言及技術(shù)，能實現(xiàn)對經(jīng)濟學(xué)長文本比較研究，這一方法在未來還可以探索應(yīng)用到其它社會科學(xué)領(lǐng)域。

關(guān)鍵詞：人工智能；自然語言處理；文本比較；Python；國富論；管子

中圖分類號：TP18；F01 文獻標(biāo)識碼：A DOI：10.11968/tsyqb.1003-6938.2018026

Research of Co-term Analysis of Long Text Comparison based on Python

——Case Study of the Economic Thoughts in Wealth of the Nations and Guanzi

Abstract Text comparison based on information technology becomes a very important tool in nowadays academic research as linguistic analysis， academic thoughts and academic integrity examination. This paper focused on the long text comparison with the approach of Co-term Analysis on Python and used the economic thoughts comparison between Wealth of the Nations and Guan Zi to explore the way to do future thoughts comparison in economic and other social science with better efficiency and accuracy.

Key words artificial intelligence； Natural Language Process（NLP）； text comparison； Python； Wealth of the Nations； Guan Zi

文本比較是指通過對相似范疇和內(nèi)容的文章或書籍進行對比，研究其文字、觀點和思想的異同，從而實現(xiàn)言語特征分析、學(xué)術(shù)思想比較乃至學(xué)術(shù)誠信檢驗等多種目的。隨著信息技術(shù)和互聯(lián)網(wǎng)技術(shù)的發(fā)展，基于計算機的文本比較特別是長文本比較在現(xiàn)代社會科學(xué)中有了越來越廣泛的應(yīng)用。在實際應(yīng)用中，通過借助Python等編程語言，運用jieba分詞模塊進行文本比較，可以有效的提高信息篩選和對比的效率和精度，相比其他方法具有較大優(yōu)勢。在經(jīng)濟學(xué)中，以文本比較為重要手段的經(jīng)濟思想比較是制度經(jīng)濟學(xué)和經(jīng)濟史研究的常用方法，特別是東西經(jīng)濟學(xué)思想比較在研究制度變遷、社會變化、政策效果等方面具有重要意義。本文試圖借助Python語言對《管子》和《國富論》兩書進行比較，探討兩書之間的思想異同，同時對如何利用計算機技術(shù)進行未來的經(jīng)濟學(xué)和其他社會科學(xué)思想的比較研究進行了探索。

1 文獻綜述

1.1 文本比較方法研究

傳統(tǒng)上，文本比較主要采用通過對不同文本的閱讀和統(tǒng)計分析，對表述、內(nèi)容、主旨進行手動整理和對比，針對文章的某一角度或某一內(nèi)容進行比較來得出結(jié)論。由于文本比較涉及大量信息，而傳統(tǒng)手工比較效率太低，往往需要利用計算機高速計算、海量處理、自動迭代的特點進行數(shù)據(jù)分析。作為抽取分析文本的有效工具，文本分析工具應(yīng)運而生[1]。IBM計算機科學(xué)家Hans Peter Luhn[2]研究了詞頻統(tǒng)計在文本比較中的應(yīng)用，在20世紀(jì)中葉創(chuàng)造了 KWIC （Key Words In Context，文本關(guān)鍵詞）這一分析方法和工具，對計算機技術(shù)用于文本比較起到了開創(chuàng)性作用。經(jīng)過幾十年發(fā)展，計算機文本比較形成了兩種模式，一方面是KH Coder、 WordStat和WordSmith Tools[3]等軟件的分析方法，特點是使用門檻低便于操作，但也存在難以滿足定制化需求；另一方面是基于C、C++、Python、Java、PHP等編程工具的分析方法，該方法需要一定的編程基礎(chǔ)，但是具有較高的靈活性，可以滿足各種定制化需求。如本文選取的基于Python的jieba模塊[4]，以Trie樹結(jié)構(gòu)[5]為原理，用實現(xiàn)高效的詞圖掃描將所有可能成詞情況構(gòu)成有向無環(huán)圖（DAG），并以動態(tài)規(guī)劃查找最大概率路徑，找出基于詞頻的最大切分組合；對于未登錄詞則采用HMM模型用Viterbi算法[6]進行切分。通過這一方法進行文本分析，效率更高，分詞結(jié)果也更為準(zhǔn)確。

1.2 文本比較實例研究

通過對近十年文本比較研究的實例梳理總結(jié)，發(fā)現(xiàn)文本比較主要應(yīng)用于同一著作不同版本的研究和相似內(nèi)容著作間的研究兩類。

（1）對同一著作的不同譯本或版本的比較主要集中在文學(xué)著作和歷史文獻。①文學(xué)方面，有學(xué)者對不同版本的《琵琶記》[7]《廬山戀》[8]，不同英譯本的《紅樓夢》[9]《鄉(xiāng)愁》[10]進行了比較，還有學(xué)者通過赫胥黎《進化論與倫理學(xué)》不同譯著的對比，發(fā)現(xiàn)嚴(yán)復(fù)譯《天演論》與其他漢譯版本存在著明顯的差異[11]；②史學(xué)方面，有學(xué)者對比滿文、拉丁文、俄文三種版本的《尼布楚條約》，兩兩印證，排除了個別版本中不一致的內(nèi)容和表述，確定了一些存在爭議的條約細(xì)節(jié)[12]。

（2）對相似內(nèi)容著作間的文本比較主要集中在跨語種著作和新舊著作?？缯Z種著作比較過去主要集中在經(jīng)典著作，如有學(xué)者通過對比《資本論》與《國富論》，對資本爭論進行溯源[13]，有學(xué)者通過比較史詩《滿都莫日根》《英雄格帕欠》，探討兩者敘事結(jié)構(gòu)的異同。近年來研究范圍不斷擴展到各類文本，如有研究者通過比較研究人教版高中物理教科書和英國A-Level版教科書，探討教育理念的異同[14]，有學(xué)者側(cè)重技術(shù)角度，對法學(xué)研究中美憲法進行了文本比較，研究其意識形態(tài)差別[15]。新舊著作比較研究主要集中在歷史、政策、法律等方面，探討其中基于不同歷史背景下的時代視角或制度變遷帶來的思想變化，如有學(xué)者側(cè)重寫作年代和背景，比較研究了蔣廷黻版《中國近代史》和李侃版《中國近代史》[16]，還有研究者對黨的十七大報告與十六大報告相關(guān)內(nèi)容進行文本比較，研究了國有企業(yè)的發(fā)展路徑與時代走向[17]。

1.3 《管子》和《國富論》的文本比較研究

《管子》作為管仲及其學(xué)派的思想和著作匯編，三分之二篇目涉及經(jīng)濟問題[18]，是中國古代具有重要經(jīng)濟學(xué)價值的著作，與《國富論》等西方經(jīng)濟學(xué)經(jīng)典的比較也成為經(jīng)濟思想史的熱門課題。早在近代洋務(wù)運動，仁人志士從西學(xué)中探尋救國之道時就眼光聚焦到《管子》，梁啟超提出《管子》中許多思想與《國富論》一致[19]。國外研究方面，Lewis[20]認(rèn)為，《管子》與重農(nóng)學(xué)派的觀點驚人相似，與《國富論》具有相同思想基礎(chǔ)。美國《經(jīng)濟思想史》[21]將《管子》稱為中國的《國富論》，認(rèn)為其體現(xiàn)了供需理論、數(shù)量理論、反周期財政政策和市場理論等思想。但這些結(jié)論的取得，包括當(dāng)前經(jīng)濟學(xué)研究中多數(shù)文本比較研究多憑借研究者對書本的深入閱讀了解和對其他學(xué)者成果的引用，很少借助現(xiàn)代的文本分析技術(shù)，費時費力，也難免有不全面的地方[22]。

2 研究思路和設(shè)計

本研究采取了當(dāng)前信息化文本比較的常用思路，即通過對提取的高頻詞進行比較分析來實現(xiàn)對應(yīng)文本的比較，將語言問題轉(zhuǎn)換為數(shù)學(xué)問題進行解決，從而實現(xiàn)自然語言比較的批量化與自動化處理。在具體操作時考慮到以章節(jié)為單位文本過長，而且每一章節(jié)思想較為混雜；以句為單位文本又較短，且許多句子無法完整表示作者思想，因而確定以段落為單位，兼顧思想的完整性和文本的簡潔性（具體研究設(shè)計見圖1）。

2.1 著作版本的確定

兩書分別采用古漢語和近代英語且各自版本較多，比較前需選定語言和版本。本研究對市面各種版本的篩選確定了中華書局李山譯《管子》[23]和商務(wù)印書館郭大力、王亞南譯《國民財富的性質(zhì)和原因的研究》[24]。主要基于以下考慮：一方面，按照資源庫和語言特征，英語是進行比較的理想語言，但市面上《管子》的英譯本較少，全譯的僅有Rickett的譯本[25]，雖然專業(yè)精準(zhǔn)，但晦澀難懂，通常限于國外漢學(xué)家研究[26]；另一方面，現(xiàn)代漢語雖然與編程語言結(jié)合度不如英語，但考慮到兩書的現(xiàn)代漢語譯本都比較豐富，僅在豆瓣、淘寶等平臺上搜索到的《管子》譯注就有19種，《國富論》更是有25種，且普遍內(nèi)容質(zhì)量較高，可選性較強。

2.2 研究工具的選擇

由于本文選取的研究對象比較龐大，兩篇著作的總字?jǐn)?shù)約80萬字，研究過程中涉及對兩書2996個自然段的分析比較，同時分析過程設(shè)計大量的循環(huán)、迭代、替換、條件判斷等運算。

選取Python作為研究工具（版本為Python2.7.13）。Python作為面向?qū)ο?、解釋型、動態(tài)數(shù)據(jù)類型的開源程序設(shè)計語言[27]，除了自帶的標(biāo)準(zhǔn)庫，還積累了大批由程序員和工程師不斷創(chuàng)造添加的第三方庫。這一特點使得基于Python編程時可直接調(diào)用標(biāo)準(zhǔn)庫和第三方庫中的已有內(nèi)容來大大減少重復(fù)工作。在文本分析方面，Python也具有較為豐富和成熟的各類庫文件，在文本比較的相應(yīng)步驟可調(diào)用庫文件來提高效率，實現(xiàn)大型長文本的快速比較。

3 研究過程

3.1 文本預(yù)處理和分詞

將《管子》和《國富論》導(dǎo)入txt文本文件，將文本編碼轉(zhuǎn)換為Python語言支持的utf-8中文格式。

配置好Python環(huán)境后，將處理后的文本導(dǎo)入Python，調(diào)用jieba-0.39版本模塊將自然段中的意群進行詞匯切分[28]。

3.2 詞頻統(tǒng)計

詞頻（Term Frequency，TF）統(tǒng)計作為一種經(jīng)典的文本分析方法，是指抽樣一定數(shù)量和長度的語料，計算其中不同詞語的出現(xiàn)次數(shù)，進行頻率分析，從而確定文本的高頻詞，便于對重點內(nèi)容和主旨要義進行更加深入地研究[29]。

本研究首先結(jié)合網(wǎng)上現(xiàn)有的“哈工大停用詞詞庫”“四川大學(xué)機器學(xué)習(xí)智能實驗室停用詞庫”“百度停用詞表”等資源，對jieba模塊自帶停用詞表進行整理，用所得停詞表去除標(biāo)題序號、語氣虛詞、關(guān)聯(lián)詞等無分析意義詞匯，再參照《經(jīng)濟學(xué)詞典》[30]中的詞條對剩余詞匯進行整理，然后對同、近義詞匯進行合并，結(jié)合齊普夫定律（Zipf's Law）中的詞頻分布規(guī)律，通過標(biāo)引規(guī)則對詞匯進行控制分析，最終確定高頻詞并編號（見表1）。

3.3 生成高頻詞矩陣

確定高頻詞表后，通過構(gòu)建高頻詞矩陣將抽象的語義分析轉(zhuǎn)化為可計算的數(shù)學(xué)問題。首先將高頻詞以自然段為單位分組，將段落簡化為相應(yīng)的高頻詞數(shù)組，從而將全文轉(zhuǎn)化為矩陣；然后進行去重，并對重復(fù)高頻詞進行累積求和；最后將所有高頻詞全部替換為相應(yīng)序號，生成高頻詞矩陣（見圖2）。

3.4 相似度比較

高頻詞矩陣生成后，進一步對矩陣進行相似度比較。

方法上以Jaccard指數(shù)[31]來衡量矩陣相似性，并得出相應(yīng)的相似度。Jaccard指數(shù)取值范圍為[0-1]，值越大相似度越高。

Jac（i，j）=■

其中A■表示《國富論》中第i段高頻詞集合，Bj表示《管子》中第j段高頻詞集合，Jac（i，j）表示《國富論》中第i段與《管子》中第j段基于高頻詞的相似度，如Jac（3，2）即表示《國富論》中第3段與《管子》中第2段的相似度（見表2）。

在Python下，調(diào)用intersection與union函數(shù)進行運算，遍歷比較兩矩陣各行，得到任意兩行的相似度，所得相似度即為兩書對應(yīng)自然段的比較。然后按照皮爾遜相關(guān)分類剔除相似度小于0.4及高頻詞小于4的弱相關(guān)項，初步選出具有一定相關(guān)度的對比組276項（篩選出的段落比較見表3）。

3.5 研究結(jié)果和數(shù)據(jù)處理

通過序號回查，找到各項在兩部著作中對應(yīng)的段落，進行進一步比較分析。

逐項閱讀分析這276項對應(yīng)段落的內(nèi)容，手動剔除出與經(jīng)濟學(xué)關(guān)聯(lián)較弱項和誤識別項，對剩余的各項按照社會分工、價格理論、稅收和國營、國家資源、奢侈、國際貿(mào)易、統(tǒng)治手段進行分類，然后合并同類中內(nèi)容相似的內(nèi)容，并對相似的主旨進行提煉，最終得到比較結(jié)果（示例見表4）。

4 結(jié)論

（1）初步實現(xiàn)了長文本比較的智能化。利用Python語言及相關(guān)模塊，進行相似度比較，按照詞頻的大小提取出高頻詞，歸納相似思想，成功對應(yīng)到了兩本著作的相似思想和觀點，對長文本比較的方法進行了創(chuàng)新和拓展，進一步提高了長文本比較的效度和精度。未來應(yīng)用該方法，可實現(xiàn)對書籍和書籍間、文章和書籍間等各類長文本比較的自動化與批量化處理，在繁雜的自然語言和冗長的篇幅中高效提取、篩選、比較信息。

（2）近義詞識別進一步提高了有效比對的范圍。由于Python第三方庫中強大的近義詞匯系統(tǒng)，本方法可以在很大程度上利用人工智能識別出文字不同但文意雷同或相近的內(nèi)容，提升了詞頻統(tǒng)計的效度，降低了系統(tǒng)誤判的概率，這一點較單純比較文字的現(xiàn)有學(xué)術(shù)查重系統(tǒng)是一個進步，值得在這一方向上進一步探索和應(yīng)用。

（3）應(yīng)用于案例文本后得出了比前人更加全面的結(jié)論。即早在春秋時期，《管子》就已熟練運用《國富論》倡導(dǎo)的一套完整的調(diào)控思想（輕重之術(shù)），初步建立起了有體系的經(jīng)濟學(xué)理論和框架，成書背景方面，戰(zhàn)國和18世紀(jì)歐洲有著列國紛爭的相似之處，英國和齊國作為當(dāng)時強國，有著坐擁海洋之利、善于商貿(mào)的相似之處；寫作視角方面，《管子》作為管理者和決策者來制定和檢驗經(jīng)濟政策，《國富論》則以歷史經(jīng)驗檢視和理論分析為主，視角上更像是一個觀察者；經(jīng)濟政策方面，《管子》比《國富論》更為積極，主張國家掌控貨幣金融和自然資源，利用杠桿、貿(mào)易等手段進行調(diào)控，獲得財富和穩(wěn)定。

（4）文本比較在智能化方面還有提升空間。作為一個探索性研究，本研究尚有一些需要改進的不足之處，主要是自動文本比較的精準(zhǔn)度還有待進一步提高，需要后期人工剔除的選項較多，無法完全做到利用計算機的全過程智能比較。分析原因，一方面是受制于自然語言渾濁模糊的非邏輯性特點，比較中難以做到完全的精準(zhǔn)識別定義；另一方面，由于Python第三方庫中的中文字典尚有進一步充實改進的空間，客觀上也制約了篩選比較的精準(zhǔn)度。

參考文獻：

[1] 程慧榮，黃國彬，鄭琳，等.非結(jié)構(gòu)化文本分析軟件比較研究[J].圖書與情報，2015（4）：110-117.

[2] H P Luhn.A Statistical Approach to Mechanized Encoding and Searching of Literary Information[J]. IBM Journal of Research and Development，1957（4）：19.

[3] 毛毳，邱天河.WordSmith在翻譯批評中的應(yīng)用——借助WordSmith工具分析《匆匆》譯文的風(fēng)格[J].科技信息，2007（34）：14-16.

[4] Sun Junyi.結(jié)巴中文分詞項目[EB/OL].[2017-08-28].https：//github.com/fxsjy/jieba.

[5] 楊文川，劉健，于淼.基于雙數(shù)組Trie樹的中文分詞詞典算法優(yōu)化研究[J].計算機工程與科學(xué)，2013（9）：127-131.

[6] 李榮，鄭家恒.一種改進Viterbi算法的應(yīng)用研究[J].計算機工程與設(shè)計，2007（3）：530-533.

[7] 黃仕忠.元明戲曲觀念之變遷——以《琵琶記》的評論與版本比較為線索[J].藝術(shù)百家，1996（4）：14-24.

[8] 劉傳霞.愛情的結(jié)構(gòu)與重建——兩個“廬山戀”文本的比較[J].山東師大學(xué)報（社會科學(xué)版），1999（2）：87-89.

[9] 陳曜.《紅樓夢》及英譯本在中國的研究現(xiàn)狀[J].理論月刊，2007（11）：128-130.

[10] 王進.《鄉(xiāng)愁》英譯文本比較研究[J].中國校外教育，2015（3）：382.

[11] 耿傳明.嚴(yán)復(fù)的《天演論》與赫胥黎的《進化論與倫理學(xué)》[J].文藝?yán)碚撗芯浚?997（6）：69-74.

[12] （日）野見山溫.《尼布楚條約》不同文本的比較研究[J].黑河學(xué)刊，1996（6）：101-104.

[13] 張謖.資本爭論的理論溯源：基于《資本論》與《國富論》的文本比較分析[J].學(xué)術(shù)論壇，2016（10）：18-21.

[14] 溫博.赫哲族史詩《滿都莫日根》與鄂倫春族史詩《英雄雄格帕欠》的文本比比較研究[D].福州：福建師范大學(xué)，2013.

[15] 喬耀章，馮志峰.法學(xué)研究中美憲法文本比較之技術(shù)路徑[J].山東高等教育，2008（2）：57-67.

[16] 范美琪.兩種視野下的中國近代史——蔣廷黻的《中國近代史》和李侃等人的《中國近代史》之比較[J].濰坊學(xué)院學(xué)報，2017（2）：75-77.

[17] 謝保平.國有企業(yè)的發(fā)展路徑與時代走向[J].企業(yè)家天地，2008（1）：86-87.

[18] 李霞.本世紀(jì)以來《管子》研究簡介[J].哲學(xué)動態(tài)，1994（3）：40-43.

[19] 梁啟超.飲冰室合集[M].北京：中華書局，1989.

[20] Hamilton C H.Economic Dialogues in Ancient China.Selections from the Kuan-tzu，by Lewis Maverick[J].Artibus Asiae，1954，

18（1）：84.

[21] Harry Landreth，David C.Colander.History of Economic Thought[M].South-Western College Pub，2001.

[22] 鐘祥財.中國近代研究經(jīng)濟思想史的方法論特點：以梁啟超為例[J].財經(jīng)研究，2010，36（8）：37-46.

[23] 管仲.李山譯注.管子[M].北京：中華書局，2009.

[24] （英）亞當(dāng)·斯密.郭大力，王亞南譯.國民財富的性質(zhì)和原因的研究[M].北京：商務(wù)印書館，2015.

[25] 張燕，李克.《管子》英譯本描述性研究[J].山東理工大學(xué)學(xué)報（社會科學(xué)版），2017（1）：60-65.

[26] Dobson W A C.Book Review：Science and Civilisation in China[J].The Journal of Asian Studies，1957，12（4）：317-319.

[27] 狄博，王曉丹.基于Python語言的面向?qū)ο蟪绦蛟O(shè)計課程教學(xué)[J].計算機工程與科學(xué)，2014（S1）：122-124.

[28] 彭琦，俞春強.淺析中文分詞方法[J].信息通信，2015（3）：92-95.

[29] 尹斌庸，方世增.詞頻統(tǒng)計的新概念和新方法[J].語言文字應(yīng)用，1994（2）：69-75.

[30] （法）熱敘阿.李玉平，等譯，經(jīng)濟學(xué)詞典[M].北京：社會科學(xué)文獻出版社，2013.

[31] Tan P N，Steinbach M，Kumar V.Cluster analysis：basic concepts and algorithms[J].Introduction to data mining，2006（8）：487-568.

作者簡介：姜安印，男，蘭州大學(xué)經(jīng)濟學(xué)院教授；馮龍飛，男，蘭州大學(xué)經(jīng)濟學(xué)院博士研究生。