文/龔科瑜 張一馳
隨著計算機技術的逐步發(fā)展,大數據、人工智能等領域的逐漸興起,使用計算機技術處理、分析人類語言成為可能。目前有關自然語言處理的研究中,大多集中在對當代新聞語料、日常對話語料和新媒體語料的處理分析,對古代經典文本的研究涉及較少。部分人文社科研究者還在使用手工統(tǒng)計等方法分析文本,時間成本投入巨大、錯誤率高,研究效率較低。因此,借助計算機技術,數字化的分析古代經典文本的特征,以輔助人文社科研究者進行科研工作,有著顯而易見的價值。不僅如此,對古代經典文本的處理和分析,還有助于構造相關領域的知識圖譜,進而提升使用深度學習技術的自然語言處理方法對中文文本的語義理解能力。
常見的文本特征包括字符數、非重復字數、詞數、標點符號數等。然而,這些傳統(tǒng)的統(tǒng)計特征不能刻畫出文本所蘊含的內容信息,對文本分析的輔助作用極其有限。因此,需要引入自然語言處理技術中的詞頻和逆文本頻率等工具來描述文本內容的特征。
所謂詞頻(Term Frequency, TF),即某個詞匯在一段文本中的出現(xiàn)頻率。將某段文本p的總詞數記為c(p)、某個詞匯w在該段文本中出現(xiàn)的次數記為c(w),則w在該段文本中的詞頻為:
通過統(tǒng)計詞頻,可以觀測到一段文本中最常出現(xiàn)的詞匯以及詞匯頻率分布情況,進而刻畫這段文本的語言學特征。
逆文本頻率(Inverse Document Frequency, IDF)可以反應一個詞匯在文本中的常見程度。記全部語料的文本總數為|d|,出現(xiàn)某一詞匯的文本總數為|n|,其中n為d中包含詞匯w的文檔,則詞匯w的逆文本頻率為:
基于統(tǒng)計的文本內容特征提取依賴于詞匯的頻率。一些常用詞在全部文檔中都有很高的出現(xiàn)次數。這些詞雖然詞頻很高,但并不具備較強的區(qū)分能力。逆文本頻率可以很好的刻畫一個詞匯在全部文檔中的獨特性。詞匯的獨特性和文本的內容特征高度相關。因此,引入逆文本頻率可以很好的反映出某個詞在全部文檔中的內容區(qū)分能力。
將某個詞匯的詞頻與逆文本頻率相乘,即可得到該詞匯的TF-IDF值,即:
圖1:《莊子》內七篇字頻統(tǒng)計
TF-IDF值融合了詞頻和詞匯的獨特性兩部分信息,可以較為清晰的體現(xiàn)出某個詞匯對于某段文本內容的描述能力。研究者可以將不同文本中出現(xiàn)的詞匯按照其TF-IDF值由高至低排序,值較高的詞匯能夠更好的體現(xiàn)出該段文本的內容信息,進而得到不同古籍的內容特征。
本研究使用Python語言編寫程序,通過計算詞(字)頻、逆文本頻率指數和TF-IDF值,提取古籍文本的內容特征。
參照自然語言處理的常規(guī)流程,古籍文本的內容特征提取分為數據預處理、特征計算、結果分析與可視化三個步驟。
數據預處理階段可分為數據清洗和中文分詞兩大模塊。在數據清洗階段,要注意繁簡轉換、對原始語料文本錯誤的修訂以及異體字的歸一化。在中文分詞階段,要注意不同分詞工具對古代漢語的分詞能力的強弱,若分詞結果不理想,也可以考慮按字處理文本。
古籍文本內容特征計算要按照詞頻、逆文本頻率、TF-IDF值的順序依次計算。在計算完全部文本的字頻信息后,要觀測統(tǒng)計結果,結合古漢語常見的停用詞,篩去“之”、“也”等不具備區(qū)分能力的詞,再計算逆文本頻率,這樣可以減少計算量。在計算逆文本頻率及TF-IDF值時,要考慮目標古籍文本內容特征的提取粒度。根據研究者的需求,按類別、書目、篇章、段落等不同層次進行內容特征的提取。具體策略要結合待研究的問題進行分析,不可一概而論。
結果分析與可視化,目的是呈現(xiàn)出目標古籍文本的詞頻分布特征及內容信息。古籍詞頻分布信息可以把詞匯按照出現(xiàn)頻數排序作為x軸,對應的頻率值取對數作為y軸,做圖給出,并探究該古籍文本是否滿足Zipf定律。內容特征可以根據不同粒度的詞匯TF-IDF值按從高到低排序,以表格形式給出。
以《莊子》內七篇文本為例,計算得到該書共使用漢字1501個,字頻分布如圖1所示。
其中,詞頻最高的十個詞依次是:之(616次)、而(449次)、也(396次)、不(386次)、其(326次)、以(301次)、者(279次)、為(243次)、乎(237次)、人(224次),該信息可以作為漢語史研究的佐證材料之一。
按照不同篇目詞匯的TF-IDF值排序,取排序前十的字作為該篇目的內容特征,得到不同篇目的內容特征表格如表1所示。
根據專家學者對《莊子》一書的解讀,我們容易知道:北冥、鯤鵬等為《逍遙游》中提到的主要意象,《齊物論》以辯論、夢境和莊周夢蝶的故事為主干,《養(yǎng)生主》的核心為庖丁解牛的寓言,《人間世》以顏回為主要人物討論了心齋、材與不材等問題,此后幾篇不一一列舉。由此可以看出,本文所設計的古籍內容特征提取方法能夠較好的提取到《莊子》不同篇目的內容特征。
使用自然語言處理中的統(tǒng)計詞頻、逆文本頻率、TF-IDF值等方法,可以較好的提取到古籍文本中的內容特征,能夠幫助語言學、古典文獻學等領域的人文社科研究者更便捷的理解古籍文本的語言學特征及內容特征。當前,基于深度學習的文本理解技術還依賴于大量語料數據,但古籍文本數據量極少,目前還不能產生較好的效果。隨著計算機技術的逐步發(fā)展,待深度學習技術更為成熟之后,也可以嘗試使用基于知識圖譜和注意力模型等方法提取古籍文本的內容特征。
表1:《莊子》內七篇內容特征提取結果