摘" 要:在大數(shù)據(jù)時代背景下,非結(jié)構(gòu)化數(shù)據(jù)尤其是文本數(shù)據(jù)的分析處理技術(shù)成為當(dāng)下科研熱點。該文介紹本數(shù)據(jù)分析技術(shù)的發(fā)展現(xiàn)狀和前沿技術(shù),提出研究思路,并使用Word2vec和Single-Pass聚類算法進(jìn)行數(shù)據(jù)處理。該文還整理和說明近年來該領(lǐng)域的技術(shù)突破,并對未來發(fā)展方向進(jìn)行展望。
關(guān)鍵詞:自然語言處理;聚類分析;文獻(xiàn)數(shù)據(jù);分析技術(shù);數(shù)據(jù)處理
中圖分類號:TP391.1" " " 文獻(xiàn)標(biāo)志碼:A" " " " " 文章編號:2095-2945(2025)09-0099-05
Abstract: In the context of the era of big data, the analysis and processing technology of unstructured data, especially text data, has become a hot topic in current scientific research. This paper introduces the development status and cutting-edge technologies of text data analysis technology, puts forward research ideas, and uses Word 2vec and Single-Pass clustering algorithms for data processing. The article also collates and explains the technological breakthroughs in this field in recent years and looks forward to the future development direction.
Keywords: natural language processing; cluster analysis; literature data; analysis technology; data processing
進(jìn)入信息時代以來,信息技術(shù)創(chuàng)新日新月異。數(shù)字化、網(wǎng)絡(luò)化、智能化深入發(fā)展,深刻影響著社會各個層面。同時,伴隨著大數(shù)據(jù)分析、云計算、人工智能等相關(guān)信息技術(shù)的快速發(fā)展以及互聯(lián)網(wǎng)媒體群的大量涌現(xiàn),網(wǎng)絡(luò)空間已成為人們社會交往、娛樂學(xué)習(xí)的重要場所。在這樣一個互聯(lián)網(wǎng)高速發(fā)展的時代,產(chǎn)生了大量開源的、流動的、實時可追蹤、可識別和可分析的數(shù)據(jù),信息的獲取已經(jīng)進(jìn)入開源信息時代,且以網(wǎng)絡(luò)信息為主要表現(xiàn)特征[1],為深入分析開源情報提供了有效的數(shù)據(jù)基礎(chǔ)和技術(shù)支持。面對高維數(shù)據(jù)日益成為普遍性存在的趨勢,傳統(tǒng)的分析方法已無法與海量信息分析所需要的能力相匹配。同時,大量無用的、甚至是錯誤引導(dǎo)的信息充斥在互聯(lián)網(wǎng)空間中,阻礙人們作出正確判斷分析。在這樣的條件下,對這些海量的開源情報信息進(jìn)行挖掘分析,就能夠為國家發(fā)展戰(zhàn)略決策和軍事行動提供重要依據(jù)。因此,在當(dāng)前全球化、信息化發(fā)展更加深入的趨勢下,嘗試?yán)脵C(jī)器學(xué)習(xí)技術(shù)對開源文本數(shù)據(jù)進(jìn)行分析是十分有必要且意義重大的。本文基于中文文獻(xiàn)檢索,通過運用文本分析、計量統(tǒng)計等手段,利用互聯(lián)網(wǎng)中文文獻(xiàn)信息,分析我國近年來自然語言處理技術(shù)的發(fā)展情況。
1" 研究主要內(nèi)容
本文的研究目標(biāo)是在互聯(lián)網(wǎng)的開源環(huán)境下,根據(jù)自然語言處理領(lǐng)域的信息需求,基于中文文獻(xiàn)檢索的方式進(jìn)行數(shù)據(jù)采集,在此基礎(chǔ)上,通過對爬取的數(shù)據(jù)進(jìn)行清洗、整理,運用計量統(tǒng)計進(jìn)行宏觀分析,并利用文本挖掘手段進(jìn)行深度分析,從而得出自然語言處理領(lǐng)域近年來的發(fā)展動向、技術(shù)突破和優(yōu)勢團(tuán)隊等信息,從而輔助相關(guān)人士進(jìn)行決策,提供幫助。
1.1" 文本數(shù)據(jù)采集
在文本數(shù)據(jù)采集階段主要是利用網(wǎng)絡(luò)爬蟲等技術(shù)手段,爬取關(guān)于自然語言處理方面的文獻(xiàn),形成條目清晰,覆蓋全面的領(lǐng)域知識庫。網(wǎng)頁采集模塊根據(jù)一級結(jié)果鏈接和內(nèi)含二級鏈接抓取信息,網(wǎng)頁去重模塊利用正則表達(dá)式以去除無用文獻(xiàn)。鏈接匹配模塊根據(jù)鏈接格式從網(wǎng)頁內(nèi)容中匹配待采集的鏈接并添加到待采集隊列。網(wǎng)頁入庫模塊將抓取到的具體網(wǎng)頁內(nèi)容存儲到相應(yīng)的領(lǐng)域知識庫內(nèi),為后續(xù)的數(shù)據(jù)處理與分析奠定基礎(chǔ)。
1.2" 文本數(shù)據(jù)處理
利用網(wǎng)絡(luò)爬蟲工具完成文獻(xiàn)數(shù)據(jù)采集工作以后,所得到的文本數(shù)據(jù)不能立即用于相關(guān)分析,必須先將文本信息轉(zhuǎn)化為計算機(jī)可識別的數(shù)字信息。為了對文本進(jìn)行深入分析,需要對文本數(shù)據(jù)做出一系列預(yù)處理,其中包括文本分詞、去停用詞、詞向量訓(xùn)練等等。流程如圖1所示。
1.3" 聚類分析
在對文本數(shù)據(jù)作特征化表示以后,采用Single-Pass算法進(jìn)行文本聚類。在此算法中,每個樣本只會參與一次樣本聚類,每次面對一個新樣本,如果與現(xiàn)有的某個類足夠相似,那么就放入這個類,否則就自成一類。具體過程如圖2所示。
1.4" 結(jié)果分析
以前期采集獲取的文獻(xiàn)數(shù)據(jù)為基礎(chǔ),進(jìn)行數(shù)據(jù)的相關(guān)分析及展示,從多方面、視角全方位展示近年來自然語言處理研究的發(fā)展?fàn)顩r,深入分析在該領(lǐng)域的優(yōu)勢團(tuán)隊與專家學(xué)者,進(jìn)一步了解分析掌握該領(lǐng)域的發(fā)展情況。參照聚類結(jié)果,在聚類得到標(biāo)題、作者類簇后,選取聚類結(jié)果中包含的高頻短語作為對應(yīng)相關(guān)簇名稱,并根據(jù)主題描述內(nèi)容劃歸到相應(yīng)的信息類別,作進(jìn)一步分析。
2" 關(guān)鍵技術(shù)
2.1 文本預(yù)處理
文本預(yù)處理是文本處理過程中最基本的一項內(nèi)容,在網(wǎng)絡(luò)時代獲得的文本數(shù)據(jù)量大、內(nèi)容雜亂,并且中文相對英文來說,分詞文本更加復(fù)雜,必須對原始數(shù)據(jù)進(jìn)行預(yù)處理,幫助更好分析數(shù)據(jù)文本信息。
近年來,國內(nèi)學(xué)者對文本預(yù)處理技術(shù)進(jìn)行了系列的研究。葉娜[2]對形態(tài)固定的簡單實體進(jìn)行精準(zhǔn)識別,降低了歧義可能性。李英[3]提出了基于詞性的選擇的文本預(yù)處理方法,通過降低特征維數(shù)的方法來提高分類性能。王之鵬[4]在Web文本分類系統(tǒng)引入了基于同義詞統(tǒng)計的特征選擇方法,從而降低特征空間維數(shù)。實踐中,文本預(yù)處理主要用到了分詞、詞性標(biāo)注及特征選取等,這里也作一介紹。
分詞。當(dāng)前,中文自動分詞技術(shù)取得了重大發(fā)展,相繼產(chǎn)生了很多漢語分詞系統(tǒng),如SEG系統(tǒng)、WSBN分詞系統(tǒng)等等。這些漢語分詞系統(tǒng)主要運用了機(jī)械分詞、基于理解的分詞和基于統(tǒng)計的分詞等方法。
詞性標(biāo)注。詞性標(biāo)注就是給定句子中判定每個詞的語法范疇,確定其詞性并加以標(biāo)注的過程,包括基于規(guī)則的詞性標(biāo)注方法、基于統(tǒng)計模型的詞性標(biāo)注方法、基于統(tǒng)計方法與規(guī)則方法相結(jié)合的詞性標(biāo)注方法和基于深度學(xué)習(xí)的詞性標(biāo)注方法等。比如,TAGGIT詞性標(biāo)注系統(tǒng)是典型的基于規(guī)則的詞性標(biāo)注系統(tǒng)。
特征選取。其統(tǒng)計指標(biāo)有文檔頻度、特征頻度、特征權(quán)等,后來又有了低損降維、貝葉斯準(zhǔn)則法、F1準(zhǔn)則法等。通過假設(shè)特征獨立,構(gòu)造評估函數(shù)對特征集中的每個特征項評估,得到一個評估分,按分值大小,提取預(yù)定數(shù)目的特征值作為特征子集。目前特征詞權(quán)重計算方法有基于TF-IDF的改進(jìn)方法,基于Shannon信息熵的詞權(quán)重算法。在應(yīng)用中,算法需視情況而定,并沒有普適的最優(yōu)公式。
通過這些手段,就可以讓文本信息變成計算機(jī)可識別并利用算法進(jìn)行處理。
2.2 文本聚類
作為文本分析的主要手段之一,文本聚類可分為文本表示和聚類分析2個步驟。其中,文本表示即將文本數(shù)據(jù)做結(jié)構(gòu)化處理的過程。目前主要表示模型有向量空間模型、語言模型等。
向量空間模型。該模型將文本向量化,維度對應(yīng)文本特征,向量值代表對應(yīng)特征權(quán)重。計算權(quán)重的方法有TF-IDF函數(shù)、頻度函數(shù)等。但由于傳統(tǒng)模型認(rèn)為文本中詞語間是相互獨立的,忽略了內(nèi)在的語義聯(lián)系。
語言模型。是指語言客觀事實基礎(chǔ)上進(jìn)行抽象數(shù)學(xué)建模,主要表現(xiàn)形式為對應(yīng)關(guān)系。例如,統(tǒng)計語言模型是通過前期大量積累從而獲取蘊含其中的詞間上下義關(guān)系等,并據(jù)此計算特定特征的概率,最終將文檔表示為整個特征集合的概率分布。由于具備深層挖掘語義信息的能力,語言模型的應(yīng)用前景非常廣闊。
3 文本聚類算法
在本文中,選擇基于特征詞向量的文本表示和基于特征詞移動距離的文本聚類算法。具體過程如圖3所示。
3.1" 文本特征化表示
3.1.1" 文本特征表示模型選擇
在本文中,選擇的是向量空間模型。向量空間模型用一個大小為m×n的詞條——文本矩陣來表示包含n個文本和m個不重復(fù)詞語的文本集合。在向量空間模型中,文本空間常被看作是由一組正交詞條向量所組成的向量空間,每個文本表示為其中的一個范化特征向量:V(d)=(t1,w1(d));…t2,w2(d);…tm,wm(d)在這個特征向量中,ti代表單詞(詞組)的詞條項。wi(d)為ti在文本d中的權(quán)值,一般定義是將其視為ti在d中出現(xiàn)頻率或頻率的函數(shù)。t1,t2,…,tm可看成一個m維坐標(biāo)系中的坐標(biāo)軸,w1(d),w2(d),…,wm(d)分別是對應(yīng)的文本在坐標(biāo)系中的坐標(biāo)值。這樣,每個文本都可以映射為向量空間的一個向量。
3.1.2" 構(gòu)建詞袋空間VSM
將所有文本中的詞匯統(tǒng)一構(gòu)建為一個不重復(fù)的詞條列表,再針對單個文本,構(gòu)建一個向量,維度與詞條列表的維度保持一致,向量值即列表中每個詞條在文本中的出現(xiàn)次數(shù),把非結(jié)構(gòu)化和半結(jié)構(gòu)化的文本表示為向量形式。具體流程如下:①將所有文檔讀入到程序中,再將每個文檔切詞;②去除每個文檔中的停用詞;③統(tǒng)計所有文檔的詞集合;④對每個文檔都構(gòu)建一個向量,向量的值是詞語在本文檔中出現(xiàn)的次數(shù)。
3.1.3" 權(quán)值轉(zhuǎn)換
在研究過程中,需要尋到文本特征詞即能夠代表該文章觀點的一類詞。顯而易見,以單詞出現(xiàn)次數(shù)作為標(biāo)準(zhǔn)是一個明智的方法。如果某個詞非常重要,它應(yīng)該在這篇文章中多次出現(xiàn)。于是,采用TF-IDF的權(quán)值計算方法來確定文本特征詞。結(jié)合課題實際和算法原理,有下式:
詞頻(TF)=某詞在文章中出現(xiàn)的次數(shù)/文章的總次數(shù);
逆文章頻率(IDF)=log(文章總數(shù)/(包含該詞包含的文章數(shù)目加一));
特征權(quán)重(TF-IDF )= 詞頻(TF)X 逆文章頻率(IDF)。
由此可見,字詞的重要性與其在文本中出現(xiàn)的次數(shù)成正比,并在語料呈反比下降趨勢。
3.1.4" 求文本相似度
本文中,通過余弦距離來判別2個文本的相似性。當(dāng)夾角余弦值接近1時,說明兩個文本高度相似,具有高度相關(guān)性。當(dāng)夾角余弦值趨近-1,可證明兩文本沒有相關(guān)性。余弦距離公式如下:
3.2" 基于Single-Pass算法的文本聚類
Single-Pass算法又稱單通道法或單遍法,是流式數(shù)據(jù)聚類的經(jīng)典方法。對于依次到達(dá)的數(shù)據(jù)流,該方法按輸入順序每次處理一個數(shù)據(jù),依據(jù)當(dāng)前數(shù)據(jù)與已有類的匹配度大小,將文本特征向量做相似度比較后,得到的相似度值大于閾值的文本歸為一類文本。從而使主題更容易被發(fā)現(xiàn),使計算更精準(zhǔn)。處理結(jié)果如圖5所示。
4" 自然語言技術(shù)未來展望
在信息化時代,自然語言處理技術(shù)的發(fā)展,必然是多學(xué)科交互學(xué)習(xí)推動的過程。其中,與深度學(xué)習(xí)和大數(shù)據(jù)網(wǎng)絡(luò)交叉融合是重要的發(fā)展方向。
4.1" 自然語言處理與深度學(xué)習(xí)
自然語言處理技術(shù)是一門結(jié)合于計算機(jī)科學(xué)、人工智能、語言學(xué)關(guān)注計算機(jī)和人類(自然)語言之間的相互作用的領(lǐng)域[5]。它既有語言學(xué)的歷史性與多樣性,也有計算機(jī)技術(shù)的嚴(yán)謹(jǐn)性和機(jī)器邏輯,而基于深度學(xué)習(xí)的文本情感分析是從淺層學(xué)習(xí)不斷地向深度學(xué)習(xí)探索。在深度學(xué)習(xí)當(dāng)中,循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)由于學(xué)習(xí)層數(shù)的加深,會導(dǎo)致一定的梯度彌散的問題,由此人們提出一種長短時記憶網(wǎng)絡(luò)模型解決該問題,從而使得文本的情感傾向與檢索者的需求建立起一定的聯(lián)系。因此,要使自然語言處理技術(shù)更加成熟,深度學(xué)習(xí)是突破點。
4.2" 自然語言處理與大數(shù)據(jù)網(wǎng)絡(luò)
從人文研究到政府決策,從互聯(lián)網(wǎng)優(yōu)質(zhì)教育到良好的人機(jī)交互等等,大數(shù)據(jù)承載著重要的信息,發(fā)揮著重要的作用,而自然語言處理技術(shù)使計算機(jī)具備識別并解釋非結(jié)構(gòu)化的數(shù)據(jù)信息的能力。
同時,海量的數(shù)據(jù)給自然語言處理技術(shù)提供了堅實的數(shù)據(jù)支撐,自然語言處理技術(shù)也需要提高對文本、語言、圖像等多種數(shù)據(jù)類型的處理能力,自然語言處理與大數(shù)據(jù)相輔相成,可以更好地滿足大數(shù)據(jù)網(wǎng)絡(luò)的需求,這也將會進(jìn)一步滿足市場產(chǎn)品的智能化需求,提高人們的生活水平。
5 文本數(shù)據(jù)分析總結(jié)
近年來,在相關(guān)學(xué)者及研究人員的努力下,文本數(shù)據(jù)分析技術(shù)發(fā)展迅猛,在情緒分析、搜索對非結(jié)構(gòu)化數(shù)據(jù)的訪問、電子郵件垃圾郵件過濾器、自動化的廣告位置、社交媒體監(jiān)測、競爭情報、企業(yè)業(yè)務(wù)智能和數(shù)據(jù)挖掘、電子證據(jù)發(fā)現(xiàn)、記錄管理、國家安全和情報、科學(xué)發(fā)現(xiàn),特別是生命科學(xué)和競爭情報等相關(guān)領(lǐng)域,取得了一系列優(yōu)秀成果和重大突破。
此外,文本分析方法對企業(yè)競爭情報分析同樣具有重要意義。隨著信息技術(shù)在大數(shù)據(jù)時代的日臻進(jìn)步與完善, 當(dāng)下的信息收集更加容易,長此以往出現(xiàn)的信息泛濫問題正廣泛存在于各行各業(yè),如何從大量信息中篩選并提取出關(guān)鍵情報成為重點。獲取的信息越接近競爭對手的真實意圖, 推測其計劃和行動的準(zhǔn)確性就越高。一方面能大致了解競爭對手對其目前地位和收益狀況的滿意程度和長短期目標(biāo),釋放市場信號;另一方面,可以此作為自身下一步行動的參照,及時調(diào)整戰(zhàn)略,對于提高市場敏感度和競爭力具有重要意義。
事實上,能做的還有很多,隨著相關(guān)技術(shù)的日益發(fā)展,取得的成就會越來越顯著,應(yīng)用會越來越廣泛。
參考文獻(xiàn):
[1] Department of Defense.Dictionary of Military and Associated Terms[Z/OL].https://fas.org/irp/doddir/dod/jp1_02.pdf.
[2] 葉娜.面向信息提取的文本預(yù)處理和規(guī)則自動學(xué)習(xí)技術(shù)研究[D].沈陽:東北大學(xué),2004.
[3] 李英.基于詞性選擇的文本預(yù)處理方法研究[J].情報科學(xué),2209,27(5):717-719,738.
[4] 王之鵬.Web文本分類系統(tǒng)中文本預(yù)處理技術(shù)的研究與實現(xiàn)[D].南京:南京理工大學(xué),2009.
[5] 丁曉慶.微博熱點話題發(fā)現(xiàn)研究與實現(xiàn)[D].鄭州:鄭州大學(xué),2014.