王勝漪,劉汪洋,鄒 佳,蔡惠民
(中電科大數(shù)據(jù)研究院有限公司 提升政府治理能力大數(shù)據(jù)應用技術國家工程實驗室,貴州 貴陽 550081)
在大數(shù)據(jù)發(fā)展的今天,政府數(shù)據(jù)資源的開放共享是大數(shù)據(jù)產(chǎn)業(yè)蓬勃發(fā)展的關鍵。我國的數(shù)據(jù)資源分類管理體系還不健全,這是阻礙政府數(shù)據(jù)開放共享的重要因素之一。政府數(shù)據(jù)的分類管理有助于理清數(shù)據(jù)管理和共享開放的義務及權利,幫助政府加快推動政務信息系統(tǒng)互聯(lián)及數(shù)據(jù)共享,增強政府公信力,為大數(shù)據(jù)產(chǎn)業(yè)發(fā)展提供安全支撐。目前我們需要聚焦于政府數(shù)據(jù)的自動分類。
政府數(shù)據(jù)存在多種類型,如:結構化庫表數(shù)據(jù)、非結構化文本數(shù)據(jù)以及多媒體數(shù)據(jù)等,本文針對政府領域結構化庫表數(shù)據(jù)展開深入研究,探討文本的自動分類算法。嘗試通過知識圖譜解決標簽數(shù)據(jù)少及數(shù)據(jù)交叉性問題。
按照領域劃分,文本分類任務可分為主題分類、情感分類、問題分類等。按照計算方法劃分,文本分類任務可分為傳統(tǒng)文本分類和基于深度學習的文本分類。傳統(tǒng)文本分類中特征選擇對分類結果至關重要。靳一凡等人提出了基于頻繁項特征擴展的短文本分類方法,通過FP-growth 算法將擴展特征權重加入到特征空間,訓練SVM 實現(xiàn)短文本分類。黃春梅等人提出將詞袋模型和TF-IDF 結合,實現(xiàn)短文本分類,通過詞袋模型提取詞頻矩陣,結合TF-IDF 提取文本特征實現(xiàn)分類。但傳統(tǒng)文本分類算法不適用于政府結構化庫表數(shù)據(jù)中的大量的交叉性數(shù)據(jù)。
近幾年,基于深度學習的文本分類方法得到了廣大研究學者的歡迎。Kim提出TextCNN 模型,通過卷積神經(jīng)網(wǎng)絡學習句子特征實現(xiàn)文本分類。Jacob提出了非常經(jīng)典的BERT 預訓練模型,在大規(guī)模語料庫上實現(xiàn)模型預訓練,基于下游NLP 任務的數(shù)據(jù)集對BERT 預訓練模型進行微調(diào)。劉碩等人提出一種基于混合字詞特征深度神經(jīng)網(wǎng)絡模型的中文短文本分類算法。深度模型雖然能較好地捕捉文本中的語義信息,但深度模型需要大量的訓練數(shù)據(jù)集,對政府結構化庫表數(shù)據(jù)的小樣本數(shù)據(jù)無法完成模型訓練。
政府領域結構化庫表數(shù)據(jù)的特點是標簽數(shù)據(jù)少、數(shù)據(jù)交叉多,而傳統(tǒng)文本分類模型和深度學習模型均不適用于該類數(shù)據(jù)。
知識圖譜是結構化的語義知識庫,以符號形式描述物力世界中的概念及其相互關系,揭示各領域知識的動態(tài)發(fā)展規(guī)律,為領域研究提供可解釋性數(shù)據(jù)。現(xiàn)如今,知識圖譜已經(jīng)成為推動人工智能和互聯(lián)網(wǎng)發(fā)展的核心技術之一。
按知識圖譜的構建領域進行劃分,分為通用知識圖譜和領域知識圖譜。通用知識圖譜屬于百科類圖譜,互聯(lián)網(wǎng)上發(fā)布有大量百科類圖譜供學者們使用,常用的有DBpedia、YAGO、Freebase等。領域知識圖譜指特定應用領域的圖譜,如:金融知識圖譜、自然災害應急知識圖譜、醫(yī)學知識圖譜等。通過信息抽取、知識融合、知識推理等技術實現(xiàn)高精度、高效率的知識圖譜自動構建,為知識圖譜的大量應用提供技術支撐,如語義搜索、智能問答、個性化推薦、輔助決策等。
針對政府結構化庫表數(shù)據(jù)中存在的標簽數(shù)據(jù)少、數(shù)據(jù)交叉多等難題,本文采用結合政務知識圖譜、BERT 模型以及基于TF-IDF 的主題權重模型共同實現(xiàn)政府數(shù)據(jù)自動分類,如圖1所示。
圖1 本文分類算法流程圖
整個分類算法可劃分為四個模塊,分別是分詞模塊、KG-BERT模塊、KG-STopic(KG-Single Topic)模塊和KG-MTopic(KG-Multiple Topic)模塊。分詞模塊采用工具將輸入數(shù)據(jù)劃分為單個詞組;KGBERT 模塊主要針對政務知識圖譜中查詢無主題的庫表數(shù)據(jù)進行分類;KG-STopic 模塊對單主題數(shù)據(jù)進行分類;KG-MTopic 模塊是通過TF-IDF 實現(xiàn)多主題數(shù)據(jù)分類。
政務知識圖譜是依據(jù)《綜合電子政務主題詞表》構建所得,該詞表是我國第一部按國家標準編制的,是目前國內(nèi)外收納詞匯量最多、專業(yè)覆蓋面最廣的綜合性電子政務主題詞表。
該詞表分為范疇表和字順表,共收錄20252 條關鍵詞,范疇索引劃分為21 個大類、132 個二級類和37個三級類。通過分詞工具把詞表中的全部實體信息抽取出來,再結合范疇表中三個級別的類型劃分,依次將抽取出來的實體設定為頭實體和尾實體,實體間的關系為“包含”和“被包含”的關系,呈現(xiàn)出網(wǎng)狀關系型結構。并采用詞袋模型取前后實體指稱項的詞構成特征向量,通過對比余弦相似度達到聚類的目的,解決實體冗余、實體消歧的問題。
本論文在結合知識圖譜與BERT 模型基礎上,通過數(shù)據(jù)擴充增加數(shù)據(jù)量用以訓練BERT 模型,再結合TF-IDF 和LDA 模型共同實現(xiàn)政府結構化庫表數(shù)據(jù)的分類任務,算法流程如圖2所示。
圖2 KG-BERT算法流程圖
KG-BERT算法流程具體步驟如下:
⑴結合政府領域核心詞庫完成jieba 分詞,劃分出每條數(shù)據(jù)的核心詞匯;
⑵將核心詞依次輸入知識圖譜,查詢唯一主題詞過濾掉無主題詞和多個主題詞的數(shù)據(jù),得到ST(Single Topic)數(shù)據(jù)集;
⑶通過政府數(shù)據(jù)匹配規(guī)則修正ST 數(shù)據(jù)集,得到PM(Preliminary Modified)數(shù)據(jù)集;
⑷ 結合政務知識圖譜和LDA(Latent Dirichlet Allocation)模型實現(xiàn)數(shù)據(jù)擴充,得到DR(Data Replacement)數(shù)據(jù)集;
⑸融合PM 數(shù)據(jù)和DR 數(shù)據(jù),得到經(jīng)擴展后的KE(KG Expansion)數(shù)據(jù)集;
⑹通過KE 數(shù)據(jù)集訓練BERT 模型,完成文本分類任務。
以上步驟⑷中設定k=10作為擴充停止條件,遍歷所有主題詞,若該詞在政務知識圖譜中存在對應的關聯(lián)關系,則實現(xiàn)數(shù)據(jù)的詞替換。數(shù)據(jù)匹配規(guī)則是修正通過知識圖譜得到的唯一主題詞數(shù)據(jù),提高訓練集標簽準確率。
為了體現(xiàn)出匹配規(guī)則和擴充算法的有效性,本文選取結構化庫表數(shù)據(jù)中的十個類別數(shù)據(jù)作為實驗數(shù)據(jù),包含3600 條無標注數(shù)據(jù),通過除去無主題和多主題數(shù)據(jù)后得到1500條唯一主題數(shù)據(jù),經(jīng)數(shù)據(jù)擴充后得到3284條有效數(shù)據(jù),并將以上步驟得到的數(shù)據(jù)分別通過BERT、CNN、RNN、LSTM 完成實驗對比,詳細測試結果如表1所示。
表1 不同數(shù)據(jù)集下的BERT模型分類準確率%
與其余三個模型相比,BERT 模型在政府庫表短文本數(shù)據(jù)分類任務中表現(xiàn)更佳。從訓練集上看,添加匹配規(guī)則和數(shù)據(jù)擴充的訓練集在模型上表現(xiàn)更好。其原因在于通過初選出來的訓練集存在較大誤差,對模型訓練存在誤導,而糾錯后的數(shù)據(jù)更接近真實標注結果,通過圖譜擴充后模型會更好的擬合真實數(shù)據(jù)。
針對在圖譜中查詢到多個主題的情況,本文提出基于TF-IDF 的多主題權重判定模型,通過計算多主題的TF-IDF 權重,選取最具有代表性的主題詞,從而達到政府數(shù)據(jù)分類的目的。
TF-IDF是一種統(tǒng)計方法,用以評估一個詞語對語料庫中某份文件的重要程度。在一份文件中,詞頻(Term Frequency,TF)是指某個特定詞語在文件中出現(xiàn)的次數(shù),并考慮到詞頻計算的合理性,需要對詞頻進行歸一化處理,可表示為:
其中,n是詞語t在文件d中出現(xiàn)的次數(shù),分母則表示文件d中出現(xiàn)的所有詞語之和,公式⑴表示關鍵詞在文檔中出現(xiàn)的頻率。
逆文件頻率(Inverse Document Frequency,IDF)是衡量一個詞重要性的度量,可表示為:
其中,|D|表示語料庫的總文件數(shù),分母表示包含詞語ti的文件數(shù)目,即表示n≠0 的文件數(shù)目。通常,為了避免分母為零的情況,分母一般采用1+{:t∈d} 。最終,TF-IDF的公式為:
本文利用TF-IDF 計算主題權重,選取權重最大值作為文本類型,步驟如下:
⑴對每個文本進行關鍵詞擴展;
⑵將拓展后的數(shù)據(jù)進行jieba分詞操作;
⑶將分詞后的結果再輸入政務知識圖譜進行主題查詢;
⑷由原始主題和拓展后的主題計算出每個原始主題的TF-IDF權重;
⑸對各原始主題的TF-IDF 權重進行排序,選取權重最大主題作為原數(shù)據(jù)類別。
以上步驟⑴中,通過政府數(shù)據(jù)基礎庫進行關鍵詞擴展。步驟⑵中,為了更準確的衡量各主題的重要性,TF-IDF 權重計算公式如下,其中,S表示擴展主題與原始主題相同的個數(shù),n為擴展主題數(shù),并將IDF設定為經(jīng)驗取值100。
實驗數(shù)據(jù)來源于某市政府庫表數(shù)據(jù)全量目錄,共計106698 條無標簽數(shù)據(jù)。抽取1500 條數(shù)據(jù)作為測試數(shù)據(jù)。數(shù)據(jù)類別為:交通運輸、醫(yī)藥衛(wèi)生管理、企業(yè)、計劃生育、機構編制、法院、統(tǒng)計、經(jīng)濟管理、政府工作、金融。該1500 條數(shù)據(jù)均由人工進行準確標注,其樣例如表2所示。
表2 某地級市政府數(shù)據(jù)樣例
本實驗數(shù)據(jù)包含各“委辦局名稱”、“系統(tǒng)名稱”、“表名稱”以及“字段名稱”,各名稱之間使用空格作為分隔符,每一行包含數(shù)據(jù)和與之相應的分類標簽。數(shù)據(jù)間存在嚴重的交叉性和標簽缺乏,對自動分類存在一定難度。
為分析各個模塊對整個分類算法的影響程度,本實驗分模塊進行實驗統(tǒng)計。以1500 條測試數(shù)據(jù)作為輸入,統(tǒng)計出每種分類方法的精確率、召回率和F1值,如表3所示。
表3 不同模塊的實驗結果%
采用KG-STopic 進行數(shù)據(jù)過濾實現(xiàn)分類的準確率最高,這歸根于政府數(shù)據(jù)的強領域特征。與此同時,由于KG-BERT 模型采用的擴充訓練集,使得模型在處理多主題邊緣數(shù)據(jù)時效果欠佳??偟膩碚f,結合知識圖譜的融合模型很大程度上依賴于KG-Stopic模塊,同時在KG-BERT 和KG-Mtopic 的協(xié)同下達到了理想的分類效果。
如圖3、圖4、圖5 分別統(tǒng)計了三種算法在各類別上的精確率、召回率和F1值。其中“無擴展分類算法”指采用無擴展數(shù)據(jù)訓練的融合方法,“擴展分類算法”指采用擴展數(shù)據(jù)訓練的KG-BERT。
圖3 三種分類算法精確率對比
圖4 三種分類算法召回率對比圖
圖5 三種分類算法F1值對比圖
從以上分類結果對比圖中不難發(fā)現(xiàn),三種分類算法結果相比,本文算法的精確率、召回率和F1 值均有提高,并且本文多模塊融合算法和無擴展分類算法在三個評價指標上均高于單一模塊的擴展分類算法,說明多模塊的混合策略更適用于政府結構化庫表數(shù)據(jù)分類。與無擴展分類算法相比,本文算法提高了文本分類準確率,并在大多類別上表現(xiàn)出良好的分類效果,更加肯定了本算法在政府結構化庫表數(shù)據(jù)分類中的適用性。
本文采用KG-BERT、KG-STopic、KG-MTopic 多模塊結合的方法實現(xiàn)政府結構化庫表數(shù)據(jù)的自動分類。其中結合政務知識圖譜的KG-BERT 是本文研究重點,KG-BERT 相較與CNN、RNN 模型而言分類效果更好,經(jīng)實驗表明,本文提出的多模塊結合方法在數(shù)據(jù)分類任務中表現(xiàn)較好,即本文算法對政府結構化庫表數(shù)據(jù)達到良好的分類效果。但經(jīng)擴展后的數(shù)據(jù)與真實數(shù)據(jù)仍存在差異,這也是KG-BERT 模型待解決的問題,后續(xù)我們會將工作重點投入到有效的數(shù)據(jù)擴展中,提高模型分類精度。