黃金源,孫若瑩
(北京信息科技大學 信息管理學院,北京 100192)
近年來大宗商品已經(jīng)成為國民財富管理和資產(chǎn)管理的重要組成部分[1],大宗商品交易作為大宗商品領域的重要內容,積累了大量的文本數(shù)據(jù)?,F(xiàn)今對文本數(shù)據(jù)挖掘的研究多集中在情感分類方面[2],而對大宗商品交易領域的文本挖掘的研究極少,如何有效地利用這些文本數(shù)據(jù)成為當下研究的熱點。
領域詞典是大數(shù)據(jù)文本挖掘工作的重要內容[3],構建一個大宗商品交易領域詞典是實現(xiàn)對該領域文本數(shù)據(jù)高效挖掘的必然前提。石玉鑫等[4]提出一種用于商品評價對象挖掘的基于線性判別分析(linear discriminant analysis,LDA)模型的領域詞典構建方法,在商品評價領域具有良好的性能。司凱[5]提出一種基于監(jiān)督學習領域的詞典構建技術,利用輕量級梯度提升機(light gradient boosting machine,lightGBM)模型訓練分類器,在文本的分類中取得很好的效果。徐雨楠[2]提出一種基于語料庫和K均值聚類的方法構建電力領域詞典。馮蜀茗等[6]用機械分詞與串頻統(tǒng)計相結合的方法構建能夠進行相關度監(jiān)控的領域詞典。李偉卿等[7]在人工標注的基礎上,基于同義詞林的擴展,以及大規(guī)模的評論文本的詞向量訓練,計算詞語的語義相似度和相關性,進行特征的識別與歸并,進而形成產(chǎn)品特征詞典。上述研究工作的重點主要集中在利用網(wǎng)絡文本作為語料進行領域詞典的構建,采用詞語的語義相似度進行領域詞典擴充。
本文針對大宗商品交易領域缺乏特有領域詞典這一問題,基于書籍文本面向大宗商品交易領域構建了領域詞典,利用該領域兩本經(jīng)典書籍《大宗商品電子交易市場理論與實踐》[8]和《大宗商品交易金融服務》[9],分別進行領域詞典構建和領域詞典擴充。與現(xiàn)有的研究絕大多數(shù)基于網(wǎng)絡文本語料構建領域詞典不同的是,本文所選用的語料為書籍文本。書籍文本在編寫過程中具有較嚴格的語言規(guī)范和行文準則,與網(wǎng)絡文本相比在構建詞典過程中能夠極大程度地降低噪聲干擾[10-11]。
大宗商品交易領域詞典構建流程如圖1所示,主要包括4部分:1)構建領域基礎知識庫詞集,將三大中文知識庫:知網(wǎng)知識庫(HowNet)、大連理工大學信息檢索實驗室(DUTIR)發(fā)布的情感詞集、臺灣大學發(fā)布的中文情感極性詞集(NTUSD)合并篩選后,融合中科院金融領域情感詞庫得到候選種子詞,再通過詞長和詞頻雙重過濾后形成基礎知識庫詞集;2)對大宗商品交易領域語料進行處理,首先對語料進行人工篩選和分詞處理,利用Jieba分詞對語料進行分詞形成分詞詞集,再通過基于詞頻-逆文本頻率(term frequency-inverse document frequency,TF-IDF)的領域關鍵詞提取算法提取關鍵詞形成關鍵詞詞集;3)將基礎知識庫詞集和關鍵詞詞集融合形成大宗商品交易領域詞典;4)通過Word2vec生成的詞向量計算詞之間相似度,對大宗商品交易領域詞典進行新詞發(fā)現(xiàn),實現(xiàn)領域詞典擴充。
圖1 大宗商品交易領域詞典構建流程
通過實驗發(fā)現(xiàn),僅利用書籍文本進行領域詞典構建,所選取出的詞語中缺乏諸如尋底、跳水、破凈等能夠體現(xiàn)出大宗商品交易領域行情狀態(tài)的詞語。因此為了構建更加完善的領域詞典,從前述三大中文知識庫和中科院金融領域詞典中提取出與大宗商品交易領域相關且能夠體現(xiàn)出行情狀態(tài)的詞。將這些詞作為基礎知識庫詞集,融合到本文所構建的大宗商品交易領域詞典中。
為了解決語料中存在大量對領域詞典構建造成干擾的低頻詞問題,本文對經(jīng)過語料預處理之后形成的訓練語料,通過基于TF-IDF的領域關鍵詞提取算法進行關鍵詞提取[12]。
訓練語料集合C表示為{ci}(i∈[1,2,…,n]),其中n為訓練語料短語、詞組數(shù)。提取的種子詞集Z表示為{zj}(j∈[1,2,…,k]),其中k為短語權重排序大小。
關鍵詞提取算法步驟如下:
1)計算詞語ci在語料C中的詞頻。
2)計算詞語ci在整個語料中的逆文本頻率:FIDF=lg(Ct/(Bt+1)),其中Ct為集合C中總文檔數(shù),Bt為語料中出現(xiàn)ci的文檔個數(shù)。
3)計算詞語ci的TF-IDF值:
FTF-IDF=FTF×FIDF
其中:FTF為詞頻;FIDF為逆文本頻率。
4)重復步驟1)~3),得到每個詞語的TF-IDF值。
5)對每個詞語的TF-IDF值進行排序,選出前k個詞語作為關鍵詞。
當下處于信息內容不斷更新迭代的時代,大宗商品交易領域的語料也在不斷更新,會有源源不斷的領域新詞出現(xiàn),因此本文提出一種基于分布式表示的領域詞典擴展方法,使用Word2vec實現(xiàn)對領域詞典的新詞發(fā)現(xiàn)[13]。
領域新詞指在某一個領域中未曾出現(xiàn)的詞匯或者詞語[14]。本文所描述的領域新詞的定義如下:在某一文本中出現(xiàn)的詞語wi,為本文所構建的大宗商品交易領域詞典中未收錄的詞語,則將詞語wi稱為大宗商品交易領域新詞。
通過對文本語料的訓練能夠把對文本內容的處理轉換為K維向量空間中的向量運算,而文本在語義上的相似度是用向量空間的相似度來表示的。領域詞典擴充的工作原理是將領域詞典中的詞語,利用Word2vec生成每個詞向量,計算每一個詞相似度最高的若干個詞語。
計算包含文本語義的詞向量間的余弦相似度,能夠度量出兩個詞之間的相似性[15]。因為由Word2vec生成的詞向量是基于上下文語義生成的,所以采用余弦距離來計算種子詞與訓練語料中詞語的相似度。假設n維的候選詞a(x11,x12,…,x1n)與n維領域詞b(x21,x22,…,x2n)的余弦相似度為
(1)
分別計算領域詞典中的詞語與新語料中提取的關鍵詞的余弦值,從而得到與詞典中的每個詞的相似度。設定閾值,選取相似度最高的若干個詞,再遍歷領域詞典中的每一個詞,如果領域詞典中沒有該詞,則認為該詞語為領域新詞,擴充收錄到大宗商品交易領域詞典中,反之則不是領域新詞,將該詞語的詞頻與原詞典的詞頻進行疊加。
數(shù)據(jù)來源:《大宗商品電子交易市場理論和實踐》為構建領域詞典數(shù)據(jù)集,《大宗商品交易金融服務》為領域詞典擴充數(shù)據(jù)集。
數(shù)據(jù)預處理:包括停用詞處理和分詞。書籍文本語料中存在著部分中英文標點、連詞以及程度副詞等噪聲,因而需要對原文本進行停用詞處理。利用哈工大停用詞表,對文本語料進行去停用詞處理,再用Jieba分詞工具進行分詞,最終形成訓練語料。
語料的關鍵詞標注:將《大宗商品電子交易市場理論和實踐》進行數(shù)據(jù)切分,形成A、B兩部分語料,其中語料A用于構建領域詞典,語料B用于訓練文本分類器模型。首先對語料A進行標注,通過對語料進行分詞之后,制定語料標注規(guī)則,進而據(jù)此規(guī)則對語料進行標注:
1)文本中標注的關鍵詞必須來自于語料中;
2)語料中出現(xiàn)次數(shù)較多或者與大宗商品交易領域關聯(lián)較大的詞,可標注為關鍵詞;
3)語氣連接詞、程度副詞等不標注為關鍵詞;
4)關鍵詞選取較短的詞語,一般為5個字符以下;
5)由于大宗商品交易領域的某些交易平臺名稱或者相關行業(yè)標準文件名稱大于5個字符,因此對這類名詞的標注不適用于第4)條;
6)語料為書籍文本,因此將每一小節(jié)作為一個語料段,通常標注3~8個關鍵詞。
按照以上規(guī)則對原本語料進行標注,標注示例如表1所示。
表1 語料標注示例
本文所構建的大宗商品交易領域詞典,主要分為兩類詞匯:一類是大宗商品交易領域的通用詞匯,即在大宗商品交易過程中經(jīng)常使用的詞匯,包括交易行為詞、行情狀態(tài)詞等;另一類是大宗商品交易領域專有詞匯,如交易平臺名稱、交易品種、交易商等。詞典構建結果如表2所示。
表2 大宗商品交易領域詞典構建結果
對《大宗商品電子交易市場理論和實踐》經(jīng)人工篩選文本之后形成的語料進行關鍵詞提取,通過基于TF-IDF的領域關鍵詞提取算法選取語料中的關鍵詞。但是該算法具有一定的局限性,如表3所示,選取的關鍵詞包含“全國”、“規(guī)范”、“法律”等與大宗商品交易領域關聯(lián)性不大或者與其他領域通用的詞語,因此需要經(jīng)過人工方式對其進行剔除,以提高領域詞典的特有性。
表3 關鍵詞提取算法所提取的關鍵詞示例
通過前文所述的領域詞典擴充算法,利用《大宗商品交易金融服務》對所構建的領域詞典進行擴充。最終經(jīng)過擴充之后的領域詞典如表4所示。
表4 領域詞典擴充后的情況
大宗商品交易領域詞典中的詞性、詞頻能夠在文本分類和命名實體識別任務中起到重要作用,因此本文所構建的詞典包括詞語、詞性和詞頻3部分。其中詞性包括名詞(n)、行情狀態(tài)詞(v)、交易所名稱(nr)等類別。詞頻為詞語在本文構建詞典所使用的全部語料中出現(xiàn)的次數(shù)。詞典存儲格式為CSV文檔,存儲示例如表5所示。
表5 大宗商品交易領域詞典存儲示例
通過對比不同方法在關鍵詞提取任務中的效果以及領域詞典在文本分類任務中的性能,分別驗證本文采取的關鍵詞提取方法的可行性和所構建的大宗商品交易領域詞典的有效性。
采用準確率、召回率和F1值作為指標,將本文方法與使用LDA主題模型進行大宗商品交易領域的關鍵詞提取進行對比。
準確率為
(2)
召回率為
(3)
F1值為
(4)
式(2)~(4)中:N1為提取出來的該領域正確的關鍵詞數(shù)量;N2為提取出來的該領域所有關鍵詞數(shù)量;N為所有標注為大宗商品交易領域的關鍵詞數(shù)量。
實驗結果如表6所示。通過對比可以發(fā)現(xiàn),本文所采用的關鍵詞提取方法在各項指標上的效果均有明顯提升。
表6 關鍵詞提取實驗對比 %
通過文獻調研發(fā)現(xiàn),樸素貝葉斯算法(naive Bayes,NB)[16]和支持向量機(support vector machine,SVM)[17]在文本分類領域具有良好的效果,因此為驗證本文所構建的領域詞典的有效性,設置兩組實驗進行文本分類對比。
實驗數(shù)據(jù)集為上文處理的語料B以及從網(wǎng)絡上爬取的與大宗商品交易領域不相關的文本數(shù)據(jù)。評價指標仍為準確率、召回率以及F1值。通過將本文所構造的詞典作為文本特征輸入到分類器中,對比沒有利用詞典作為文本特征的分類器的分類效果,如表7所示。
表7 文本分類實驗結果 %
由表7可知,利用本文所構造的詞典進行文本分類,準確率分別提升了13.45%和4.44%。F1值提升了11.16%和4.81%。由此可以看出,本文所構建的大宗商品交易領域詞典在文本分類任務中具有較好的表現(xiàn),整體的分類效果有明顯提升。
本文針對大宗商品交易領域缺乏其特有領域詞典問題,基于書籍文本構建了該領域詞典。同時針對大宗商品交易領域不斷更新的文本語料,基于Word2vec詞向量模型的領域新詞發(fā)現(xiàn)算法,對詞典進行擴充。與現(xiàn)有大多數(shù)研究者利用網(wǎng)絡文本語料構建詞典不同,本文所使用的語料為書籍文本,充分利用了其語言的規(guī)范性,極大地降低了因文本語言的不規(guī)范而帶來的噪聲干擾。針對目前豐富的領域書籍文本,本文所提出的方法也能夠運用到其他領域,對構造其領域詞典具有一定的參考意義。領域詞典的作用不僅僅局限于文本的分類任務,同時對命名實體識別也具有重要的意義,因此下一步的工作可以利用本文所構造的領域詞典進行命名實體識別任務。