朱 巧
(北京郵電大學 網(wǎng)絡與交換國家重點實驗室, 北京 100876)
基于詞頻統(tǒng)計的文本可視化實現(xiàn)
朱 巧
(北京郵電大學 網(wǎng)絡與交換國家重點實驗室, 北京 100876)
隨著海量文本的涌現(xiàn),信息超載和信息提取速度慢等問題促使了文本可視化技術(shù)的出現(xiàn)。文本可視化通過對文本資源的分析,提取信息,并以圖形化方式呈現(xiàn)出來,為人們提供了一種快速獲取文本關(guān)鍵信息的有效手段。在介紹了文本可視化的概念和重要性的基礎(chǔ)上,著重闡述了基于詞頻統(tǒng)計的中文文本可視化的實現(xiàn)方法?;谀澄⒉┵~戶的微博數(shù)據(jù),首先使用TF-IDF算法進行關(guān)鍵詞提取,得到帶有權(quán)重的詞語,然后基于SVG技術(shù)和四叉樹算法,實現(xiàn)了文本布局算法。最后得到的可視化效果良好,能全面、直觀地反映出用戶的興趣和關(guān)注點。
文本可視化;關(guān)鍵詞提取;四叉樹算法;TF-IDF
本文著錄格式:朱巧. 基于詞頻統(tǒng)計的文本可視化實現(xiàn)[J]. 軟件,2016,37(11):114-117
文本信息在生活中無處不在,日常中的書籍、郵件、咨詢、新聞,都是以文本作為載體。隨著信息技術(shù)的發(fā)展,信息量呈現(xiàn)出爆炸增長,人們通過閱讀獲取和理解信息的速度明顯滯后。傳統(tǒng)的文本分析技術(shù),比如文本聚類、語義分析等,能在一定程度上挖掘出文本數(shù)據(jù)中的主要信息,但是人在理解這些挖掘結(jié)果的時候仍然存在困難,文本可視化在這樣的背景下產(chǎn)生。
文本可視化是數(shù)據(jù)可視化的一個重要主題,它利用可視化技術(shù)讓人直觀地認識數(shù)據(jù),為人們提供了一種理解復雜文本的內(nèi)容、結(jié)構(gòu)和內(nèi)在規(guī)律等信息的有效手段。俗話說,一幅圖勝千言萬語,通常情況下,人們從圖像中獲取的信息比直接從大量文字中獲取的信息更快速、準確,信息量也更多。
微博作為新興媒體,在人們的生活中日益流行。對微博中用戶行為的統(tǒng)計、分析,和微博內(nèi)容中信息的挖掘等成為了研究的熱點。本文希望能夠通過文本可視化的手段,清晰地反映微博賬戶的關(guān)注點。
就文檔類別來說,可以把文檔分為單文本、文檔集合和時序文本數(shù)據(jù)三個類別;從一篇文檔本身來說,又包含詞語、語法和語義三個層級。文檔的這些屬性使文本信息的分析需求更為豐富。例如,在分析新聞報道時,分析的重點是能概括新聞的內(nèi)容。而對于一系列跟蹤報道所構(gòu)成的新聞專題,人們不但關(guān)注每一時間點的具體內(nèi)容,還包括新聞熱點的隨著時間的變化趨勢。針對文本信息和屬性的多樣
性分析需求,人們提出了很多具有特性的可視化技術(shù)。通常,文本可視化可以分為基于關(guān)鍵詞的文本可視化、基于文本關(guān)系的文本可視化這幾類[1]。
1)基于關(guān)鍵詞的文本可視化
當遇到海量文本時,人們需要對整個文本的關(guān)鍵內(nèi)容進行快速概覽,這種場景適合使用基于關(guān)鍵詞的文本可視化。關(guān)鍵詞指的是從原始文本中提取的能反映文本內(nèi)容的側(cè)重點的語義單元。提取文檔中關(guān)鍵詞的原則多種多樣, 其中最常見的方法是使用詞頻來反映文本特征,通常認為單詞的重要性與它在文檔中出現(xiàn)的頻率呈正比。
2)基于文本關(guān)系的文本可視化
這種可視化方式的關(guān)注點在于文本內(nèi)部或者文本所在的文本集合的關(guān)聯(lián)信息,包括文檔之間的引用信息、從文檔中提取的結(jié)構(gòu)信息等。常用的手段有樹狀圖和節(jié)點連接的網(wǎng)絡圖。
本文主要針對基于詞頻統(tǒng)計的文本可視化方法進行了深入研究。
隨著微博的日趨流行,對微博中用戶行為的統(tǒng)計、分析,和微博內(nèi)容中信息的挖掘等成為了研究的熱點。本文統(tǒng)計了新浪微博中某個賬戶發(fā)布的微博內(nèi)容,希望能通過可視化方法,反映出該賬戶用戶的關(guān)注點信息。
2.1 可視化設計
標簽云是常用的基于詞頻統(tǒng)計的可視化方法,也稱為詞云、文字云。標簽一般是獨立的詞匯,常常按字母順序排列,其重要程度又能通過改變字體大小或顏色表現(xiàn),所以標簽云可以靈活地依照字母順序或熱門程度檢索一個標簽。這樣的特性使標簽云適用于展現(xiàn)熱點的話題或者特性,因此選取標簽云作為用戶微博內(nèi)容的呈現(xiàn)方式。
文本可視化系統(tǒng)通常涵蓋了三個步驟[2],本文工作也按照這個步驟進行:
1)挖掘文本中的特征信息;
這個階段需要進行信息收集和數(shù)據(jù)預處理,然后針對可視化的目的和需求,通過各種數(shù)據(jù)處理的手段提取出文本中的特征信息。
2)可視化設計和呈現(xiàn);
針對提取的特征信息,用適合的可視化表達方式,通過圖形設計和計算機編碼等手段進行可視化實現(xiàn)。
3)用戶與信息圖的交互。
2.2 文本信息提取
標簽云展示的是文本中出現(xiàn)頻率高的詞語。在文本信息提取過程中,需要通過對原始文本進行關(guān)鍵詞抽取、歸一化處理等操作,提取出帶有權(quán)重的單詞。
常用衡量詞頻和權(quán)重計算方法有很多種,如布爾權(quán)重法、熵函數(shù)和TF-IDF權(quán)重法。其中最常用的是TF-IDF權(quán)重法,該方法算法相對簡單、并有較高的準確度和召回率,所以一直受到相關(guān)研究人員和眾多應用領(lǐng)域的青睞。
TF-IDF方法由Salton等人提出[3],它的基本思想是,具有較高權(quán)重的單詞,應該在該篇文檔中出現(xiàn)次數(shù)較多(TF),而在其他文檔中出現(xiàn)次數(shù)和范圍都較?。↖DF)。計算單詞權(quán)重的公式為:
weighti,j=tfi,j*idfi=tfi,j*log(N/nj) (1)
在上式中,tfi,j是指特征項tj在文檔中出現(xiàn)的次數(shù);idfi是指出現(xiàn)特征項tj的文檔的數(shù)量的倒數(shù)。N表示總文檔數(shù)量,nj指出現(xiàn)特征項tj的文檔數(shù)。
本文采用TF-IDF權(quán)重法進行關(guān)鍵詞提取,由于只在當前文檔中選取,所以不需要逆向文件頻率(IDF)文本語料庫。對收集了某微博賬號一個月發(fā)布的微博之后,對其發(fā)布的微博內(nèi)容提取的部分結(jié)果如下:
表1 關(guān)鍵詞提取結(jié)果Tab.1 The result of keyword extraction
為了方便進一步地展示,需要對權(quán)重值進行歸一化處理,使最終的權(quán)重分布在0到1之間,選取的歸一化公式為:
其中,wi代表某個詞語的原本權(quán)重值,min代表所有詞語的權(quán)重值中的最小值,max代表所有詞語的全種植中的最大值,wi′代表進行歸一化之后的結(jié)果。
完成文本信息提取之后,需要進行圖元布局的設計和實現(xiàn)。
2.3 標簽云布局算法的實現(xiàn)
目前,已經(jīng)有一些算法和項目對標簽云的布局算法進行了實現(xiàn),其中最為出名的是Jonathan Feinberg的Wordle[4]。在這個項目用Java Applet實
現(xiàn)了很好的標簽云布局效果。雖然Wordle在布局實現(xiàn)上已經(jīng)非常成熟,但是該項目仍有一些缺陷:首先,它不支持中文作為輸入,這讓它的使用場景有了很大限制;其次,它把布局結(jié)果生成了一張圖片,無法進行交互,很大程度影響了用戶體驗。
為了提高交互性,同時兼顧跨平臺性,本文基于SVG(Scalable Vector Graphic)技術(shù),實現(xiàn)了標簽云的布局算法。SVG是基于擴展標記語言XML的一種二維矢量圖格式。由W3C組織于2000年正式發(fā)布[5]。相對于其他的圖形格式,如PNG、GIF、JPEG等,SVG有卓越的優(yōu)勢:
1. 可收縮性。SVG作為一種矢量圖格式,與柵格化格式的圖像相比,圖形可以按照任意尺寸縮放而保存本來的清晰度。
2. 交互性強。由于SVG完全支持DOM(文檔對象模型),因此SVG中的圖形對象完全可以通過腳本語言,比如JavaScript來接受外部事件的監(jiān)聽和處理(如鼠標點擊,鼠標懸停等動作),以實現(xiàn)自身或?qū)ζ渌麍D形對象的控制。
3. 跨平臺性良好。SVG并非僅僅是一種圖像格式,由于它是一種基于XML的描述語言,意味著它完全繼承了XML語言的跨平臺性和可擴展性。因此,SVG可以很好地跨平臺工作,該標準一經(jīng)推出立刻得到了包括Apple,Autodesk,IBM,Google,Microsoft,Netscape, Sun在內(nèi)各大公司的實現(xiàn)和支持。
選用SVG作為圖形繪制格式后,在標簽云的實現(xiàn)上,需要重點考慮單詞的尺寸、顏色、布局,以及用戶的交互。通常來說,標簽云把單詞按照頻度或者權(quán)重遞減的順序進行排列,頻度或者權(quán)重與單詞顯示的尺寸呈正比。常用的標簽云布局有水平排列布局,而為了效果更加美觀,在一些設計中標簽云形成不同的外形。為了效果美觀,也能通過編程實現(xiàn),本文將單詞沿著螺旋形狀的路徑布局。其布局算法步驟為:
1. 獲取輸入的詞語列表,該列表是按照詞語的權(quán)重進行排序的,每個詞語包括內(nèi)容和權(quán)重兩個屬性。
2. 從權(quán)重最大的一個詞語開始遍歷列表,對于列表中的每一個詞語,首先根據(jù)詞語本身長度和權(quán)重值計算出詞語的尺寸。
3. 在螺旋路徑的某一個位置上,試圖將詞語放置上去。
4. 檢測當前詞語是否與已經(jīng)放置的詞語發(fā)生了碰撞。
5. 如果沒有發(fā)生碰撞,那么這個單詞放置的位置是合理的,完成當前單詞的放置,繼續(xù)放置下一個單詞;如果發(fā)生碰撞,則返回第3步,重新放置當前的單詞。
整個流程如圖1所示。在這個算法中,影響算法復雜度和效率的關(guān)鍵部分在于碰撞檢測,也可以說是重疊檢測。如果每次檢測都遍歷所有單詞,那么復雜度為O(n2),效率過低。為了提高二維空間中碰撞檢測的算法速度,四叉樹被廣泛應用[6]。四叉樹是一種常用的數(shù)據(jù)結(jié)構(gòu),可用于描述二維空間。在進行兩個物體的碰撞檢測時,其基本思想是先把空間用橫豎兩條坐標軸等分成4象限,一個物體通常只在其中的某個象限,如果兩個物體所在的象限不同,那么確定不發(fā)生碰撞;如果檢查到所處象限相同,則把這個象限再往下分割成4個子象限。使用四叉樹算法可以讓碰撞檢測的時間復雜度從O(n2)提高到O(nlogn)。
圖1 布局算法流程圖Fig.1 The flow chart of layout algorithm
圖2 文本可視化結(jié)果Fig.2 The result of Text Visaulization
圖2展示了基于詞頻統(tǒng)計的文本可視化最終實現(xiàn)效果,可以看到單詞在平面上的布局均勻、美觀,并且很少有重疊的單詞。在關(guān)鍵詞提取過程中擁有
較大權(quán)重的關(guān)鍵詞的尺寸更大,不同關(guān)鍵詞的重要性在標簽云中一目了然。鼠標懸停在單詞上時,右側(cè)展示出跟這個單詞相關(guān)聯(lián)的微博,具有很好的交互性。
文本可視化是可視化的熱點研究內(nèi)容,它利用文本處理技術(shù)和計算機圖像的技術(shù),把文本中的信息用圖形的形式展現(xiàn)給用戶,幫助用戶理解這些信息。
本文首先介紹了文本可視化的相關(guān)理論知識。然后著重介紹了基于詞頻統(tǒng)計的文本可視化的實現(xiàn),并以用戶微博數(shù)據(jù)為基礎(chǔ),進行了信息提取、圖元布局設計和布局實現(xiàn)。最終的實現(xiàn)效果良好。
[1] 劉芳. 信息可視化技術(shù)及應用研究[D]. 浙江大學, 2013. LIU F. Study of Information Visualization[D]. Zhejiang University, 2013.
[2] 唐家渝, 劉知遠, 孫茂松等. 文本可視化研究綜述[J]. 計算機輔助設計與圖形學學報, 2013, 25(3): 273-285. TANG J Y, LIU Z Y, SUN M S, et al. A Survey of Text Visualization[J]. Journal of Computer—Aided Design 8L Computer Graphics, 2013, 25(3): 273-285.
[3] 施聰鶯, 徐朝軍, 楊曉江等. TFIDF算法研究綜述[J]. 計算機應用, 2009, 29(z1): 167-170, 180. SHI C Y, XU C J, YANG X J, et al. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(z1): 167-170, 180.
[4] FERNANDA B V,MARTIN W, JONATHAN F, et al.Participatory Visualization with Wordle[J]. IEEE transactions on visualization and computer graphics, 2009, 15(6): 1137-1144.
[5] KIM E, HUANG X, TAN G, et al. Markup SVG—An Online Content-Aware Image Abstraction and Annotation Tool[J]. IEEE transactions on multimedia, 2011, 13(5): 993-1006.
[6] 關(guān)振群, 宋超, 顧元憲等. 有限元網(wǎng)格生成方法研究的新進展[J]. 計算機輔助設計與圖形學學報, 2003, 15(1): 1-14. GUAN Z Q, SONG C, GU Y X, et al. Recent Advances of Research on Finite Element Mesh Generation Methods[J]. Journal of Computer-Aided Design & Computer Graphics, 2003, 15(1): 1-14.
The Realization of Text Visualization Based on Word Frequency Statistics
ZHU Qiao
(State Key Laboratory of networking and switching, Beijing University of Posts and Telecommunications, Beijing 100876, China)
Along with the emergence of massive text, the problem of information overload and the slow speed of information extraction prompted the emergence of text visualization. By analyzing the text, extracting the information and presenting it in a graphical way, text visualization provides an effective way to extract the key information of a text. After introduce the concept and importance of text visualization, emphatically expounds the realization of text visualization based on word frequency statistics. A micro-blog account’s data is chosen as the source data. First, use the TF-IDF algorithm for keyword extraction, and get keywords with weight. Then, realize the text layout algorithm based on SVG and quad-tree algorithm. The visual effect is good, and it can fully and directly reflect the account’s interests.【Key words】: Text visualization; Word frequency statistics; Quad-tree algorithm; TF-IDF
TP391
A
10.3969/j.issn.1003-6970.2016.11.025
朱巧(1992-),女,碩士研究生,主要研究方向為數(shù)據(jù)可視化。