亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于詞頻統(tǒng)計的文本可視化實現(xiàn)

        2016-12-15 02:47:20
        軟件 2016年11期
        關(guān)鍵詞:詞頻文檔可視化

        朱 巧

        (北京郵電大學 網(wǎng)絡與交換國家重點實驗室, 北京 100876)

        基于詞頻統(tǒng)計的文本可視化實現(xiàn)

        朱 巧

        (北京郵電大學 網(wǎng)絡與交換國家重點實驗室, 北京 100876)

        隨著海量文本的涌現(xiàn),信息超載和信息提取速度慢等問題促使了文本可視化技術(shù)的出現(xiàn)。文本可視化通過對文本資源的分析,提取信息,并以圖形化方式呈現(xiàn)出來,為人們提供了一種快速獲取文本關(guān)鍵信息的有效手段。在介紹了文本可視化的概念和重要性的基礎(chǔ)上,著重闡述了基于詞頻統(tǒng)計的中文文本可視化的實現(xiàn)方法?;谀澄⒉┵~戶的微博數(shù)據(jù),首先使用TF-IDF算法進行關(guān)鍵詞提取,得到帶有權(quán)重的詞語,然后基于SVG技術(shù)和四叉樹算法,實現(xiàn)了文本布局算法。最后得到的可視化效果良好,能全面、直觀地反映出用戶的興趣和關(guān)注點。

        文本可視化;關(guān)鍵詞提取;四叉樹算法;TF-IDF

        本文著錄格式:朱巧. 基于詞頻統(tǒng)計的文本可視化實現(xiàn)[J]. 軟件,2016,37(11):114-117

        0 引言

        文本信息在生活中無處不在,日常中的書籍、郵件、咨詢、新聞,都是以文本作為載體。隨著信息技術(shù)的發(fā)展,信息量呈現(xiàn)出爆炸增長,人們通過閱讀獲取和理解信息的速度明顯滯后。傳統(tǒng)的文本分析技術(shù),比如文本聚類、語義分析等,能在一定程度上挖掘出文本數(shù)據(jù)中的主要信息,但是人在理解這些挖掘結(jié)果的時候仍然存在困難,文本可視化在這樣的背景下產(chǎn)生。

        文本可視化是數(shù)據(jù)可視化的一個重要主題,它利用可視化技術(shù)讓人直觀地認識數(shù)據(jù),為人們提供了一種理解復雜文本的內(nèi)容、結(jié)構(gòu)和內(nèi)在規(guī)律等信息的有效手段。俗話說,一幅圖勝千言萬語,通常情況下,人們從圖像中獲取的信息比直接從大量文字中獲取的信息更快速、準確,信息量也更多。

        微博作為新興媒體,在人們的生活中日益流行。對微博中用戶行為的統(tǒng)計、分析,和微博內(nèi)容中信息的挖掘等成為了研究的熱點。本文希望能夠通過文本可視化的手段,清晰地反映微博賬戶的關(guān)注點。

        1 文本可視化的相關(guān)理論

        就文檔類別來說,可以把文檔分為單文本、文檔集合和時序文本數(shù)據(jù)三個類別;從一篇文檔本身來說,又包含詞語、語法和語義三個層級。文檔的這些屬性使文本信息的分析需求更為豐富。例如,在分析新聞報道時,分析的重點是能概括新聞的內(nèi)容。而對于一系列跟蹤報道所構(gòu)成的新聞專題,人們不但關(guān)注每一時間點的具體內(nèi)容,還包括新聞熱點的隨著時間的變化趨勢。針對文本信息和屬性的多樣

        性分析需求,人們提出了很多具有特性的可視化技術(shù)。通常,文本可視化可以分為基于關(guān)鍵詞的文本可視化、基于文本關(guān)系的文本可視化這幾類[1]。

        1)基于關(guān)鍵詞的文本可視化

        當遇到海量文本時,人們需要對整個文本的關(guān)鍵內(nèi)容進行快速概覽,這種場景適合使用基于關(guān)鍵詞的文本可視化。關(guān)鍵詞指的是從原始文本中提取的能反映文本內(nèi)容的側(cè)重點的語義單元。提取文檔中關(guān)鍵詞的原則多種多樣, 其中最常見的方法是使用詞頻來反映文本特征,通常認為單詞的重要性與它在文檔中出現(xiàn)的頻率呈正比。

        2)基于文本關(guān)系的文本可視化

        這種可視化方式的關(guān)注點在于文本內(nèi)部或者文本所在的文本集合的關(guān)聯(lián)信息,包括文檔之間的引用信息、從文檔中提取的結(jié)構(gòu)信息等。常用的手段有樹狀圖和節(jié)點連接的網(wǎng)絡圖。

        本文主要針對基于詞頻統(tǒng)計的文本可視化方法進行了深入研究。

        2 基于詞頻統(tǒng)計的文本可視化

        隨著微博的日趨流行,對微博中用戶行為的統(tǒng)計、分析,和微博內(nèi)容中信息的挖掘等成為了研究的熱點。本文統(tǒng)計了新浪微博中某個賬戶發(fā)布的微博內(nèi)容,希望能通過可視化方法,反映出該賬戶用戶的關(guān)注點信息。

        2.1 可視化設計

        標簽云是常用的基于詞頻統(tǒng)計的可視化方法,也稱為詞云、文字云。標簽一般是獨立的詞匯,常常按字母順序排列,其重要程度又能通過改變字體大小或顏色表現(xiàn),所以標簽云可以靈活地依照字母順序或熱門程度檢索一個標簽。這樣的特性使標簽云適用于展現(xiàn)熱點的話題或者特性,因此選取標簽云作為用戶微博內(nèi)容的呈現(xiàn)方式。

        文本可視化系統(tǒng)通常涵蓋了三個步驟[2],本文工作也按照這個步驟進行:

        1)挖掘文本中的特征信息;

        這個階段需要進行信息收集和數(shù)據(jù)預處理,然后針對可視化的目的和需求,通過各種數(shù)據(jù)處理的手段提取出文本中的特征信息。

        2)可視化設計和呈現(xiàn);

        針對提取的特征信息,用適合的可視化表達方式,通過圖形設計和計算機編碼等手段進行可視化實現(xiàn)。

        3)用戶與信息圖的交互。

        2.2 文本信息提取

        標簽云展示的是文本中出現(xiàn)頻率高的詞語。在文本信息提取過程中,需要通過對原始文本進行關(guān)鍵詞抽取、歸一化處理等操作,提取出帶有權(quán)重的單詞。

        常用衡量詞頻和權(quán)重計算方法有很多種,如布爾權(quán)重法、熵函數(shù)和TF-IDF權(quán)重法。其中最常用的是TF-IDF權(quán)重法,該方法算法相對簡單、并有較高的準確度和召回率,所以一直受到相關(guān)研究人員和眾多應用領(lǐng)域的青睞。

        TF-IDF方法由Salton等人提出[3],它的基本思想是,具有較高權(quán)重的單詞,應該在該篇文檔中出現(xiàn)次數(shù)較多(TF),而在其他文檔中出現(xiàn)次數(shù)和范圍都較?。↖DF)。計算單詞權(quán)重的公式為:

        weighti,j=tfi,j*idfi=tfi,j*log(N/nj) (1)

        在上式中,tfi,j是指特征項tj在文檔中出現(xiàn)的次數(shù);idfi是指出現(xiàn)特征項tj的文檔的數(shù)量的倒數(shù)。N表示總文檔數(shù)量,nj指出現(xiàn)特征項tj的文檔數(shù)。

        本文采用TF-IDF權(quán)重法進行關(guān)鍵詞提取,由于只在當前文檔中選取,所以不需要逆向文件頻率(IDF)文本語料庫。對收集了某微博賬號一個月發(fā)布的微博之后,對其發(fā)布的微博內(nèi)容提取的部分結(jié)果如下:

        表1 關(guān)鍵詞提取結(jié)果Tab.1 The result of keyword extraction

        為了方便進一步地展示,需要對權(quán)重值進行歸一化處理,使最終的權(quán)重分布在0到1之間,選取的歸一化公式為:

        其中,wi代表某個詞語的原本權(quán)重值,min代表所有詞語的權(quán)重值中的最小值,max代表所有詞語的全種植中的最大值,wi′代表進行歸一化之后的結(jié)果。

        完成文本信息提取之后,需要進行圖元布局的設計和實現(xiàn)。

        2.3 標簽云布局算法的實現(xiàn)

        目前,已經(jīng)有一些算法和項目對標簽云的布局算法進行了實現(xiàn),其中最為出名的是Jonathan Feinberg的Wordle[4]。在這個項目用Java Applet實

        現(xiàn)了很好的標簽云布局效果。雖然Wordle在布局實現(xiàn)上已經(jīng)非常成熟,但是該項目仍有一些缺陷:首先,它不支持中文作為輸入,這讓它的使用場景有了很大限制;其次,它把布局結(jié)果生成了一張圖片,無法進行交互,很大程度影響了用戶體驗。

        為了提高交互性,同時兼顧跨平臺性,本文基于SVG(Scalable Vector Graphic)技術(shù),實現(xiàn)了標簽云的布局算法。SVG是基于擴展標記語言XML的一種二維矢量圖格式。由W3C組織于2000年正式發(fā)布[5]。相對于其他的圖形格式,如PNG、GIF、JPEG等,SVG有卓越的優(yōu)勢:

        1. 可收縮性。SVG作為一種矢量圖格式,與柵格化格式的圖像相比,圖形可以按照任意尺寸縮放而保存本來的清晰度。

        2. 交互性強。由于SVG完全支持DOM(文檔對象模型),因此SVG中的圖形對象完全可以通過腳本語言,比如JavaScript來接受外部事件的監(jiān)聽和處理(如鼠標點擊,鼠標懸停等動作),以實現(xiàn)自身或?qū)ζ渌麍D形對象的控制。

        3. 跨平臺性良好。SVG并非僅僅是一種圖像格式,由于它是一種基于XML的描述語言,意味著它完全繼承了XML語言的跨平臺性和可擴展性。因此,SVG可以很好地跨平臺工作,該標準一經(jīng)推出立刻得到了包括Apple,Autodesk,IBM,Google,Microsoft,Netscape, Sun在內(nèi)各大公司的實現(xiàn)和支持。

        選用SVG作為圖形繪制格式后,在標簽云的實現(xiàn)上,需要重點考慮單詞的尺寸、顏色、布局,以及用戶的交互。通常來說,標簽云把單詞按照頻度或者權(quán)重遞減的順序進行排列,頻度或者權(quán)重與單詞顯示的尺寸呈正比。常用的標簽云布局有水平排列布局,而為了效果更加美觀,在一些設計中標簽云形成不同的外形。為了效果美觀,也能通過編程實現(xiàn),本文將單詞沿著螺旋形狀的路徑布局。其布局算法步驟為:

        1. 獲取輸入的詞語列表,該列表是按照詞語的權(quán)重進行排序的,每個詞語包括內(nèi)容和權(quán)重兩個屬性。

        2. 從權(quán)重最大的一個詞語開始遍歷列表,對于列表中的每一個詞語,首先根據(jù)詞語本身長度和權(quán)重值計算出詞語的尺寸。

        3. 在螺旋路徑的某一個位置上,試圖將詞語放置上去。

        4. 檢測當前詞語是否與已經(jīng)放置的詞語發(fā)生了碰撞。

        5. 如果沒有發(fā)生碰撞,那么這個單詞放置的位置是合理的,完成當前單詞的放置,繼續(xù)放置下一個單詞;如果發(fā)生碰撞,則返回第3步,重新放置當前的單詞。

        整個流程如圖1所示。在這個算法中,影響算法復雜度和效率的關(guān)鍵部分在于碰撞檢測,也可以說是重疊檢測。如果每次檢測都遍歷所有單詞,那么復雜度為O(n2),效率過低。為了提高二維空間中碰撞檢測的算法速度,四叉樹被廣泛應用[6]。四叉樹是一種常用的數(shù)據(jù)結(jié)構(gòu),可用于描述二維空間。在進行兩個物體的碰撞檢測時,其基本思想是先把空間用橫豎兩條坐標軸等分成4象限,一個物體通常只在其中的某個象限,如果兩個物體所在的象限不同,那么確定不發(fā)生碰撞;如果檢查到所處象限相同,則把這個象限再往下分割成4個子象限。使用四叉樹算法可以讓碰撞檢測的時間復雜度從O(n2)提高到O(nlogn)。

        圖1 布局算法流程圖Fig.1 The flow chart of layout algorithm

        圖2 文本可視化結(jié)果Fig.2 The result of Text Visaulization

        3 文本可視化實現(xiàn)效果

        圖2展示了基于詞頻統(tǒng)計的文本可視化最終實現(xiàn)效果,可以看到單詞在平面上的布局均勻、美觀,并且很少有重疊的單詞。在關(guān)鍵詞提取過程中擁有

        較大權(quán)重的關(guān)鍵詞的尺寸更大,不同關(guān)鍵詞的重要性在標簽云中一目了然。鼠標懸停在單詞上時,右側(cè)展示出跟這個單詞相關(guān)聯(lián)的微博,具有很好的交互性。

        4 結(jié)束語

        文本可視化是可視化的熱點研究內(nèi)容,它利用文本處理技術(shù)和計算機圖像的技術(shù),把文本中的信息用圖形的形式展現(xiàn)給用戶,幫助用戶理解這些信息。

        本文首先介紹了文本可視化的相關(guān)理論知識。然后著重介紹了基于詞頻統(tǒng)計的文本可視化的實現(xiàn),并以用戶微博數(shù)據(jù)為基礎(chǔ),進行了信息提取、圖元布局設計和布局實現(xiàn)。最終的實現(xiàn)效果良好。

        [1] 劉芳. 信息可視化技術(shù)及應用研究[D]. 浙江大學, 2013. LIU F. Study of Information Visualization[D]. Zhejiang University, 2013.

        [2] 唐家渝, 劉知遠, 孫茂松等. 文本可視化研究綜述[J]. 計算機輔助設計與圖形學學報, 2013, 25(3): 273-285. TANG J Y, LIU Z Y, SUN M S, et al. A Survey of Text Visualization[J]. Journal of Computer—Aided Design 8L Computer Graphics, 2013, 25(3): 273-285.

        [3] 施聰鶯, 徐朝軍, 楊曉江等. TFIDF算法研究綜述[J]. 計算機應用, 2009, 29(z1): 167-170, 180. SHI C Y, XU C J, YANG X J, et al. Study of TFIDF algorithm[J]. Journal of Computer Applications, 2009, 29(z1): 167-170, 180.

        [4] FERNANDA B V,MARTIN W, JONATHAN F, et al.Participatory Visualization with Wordle[J]. IEEE transactions on visualization and computer graphics, 2009, 15(6): 1137-1144.

        [5] KIM E, HUANG X, TAN G, et al. Markup SVG—An Online Content-Aware Image Abstraction and Annotation Tool[J]. IEEE transactions on multimedia, 2011, 13(5): 993-1006.

        [6] 關(guān)振群, 宋超, 顧元憲等. 有限元網(wǎng)格生成方法研究的新進展[J]. 計算機輔助設計與圖形學學報, 2003, 15(1): 1-14. GUAN Z Q, SONG C, GU Y X, et al. Recent Advances of Research on Finite Element Mesh Generation Methods[J]. Journal of Computer-Aided Design & Computer Graphics, 2003, 15(1): 1-14.

        The Realization of Text Visualization Based on Word Frequency Statistics

        ZHU Qiao
        (State Key Laboratory of networking and switching, Beijing University of Posts and Telecommunications, Beijing 100876, China)

        Along with the emergence of massive text, the problem of information overload and the slow speed of information extraction prompted the emergence of text visualization. By analyzing the text, extracting the information and presenting it in a graphical way, text visualization provides an effective way to extract the key information of a text. After introduce the concept and importance of text visualization, emphatically expounds the realization of text visualization based on word frequency statistics. A micro-blog account’s data is chosen as the source data. First, use the TF-IDF algorithm for keyword extraction, and get keywords with weight. Then, realize the text layout algorithm based on SVG and quad-tree algorithm. The visual effect is good, and it can fully and directly reflect the account’s interests.【Key words】: Text visualization; Word frequency statistics; Quad-tree algorithm; TF-IDF

        TP391

        A

        10.3969/j.issn.1003-6970.2016.11.025

        朱巧(1992-),女,碩士研究生,主要研究方向為數(shù)據(jù)可視化。

        猜你喜歡
        詞頻文檔可視化
        基于CiteSpace的足三里穴研究可視化分析
        基于詞頻分析法的社區(qū)公園歸屬感營建要素研究
        園林科技(2021年3期)2022-01-19 03:17:48
        基于Power BI的油田注水運行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        有人一聲不吭向你扔了個文檔
        基于CGAL和OpenGL的海底地形三維可視化
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        基于RI碼計算的Word復制文檔鑒別
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        詞頻,一部隱秘的歷史
        云存儲中支持詞頻和用戶喜好的密文模糊檢索
        国产探花在线精品一区二区| 一区二区三区在线观看人妖| 2017天天爽夜夜爽精品视频| 久久精品国产一区二区涩涩| 一区二区视频在线国产| 久久国产精品偷任你爽任你| 久久精品国产久精国产| 国产在视频线精品视频www666| 日本草逼视频免费观看| 手机久草视频福利在线观看| 天天躁夜夜躁狠狠躁2021| 精品久久综合亚洲伊人| 国产日韩欧美911在线观看| 亚洲午夜久久久精品国产| 中文字幕一区二区三区亚洲| 欧美乱妇高清无乱码免费| 日本成本人三级在线观看| 日韩亚洲中文图片小说| 中国黄色偷拍视频二区| 久久精品国产99久久无毒不卡| 久久久久久人妻一区精品| 精品国产乱码久久久软件下载 | 亚洲饱满人妻视频| 亚洲免费视频一区二区三区| 九一免费一区二区三区偷拍视频| 国产午夜鲁丝片av无码| 亚洲中文字幕无码二区在线| 亚洲综合新区一区二区| 久久综合九色综合97婷婷| 国产又色又爽无遮挡免费软件| 国产亚洲av片在线观看18女人| 欧美亚洲国产精品久久久久| 久久99免费精品国产| 国产a∨天天免费观看美女| 99精品欧美一区二区三区| 自拍欧美日韩| 国产内射视频免费观看| 中文字幕av熟女中文av| 精品人妻大屁股白浆无码| 亚洲精品国偷拍自产在线观看蜜臀 | 日本一区二区国产精品|