亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

基于中文文本的可視化技術(shù)研究

2014-03-12 05:17:20陶彩霞

電信科學(xué) 2014年4期

袁海，陳康，陶彩霞，陳翀

（1.中國電信股份有限公司江蘇分公司南京 210037；2.中國電信股份有限公司廣東研究院廣州 510630）

1 引言

最近幾年，隨著博客、社交網(wǎng)絡(luò)等互聯(lián)網(wǎng)產(chǎn)品的興起，海量信息不斷涌現(xiàn)，從這些信息中提取、分析、發(fā)現(xiàn)重要信息的方法也日新月異。這些技術(shù)中，文本可視化技術(shù)是發(fā)展比較快的一種。諸如傳統(tǒng)的書籍、論文，最近的Web文本、微博博文等，其內(nèi)容都是以文本為載體的，而文本可視化則是根據(jù)這些文本的內(nèi)容，挖掘、提煉出有用的信息，并且以帶有交互功能的圖形、圖表等形式展示給用戶，并不是將大批量、大段的文字簡單地返回。文本可視化已經(jīng)滲透到計(jì)算機(jī)以外的各個(gè)學(xué)科，如科學(xué)、藝術(shù)、社會學(xué)等，屬于一個(gè)多樣化、邊緣化的技術(shù)。在討論文本可視化分析的內(nèi)容時(shí)，前人按照不同的研究給出了不同的分類結(jié)果，參考文獻(xiàn)[1]給出了文本可視化研究的如下3個(gè)層次:

·基于詞頻統(tǒng)計(jì)的文本可視化；

·基于聚類算法的文本可視化；

·基于語義的文本可視化。

文本可視化所要做的工作不僅是將文字轉(zhuǎn)換成幾個(gè)圖形、圖表，更大的作用在于發(fā)現(xiàn)一篇文檔內(nèi)容的結(jié)構(gòu)、主題和隱含的特征，或者發(fā)現(xiàn)一系列文檔中存在的關(guān)系、模型等。同時(shí)以簡潔、有交互性的圖形展示給使用者，即將枯燥的信息與數(shù)據(jù)轉(zhuǎn)換成美麗的、能給人深刻印象并且有意義的圖形。只有將數(shù)據(jù)和信息用圖形和圖像表示出來，才能展現(xiàn)隱藏的知識。而文本可視化能夠加快數(shù)據(jù)處理的速度，使結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)得以充分利用；可以在人、數(shù)據(jù)之間建立通信，從而直觀觀察數(shù)據(jù)中隱含的規(guī)律、熱點(diǎn)，為發(fā)現(xiàn)定律提供有力的工具；可以實(shí)現(xiàn)對計(jì)算和編程過程的引導(dǎo)和控制，通過交互手段改變呈現(xiàn)結(jié)構(gòu)和效果，并觀察和比較其影響。

2 文本可視化的方法與相關(guān)工具

文本可視化分析技術(shù)的研究方向有基于文本內(nèi)容、基于文本關(guān)系、基于多層面信息以及對于文本流的可視化分析。根據(jù)文本可視化的設(shè)計(jì)方案和不同的應(yīng)用目的，文本可視化可以分為以下幾類:基于詞匯的可視化、基于篇章的可視化、基于時(shí)間序列的可視化和基于主題領(lǐng)域的可視化。本文的可視化研究主要是對中文文本內(nèi)容進(jìn)行研究。

一般來說，文本可視化可以包括以下幾個(gè)過程:信息收集、預(yù)處理、知識表示、視覺呈現(xiàn)和交互等。其中，信息收集是文本可視化的資料收集階段，是許多數(shù)據(jù)可視化必備的；而預(yù)處理則是對文本進(jìn)行的各種操作，包括分詞、去停用詞、提取關(guān)鍵詞等自然語言處理；知識表示則是根據(jù)要求將文字組織成某種形式的過程；視覺呈現(xiàn)則是選擇適合的圖形或圖表將可視化文本呈現(xiàn)出來的過程，需要考慮的因素包括文本的數(shù)量、元素和效果等；交互則是指人機(jī)交互，添加用戶對數(shù)據(jù)圖形的操作，實(shí)現(xiàn)互動、動態(tài)展示，是最近研究文本可視化的熱點(diǎn)。

文本預(yù)處理過程是一個(gè)自然語言處理的過程，其文本分析關(guān)鍵技術(shù)包括分詞、命名實(shí)體識別、關(guān)鍵詞抽取、主題分析以及情感分析等。其中，分詞是很重要的一環(huán)，分詞的準(zhǔn)確率會對后面的分析的正確性產(chǎn)生很大的影響。相對于英文的分詞，中文的分詞難度大很多，因?yàn)橹形牡淖植]有像英文那樣用空格分開每個(gè)單詞，這也是造成中文分詞困難的最大原因。然而隨著技術(shù)的成熟，中文分詞取得了很大的成功。目前，在中文分詞方面，做得比較好的分詞器有NLPIR漢語分詞系統(tǒng)[2]、哈爾濱工業(yè)大學(xué)語言技術(shù)平臺[3]、斯坦福大學(xué)的自然語言處理套件[4]、復(fù)旦大學(xué)的分詞器（FudanNLP）[5]，這幾個(gè)分詞器都有很高的準(zhǔn)確率和速度，而且功能齊全，被許多機(jī)構(gòu)、學(xué)校以及企業(yè)使用。

在分詞后，最直接的文本可視化就是基于詞匯的可視化，可以分為3種:基于命名實(shí)體的可視化、基于詞頻的可視化和基于詞匯分布的可視化。命名實(shí)體是指一些關(guān)鍵的人名、地名、術(shù)語等詞語，這些詞語一般具有特殊的含義和特定的關(guān)系，因此將這些詞語進(jìn)行可視化能夠了解一篇文檔的主語關(guān)系；文本可視化工具Contexter[6]就是一個(gè)將命名實(shí)體可視化的自動化軟件；基于詞頻的可視化是在統(tǒng)計(jì)文本詞語的出現(xiàn)頻次后，根據(jù)詞頻賦予每個(gè)詞語不同的權(quán)重，并在前端將這些詞語重新排列展示。其中，最常用的詞頻計(jì)算方法是TFIDF[7]，而最常用的可視化形式是標(biāo)簽云（或稱為詞云）[8]，文本可視化軟件WordLe是其中廣泛采用的代表之一[9]。基于詞匯分布的可視化，是反映詞匯在文本中的分布情況，通常是將整文按段落、章節(jié)等劃分文本，能夠使用戶查詢詞語以及詞間的關(guān)系。在這方面Tilebars[10]就是反映詞匯分布的可視化軟件。此外，還有許多技術(shù)或軟件用于對詞匯的可視化，如結(jié)合主題特征的Topic Islands[11]、添加時(shí)間維度的Theme River[12]、動態(tài)變化的Meme Tracker[13]以及主題分類的NewsMap[14]等。

對單篇文本進(jìn)行可視化的另一種方法是基于文本關(guān)系的可視化，也可以稱為基于篇章內(nèi)容的文本可視化?；谄?，即更多的是關(guān)注、發(fā)現(xiàn)文章中特定的語義關(guān)系，展示文章的主題和核心內(nèi)容，呈現(xiàn)文章脈絡(luò)和閱讀線索。這類可視化一般是將文本通過特征分析后再展示，特征分析的方法有很多，如主成分分析、多維尺度分析、潛在語義分析以及主題模型。在這方面，常見的可視化軟件或方法有Phrase Net[15]、DocuBurst[16]、WordTree[17]等。此外，研究者對基于文本外在關(guān)系的可視化研究也有諸多進(jìn)展，主要包括兩方面內(nèi)容:多文本的詞語關(guān)系可視化和文本間引文關(guān)系的可視化。多文本的詞語關(guān)系可視化多用于信息檢索、主題檢測和話題演變等方面，這些技術(shù)可以是傳統(tǒng)的，如分類、聚類，也可以是最近的新技術(shù)，如主題模型，其目的都在于挖掘大量文本信息的內(nèi)在關(guān)系、關(guān)鍵主題；文本間引文關(guān)系的可視化，主要是研究文章作者、文章引用或會議等內(nèi)容，以方便理解文獻(xiàn)的發(fā)表情況和研究進(jìn)展。在這方面，主要的展示工具有 FP-Tree[18]、ContexTour[19]和 FacetAtlas[20]等。

文本的可視化呈現(xiàn)和交互是直接與用戶相關(guān)的環(huán)節(jié)。在可視化呈現(xiàn)時(shí)，主要考慮的因素包括圖形的選擇、形狀的選擇、顏色的選擇等。其中，圖形的選擇包括樹狀圖、坐標(biāo)軸、放射狀圖、網(wǎng)絡(luò)圖等；形狀的選擇則包括點(diǎn)的設(shè)計(jì)、邊的設(shè)計(jì)，具體有方形、圓形、星形等；顏色的選擇則有千萬種，一般來說只要能夠區(qū)分不同詞語和不同特征就能夠滿足，現(xiàn)實(shí)中偏向于選擇鮮艷的顏色，如紅色、藍(lán)色等。另外，可視化字體的選擇、大小、方位等也很重要。交互功能則是讓用戶參與到可視化展示中，通過需求呈現(xiàn)不同的文本特性。在文本可視化中，主要用到的交互方式包括高亮、縮放、更新、轉(zhuǎn)換、標(biāo)注、分層查看以及焦點(diǎn)加上下文等。

3 文本可視化技術(shù)應(yīng)用研究

文本可視化是數(shù)據(jù)可視化的一個(gè)分支，國內(nèi)外有很多成果，特別是技術(shù)發(fā)展以及計(jì)算機(jī)的普及，使得許多互聯(lián)網(wǎng)企業(yè)、運(yùn)營商都想將自己的數(shù)據(jù)可視化，立體地展示給用戶，以獲取更多的用戶支持、廣告投資。但隨著社交方式的變遷，利用舊的可視化方法展示新的數(shù)據(jù)遇到了一些障礙，如數(shù)據(jù)流、動態(tài)數(shù)據(jù)等。同時(shí)，由于語言不同，可視化工具的底層設(shè)計(jì)、展示方式也不同，即不同語言的可視化工具不能夠通用，需要研究符合本語言的可視化工具。本文根據(jù)前人的研究，對中文文本進(jìn)行可視化研究，包括工具調(diào)研、設(shè)計(jì)、效果以及評價(jià)等。

3.1 基于標(biāo)簽云的文本可視化

標(biāo)簽云也稱為詞云、文字云，是詞頻可視化中最為典型的形式。標(biāo)簽云是關(guān)鍵詞的視覺化描述，用于匯總用戶生成的標(biāo)簽或一個(gè)網(wǎng)站的文字內(nèi)容。標(biāo)簽一般是獨(dú)立的詞匯，常常按字母順序排列，其重要程度又能通過改變字體大小或顏色表現(xiàn)，所以標(biāo)簽云可以靈活地依照字母順序或熱門程度檢索一個(gè)標(biāo)簽。大多數(shù)標(biāo)簽本身就是超級鏈接，直接指向與標(biāo)簽相聯(lián)的一系列條目。標(biāo)簽云很適合用來挖掘和展現(xiàn)熱點(diǎn)，微博中的話題、用戶標(biāo)簽都很適合用標(biāo)簽云展示。

標(biāo)簽云按作用的不同可以分為三大類:第1類用于描述網(wǎng)站的每個(gè)獨(dú)立條目，第2類用于描述網(wǎng)站所有條目的標(biāo)簽情況，第3類是將標(biāo)簽作為一個(gè)數(shù)據(jù)項(xiàng)目的工具，用于表示整個(gè)集合中各項(xiàng)目的量。按形式分，可以分為平面型和球面型:平面型即2D型，一般是靜態(tài)的，標(biāo)簽無鏈接；而球面型即3D型，標(biāo)簽是動態(tài)展示的，可以根據(jù)鼠標(biāo)的移動而轉(zhuǎn)動，并能夠點(diǎn)擊打開鏈接或搜索。研究表明，網(wǎng)站采用標(biāo)簽云的好處有:方便信息管理、促進(jìn)協(xié)作分享、增加參與度等。

標(biāo)簽云的實(shí)現(xiàn)方案有很多，大部分是Web版的，如WordLe[21]、ImageChef[22]、Tagul[23]等。這些工具不只是簡單地將文字展示出來，更多的是讓用戶參與其中，實(shí)現(xiàn)個(gè)性化展示。例如，對微博的話題熱點(diǎn)進(jìn)行可視化，截取其中最頻繁的150個(gè)詞用WordLe展示，如圖1所示。通過標(biāo)簽云的可視化，看出“官方推薦”這個(gè)詞在這些話題中出現(xiàn)最多，而且人們都在討論“HOT 男人”、“生日”、“YOKA”等話題，而熱點(diǎn)討論的人物包括“華晨宇”、“劉忻”等。

除了Web端的標(biāo)簽云制作外，一些傳統(tǒng)的工具也可以用來開發(fā)標(biāo)簽云，如R語言。R語言提供“word cloud”分組用于制作標(biāo)簽云，其做法簡單快捷，還可以與軟件集成。如果需要對表1的微博標(biāo)簽按性別展示成標(biāo)簽云，展示的結(jié)果如圖2所示。對比表1和圖2，發(fā)現(xiàn)通過標(biāo)簽云展示數(shù)據(jù)會更直觀且更具可讀性。

圖1 微博話題的標(biāo)簽云可視化

表1 微博用戶標(biāo)簽(部分)

3.2 基于樹圖的文本可視化

樹圖也稱為樹狀圖、樹形地圖，是人機(jī)界面大師Shneiderman B發(fā)明的資料表示法[24]，主要目的是在一張圖內(nèi)一目了然整體狀況，由各個(gè)元件量的大小決定圖示大小，并具有群組功能。簡單而言，樹圖是一種層次數(shù)據(jù)可視化的方法，用一定面積的塊表示數(shù)據(jù)中的個(gè)體，使用空間位置表示個(gè)體之間的關(guān)系，而塊的大小則表示個(gè)體的權(quán)重。樹圖擁有與標(biāo)簽云相似的好處，都能夠讓用戶快捷地對文本中的主題、關(guān)鍵詞有所了解，區(qū)分關(guān)鍵詞作用的大小，并能夠?qū)⑦@些詞語按一定的要求組織起來，有的還能提供交互功能，用戶點(diǎn)擊某層，就能夠?qū)⒃搶拥膬?nèi)容展開，以查看更多、更詳細(xì)的數(shù)據(jù)。

樹圖的主要研究內(nèi)容一般包括3個(gè)方面:基本布局算法、視覺設(shè)計(jì)、交互設(shè)計(jì)。基本布局算法有遞歸算法、貪心策略算法、由內(nèi)向外布局算法等，這些算法適用于不同的場景，可以展示出不同的效果，如今研究更多的是多層次、多節(jié)點(diǎn)以及有周期性的布局算法。在選擇這些布局算法時(shí)，需要考慮到算法的穩(wěn)定性、可讀性、連續(xù)性等性質(zhì)。樹圖的視覺設(shè)計(jì)則是在選定布局算法后，在一些細(xì)節(jié)上進(jìn)行修改，如標(biāo)簽的顏色顯示，文字的大小、字體，還有塊的紋理、投影效果等。樹圖的交互設(shè)計(jì)也是圖形設(shè)計(jì)的重要一環(huán)，是提高用戶體驗(yàn)很好的途徑，樹圖的交互方法有改變權(quán)重、改變顏色、切換布局以及焦點(diǎn)上下文等。最近有許多新穎的設(shè)計(jì)，如 Maigic Lens[25]、Semantic Zooming[26]等。

樹圖的圖形選擇有很多，一般是矩形，還有圓形、心形、多角形、球形等，樹圖與柱狀圖結(jié)合還可以組成展示功能更好的可視化模型。用樹圖進(jìn)行文本可視化有很多用途，如展示關(guān)鍵詞、分析包含與邏輯關(guān)系等。用D3[27]樹圖展示的效果如圖3所示，可以看出占用比例大的關(guān)鍵詞。利用經(jīng)典的Treemap布局[28]展示文本的示例如圖4所示，該工具提供多個(gè)布局面板、多種大小、顏色選擇以及交互模塊，還可以雙擊某塊進(jìn)入查看細(xì)節(jié)內(nèi)容，是樹圖展示的不錯(cuò)選擇。

圖2 根據(jù)性別形成的標(biāo)簽云

3.3 基于關(guān)聯(lián)的文本可視化

標(biāo)簽云和樹狀圖都擁有直觀和美觀兩大優(yōu)點(diǎn)，但其展現(xiàn)能力也有局限性，如僅對關(guān)鍵詞進(jìn)行離散的展示，丟失了關(guān)鍵詞之間的關(guān)聯(lián)性和文本內(nèi)容的緊湊性，也無法展現(xiàn)文章的主題，因此研究者探索利用其他方法來展示文本的多維度信息，基于Facet Atlas算法的可視化就是其中一種。參考文獻(xiàn)[20]首先將Facet Atlas用于可視化，克服了簡單投影造成的信息丟失，并將投影方法與點(diǎn)線圖相結(jié)合，能夠在同一個(gè)版面表達(dá)數(shù)據(jù)的多維信息，幫助理解文本潛在的關(guān)系。這種方法還可以與文本聚類技術(shù)相結(jié)合，從而分析多文本的主題關(guān)系，并配以豐富的交互方式，傳達(dá)更多的信息。

FacetAtlas算法是一個(gè)力學(xué)布局算法，其利用力學(xué)原理，令節(jié)點(diǎn)互相排斥或互相吸引，基本思想是將圖看成一個(gè)以鋼環(huán)為頂點(diǎn)、以彈簧為邊的物理系統(tǒng)，系統(tǒng)被賦予某個(gè)初始狀態(tài)后，彈簧彈力（引力和斥力）的作用會導(dǎo)致鋼環(huán)運(yùn)動，直到系統(tǒng)總能量減少到最小值時(shí)停止。采用不同的力學(xué)原理會生成不同的布局結(jié)構(gòu)，例如，可以用帶電荷粒子的電力模擬節(jié)點(diǎn)的排斥力或用彈簧彈力模擬邊的吸引力。使用ForceAtlas算法的目的是將有聯(lián)系的節(jié)點(diǎn)緊靠在一起，并與其他節(jié)點(diǎn)明顯分隔開，將數(shù)據(jù)形成一個(gè)個(gè)群組。這個(gè)算法的時(shí)間復(fù)雜度比較高，可以在運(yùn)行一段時(shí)間后停止，這時(shí)圖形已基本成型。

圖3 D3樹圖展示的效果

圖4 文本的樹圖可視化

使用FacetAtlas算法對文本進(jìn)行可視化，可以根據(jù)內(nèi)容的不同制造出不同的圖形。一般來說，有對單篇文檔詞語的可視化、對多篇文檔詞語的可視化和對文檔間引文關(guān)系的可視化。如圖5所示，從多篇文本提出人物屬性的可視化，采用FacetAtlas算法將多個(gè)因素轉(zhuǎn)化成節(jié)點(diǎn)，并用不同形狀、不同大小、不同顏色的線條連接，從而可以一目了然文章人物的性別、出生年份和愛好。此外，一些集成FacetAtlas的可視化工具還提供了更多的展示功能，如復(fù)雜網(wǎng)絡(luò)分析、群組劃分等[29]。如圖6所示是用CiteSpace軟件分析文獻(xiàn)可視化的例子。CiteSpace[30]是一款可視化文獻(xiàn)分析軟件，能夠顯示一個(gè)學(xué)科或知識域在一定時(shí)期發(fā)展的趨勢與動向，形成若干研究前沿領(lǐng)域的演進(jìn)歷程。該軟件能夠提供很多可視化、交互功能，并支持中文語言展示，是一款主流的文獻(xiàn)可視化工具。

3.4 基于時(shí)間的文本可視化

傳統(tǒng)的文本更多的是用統(tǒng)計(jì)的方法展示關(guān)鍵詞、主題詞以及它們的關(guān)聯(lián)、關(guān)系，因此前面介紹的幾乎都是與時(shí)間無關(guān)的方法，然而有很多文本信息是以流的方法保存和組織的，是與時(shí)間有關(guān)的文本，如Twitter熱點(diǎn)話題、搜索引擎的查詢?nèi)罩镜取r(shí)間是文本的一個(gè)重要特性，在文獻(xiàn)的共引中已經(jīng)加入對時(shí)間的分析，即發(fā)表日期，因此研究文本內(nèi)容隨時(shí)間的變化也是文本可視化的重要方向。

圖5 性別、出生年份與愛好的FacetAtlas可視化

圖6 CiteSpace文獻(xiàn)共現(xiàn)可視化效果

添加時(shí)間維度后的文本可視化展示類型有兩種:靜態(tài)展示與動態(tài)展示。文本的靜態(tài)展示，一般是將關(guān)鍵詞按時(shí)間分布，如按順序展示TimeMines[30]、結(jié)合標(biāo)簽云展示SparkClouds[31]，還有聚類樹展示[32]、疊式圖展示[33]等；動態(tài)展示文本信息，是指以動畫或具有更新性能的展示方法，研究信息的傳播、流動規(guī)律，如動態(tài)呈現(xiàn)Twitter信息的TwitterScope[34]、TwitterMood[35]。將時(shí)間信息融入文本可視化的研究方向包括:添加時(shí)間軸、添加順序時(shí)間河、添加螺旋形時(shí)間流、與空間信息結(jié)合等。針對文本本身，展示方式又可以分為按主題變化、按內(nèi)容變化、按人物變化等。

基于時(shí)間的文本可視化也很關(guān)注展示的視覺效果，如使用不同的圖形展示不同的元素、使用不同的顏色標(biāo)注不同的主題、采用不同的塊代表不同的功能。這些展示不僅讓畫面更吸引人，而且增加可讀性，可以清晰地理解文本內(nèi)容的變化。如今，很多可視化工具都集成了多種展示功能，如TimeFlow[36]。TimeFlow能夠以多種形式展現(xiàn)文本內(nèi)容，如按時(shí)間流（timeline）方式、按日期（calendar）方式、按詞頻（bar graph）方式等，而且還提供多種交互功能，能夠讓用戶選擇展示的范圍。TimeFlow按時(shí)間展示關(guān)鍵詞時(shí)，觀察界面的關(guān)鍵詞即可以理解文本內(nèi)容的變化，將鼠標(biāo)放在關(guān)鍵詞上即可展示這個(gè)詞語所在的文本名稱。如圖7所示是按時(shí)間查看文本的分布情況，時(shí)間能夠精確到時(shí)分秒，這種展示很適合分析日志文件，如搜索引擎的點(diǎn)擊日志。

3.5 文本可視化工具的比較

圖7 按時(shí)間查看文本的分布

用于文本可視化的工具有很多，每一種工具都有自己的優(yōu)點(diǎn)，能夠在某一方面顯式地展現(xiàn)文本的內(nèi)容、結(jié)構(gòu)、關(guān)系，但它們使用的分析技術(shù)、設(shè)計(jì)理念和交互功能又有差異。從多個(gè)角度分析比較幾種工具的應(yīng)用場景，對比結(jié)果見表2。從表2看，標(biāo)簽云的可視化形式適用于展示文本中的一系列關(guān)鍵詞；樹圖由于其形狀特征，能夠用來展示文本主題的層次關(guān)系或主題關(guān)鍵詞；關(guān)聯(lián)關(guān)系則用到點(diǎn)、線，并用網(wǎng)狀的形式表現(xiàn)文本內(nèi)容的關(guān)系；結(jié)合時(shí)間的可視化則是將文本事件的序列進(jìn)展以動態(tài)的形式呈現(xiàn)。這些工具各有各的好處，選擇適應(yīng)的場合能收到事半功倍的效果。

表2 文本可視化工具的比較

4 結(jié)束語

文本可視化是一個(gè)多學(xué)科交叉的研究方向，其集成了文本分析、數(shù)據(jù)挖掘、人機(jī)交互等學(xué)科的理論與方法，還增加了人類心理學(xué)的概念，解決了文本可視化在圖形繪制、圖形展現(xiàn)和數(shù)據(jù)分析方面的眾多問題；同時(shí)能更好地幫助用戶處理日益增長的文本信息。未來可視化分析技術(shù)可改善現(xiàn)有布局算法，以提高實(shí)時(shí)的、大量的數(shù)據(jù)可視化效率，并且綜合運(yùn)用各種人際交互方法，提高展現(xiàn)效果，轉(zhuǎn)化成可規(guī)模化商業(yè)應(yīng)用的能力。本文通過調(diào)研各種中文文本可視化工具，分析各技術(shù)的分析方法、交互性能、使用對象等。

從這些工作來看，文本可視化研究取得了很豐富的成果，文本可視化技術(shù)已經(jīng)被廣泛使用。同時(shí)，隨著情感分析、輿情分析技術(shù)的成熟，可視化技術(shù)將會進(jìn)一步發(fā)展。但也有很多問題需在處理過程中加以考慮，如無縫融合信息可視化和數(shù)據(jù)分析技術(shù)，如何更好地處理海量、實(shí)時(shí)分布的互聯(lián)網(wǎng)數(shù)據(jù)信息，這也將是文本可視化下一步的研究工作。有關(guān)社交網(wǎng)絡(luò)的文本挖掘研究正蓬勃發(fā)展中，未來將對現(xiàn)實(shí)世界產(chǎn)生巨大的作用。

1 Wise J A,Pennock K,Lantrip D,et al.Visualizing the non-visual:spatial analysis and interaction with information from text documents.Proceedings of information visualization,Atlanta,GA,USA,1995:51～58

2 http://ictclas.nlpir.org/,2014

3 http://www.ltp-cloud.com/,2014

4 http://nlp.stanford.edu/software/index.shtml,2014

5 http://code.google.com/p/fudannlp/,2014

6 Mladenic M G D.Visualization of news articles.http://ailab.ijs.si/dunja/SiKDD2004/Papers/GrobelnikMladenic-Contexter.pdf,2008

7 Sebastiani F.Machine learning in automated text categorization.ACM Computer Surveys,2002,34(1):1～47

8 Viegas F B,Wattenberg M.TIMELINES:tag clouds and the case for vernacular visualization.Interactions,2008,15(4):49～52

9 Viegas F B, Wattenberg M, Feinberg J. Participatory visualization with word.IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1137～1144

10 HearstM A.TileBars:visualization of term distribution information in full text information access.Proceedings of the SIGCHI Conference on Human Factors in Computing System,Austin,United States,1995:59～66

11 MillerM,WongP,Brewster M,etal.TOPICISLANDS-a wavelet-based text visualization system.Proceedings of IEEE Visualization,North Carolina,USA,1998:189～196

12 Havre S,Hetzler B,Nowell L.Theme River:visualization theme changes over time.Proceedings of IEEE Symposium on Information Visualization,Salt Lake City,UT,USA,2000:115～123

13 Leskovec J,Backstrom L,Kleinberg J M.Meme tracking and the dynamics of the news cycle.Proceedings of KDD 2009,Paris,France,2009:497～506

14 http://www.newsmap.jp,2014

15 Van Ham F,Wattenberg M,Viegas F B.Mapping text with phrase nets.IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1169～1176

16 Collins C,Carpendale S,Penn G.DocuBurst:visualizing document content using language structure.Computer Graphics Forum,2009,28(3):1039～1046

17 Wattenberg M,Fernanda B.The word tree,an interactive visual concordance.IEEE Transactions on Visualization and Computer Graphics,2008,14(6):1221～1228

18 Han J,Pei J,Yin Y,et al.Mining frequent patterns without candidate generation:a frequent-pattern tree approach.Data Mining and Knowledge Discovery,2004,8(1):53～87

19 Lin Y R,Sun J,Cao N,et al.Contextour:contextual contour visual analysis on dynamic multi-relational clustering.Proceedings of SDM 2010,Columbus,Ohio,2010

20 Cao N,Sun J,Lin Y R,etal.Facetatlas:multifaceted visualization forrich textcorpora.IEEE Transactions on Visualization Computer Graphic,2010,16(6):1172～1181

21 http://www.wordle.net/,2014

22 http://www.imagechef.com/ic/word_mosaic/,2014

23 http://tagul.com/,2014

24 http://www.cs.umd.edu/hcil/treemap-history/,2014

25 Jin L,Banks D C.Tennis Viewer:a browser for competition trees.IEEE Computer Graphics and Applications,1997,17(4):63～65

26 Shi K,Irani P,Li B.An evaluation of content browsing technique:for hierachica space:filling visualization.Proceedings of IEEE Symposium on Information Visualization,Los Alamitos:IEEE Computer Society Press,2005:81～88

27 http://d3js.org/,2014

28 Bederson B B,Shneiderman B,Wattenberg M.Ordered and quantum tree maps:making effective use of 2D space to display hierarchies.ACM Transactions on Graphics(TOG),2002,21(4):833～854

29 http://gephi.org/,2014

30 http://cluster.cis.drexel.edu/～cchen/citespace/,2014

31 Swan J,Jensen D.TimeMines:constructing time lines with statistical models of word usage.http://www.cs.cmu.edu/～dunja/KDDpapers/Swan_TM.pdf,2012

32 Lee B,Riche N H,Karlson A K,et al.Spark Clouds:visualizing trends in tag clouds.IEEE Transactions on Visualization and Computer Graphics,2010,16(6):1182～1189

33 Kienreich W,Sabol V,Granitzer M,et al.Infosky:a system for visual exploration of very large,hierarchically structured knowledge spaces.http://www.kde.cs.uni-kassel.de/ws/LLWA03/fgwm/Resources/FGWM03_03_Wolfgang_Kienreich.pdf,2012

34 Havre S,Hetzler B,Nowell L.ThemeRiver:visualizing theme changes over time.Proceedings ofIEEE Symposium on Information Visualization,Washington DC,IEEE Computer Society Press,2000:115～123

35 Gensner E R,Hu Y,North S C.Visualizing streaming text data with dynamic maps.http://arxiv.org/abs/1206.3980,2012

36 https://github.com/FlowingMedia/TimeFlow,2014

37 Mislove A,Lehmann S,Ahn Y Y,et al.Pulse of the nation:US mood throughout the day inferred from twitter.http://www.infosthetics.com/archives/2010/07/pulse_of_the_nation_us_mood_throughout_the_day_inferred_from_twitter.html,2012