袁 海,陳 康,陶彩霞,陳 翀
(1.中國電信股份有限公司江蘇分公司 南京 210037;2.中國電信股份有限公司廣東研究院 廣州 510630)
最近幾年,隨著博客、社交網(wǎng)絡(luò)等互聯(lián)網(wǎng)產(chǎn)品的興起,海量信息不斷涌現(xiàn),從這些信息中提取、分析、發(fā)現(xiàn)重要信息的方法也日新月異。這些技術(shù)中,文本可視化技術(shù)是發(fā)展比較快的一種。諸如傳統(tǒng)的書籍、論文,最近的Web文本、微博博文等,其內(nèi)容都是以文本為載體的,而文本可視化則是根據(jù)這些文本的內(nèi)容,挖掘、提煉出有用的信息,并且以帶有交互功能的圖形、圖表等形式展示給用戶,并不是將大批量、大段的文字簡單地返回。文本可視化已經(jīng)滲透到計(jì)算機(jī)以外的各個(gè)學(xué)科,如科學(xué)、藝術(shù)、社會學(xué)等,屬于一個(gè)多樣化、邊緣化的技術(shù)。在討論文本可視化分析的內(nèi)容時(shí),前人按照不同的研究給出了不同的分類結(jié)果,參考文獻(xiàn)[1]給出了文本可視化研究的如下3個(gè)層次:
·基于詞頻統(tǒng)計(jì)的文本可視化;
·基于聚類算法的文本可視化;
·基于語義的文本可視化。
文本可視化所要做的工作不僅是將文字轉(zhuǎn)換成幾個(gè)圖形、圖表,更大的作用在于發(fā)現(xiàn)一篇文檔內(nèi)容的結(jié)構(gòu)、主題和隱含的特征,或者發(fā)現(xiàn)一系列文檔中存在的關(guān)系、模型等。同時(shí)以簡潔、有交互性的圖形展示給使用者,即將枯燥的信息與數(shù)據(jù)轉(zhuǎn)換成美麗的、能給人深刻印象并且有意義的圖形。只有將數(shù)據(jù)和信息用圖形和圖像表示出來,才能展現(xiàn)隱藏的知識。而文本可視化能夠加快數(shù)據(jù)處理的速度,使結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)得以充分利用;可以在人、數(shù)據(jù)之間建立通信,從而直觀觀察數(shù)據(jù)中隱含的規(guī)律、熱點(diǎn),為發(fā)現(xiàn)定律提供有力的工具;可以實(shí)現(xiàn)對計(jì)算和編程過程的引導(dǎo)和控制,通過交互手段改變呈現(xiàn)結(jié)構(gòu)和效果,并觀察和比較其影響。
文本可視化分析技術(shù)的研究方向有基于文本內(nèi)容、基于文本關(guān)系、基于多層面信息以及對于文本流的可視化分析。根據(jù)文本可視化的設(shè)計(jì)方案和不同的應(yīng)用目的,文本可視化可以分為以下幾類:基于詞匯的可視化、基于篇章的可視化、基于時(shí)間序列的可視化和基于主題領(lǐng)域的可視化。本文的可視化研究主要是對中文文本內(nèi)容進(jìn)行研究。
一般來說,文本可視化可以包括以下幾個(gè)過程:信息收集、預(yù)處理、知識表示、視覺呈現(xiàn)和交互等。其中,信息收集是文本可視化的資料收集階段,是許多數(shù)據(jù)可視化必備的;而預(yù)處理則是對文本進(jìn)行的各種操作,包括分詞、去停用詞、提取關(guān)鍵詞等自然語言處理;知識表示則是根據(jù)要求將文字組織成某種形式的過程;視覺呈現(xiàn)則是選擇適合的圖形或圖表將可視化文本呈現(xiàn)出來的過程,需要考慮的因素包括文本的數(shù)量、元素和效果等;交互則是指人機(jī)交互,添加用戶對數(shù)據(jù)圖形的操作,實(shí)現(xiàn)互動、動態(tài)展示,是最近研究文本可視化的熱點(diǎn)。
文本預(yù)處理過程是一個(gè)自然語言處理的過程,其文本分析關(guān)鍵技術(shù)包括分詞、命名實(shí)體識別、關(guān)鍵詞抽取、主題分析以及情感分析等。其中,分詞是很重要的一環(huán),分詞的準(zhǔn)確率會對后面的分析的正確性產(chǎn)生很大的影響。相對于英文的分詞,中文的分詞難度大很多,因?yàn)橹形牡淖植]有像英文那樣用空格分開每個(gè)單詞,這也是造成中文分詞困難的最大原因。然而隨著技術(shù)的成熟,中文分詞取得了很大的成功。目前,在中文分詞方面,做得比較好的分詞器有NLPIR漢語分詞系統(tǒng)[2]、哈爾濱工業(yè)大學(xué)語言技術(shù)平臺[3]、斯坦福大學(xué)的自然語言處理套件[4]、復(fù)旦大學(xué)的分詞器(FudanNLP)[5],這幾個(gè)分詞器都有很高的準(zhǔn)確率和速度,而且功能齊全,被許多機(jī)構(gòu)、學(xué)校以及企業(yè)使用。
在分詞后,最直接的文本可視化就是基于詞匯的可視化,可以分為3種:基于命名實(shí)體的可視化、基于詞頻的可視化和基于詞匯分布的可視化。命名實(shí)體是指一些關(guān)鍵的人名、地名、術(shù)語等詞語,這些詞語一般具有特殊的含義和特定的關(guān)系,因此將這些詞語進(jìn)行可視化能夠了解一篇文檔的主語關(guān)系;文本可視化工具Contexter[6]就是一個(gè)將命名實(shí)體可視化的自動化軟件;基于詞頻的可視化是在統(tǒng)計(jì)文本詞語的出現(xiàn)頻次后,根據(jù)詞頻賦予每個(gè)詞語不同的權(quán)重,并在前端將這些詞語重新排列展示。其中,最常用的詞頻計(jì)算方法是TFIDF[7],而最常用的可視化形式是標(biāo)簽云(或稱為詞云)[8],文本可視化軟件WordLe是其中廣泛采用的代表之一[9]。基于詞匯分布的可視化,是反映詞匯在文本中的分布情況,通常是將整文按段落、章節(jié)等劃分文本,能夠使用戶查詢詞語以及詞間的關(guān)系。在這方面Tilebars[10]就是反映詞匯分布的可視化軟件。此外,還有許多技術(shù)或軟件用于對詞匯的可視化,如結(jié)合主題特征的Topic Islands[11]、添加時(shí)間維度的Theme River[12]、動態(tài)變化的Meme Tracker[13]以及主題分類的NewsMap[14]等。
對單篇文本進(jìn)行可視化的另一種方法是基于文本關(guān)系的可視化,也可以稱為基于篇章內(nèi)容的文本可視化?;谄?,即更多的是關(guān)注、發(fā)現(xiàn)文章中特定的語義關(guān)系,展示文章的主題和核心內(nèi)容,呈現(xiàn)文章脈絡(luò)和閱讀線索。這類可視化一般是將文本通過特征分析后再展示,特征分析的方法有很多,如主成分分析、多維尺度分析、潛在語義分析以及主題模型。在這方面,常見的可視化軟件或方法有Phrase Net[15]、DocuBurst[16]、WordTree[17]等 。此 外 ,研 究 者 對基于文本外在關(guān)系的可視化研究也有諸多進(jìn)展,主要包括兩方面內(nèi)容:多文本的詞語關(guān)系可視化和文本間引文關(guān)系的可視化。多文本的詞語關(guān)系可視化多用于信息檢索、主題檢測和話題演變等方面,這些技術(shù)可以是傳統(tǒng)的,如分類、聚類,也可以是最近的新技術(shù),如主題模型,其目的都在于挖掘大量文本信息的內(nèi)在關(guān)系、關(guān)鍵主題;文本間引文關(guān)系的可視化,主要是研究文章作者、文章引用或會議等內(nèi)容,以方便理解文獻(xiàn)的發(fā)表情況和研究進(jìn)展。在這方面,主要的展示工具有 FP-Tree[18]、ContexTour[19]和 FacetAtlas[20]等。
文本的可視化呈現(xiàn)和交互是直接與用戶相關(guān)的環(huán)節(jié)。在可視化呈現(xiàn)時(shí),主要考慮的因素包括圖形的選擇、形狀的選擇、顏色的選擇等。其中,圖形的選擇包括樹狀圖、坐標(biāo)軸、放射狀圖、網(wǎng)絡(luò)圖等;形狀的選擇則包括點(diǎn)的設(shè)計(jì)、邊的設(shè)計(jì),具體有方形、圓形、星形等;顏色的選擇則有千萬種,一般來說只要能夠區(qū)分不同詞語和不同特征就能夠滿足,現(xiàn)實(shí)中偏向于選擇鮮艷的顏色,如紅色、藍(lán)色等。另外,可視化字體的選擇、大小、方位等也很重要。交互功能則是讓用戶參與到可視化展示中,通過需求呈現(xiàn)不同的文本特性。在文本可視化中,主要用到的交互方式包括高亮、縮放、更新、轉(zhuǎn)換、標(biāo)注、分層查看以及焦點(diǎn)加上下文等。
文本可視化是數(shù)據(jù)可視化的一個(gè)分支,國內(nèi)外有很多成果,特別是技術(shù)發(fā)展以及計(jì)算機(jī)的普及,使得許多互聯(lián)網(wǎng)企業(yè)、運(yùn)營商都想將自己的數(shù)據(jù)可視化,立體地展示給用戶,以獲取更多的用戶支持、廣告投資。但隨著社交方式的變遷,利用舊的可視化方法展示新的數(shù)據(jù)遇到了一些障礙,如數(shù)據(jù)流、動態(tài)數(shù)據(jù)等。同時(shí),由于語言不同,可視化工具的底層設(shè)計(jì)、展示方式也不同,即不同語言的可視化工具不能夠通用,需要研究符合本語言的可視化工具。本文根據(jù)前人的研究,對中文文本進(jìn)行可視化研究,包括工具調(diào)研、設(shè)計(jì)、效果以及評價(jià)等。
標(biāo)簽云也稱為詞云、文字云,是詞頻可視化中最為典型的形式。標(biāo)簽云是關(guān)鍵詞的視覺化描述,用于匯總用戶生成的標(biāo)簽或一個(gè)網(wǎng)站的文字內(nèi)容。標(biāo)簽一般是獨(dú)立的詞匯,常常按字母順序排列,其重要程度又能通過改變字體大小或顏色表現(xiàn),所以標(biāo)簽云可以靈活地依照字母順序或熱門程度檢索一個(gè)標(biāo)簽。大多數(shù)標(biāo)簽本身就是超級鏈接,直接指向與標(biāo)簽相聯(lián)的一系列條目。標(biāo)簽云很適合用來挖掘和展現(xiàn)熱點(diǎn),微博中的話題、用戶標(biāo)簽都很適合用標(biāo)簽云展示。
標(biāo)簽云按作用的不同可以分為三大類:第1類用于描述網(wǎng)站的每個(gè)獨(dú)立條目,第2類用于描述網(wǎng)站所有條目的標(biāo)簽情況,第3類是將標(biāo)簽作為一個(gè)數(shù)據(jù)項(xiàng)目的工具,用于表示整個(gè)集合中各項(xiàng)目的量。按形式分,可以分為平面型和球面型:平面型即2D型,一般是靜態(tài)的,標(biāo)簽無鏈接;而球面型即3D型,標(biāo)簽是動態(tài)展示的,可以根據(jù)鼠標(biāo)的移動而轉(zhuǎn)動,并能夠點(diǎn)擊打開鏈接或搜索。研究表明,網(wǎng)站采用標(biāo)簽云的好處有:方便信息管理、促進(jìn)協(xié)作分享、增加參與度等。
標(biāo)簽云的實(shí)現(xiàn)方案有很多,大部分是Web版的,如WordLe[21]、ImageChef[22]、Tagul[23]等。這些工 具不只是簡單地將文字展示出來,更多的是讓用戶參與其中,實(shí)現(xiàn)個(gè)性化展示。例如,對微博的話題熱點(diǎn)進(jìn)行可視化,截取其中最頻繁的150個(gè)詞用WordLe展示,如圖1所示。通過標(biāo)簽云的可視化,看出“官方推薦”這個(gè)詞在這些話題中出現(xiàn)最多,而且人們都在討論“HOT 男人”、“生日”、“YOKA”等話題,而熱點(diǎn)討論的人物包括“華晨宇”、“劉忻”等。
除了Web端的標(biāo)簽云制作外,一些傳統(tǒng)的工具也可以用來開發(fā)標(biāo)簽云,如R語言。R語言提供“word cloud”分組用于制作標(biāo)簽云,其做法簡單快捷,還可以與軟件集成。如果需要對表1的微博標(biāo)簽按性別展示成標(biāo)簽云,展示的結(jié)果如圖2所示。對比表1和圖2,發(fā)現(xiàn)通過標(biāo)簽云展示數(shù)據(jù)會更直觀且更具可讀性。
圖1 微博話題的標(biāo)簽云可視化
表1 微博用戶標(biāo)簽(部分)
樹圖也稱為樹狀圖、樹形地圖,是人機(jī)界面大師Shneiderman B發(fā)明的資料表示法[24],主要目的是在一張圖內(nèi)一目了然整體狀況,由各個(gè)元件量的大小決定圖示大小,并具有群組功能。簡單而言,樹圖是一種層次數(shù)據(jù)可視化的方法,用一定面積的塊表示數(shù)據(jù)中的個(gè)體,使用空間位置表示個(gè)體之間的關(guān)系,而塊的大小則表示個(gè)體的權(quán)重。樹圖擁有與標(biāo)簽云相似的好處,都能夠讓用戶快捷地對文本中的主題、關(guān)鍵詞有所了解,區(qū)分關(guān)鍵詞作用的大小,并能夠?qū)⑦@些詞語按一定的要求組織起來,有的還能提供交互功能,用戶點(diǎn)擊某層,就能夠?qū)⒃搶拥膬?nèi)容展開,以查看更多、更詳細(xì)的數(shù)據(jù)。
樹圖的主要研究內(nèi)容一般包括3個(gè)方面:基本布局算法、視覺設(shè)計(jì)、交互設(shè)計(jì)。基本布局算法有遞歸算法、貪心策略算法、由內(nèi)向外布局算法等,這些算法適用于不同的場景,可以展示出不同的效果,如今研究更多的是多層次、多節(jié)點(diǎn)以及有周期性的布局算法。在選擇這些布局算法時(shí),需要考慮到算法的穩(wěn)定性、可讀性、連續(xù)性等性質(zhì)。樹圖的視覺設(shè)計(jì)則是在選定布局算法后,在一些細(xì)節(jié)上進(jìn)行修改,如標(biāo)簽的顏色顯示,文字的大小、字體,還有塊的紋理、投影效果等。樹圖的交互設(shè)計(jì)也是圖形設(shè)計(jì)的重要一環(huán),是提高用戶體驗(yàn)很好的途徑,樹圖的交互方法有改變權(quán)重、改變顏色、切換布局以及焦點(diǎn)上下文等。最近有許多新穎的設(shè)計(jì),如 Maigic Lens[25]、Semantic Zooming[26]等。
樹圖的圖形選擇有很多,一般是矩形,還有圓形、心形、多角形、球形等,樹圖與柱狀圖結(jié)合還可以組成展示功能更好的可視化模型。用樹圖進(jìn)行文本可視化有很多用途,如展示關(guān)鍵詞、分析包含與邏輯關(guān)系等。用D3[27]樹圖展示的效果如圖3所示,可以看出占用比例大的關(guān)鍵詞。利用經(jīng)典的Treemap布局[28]展示文本的示例如圖4所示,該工具提供多個(gè)布局面板、多種大小、顏色選擇以及交互模塊,還可以雙擊某塊進(jìn)入查看細(xì)節(jié)內(nèi)容,是樹圖展示的不錯(cuò)選擇。
圖2 根據(jù)性別形成的標(biāo)簽云
標(biāo)簽云和樹狀圖都擁有直觀和美觀兩大優(yōu)點(diǎn),但其展現(xiàn)能力也有局限性,如僅對關(guān)鍵詞進(jìn)行離散的展示,丟失了關(guān)鍵詞之間的關(guān)聯(lián)性和文本內(nèi)容的緊湊性,也無法展現(xiàn)文章的主題,因此研究者探索利用其他方法來展示文本的多維度信息,基于Facet Atlas算法的可視化就是其中一種。參考文獻(xiàn)[20]首先將Facet Atlas用于可視化,克服了簡單投影造成的信息丟失,并將投影方法與點(diǎn)線圖相結(jié)合,能夠在同一個(gè)版面表達(dá)數(shù)據(jù)的多維信息,幫助理解文本潛在的關(guān)系。這種方法還可以與文本聚類技術(shù)相結(jié)合,從而分析多文本的主題關(guān)系,并配以豐富的交互方式,傳達(dá)更多的信息。
FacetAtlas算法是一個(gè)力學(xué)布局算法,其利用力學(xué)原理,令節(jié)點(diǎn)互相排斥或互相吸引,基本思想是將圖看成一個(gè)以鋼環(huán)為頂點(diǎn)、以彈簧為邊的物理系統(tǒng),系統(tǒng)被賦予某個(gè)初始狀態(tài)后,彈簧彈力(引力和斥力)的作用會導(dǎo)致鋼環(huán)運(yùn)動,直到系統(tǒng)總能量減少到最小值時(shí)停止。采用不同的力學(xué)原理會生成不同的布局結(jié)構(gòu),例如,可以用帶電荷粒子的電力模擬節(jié)點(diǎn)的排斥力或用彈簧彈力模擬邊的吸引力。使用ForceAtlas算法的目的是將有聯(lián)系的節(jié)點(diǎn)緊靠在一起,并與其他節(jié)點(diǎn)明顯分隔開,將數(shù)據(jù)形成一個(gè)個(gè)群組。這個(gè)算法的時(shí)間復(fù)雜度比較高,可以在運(yùn)行一段時(shí)間后停止,這時(shí)圖形已基本成型。
圖3 D3樹圖展示的效果
圖4 文本的樹圖可視化
使用FacetAtlas算法對文本進(jìn)行可視化,可以根據(jù)內(nèi)容的不同制造出不同的圖形。一般來說,有對單篇文檔詞語的可視化、對多篇文檔詞語的可視化和對文檔間引文關(guān)系的可視化。如圖5所示,從多篇文本提出人物屬性的可視化,采用FacetAtlas算法將多個(gè)因素轉(zhuǎn)化成節(jié)點(diǎn),并用不同形狀、不同大小、不同顏色的線條連接,從而可以一目了然文章人物的性別、出生年份和愛好。此外,一些集成FacetAtlas的可視化工具還提供了更多的展示功能,如復(fù)雜網(wǎng)絡(luò)分析、群組劃分等[29]。如圖6所示是用CiteSpace軟件分析文獻(xiàn)可視化的例子。CiteSpace[30]是一款可視化文獻(xiàn)分析軟件,能夠顯示一個(gè)學(xué)科或知識域在一定時(shí)期發(fā)展的趨勢與動向,形成若干研究前沿領(lǐng)域的演進(jìn)歷程。該軟件能夠提供很多可視化、交互功能,并支持中文語言展示,是一款主流的文獻(xiàn)可視化工具。
傳統(tǒng)的文本更多的是用統(tǒng)計(jì)的方法展示關(guān)鍵詞、主題詞以及它們的關(guān)聯(lián)、關(guān)系,因此前面介紹的幾乎都是與時(shí)間無關(guān)的方法,然而有很多文本信息是以流的方法保存和組織的,是與時(shí)間有關(guān)的文本,如Twitter熱點(diǎn)話題、搜索引擎的查詢?nèi)罩镜取r(shí)間是文本的一個(gè)重要特性,在文獻(xiàn)的共引中已經(jīng)加入對時(shí)間的分析,即發(fā)表日期,因此研究文本內(nèi)容隨時(shí)間的變化也是文本可視化的重要方向。
圖5 性別、出生年份與愛好的FacetAtlas可視化
圖6 CiteSpace文獻(xiàn)共現(xiàn)可視化效果
添加時(shí)間維度后的文本可視化展示類型有兩種:靜態(tài)展示與動態(tài)展示。文本的靜態(tài)展示,一般是將關(guān)鍵詞按時(shí)間分布,如按順序展示TimeMines[30]、結(jié)合標(biāo)簽云展示SparkClouds[31],還有聚類樹展示[32]、疊式圖展示[33]等;動態(tài)展示文本信息,是指以動畫或具有更新性能的展示方法,研究信息的傳播、流動規(guī)律,如動態(tài)呈現(xiàn)Twitter信息的TwitterScope[34]、TwitterMood[35]。將時(shí)間信息融入文本可視化的研究方向包括:添加時(shí)間軸、添加順序時(shí)間河、添加螺旋形時(shí)間流、與空間信息結(jié)合等。針對文本本身,展示方式又可以分為按主題變化、按內(nèi)容變化、按人物變化等。
基于時(shí)間的文本可視化也很關(guān)注展示的視覺效果,如使用不同的圖形展示不同的元素、使用不同的顏色標(biāo)注不同的主題、采用不同的塊代表不同的功能。這些展示不僅讓畫面更吸引人,而且增加可讀性,可以清晰地理解文本內(nèi)容的變化。如今,很多可視化工具都集成了多種展示功能,如TimeFlow[36]。TimeFlow能夠以多種形式展現(xiàn)文本內(nèi)容,如按時(shí)間流(timeline)方式、按日期(calendar)方式、按詞頻(bar graph)方式等,而且還提供多種交互功能,能夠讓用戶選擇展示的范圍。TimeFlow按時(shí)間展示關(guān)鍵詞時(shí),觀察界面的關(guān)鍵詞即可以理解文本內(nèi)容的變化,將鼠標(biāo)放在關(guān)鍵詞上即可展示這個(gè)詞語所在的文本名稱。如圖7所示是按時(shí)間查看文本的分布情況,時(shí)間能夠精確到時(shí)分秒,這種展示很適合分析日志文件,如搜索引擎的點(diǎn)擊日志。
圖7 按時(shí)間查看文本的分布
用于文本可視化的工具有很多,每一種工具都有自己的優(yōu)點(diǎn),能夠在某一方面顯式地展現(xiàn)文本的內(nèi)容、結(jié)構(gòu)、關(guān)系,但它們使用的分析技術(shù)、設(shè)計(jì)理念和交互功能又有差異。從多個(gè)角度分析比較幾種工具的應(yīng)用場景,對比結(jié)果見表2。從表2看,標(biāo)簽云的可視化形式適用于展示文本中的一系列關(guān)鍵詞;樹圖由于其形狀特征,能夠用來展示文本主題的層次關(guān)系或主題關(guān)鍵詞;關(guān)聯(lián)關(guān)系則用到點(diǎn)、線,并用網(wǎng)狀的形式表現(xiàn)文本內(nèi)容的關(guān)系;結(jié)合時(shí)間的可視化則是將文本事件的序列進(jìn)展以動態(tài)的形式呈現(xiàn)。這些工具各有各的好處,選擇適應(yīng)的場合能收到事半功倍的效果。
表2 文本可視化工具的比較
文本可視化是一個(gè)多學(xué)科交叉的研究方向,其集成了文本分析、數(shù)據(jù)挖掘、人機(jī)交互等學(xué)科的理論與方法,還增加了人類心理學(xué)的概念,解決了文本可視化在圖形繪制、圖形展現(xiàn)和數(shù)據(jù)分析方面的眾多問題;同時(shí)能更好地幫助用戶處理日益增長的文本信息。未來可視化分析技術(shù)可改善現(xiàn)有布局算法,以提高實(shí)時(shí)的、大量的數(shù)據(jù)可視化效率,并且綜合運(yùn)用各種人際交互方法,提高展現(xiàn)效果,轉(zhuǎn)化成可規(guī)模化商業(yè)應(yīng)用的能力。本文通過調(diào)研各種中文文本可視化工具,分析各技術(shù)的分析方法、交互性能、使用對象等。
從這些工作來看,文本可視化研究取得了很豐富的成果,文本可視化技術(shù)已經(jīng)被廣泛使用。同時(shí),隨著情感分析、輿情分析技術(shù)的成熟,可視化技術(shù)將會進(jìn)一步發(fā)展。但也有很多問題需在處理過程中加以考慮,如無縫融合信息可視化和數(shù)據(jù)分析技術(shù),如何更好地處理海量、實(shí)時(shí)分布的互聯(lián)網(wǎng)數(shù)據(jù)信息,這也將是文本可視化下一步的研究工作。有關(guān)社交網(wǎng)絡(luò)的文本挖掘研究正蓬勃發(fā)展中,未來將對現(xiàn)實(shí)世界產(chǎn)生巨大的作用。
1 Wise J A,Pennock K,Lantrip D,et al.Visualizing the non-visual:spatial analysis and interaction with information from text documents.Proceedings of information visualization,Atlanta,GA,USA,1995:51~58
2 http://ictclas.nlpir.org/,2014
3 http://www.ltp-cloud.com/,2014
4 http://nlp.stanford.edu/software/index.shtml,2014
5 http://code.google.com/p/fudannlp/,2014
6 Mladenic M G D.Visualization of news articles.http://ailab.ijs.si/dunja/SiKDD2004/Papers/GrobelnikMladenic-Contexter.pdf,2008
7 Sebastiani F.Machine learning in automated text categorization.ACM Computer Surveys,2002,34(1):1~47
8 Viegas F B,Wattenberg M.TIMELINES:tag clouds and the case for vernacular visualization.Interactions,2008,15(4):49~52
9 Viegas F B, Wattenberg M, Feinberg J. Participatory visualization with word.IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1137~1144
10 HearstM A.TileBars:visualization of term distribution information in full text information access.Proceedings of the SIGCHI Conference on Human Factors in Computing System,Austin,United States,1995:59~66
11 MillerM,WongP,Brewster M,etal.TOPICISLANDS-a wavelet-based text visualization system.Proceedings of IEEE Visualization,North Carolina,USA,1998:189~196
12 Havre S,Hetzler B,Nowell L.Theme River:visualization theme changes over time.Proceedings of IEEE Symposium on Information Visualization,Salt Lake City,UT,USA,2000:115~123
13 Leskovec J,Backstrom L,Kleinberg J M.Meme tracking and the dynamics of the news cycle.Proceedings of KDD 2009,Paris,France,2009:497~506
14 http://www.newsmap.jp,2014
15 Van Ham F,Wattenberg M,Viegas F B.Mapping text with phrase nets.IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1169~1176
16 Collins C,Carpendale S,Penn G.DocuBurst:visualizing document content using language structure.Computer Graphics Forum,2009,28(3):1039~1046
17 Wattenberg M,Fernanda B.The word tree,an interactive visual concordance.IEEE Transactions on Visualization and Computer Graphics,2008,14(6):1221~1228
18 Han J,Pei J,Yin Y,et al.Mining frequent patterns without candidate generation:a frequent-pattern tree approach.Data Mining and Knowledge Discovery,2004,8(1):53~87
19 Lin Y R,Sun J,Cao N,et al.Contextour:contextual contour visual analysis on dynamic multi-relational clustering.Proceedings of SDM 2010,Columbus,Ohio,2010
20 Cao N,Sun J,Lin Y R,etal.Facetatlas:multifaceted visualization forrich textcorpora.IEEE Transactions on Visualization Computer Graphic,2010,16(6):1172~1181
21 http://www.wordle.net/,2014
22 http://www.imagechef.com/ic/word_mosaic/,2014
23 http://tagul.com/,2014
24 http://www.cs.umd.edu/hcil/treemap-history/,2014
25 Jin L,Banks D C.Tennis Viewer:a browser for competition trees.IEEE Computer Graphics and Applications,1997,17(4):63~65
26 Shi K,Irani P,Li B.An evaluation of content browsing technique:for hierachica space:filling visualization.Proceedings of IEEE Symposium on Information Visualization,Los Alamitos:IEEE Computer Society Press,2005:81~88
27 http://d3js.org/,2014
28 Bederson B B,Shneiderman B,Wattenberg M.Ordered and quantum tree maps:making effective use of 2D space to display hierarchies.ACM Transactions on Graphics(TOG),2002,21(4):833~854
29 http://gephi.org/,2014
30 http://cluster.cis.drexel.edu/~cchen/citespace/,2014
31 Swan J,Jensen D.TimeMines:constructing time lines with statistical models of word usage.http://www.cs.cmu.edu/~dunja/KDDpapers/Swan_TM.pdf,2012
32 Lee B,Riche N H,Karlson A K,et al.Spark Clouds:visualizing trends in tag clouds.IEEE Transactions on Visualization and Computer Graphics,2010,16(6):1182~1189
33 Kienreich W,Sabol V,Granitzer M,et al.Infosky:a system for visual exploration of very large,hierarchically structured knowledge spaces.http://www.kde.cs.uni-kassel.de/ws/LLWA03/fgwm/Resources/FGWM03_03_Wolfgang_Kienreich.pdf,2012
34 Havre S,Hetzler B,Nowell L.ThemeRiver:visualizing theme changes over time.Proceedings ofIEEE Symposium on Information Visualization,Washington DC,IEEE Computer Society Press,2000:115~123
35 Gensner E R,Hu Y,North S C.Visualizing streaming text data with dynamic maps.http://arxiv.org/abs/1206.3980,2012
36 https://github.com/FlowingMedia/TimeFlow,2014
37 Mislove A,Lehmann S,Ahn Y Y,et al.Pulse of the nation:US mood throughout the day inferred from twitter.http://www.infosthetics.com/archives/2010/07/pulse_of_the_nation_us_mood_throughout_the_day_inferred_from_twitter.html,2012