亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于中文文本的可視化技術(shù)研究

        2014-03-12 05:17:20陶彩霞
        電信科學(xué) 2014年4期
        關(guān)鍵詞:可視化標(biāo)簽文本

        袁 海,陳 康,陶彩霞,陳 翀

        (1.中國電信股份有限公司江蘇分公司 南京 210037;2.中國電信股份有限公司廣東研究院 廣州 510630)

        1 引言

        最近幾年,隨著博客、社交網(wǎng)絡(luò)等互聯(lián)網(wǎng)產(chǎn)品的興起,海量信息不斷涌現(xiàn),從這些信息中提取、分析、發(fā)現(xiàn)重要信息的方法也日新月異。這些技術(shù)中,文本可視化技術(shù)是發(fā)展比較快的一種。諸如傳統(tǒng)的書籍、論文,最近的Web文本、微博博文等,其內(nèi)容都是以文本為載體的,而文本可視化則是根據(jù)這些文本的內(nèi)容,挖掘、提煉出有用的信息,并且以帶有交互功能的圖形、圖表等形式展示給用戶,并不是將大批量、大段的文字簡單地返回。文本可視化已經(jīng)滲透到計(jì)算機(jī)以外的各個(gè)學(xué)科,如科學(xué)、藝術(shù)、社會學(xué)等,屬于一個(gè)多樣化、邊緣化的技術(shù)。在討論文本可視化分析的內(nèi)容時(shí),前人按照不同的研究給出了不同的分類結(jié)果,參考文獻(xiàn)[1]給出了文本可視化研究的如下3個(gè)層次:

        ·基于詞頻統(tǒng)計(jì)的文本可視化;

        ·基于聚類算法的文本可視化;

        ·基于語義的文本可視化。

        文本可視化所要做的工作不僅是將文字轉(zhuǎn)換成幾個(gè)圖形、圖表,更大的作用在于發(fā)現(xiàn)一篇文檔內(nèi)容的結(jié)構(gòu)、主題和隱含的特征,或者發(fā)現(xiàn)一系列文檔中存在的關(guān)系、模型等。同時(shí)以簡潔、有交互性的圖形展示給使用者,即將枯燥的信息與數(shù)據(jù)轉(zhuǎn)換成美麗的、能給人深刻印象并且有意義的圖形。只有將數(shù)據(jù)和信息用圖形和圖像表示出來,才能展現(xiàn)隱藏的知識。而文本可視化能夠加快數(shù)據(jù)處理的速度,使結(jié)構(gòu)化、非結(jié)構(gòu)化的數(shù)據(jù)得以充分利用;可以在人、數(shù)據(jù)之間建立通信,從而直觀觀察數(shù)據(jù)中隱含的規(guī)律、熱點(diǎn),為發(fā)現(xiàn)定律提供有力的工具;可以實(shí)現(xiàn)對計(jì)算和編程過程的引導(dǎo)和控制,通過交互手段改變呈現(xiàn)結(jié)構(gòu)和效果,并觀察和比較其影響。

        2 文本可視化的方法與相關(guān)工具

        文本可視化分析技術(shù)的研究方向有基于文本內(nèi)容、基于文本關(guān)系、基于多層面信息以及對于文本流的可視化分析。根據(jù)文本可視化的設(shè)計(jì)方案和不同的應(yīng)用目的,文本可視化可以分為以下幾類:基于詞匯的可視化、基于篇章的可視化、基于時(shí)間序列的可視化和基于主題領(lǐng)域的可視化。本文的可視化研究主要是對中文文本內(nèi)容進(jìn)行研究。

        一般來說,文本可視化可以包括以下幾個(gè)過程:信息收集、預(yù)處理、知識表示、視覺呈現(xiàn)和交互等。其中,信息收集是文本可視化的資料收集階段,是許多數(shù)據(jù)可視化必備的;而預(yù)處理則是對文本進(jìn)行的各種操作,包括分詞、去停用詞、提取關(guān)鍵詞等自然語言處理;知識表示則是根據(jù)要求將文字組織成某種形式的過程;視覺呈現(xiàn)則是選擇適合的圖形或圖表將可視化文本呈現(xiàn)出來的過程,需要考慮的因素包括文本的數(shù)量、元素和效果等;交互則是指人機(jī)交互,添加用戶對數(shù)據(jù)圖形的操作,實(shí)現(xiàn)互動、動態(tài)展示,是最近研究文本可視化的熱點(diǎn)。

        文本預(yù)處理過程是一個(gè)自然語言處理的過程,其文本分析關(guān)鍵技術(shù)包括分詞、命名實(shí)體識別、關(guān)鍵詞抽取、主題分析以及情感分析等。其中,分詞是很重要的一環(huán),分詞的準(zhǔn)確率會對后面的分析的正確性產(chǎn)生很大的影響。相對于英文的分詞,中文的分詞難度大很多,因?yàn)橹形牡淖植]有像英文那樣用空格分開每個(gè)單詞,這也是造成中文分詞困難的最大原因。然而隨著技術(shù)的成熟,中文分詞取得了很大的成功。目前,在中文分詞方面,做得比較好的分詞器有NLPIR漢語分詞系統(tǒng)[2]、哈爾濱工業(yè)大學(xué)語言技術(shù)平臺[3]、斯坦福大學(xué)的自然語言處理套件[4]、復(fù)旦大學(xué)的分詞器(FudanNLP)[5],這幾個(gè)分詞器都有很高的準(zhǔn)確率和速度,而且功能齊全,被許多機(jī)構(gòu)、學(xué)校以及企業(yè)使用。

        在分詞后,最直接的文本可視化就是基于詞匯的可視化,可以分為3種:基于命名實(shí)體的可視化、基于詞頻的可視化和基于詞匯分布的可視化。命名實(shí)體是指一些關(guān)鍵的人名、地名、術(shù)語等詞語,這些詞語一般具有特殊的含義和特定的關(guān)系,因此將這些詞語進(jìn)行可視化能夠了解一篇文檔的主語關(guān)系;文本可視化工具Contexter[6]就是一個(gè)將命名實(shí)體可視化的自動化軟件;基于詞頻的可視化是在統(tǒng)計(jì)文本詞語的出現(xiàn)頻次后,根據(jù)詞頻賦予每個(gè)詞語不同的權(quán)重,并在前端將這些詞語重新排列展示。其中,最常用的詞頻計(jì)算方法是TFIDF[7],而最常用的可視化形式是標(biāo)簽云(或稱為詞云)[8],文本可視化軟件WordLe是其中廣泛采用的代表之一[9]。基于詞匯分布的可視化,是反映詞匯在文本中的分布情況,通常是將整文按段落、章節(jié)等劃分文本,能夠使用戶查詢詞語以及詞間的關(guān)系。在這方面Tilebars[10]就是反映詞匯分布的可視化軟件。此外,還有許多技術(shù)或軟件用于對詞匯的可視化,如結(jié)合主題特征的Topic Islands[11]、添加時(shí)間維度的Theme River[12]、動態(tài)變化的Meme Tracker[13]以及主題分類的NewsMap[14]等。

        對單篇文本進(jìn)行可視化的另一種方法是基于文本關(guān)系的可視化,也可以稱為基于篇章內(nèi)容的文本可視化?;谄?,即更多的是關(guān)注、發(fā)現(xiàn)文章中特定的語義關(guān)系,展示文章的主題和核心內(nèi)容,呈現(xiàn)文章脈絡(luò)和閱讀線索。這類可視化一般是將文本通過特征分析后再展示,特征分析的方法有很多,如主成分分析、多維尺度分析、潛在語義分析以及主題模型。在這方面,常見的可視化軟件或方法有Phrase Net[15]、DocuBurst[16]、WordTree[17]等 。此 外 ,研 究 者 對基于文本外在關(guān)系的可視化研究也有諸多進(jìn)展,主要包括兩方面內(nèi)容:多文本的詞語關(guān)系可視化和文本間引文關(guān)系的可視化。多文本的詞語關(guān)系可視化多用于信息檢索、主題檢測和話題演變等方面,這些技術(shù)可以是傳統(tǒng)的,如分類、聚類,也可以是最近的新技術(shù),如主題模型,其目的都在于挖掘大量文本信息的內(nèi)在關(guān)系、關(guān)鍵主題;文本間引文關(guān)系的可視化,主要是研究文章作者、文章引用或會議等內(nèi)容,以方便理解文獻(xiàn)的發(fā)表情況和研究進(jìn)展。在這方面,主要的展示工具有 FP-Tree[18]、ContexTour[19]和 FacetAtlas[20]等。

        文本的可視化呈現(xiàn)和交互是直接與用戶相關(guān)的環(huán)節(jié)。在可視化呈現(xiàn)時(shí),主要考慮的因素包括圖形的選擇、形狀的選擇、顏色的選擇等。其中,圖形的選擇包括樹狀圖、坐標(biāo)軸、放射狀圖、網(wǎng)絡(luò)圖等;形狀的選擇則包括點(diǎn)的設(shè)計(jì)、邊的設(shè)計(jì),具體有方形、圓形、星形等;顏色的選擇則有千萬種,一般來說只要能夠區(qū)分不同詞語和不同特征就能夠滿足,現(xiàn)實(shí)中偏向于選擇鮮艷的顏色,如紅色、藍(lán)色等。另外,可視化字體的選擇、大小、方位等也很重要。交互功能則是讓用戶參與到可視化展示中,通過需求呈現(xiàn)不同的文本特性。在文本可視化中,主要用到的交互方式包括高亮、縮放、更新、轉(zhuǎn)換、標(biāo)注、分層查看以及焦點(diǎn)加上下文等。

        3 文本可視化技術(shù)應(yīng)用研究

        文本可視化是數(shù)據(jù)可視化的一個(gè)分支,國內(nèi)外有很多成果,特別是技術(shù)發(fā)展以及計(jì)算機(jī)的普及,使得許多互聯(lián)網(wǎng)企業(yè)、運(yùn)營商都想將自己的數(shù)據(jù)可視化,立體地展示給用戶,以獲取更多的用戶支持、廣告投資。但隨著社交方式的變遷,利用舊的可視化方法展示新的數(shù)據(jù)遇到了一些障礙,如數(shù)據(jù)流、動態(tài)數(shù)據(jù)等。同時(shí),由于語言不同,可視化工具的底層設(shè)計(jì)、展示方式也不同,即不同語言的可視化工具不能夠通用,需要研究符合本語言的可視化工具。本文根據(jù)前人的研究,對中文文本進(jìn)行可視化研究,包括工具調(diào)研、設(shè)計(jì)、效果以及評價(jià)等。

        3.1 基于標(biāo)簽云的文本可視化

        標(biāo)簽云也稱為詞云、文字云,是詞頻可視化中最為典型的形式。標(biāo)簽云是關(guān)鍵詞的視覺化描述,用于匯總用戶生成的標(biāo)簽或一個(gè)網(wǎng)站的文字內(nèi)容。標(biāo)簽一般是獨(dú)立的詞匯,常常按字母順序排列,其重要程度又能通過改變字體大小或顏色表現(xiàn),所以標(biāo)簽云可以靈活地依照字母順序或熱門程度檢索一個(gè)標(biāo)簽。大多數(shù)標(biāo)簽本身就是超級鏈接,直接指向與標(biāo)簽相聯(lián)的一系列條目。標(biāo)簽云很適合用來挖掘和展現(xiàn)熱點(diǎn),微博中的話題、用戶標(biāo)簽都很適合用標(biāo)簽云展示。

        標(biāo)簽云按作用的不同可以分為三大類:第1類用于描述網(wǎng)站的每個(gè)獨(dú)立條目,第2類用于描述網(wǎng)站所有條目的標(biāo)簽情況,第3類是將標(biāo)簽作為一個(gè)數(shù)據(jù)項(xiàng)目的工具,用于表示整個(gè)集合中各項(xiàng)目的量。按形式分,可以分為平面型和球面型:平面型即2D型,一般是靜態(tài)的,標(biāo)簽無鏈接;而球面型即3D型,標(biāo)簽是動態(tài)展示的,可以根據(jù)鼠標(biāo)的移動而轉(zhuǎn)動,并能夠點(diǎn)擊打開鏈接或搜索。研究表明,網(wǎng)站采用標(biāo)簽云的好處有:方便信息管理、促進(jìn)協(xié)作分享、增加參與度等。

        標(biāo)簽云的實(shí)現(xiàn)方案有很多,大部分是Web版的,如WordLe[21]、ImageChef[22]、Tagul[23]等。這些工 具不只是簡單地將文字展示出來,更多的是讓用戶參與其中,實(shí)現(xiàn)個(gè)性化展示。例如,對微博的話題熱點(diǎn)進(jìn)行可視化,截取其中最頻繁的150個(gè)詞用WordLe展示,如圖1所示。通過標(biāo)簽云的可視化,看出“官方推薦”這個(gè)詞在這些話題中出現(xiàn)最多,而且人們都在討論“HOT 男人”、“生日”、“YOKA”等話題,而熱點(diǎn)討論的人物包括“華晨宇”、“劉忻”等。

        除了Web端的標(biāo)簽云制作外,一些傳統(tǒng)的工具也可以用來開發(fā)標(biāo)簽云,如R語言。R語言提供“word cloud”分組用于制作標(biāo)簽云,其做法簡單快捷,還可以與軟件集成。如果需要對表1的微博標(biāo)簽按性別展示成標(biāo)簽云,展示的結(jié)果如圖2所示。對比表1和圖2,發(fā)現(xiàn)通過標(biāo)簽云展示數(shù)據(jù)會更直觀且更具可讀性。

        圖1 微博話題的標(biāo)簽云可視化

        表1 微博用戶標(biāo)簽(部分)

        3.2 基于樹圖的文本可視化

        樹圖也稱為樹狀圖、樹形地圖,是人機(jī)界面大師Shneiderman B發(fā)明的資料表示法[24],主要目的是在一張圖內(nèi)一目了然整體狀況,由各個(gè)元件量的大小決定圖示大小,并具有群組功能。簡單而言,樹圖是一種層次數(shù)據(jù)可視化的方法,用一定面積的塊表示數(shù)據(jù)中的個(gè)體,使用空間位置表示個(gè)體之間的關(guān)系,而塊的大小則表示個(gè)體的權(quán)重。樹圖擁有與標(biāo)簽云相似的好處,都能夠讓用戶快捷地對文本中的主題、關(guān)鍵詞有所了解,區(qū)分關(guān)鍵詞作用的大小,并能夠?qū)⑦@些詞語按一定的要求組織起來,有的還能提供交互功能,用戶點(diǎn)擊某層,就能夠?qū)⒃搶拥膬?nèi)容展開,以查看更多、更詳細(xì)的數(shù)據(jù)。

        樹圖的主要研究內(nèi)容一般包括3個(gè)方面:基本布局算法、視覺設(shè)計(jì)、交互設(shè)計(jì)。基本布局算法有遞歸算法、貪心策略算法、由內(nèi)向外布局算法等,這些算法適用于不同的場景,可以展示出不同的效果,如今研究更多的是多層次、多節(jié)點(diǎn)以及有周期性的布局算法。在選擇這些布局算法時(shí),需要考慮到算法的穩(wěn)定性、可讀性、連續(xù)性等性質(zhì)。樹圖的視覺設(shè)計(jì)則是在選定布局算法后,在一些細(xì)節(jié)上進(jìn)行修改,如標(biāo)簽的顏色顯示,文字的大小、字體,還有塊的紋理、投影效果等。樹圖的交互設(shè)計(jì)也是圖形設(shè)計(jì)的重要一環(huán),是提高用戶體驗(yàn)很好的途徑,樹圖的交互方法有改變權(quán)重、改變顏色、切換布局以及焦點(diǎn)上下文等。最近有許多新穎的設(shè)計(jì),如 Maigic Lens[25]、Semantic Zooming[26]等。

        樹圖的圖形選擇有很多,一般是矩形,還有圓形、心形、多角形、球形等,樹圖與柱狀圖結(jié)合還可以組成展示功能更好的可視化模型。用樹圖進(jìn)行文本可視化有很多用途,如展示關(guān)鍵詞、分析包含與邏輯關(guān)系等。用D3[27]樹圖展示的效果如圖3所示,可以看出占用比例大的關(guān)鍵詞。利用經(jīng)典的Treemap布局[28]展示文本的示例如圖4所示,該工具提供多個(gè)布局面板、多種大小、顏色選擇以及交互模塊,還可以雙擊某塊進(jìn)入查看細(xì)節(jié)內(nèi)容,是樹圖展示的不錯(cuò)選擇。

        圖2 根據(jù)性別形成的標(biāo)簽云

        3.3 基于關(guān)聯(lián)的文本可視化

        標(biāo)簽云和樹狀圖都擁有直觀和美觀兩大優(yōu)點(diǎn),但其展現(xiàn)能力也有局限性,如僅對關(guān)鍵詞進(jìn)行離散的展示,丟失了關(guān)鍵詞之間的關(guān)聯(lián)性和文本內(nèi)容的緊湊性,也無法展現(xiàn)文章的主題,因此研究者探索利用其他方法來展示文本的多維度信息,基于Facet Atlas算法的可視化就是其中一種。參考文獻(xiàn)[20]首先將Facet Atlas用于可視化,克服了簡單投影造成的信息丟失,并將投影方法與點(diǎn)線圖相結(jié)合,能夠在同一個(gè)版面表達(dá)數(shù)據(jù)的多維信息,幫助理解文本潛在的關(guān)系。這種方法還可以與文本聚類技術(shù)相結(jié)合,從而分析多文本的主題關(guān)系,并配以豐富的交互方式,傳達(dá)更多的信息。

        FacetAtlas算法是一個(gè)力學(xué)布局算法,其利用力學(xué)原理,令節(jié)點(diǎn)互相排斥或互相吸引,基本思想是將圖看成一個(gè)以鋼環(huán)為頂點(diǎn)、以彈簧為邊的物理系統(tǒng),系統(tǒng)被賦予某個(gè)初始狀態(tài)后,彈簧彈力(引力和斥力)的作用會導(dǎo)致鋼環(huán)運(yùn)動,直到系統(tǒng)總能量減少到最小值時(shí)停止。采用不同的力學(xué)原理會生成不同的布局結(jié)構(gòu),例如,可以用帶電荷粒子的電力模擬節(jié)點(diǎn)的排斥力或用彈簧彈力模擬邊的吸引力。使用ForceAtlas算法的目的是將有聯(lián)系的節(jié)點(diǎn)緊靠在一起,并與其他節(jié)點(diǎn)明顯分隔開,將數(shù)據(jù)形成一個(gè)個(gè)群組。這個(gè)算法的時(shí)間復(fù)雜度比較高,可以在運(yùn)行一段時(shí)間后停止,這時(shí)圖形已基本成型。

        圖3 D3樹圖展示的效果

        圖4 文本的樹圖可視化

        使用FacetAtlas算法對文本進(jìn)行可視化,可以根據(jù)內(nèi)容的不同制造出不同的圖形。一般來說,有對單篇文檔詞語的可視化、對多篇文檔詞語的可視化和對文檔間引文關(guān)系的可視化。如圖5所示,從多篇文本提出人物屬性的可視化,采用FacetAtlas算法將多個(gè)因素轉(zhuǎn)化成節(jié)點(diǎn),并用不同形狀、不同大小、不同顏色的線條連接,從而可以一目了然文章人物的性別、出生年份和愛好。此外,一些集成FacetAtlas的可視化工具還提供了更多的展示功能,如復(fù)雜網(wǎng)絡(luò)分析、群組劃分等[29]。如圖6所示是用CiteSpace軟件分析文獻(xiàn)可視化的例子。CiteSpace[30]是一款可視化文獻(xiàn)分析軟件,能夠顯示一個(gè)學(xué)科或知識域在一定時(shí)期發(fā)展的趨勢與動向,形成若干研究前沿領(lǐng)域的演進(jìn)歷程。該軟件能夠提供很多可視化、交互功能,并支持中文語言展示,是一款主流的文獻(xiàn)可視化工具。

        3.4 基于時(shí)間的文本可視化

        傳統(tǒng)的文本更多的是用統(tǒng)計(jì)的方法展示關(guān)鍵詞、主題詞以及它們的關(guān)聯(lián)、關(guān)系,因此前面介紹的幾乎都是與時(shí)間無關(guān)的方法,然而有很多文本信息是以流的方法保存和組織的,是與時(shí)間有關(guān)的文本,如Twitter熱點(diǎn)話題、搜索引擎的查詢?nèi)罩镜取r(shí)間是文本的一個(gè)重要特性,在文獻(xiàn)的共引中已經(jīng)加入對時(shí)間的分析,即發(fā)表日期,因此研究文本內(nèi)容隨時(shí)間的變化也是文本可視化的重要方向。

        圖5 性別、出生年份與愛好的FacetAtlas可視化

        圖6 CiteSpace文獻(xiàn)共現(xiàn)可視化效果

        添加時(shí)間維度后的文本可視化展示類型有兩種:靜態(tài)展示與動態(tài)展示。文本的靜態(tài)展示,一般是將關(guān)鍵詞按時(shí)間分布,如按順序展示TimeMines[30]、結(jié)合標(biāo)簽云展示SparkClouds[31],還有聚類樹展示[32]、疊式圖展示[33]等;動態(tài)展示文本信息,是指以動畫或具有更新性能的展示方法,研究信息的傳播、流動規(guī)律,如動態(tài)呈現(xiàn)Twitter信息的TwitterScope[34]、TwitterMood[35]。將時(shí)間信息融入文本可視化的研究方向包括:添加時(shí)間軸、添加順序時(shí)間河、添加螺旋形時(shí)間流、與空間信息結(jié)合等。針對文本本身,展示方式又可以分為按主題變化、按內(nèi)容變化、按人物變化等。

        基于時(shí)間的文本可視化也很關(guān)注展示的視覺效果,如使用不同的圖形展示不同的元素、使用不同的顏色標(biāo)注不同的主題、采用不同的塊代表不同的功能。這些展示不僅讓畫面更吸引人,而且增加可讀性,可以清晰地理解文本內(nèi)容的變化。如今,很多可視化工具都集成了多種展示功能,如TimeFlow[36]。TimeFlow能夠以多種形式展現(xiàn)文本內(nèi)容,如按時(shí)間流(timeline)方式、按日期(calendar)方式、按詞頻(bar graph)方式等,而且還提供多種交互功能,能夠讓用戶選擇展示的范圍。TimeFlow按時(shí)間展示關(guān)鍵詞時(shí),觀察界面的關(guān)鍵詞即可以理解文本內(nèi)容的變化,將鼠標(biāo)放在關(guān)鍵詞上即可展示這個(gè)詞語所在的文本名稱。如圖7所示是按時(shí)間查看文本的分布情況,時(shí)間能夠精確到時(shí)分秒,這種展示很適合分析日志文件,如搜索引擎的點(diǎn)擊日志。

        3.5 文本可視化工具的比較

        圖7 按時(shí)間查看文本的分布

        用于文本可視化的工具有很多,每一種工具都有自己的優(yōu)點(diǎn),能夠在某一方面顯式地展現(xiàn)文本的內(nèi)容、結(jié)構(gòu)、關(guān)系,但它們使用的分析技術(shù)、設(shè)計(jì)理念和交互功能又有差異。從多個(gè)角度分析比較幾種工具的應(yīng)用場景,對比結(jié)果見表2。從表2看,標(biāo)簽云的可視化形式適用于展示文本中的一系列關(guān)鍵詞;樹圖由于其形狀特征,能夠用來展示文本主題的層次關(guān)系或主題關(guān)鍵詞;關(guān)聯(lián)關(guān)系則用到點(diǎn)、線,并用網(wǎng)狀的形式表現(xiàn)文本內(nèi)容的關(guān)系;結(jié)合時(shí)間的可視化則是將文本事件的序列進(jìn)展以動態(tài)的形式呈現(xiàn)。這些工具各有各的好處,選擇適應(yīng)的場合能收到事半功倍的效果。

        表2 文本可視化工具的比較

        4 結(jié)束語

        文本可視化是一個(gè)多學(xué)科交叉的研究方向,其集成了文本分析、數(shù)據(jù)挖掘、人機(jī)交互等學(xué)科的理論與方法,還增加了人類心理學(xué)的概念,解決了文本可視化在圖形繪制、圖形展現(xiàn)和數(shù)據(jù)分析方面的眾多問題;同時(shí)能更好地幫助用戶處理日益增長的文本信息。未來可視化分析技術(shù)可改善現(xiàn)有布局算法,以提高實(shí)時(shí)的、大量的數(shù)據(jù)可視化效率,并且綜合運(yùn)用各種人際交互方法,提高展現(xiàn)效果,轉(zhuǎn)化成可規(guī)模化商業(yè)應(yīng)用的能力。本文通過調(diào)研各種中文文本可視化工具,分析各技術(shù)的分析方法、交互性能、使用對象等。

        從這些工作來看,文本可視化研究取得了很豐富的成果,文本可視化技術(shù)已經(jīng)被廣泛使用。同時(shí),隨著情感分析、輿情分析技術(shù)的成熟,可視化技術(shù)將會進(jìn)一步發(fā)展。但也有很多問題需在處理過程中加以考慮,如無縫融合信息可視化和數(shù)據(jù)分析技術(shù),如何更好地處理海量、實(shí)時(shí)分布的互聯(lián)網(wǎng)數(shù)據(jù)信息,這也將是文本可視化下一步的研究工作。有關(guān)社交網(wǎng)絡(luò)的文本挖掘研究正蓬勃發(fā)展中,未來將對現(xiàn)實(shí)世界產(chǎn)生巨大的作用。

        1 Wise J A,Pennock K,Lantrip D,et al.Visualizing the non-visual:spatial analysis and interaction with information from text documents.Proceedings of information visualization,Atlanta,GA,USA,1995:51~58

        2 http://ictclas.nlpir.org/,2014

        3 http://www.ltp-cloud.com/,2014

        4 http://nlp.stanford.edu/software/index.shtml,2014

        5 http://code.google.com/p/fudannlp/,2014

        6 Mladenic M G D.Visualization of news articles.http://ailab.ijs.si/dunja/SiKDD2004/Papers/GrobelnikMladenic-Contexter.pdf,2008

        7 Sebastiani F.Machine learning in automated text categorization.ACM Computer Surveys,2002,34(1):1~47

        8 Viegas F B,Wattenberg M.TIMELINES:tag clouds and the case for vernacular visualization.Interactions,2008,15(4):49~52

        9 Viegas F B, Wattenberg M, Feinberg J. Participatory visualization with word.IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1137~1144

        10 HearstM A.TileBars:visualization of term distribution information in full text information access.Proceedings of the SIGCHI Conference on Human Factors in Computing System,Austin,United States,1995:59~66

        11 MillerM,WongP,Brewster M,etal.TOPICISLANDS-a wavelet-based text visualization system.Proceedings of IEEE Visualization,North Carolina,USA,1998:189~196

        12 Havre S,Hetzler B,Nowell L.Theme River:visualization theme changes over time.Proceedings of IEEE Symposium on Information Visualization,Salt Lake City,UT,USA,2000:115~123

        13 Leskovec J,Backstrom L,Kleinberg J M.Meme tracking and the dynamics of the news cycle.Proceedings of KDD 2009,Paris,France,2009:497~506

        14 http://www.newsmap.jp,2014

        15 Van Ham F,Wattenberg M,Viegas F B.Mapping text with phrase nets.IEEE Transactions on Visualization and Computer Graphics,2009,15(6):1169~1176

        16 Collins C,Carpendale S,Penn G.DocuBurst:visualizing document content using language structure.Computer Graphics Forum,2009,28(3):1039~1046

        17 Wattenberg M,Fernanda B.The word tree,an interactive visual concordance.IEEE Transactions on Visualization and Computer Graphics,2008,14(6):1221~1228

        18 Han J,Pei J,Yin Y,et al.Mining frequent patterns without candidate generation:a frequent-pattern tree approach.Data Mining and Knowledge Discovery,2004,8(1):53~87

        19 Lin Y R,Sun J,Cao N,et al.Contextour:contextual contour visual analysis on dynamic multi-relational clustering.Proceedings of SDM 2010,Columbus,Ohio,2010

        20 Cao N,Sun J,Lin Y R,etal.Facetatlas:multifaceted visualization forrich textcorpora.IEEE Transactions on Visualization Computer Graphic,2010,16(6):1172~1181

        21 http://www.wordle.net/,2014

        22 http://www.imagechef.com/ic/word_mosaic/,2014

        23 http://tagul.com/,2014

        24 http://www.cs.umd.edu/hcil/treemap-history/,2014

        25 Jin L,Banks D C.Tennis Viewer:a browser for competition trees.IEEE Computer Graphics and Applications,1997,17(4):63~65

        26 Shi K,Irani P,Li B.An evaluation of content browsing technique:for hierachica space:filling visualization.Proceedings of IEEE Symposium on Information Visualization,Los Alamitos:IEEE Computer Society Press,2005:81~88

        27 http://d3js.org/,2014

        28 Bederson B B,Shneiderman B,Wattenberg M.Ordered and quantum tree maps:making effective use of 2D space to display hierarchies.ACM Transactions on Graphics(TOG),2002,21(4):833~854

        29 http://gephi.org/,2014

        30 http://cluster.cis.drexel.edu/~cchen/citespace/,2014

        31 Swan J,Jensen D.TimeMines:constructing time lines with statistical models of word usage.http://www.cs.cmu.edu/~dunja/KDDpapers/Swan_TM.pdf,2012

        32 Lee B,Riche N H,Karlson A K,et al.Spark Clouds:visualizing trends in tag clouds.IEEE Transactions on Visualization and Computer Graphics,2010,16(6):1182~1189

        33 Kienreich W,Sabol V,Granitzer M,et al.Infosky:a system for visual exploration of very large,hierarchically structured knowledge spaces.http://www.kde.cs.uni-kassel.de/ws/LLWA03/fgwm/Resources/FGWM03_03_Wolfgang_Kienreich.pdf,2012

        34 Havre S,Hetzler B,Nowell L.ThemeRiver:visualizing theme changes over time.Proceedings ofIEEE Symposium on Information Visualization,Washington DC,IEEE Computer Society Press,2000:115~123

        35 Gensner E R,Hu Y,North S C.Visualizing streaming text data with dynamic maps.http://arxiv.org/abs/1206.3980,2012

        36 https://github.com/FlowingMedia/TimeFlow,2014

        37 Mislove A,Lehmann S,Ahn Y Y,et al.Pulse of the nation:US mood throughout the day inferred from twitter.http://www.infosthetics.com/archives/2010/07/pulse_of_the_nation_us_mood_throughout_the_day_inferred_from_twitter.html,2012

        猜你喜歡
        可視化標(biāo)簽文本
        基于CiteSpace的足三里穴研究可視化分析
        基于Power BI的油田注水運(yùn)行動態(tài)分析與可視化展示
        云南化工(2021年8期)2021-12-21 06:37:54
        基于CGAL和OpenGL的海底地形三維可視化
        在808DA上文本顯示的改善
        “融評”:黨媒評論的可視化創(chuàng)新
        傳媒評論(2019年4期)2019-07-13 05:49:14
        基于doc2vec和TF-IDF的相似文本識別
        電子制作(2018年18期)2018-11-14 01:48:06
        無懼標(biāo)簽 Alfa Romeo Giulia 200HP
        車迷(2018年11期)2018-08-30 03:20:32
        不害怕撕掉標(biāo)簽的人,都活出了真正的漂亮
        海峽姐妹(2018年3期)2018-05-09 08:21:02
        標(biāo)簽化傷害了誰
        文本之中·文本之外·文本之上——童話故事《坐井觀天》的教學(xué)隱喻
        91精品一区国产高清在线gif| 伊人狼人大香线蕉手机视频 | 蜜桃视频免费进入观看| 亚洲妇女无套内射精| 无码国产精品一区二区高潮| 久久亚洲av成人无码国产| 亚洲国产欧美久久香综合| 中文字幕熟女激情50路| 亚洲 日韩 激情 无码 中出| 国产精品18久久久| 国产欧美乱夫不卡无乱码| 亚洲av人片在线观看调教| 一区二区视频中文字幕| 领导边摸边吃奶边做爽在线观看 | 国产小视频在线看不卡| 亚洲av久久久噜噜噜噜| 亚洲人成网站免费播放| 免费在线观看亚洲视频| 久久精品国产av麻豆五月丁| 午夜色大片在线观看| 久久久伊人影院| 亚洲av福利天堂在线观看| 亚洲无av码一区二区三区| 富婆猛男一区二区三区| 国产高清av首播原创麻豆| 免费av在线国模| 亚洲午夜久久久精品国产| 视频区一区二在线观看| 国产情侣一区二区| 亚洲精品午夜无码专区| 久久免费区一区二区三波多野在| 亚洲美女主播一区二区| 在线视频精品少白免费观看| 亚洲女优中文字幕在线观看| 日产无人区一线二线三线乱码蘑菇 | 国产一区二区三区四区五区vm| 国产目拍亚洲精品区一区| 一本大道道久久综合av| 国产二级一片内射视频播放| 国产精品久久国产精麻豆99网站| 亚洲传媒av一区二区三区|