亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        面向網(wǎng)絡(luò)輿情分析系統(tǒng)的本體應(yīng)用

        2014-04-01 06:20:50劉戰(zhàn)東
        關(guān)鍵詞:本體文檔輿情

        李 勇,劉戰(zhàn)東

        (新疆師范大學(xué)網(wǎng)絡(luò)信息安全與輿情分析重點(diǎn)實(shí)驗(yàn)室,新疆烏魯木齊830054)

        隨著互聯(lián)網(wǎng)的廣泛使用,網(wǎng)絡(luò)媒體作為一種新的信息傳播形式,已深入人們的日常生活。通過(guò)網(wǎng)絡(luò)來(lái)表達(dá)觀(guān)點(diǎn)、傳播思想,進(jìn)而產(chǎn)生巨大的輿論壓力,達(dá)到任何部門(mén)、機(jī)構(gòu)都無(wú)法忽視的地步。網(wǎng)絡(luò)輿情是指通過(guò)互聯(lián)網(wǎng)傳播的公眾對(duì)現(xiàn)實(shí)生活中某些熱點(diǎn)、焦點(diǎn)問(wèn)題所持的有較強(qiáng)影響力、傾向性的言論和觀(guān)點(diǎn),主要通過(guò)論壇、微博、新聞跟貼、轉(zhuǎn)貼等實(shí)現(xiàn)并加以強(qiáng)化。網(wǎng)絡(luò)輿情形成迅速,對(duì)社會(huì)影響巨大,加強(qiáng)互聯(lián)網(wǎng)信息監(jiān)管的同時(shí),組織力量開(kāi)展信息匯集整理和分析,對(duì)于及時(shí)應(yīng)對(duì)網(wǎng)絡(luò)突發(fā)的公共事件和全面掌握社情民意很有意義,已經(jīng)成為國(guó)家和政府了解疏導(dǎo)民意的重要手段[1]。

        網(wǎng)絡(luò)輿情分析系統(tǒng)是針對(duì)一定的社會(huì)空間內(nèi),圍繞中介性社會(huì)事件的發(fā)生、發(fā)展和變化,將民眾對(duì)社會(huì)管理者產(chǎn)生和持有的社會(huì)政治態(tài)度于網(wǎng)絡(luò)上表達(dá)出來(lái)的意愿集合,并進(jìn)行計(jì)算機(jī)分析的系統(tǒng)統(tǒng)稱(chēng)。網(wǎng)絡(luò)輿情分析系統(tǒng)一般包括熱點(diǎn)、敏感話(huà)題識(shí)別、輿情主題跟蹤、自動(dòng)摘要、輿情趨勢(shì)分析、突發(fā)事件分析和輿情報(bào)警等功能[2]。

        目前國(guó)內(nèi)已經(jīng)有市場(chǎng)化的網(wǎng)絡(luò)輿情分析系統(tǒng)產(chǎn)品,如方正智思輿情預(yù)警輔助決策支持系統(tǒng)、谷尼互聯(lián)網(wǎng)輿情監(jiān)控系統(tǒng)等。但現(xiàn)有的輿情分析系統(tǒng)在采集、檢索和分析模塊中基本都是采用基于統(tǒng)計(jì)和關(guān)鍵詞的方法,沒(méi)有充分考慮詞語(yǔ)間的語(yǔ)義信息,忽略了語(yǔ)義理解,會(huì)造成網(wǎng)絡(luò)文本語(yǔ)義信息的損失,導(dǎo)致結(jié)果的不精確[3]。

        近幾年,隨著語(yǔ)義網(wǎng)和本體技術(shù)的發(fā)展,本體概念被廣泛應(yīng)用到計(jì)算機(jī)領(lǐng)域特別是人工智能和知識(shí)工程研究中。本體的結(jié)構(gòu)可以定義為一個(gè)5元組O={C,R,F(xiàn),I,A},其中 C 是類(lèi)或概念的集合,R 是關(guān)系的集合,F(xiàn)是函數(shù),表示該關(guān)系的前n-1個(gè)元素可以惟一確定第n個(gè)元素,I是實(shí)例,A表示本體公理。本體的目標(biāo)是捕獲相關(guān)領(lǐng)域知識(shí)的共同理解,在不同層次的形式化模式上給出特定知識(shí)領(lǐng)域內(nèi)各種對(duì)象、對(duì)象特性以及對(duì)象之間可能存在的關(guān)系。采用統(tǒng)一本體中的概念和術(shù)語(yǔ)描述知識(shí),可以使人機(jī)之間以及機(jī)器之間的交流被準(zhǔn)確描述和解釋?zhuān)欣谥R(shí)交換和共享。目前,本體已經(jīng)被廣泛應(yīng)用于語(yǔ)義Web、智能信息檢索、自然語(yǔ)言處理、數(shù)字圖書(shū)館等領(lǐng)域[4]。

        網(wǎng)絡(luò)輿情分析的目的是要從海量、動(dòng)態(tài)、交互的網(wǎng)絡(luò)信息中及時(shí)識(shí)別、發(fā)現(xiàn)輿情,它既與自然語(yǔ)言處理技術(shù)密切相關(guān),也與信息組織和信息分析技術(shù)相聯(lián)系。借助領(lǐng)域本體對(duì)整個(gè)輿情分析過(guò)程進(jìn)行指導(dǎo),通過(guò)本體對(duì)領(lǐng)域信息進(jìn)行結(jié)構(gòu)上的預(yù)處理,使數(shù)據(jù)具有語(yǔ)義的內(nèi)涵,實(shí)現(xiàn)語(yǔ)義層次的處理,可以提高輿情分析的效果。網(wǎng)絡(luò)輿情分析的核心技術(shù)是網(wǎng)絡(luò)文本語(yǔ)義標(biāo)注和挖掘等技術(shù),目前國(guó)內(nèi)外一些學(xué)者對(duì)這些技術(shù)的研究已經(jīng)取得了不錯(cuò)的成果,但把這些研究成果與技術(shù)進(jìn)行集成應(yīng)用在網(wǎng)絡(luò)輿情分析領(lǐng)域的研究較少。

        1 基于本體的網(wǎng)絡(luò)輿情分析系統(tǒng)設(shè)計(jì)

        1.1 基于本體的網(wǎng)絡(luò)輿情分析基本流程

        基于本體的網(wǎng)絡(luò)輿情分析基本流程是:(1)在領(lǐng)域?qū)<业闹笇?dǎo)下構(gòu)建輿情分析本體庫(kù);(2)對(duì)獲取的網(wǎng)絡(luò)資源利用本體進(jìn)行語(yǔ)義標(biāo)注,提取Web文本內(nèi)容語(yǔ)義特征庫(kù);(3)對(duì)用戶(hù)的查詢(xún)?cè)~進(jìn)行基于本體的語(yǔ)義空間的擴(kuò)展;(4)在本體的指導(dǎo)下對(duì)提取的Web內(nèi)容語(yǔ)義特征庫(kù)進(jìn)行輿情分析,并將分析結(jié)果返回給用戶(hù)。

        1.2 系統(tǒng)功能分析及設(shè)計(jì)

        依據(jù)上述流程分析,基于本體的網(wǎng)絡(luò)輿情分析系統(tǒng)主要包括Web內(nèi)容獲取子系統(tǒng)、Web內(nèi)容語(yǔ)義標(biāo)注子系統(tǒng)、Web內(nèi)容輿情分析子系統(tǒng)和用戶(hù)交互子系統(tǒng)(圖1)。

        圖1 基于本體的網(wǎng)絡(luò)輿情分析系統(tǒng)結(jié)構(gòu)Fig.1 Architecture of online public opinion analysis system based on ontology

        Web內(nèi)容獲取子系統(tǒng)的主要任務(wù)是通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲取相關(guān)網(wǎng)頁(yè)內(nèi)容,對(duì)其進(jìn)行分句、分詞、詞性標(biāo)注、詞匯過(guò)濾,將預(yù)處理結(jié)果存儲(chǔ)到數(shù)據(jù)庫(kù)中,為基于本體的語(yǔ)義標(biāo)注做準(zhǔn)備。

        在Web文本內(nèi)容語(yǔ)義標(biāo)注子系統(tǒng)中利用本體把所獲取的文本內(nèi)容表示成帶語(yǔ)義的信息,使得計(jì)算機(jī)可以直接處理。語(yǔ)義標(biāo)注的目的是建立文檔與領(lǐng)域本體的映射關(guān)系,通過(guò)預(yù)處理的文本都是非結(jié)構(gòu)化文本,系統(tǒng)直接采用本體指導(dǎo)Web內(nèi)容的語(yǔ)義標(biāo)注,通過(guò)提取文檔的特征詞,建立特征詞與本體概念的映射。

        Web輿情分析子系統(tǒng)是核心,結(jié)合實(shí)際應(yīng)用,在本系統(tǒng)中主要涉及敏感話(huà)題識(shí)別、輿情主題跟蹤、輿情趨勢(shì)分析等關(guān)鍵功能。Web輿情分析實(shí)現(xiàn)的關(guān)鍵技術(shù)是Web內(nèi)容挖掘,涉及到數(shù)據(jù)挖掘中的分類(lèi)、聚類(lèi)、關(guān)聯(lián)預(yù)測(cè)等核心技術(shù)。

        用戶(hù)交互子系統(tǒng)主要實(shí)現(xiàn)用戶(hù)和整個(gè)系統(tǒng)的交互功能。在系統(tǒng)中引入用戶(hù)查詢(xún)?cè)~擴(kuò)展技術(shù),構(gòu)造基于本體的查詢(xún)?cè)~語(yǔ)義空間,可以最大限度地提高系統(tǒng)的查全率和查準(zhǔn)率。

        2 系統(tǒng)實(shí)現(xiàn)中本體技術(shù)的應(yīng)用

        2.1 網(wǎng)絡(luò)輿情領(lǐng)域本體庫(kù)構(gòu)建

        領(lǐng)域?qū)<以诒倔w構(gòu)建方法學(xué)的指導(dǎo)下,構(gòu)建網(wǎng)絡(luò)輿情領(lǐng)域本體庫(kù)。Tom Gruber給出了設(shè)計(jì)本體的基本準(zhǔn)則:(1)明確性和客觀(guān)性,本體應(yīng)該有效地傳達(dá)所定義的術(shù)語(yǔ)內(nèi)涵;(2)一致性,即由本體推斷出來(lái)的概念定義應(yīng)該與本體中的概念定義一致;(3)可擴(kuò)展性,指本體提供的共享詞匯集,應(yīng)該在不改變?cè)x的前提下能夠單調(diào)地進(jìn)行擴(kuò)展;(4)最小編碼偏差,本體應(yīng)該處于知識(shí)的層次,而與特定的符號(hào)級(jí)編碼無(wú)關(guān);(5)最小本體承諾,一個(gè)本體在提供必須的共享知識(shí)條件下,要求有最小的本體承諾。

        本體建立的方法目前沒(méi)有統(tǒng)一的標(biāo)準(zhǔn),一般都是參考軟件工程的方法。參考常用的本體開(kāi)發(fā)方法后,在本系統(tǒng)中采用的本體建立方法如下:(1)確定輿情分析本體應(yīng)用的目的和范圍;(2)進(jìn)行本體概念和關(guān)系的初步選取;(3)形式化表示及評(píng)價(jià);(4)建立本體。

        由于領(lǐng)域知識(shí)龐大而復(fù)雜,不可能對(duì)其進(jìn)行全面建模,在實(shí)際系統(tǒng)中應(yīng)緊貼特定主題輿情分析的需要,選擇相關(guān)的領(lǐng)域建立領(lǐng)域本體庫(kù)[5]。如在分析騰訊與360客戶(hù)端“二選一”互聯(lián)網(wǎng)熱點(diǎn)事件時(shí)建立的領(lǐng)域本體示意圖(圖2)。

        圖2 騰訊與360客戶(hù)端“二選一”事件領(lǐng)域本體示意圖Fig.2 Domain ontology of Tencent& 360 event

        建立好的本體庫(kù)在網(wǎng)絡(luò)輿情分析系統(tǒng)中處于核心位置,為Web內(nèi)容語(yǔ)義標(biāo)注、輿情分析等提供基礎(chǔ)。構(gòu)造本體時(shí)是以 OWL來(lái)進(jìn)行描述的,在對(duì)Web內(nèi)容進(jìn)行語(yǔ)義標(biāo)注和基于語(yǔ)義的輿情分析過(guò)程中會(huì)頻繁地訪(fǎng)問(wèn)本體中的概念、實(shí)例、屬性及各種關(guān)系,所以需要將本體存入數(shù)據(jù)庫(kù),以實(shí)現(xiàn)對(duì)本體的快速訪(fǎng)問(wèn)。在實(shí)際使用中可以采用圖形化的工具來(lái)構(gòu)建領(lǐng)域本體,如斯坦福大學(xué)開(kāi)發(fā)的Protégé軟件,而且可以方便地與數(shù)據(jù)庫(kù)連接,實(shí)現(xiàn)領(lǐng)域本體的持久化。

        2.2 網(wǎng)絡(luò)文本語(yǔ)義標(biāo)注

        語(yǔ)義標(biāo)注的目的是通過(guò)本體為網(wǎng)絡(luò)文本增加計(jì)算機(jī)可以理解的語(yǔ)義信息,也就是為本體中的概念尋找文本中的實(shí)例或者為本體中的實(shí)例尋找相匹配實(shí)例的過(guò)程。在輿情分析系統(tǒng)中可以采用如下方案來(lái)實(shí)現(xiàn)網(wǎng)絡(luò)文本內(nèi)容的語(yǔ)義標(biāo)注:

        (1)網(wǎng)絡(luò)文檔特征詞提取。在傳統(tǒng)的空間向量模型文本表示方法中,特征選擇和權(quán)值計(jì)算忽略了文本的語(yǔ)義信息,所以在本系統(tǒng)中通過(guò)遍歷輿情分析本體庫(kù)進(jìn)行文檔特征詞選擇,形成特征詞集合。

        (2)基于輿情分析本體庫(kù)進(jìn)行特征詞權(quán)值計(jì)算,形成文檔與領(lǐng)域本體的映射關(guān)系。文檔dj表示成特征向量:dj={(t1,w1j),…,(ts,wsj)},其中t1…ts表示經(jīng)過(guò)本體進(jìn)行匹配后特征詞,w1j…wsj表示經(jīng)過(guò)在本體計(jì)算后得到的概念權(quán)值[6]。

        采用這種方案不僅可以揭示文檔的隱含語(yǔ)義信息,而且能較準(zhǔn)確地劃分文檔與所屬類(lèi)別,為輿情分析中的熱點(diǎn)話(huà)題發(fā)現(xiàn)提供基礎(chǔ)。

        2.3 基于語(yǔ)義相似度的熱點(diǎn)話(huà)題發(fā)現(xiàn)

        Web文本挖掘的目的是對(duì)文本內(nèi)容進(jìn)行分析,發(fā)現(xiàn)有價(jià)值的模式和規(guī)則,并進(jìn)行預(yù)測(cè)。而現(xiàn)有的文本挖掘都是基于語(yǔ)法層面,沒(méi)有進(jìn)行語(yǔ)義層面的挖掘,準(zhǔn)確率不高。在輿情分析系統(tǒng)中,熱點(diǎn)、敏感話(huà)題發(fā)現(xiàn)主要是采用文本挖掘的聚類(lèi)來(lái)實(shí)現(xiàn),在本系統(tǒng)中提出基于語(yǔ)義的熱點(diǎn)、敏感話(huà)題發(fā)現(xiàn),實(shí)現(xiàn)流程如下:(1)在上述語(yǔ)義標(biāo)注的結(jié)果上進(jìn)行基于本體庫(kù)的文檔與文檔之間的語(yǔ)義相似度和相關(guān)度計(jì)算;(2)按照預(yù)設(shè)的閾值進(jìn)行聚類(lèi)處理,形成相應(yīng)的簇;(3)形成文檔集合的劃分后,再次利用上述基于本體的語(yǔ)義特征詞概念權(quán)值計(jì)算方法進(jìn)行文檔集合的特征提取,從而形成輿情分析中的熱點(diǎn)、敏感話(huà)題,在本體庫(kù)的支持下進(jìn)行情感傾向性分析。

        在該過(guò)程中多次涉及到語(yǔ)義概念特征的相似度與相關(guān)度計(jì)算,對(duì)于概念的語(yǔ)義相似度[7]

        其中:α(x)是以x為起點(diǎn)向上可達(dá)的結(jié)點(diǎn)集合;α(x)∩α(y)是以x和y為起點(diǎn),向上可達(dá)的結(jié)點(diǎn)集合的交集;ρ∈[0,1]是可調(diào)參數(shù)。式(1)充分考慮了概念間的語(yǔ)義重合度、概念層次深度和相似度的不對(duì)稱(chēng)性。

        在領(lǐng)域本體中任意2個(gè)概念特征相關(guān)度

        其中,ShortPath(x,y)表示從x到y(tǒng)的最短路徑距離,當(dāng)x和y不相通時(shí)該值為∞,λ為可調(diào)參數(shù)。

        2.4 查詢(xún)?cè)~語(yǔ)義空間擴(kuò)展

        基于本體的查詢(xún)?cè)~擴(kuò)展方法的基本思想是:在用戶(hù)初始查詢(xún)的基礎(chǔ)上抽取概念來(lái)建立用戶(hù)查詢(xún)空間,以保證加入的擴(kuò)展詞不再局限于相似度高或者同時(shí)出現(xiàn)概率高的詞,基于準(zhǔn)確性的考慮,對(duì)擴(kuò)展詞進(jìn)行分組查詢(xún)擴(kuò)展并對(duì)查詢(xún)結(jié)果整合排序以提高查準(zhǔn)率[8]。也就是對(duì)查詢(xún)?cè)~在領(lǐng)域本體中進(jìn)行概念級(jí)別的語(yǔ)義擴(kuò)展,按照不同權(quán)重的擴(kuò)展查詢(xún)?cè)~組提高用戶(hù)查詢(xún)的語(yǔ)義表達(dá)能力。

        構(gòu)造基于本體的語(yǔ)義空間擴(kuò)展流程見(jiàn)圖3。

        圖3 基于本體的語(yǔ)義空間擴(kuò)展流程Fig.3 Flowchart for ontology-based semantic space expansion

        在進(jìn)行查詢(xún)?cè)~語(yǔ)義空間擴(kuò)展后,如針對(duì)圖2所示的領(lǐng)域本體片段,騰訊與360客戶(hù)端“二選一”互聯(lián)網(wǎng)熱點(diǎn)事件屬于“互聯(lián)網(wǎng)科技熱點(diǎn)事件”概念的實(shí)例,可以從本體中提取出該實(shí)例的各種屬性,如時(shí)間、起因等,計(jì)算和相關(guān)概念的相似度與相關(guān)度后,還可以找到相關(guān)的人物或事件的演變結(jié)果,如“周鴻祎”、“工信部和公安部已介入360騰訊之爭(zhēng)”等,豐富了查詢(xún)語(yǔ)義信息。實(shí)際應(yīng)用中最經(jīng)常使用的擴(kuò)展還是查詢(xún)概念的同義概念擴(kuò)展、上下位概念擴(kuò)展和概念與實(shí)例的擴(kuò)展[9]。

        3 結(jié)語(yǔ)

        在構(gòu)建網(wǎng)絡(luò)輿情分析系統(tǒng)中引入本體技術(shù),建立概念共享空間,可以有效地挖掘網(wǎng)絡(luò)內(nèi)容的語(yǔ)義信息,提高輿情分析的準(zhǔn)確率。本文中給出了基于本體的網(wǎng)絡(luò)輿情分析系統(tǒng)結(jié)構(gòu),并對(duì)系統(tǒng)實(shí)現(xiàn)中的本體應(yīng)用技術(shù)進(jìn)行了一些實(shí)驗(yàn)性的研究。由于在系統(tǒng)的實(shí)際使用中需要大型網(wǎng)絡(luò)輿情本體庫(kù)的支持,下一步的研究重點(diǎn)是結(jié)合自然語(yǔ)言處理、機(jī)器學(xué)習(xí)等技術(shù)提高網(wǎng)絡(luò)輿情分析領(lǐng)域本體的自動(dòng)或半自動(dòng)化構(gòu)建。

        [1] 百度百科.網(wǎng)絡(luò)輿情監(jiān)測(cè)系統(tǒng)[EB/OL].[2012-12-05].http://baike.baidu.com/view/2416058.htm.

        [2] Goonie.Goonie 輿論情報(bào)專(zhuān)家[EB/OL].[2012-12-10].http://www.goonie.cn/.

        [3] 陳憶金,曹樹(shù)金,陳少馳,等.網(wǎng)絡(luò)輿情信息監(jiān)測(cè)研究進(jìn)展[J].圖書(shū)情報(bào)知識(shí),2011,20(6):41-49.CHEN Yi-jin,CAO Shu-jin,CHEN Shao-chi,et al.Survey on online public opinion information monitoring[J].Document,Information & Knowledge,2011,20(6):41-49.

        [4] 鄭慶華,劉均,田峰,等.Web知識(shí)挖掘[M].北京:科學(xué)出版社,2010.6.

        [5] 王蘭成,徐震.基于本體的主題網(wǎng)絡(luò)輿情知識(shí)模型構(gòu)建研究[J].信息工程大學(xué)學(xué)報(bào),2012,13(2):229-233.WANG Lan-cheng,XU Zhen.Research on ontology-based knowledge modeling of thematic networks of public opinion[J].Journal of Information Engineering University,2012,13(2):229-233.

        [6] 時(shí)念云,楊晨.基于領(lǐng)域本體的語(yǔ)義標(biāo)注方法研究[J].計(jì)算機(jī)工程與設(shè)計(jì),2007,28(24):5985-5987.SHI Nian-yun,YANG Chen.Towards domain ontologybased semantic annotation research[J].Computer Engineering and Design,2007,28(24):5985-5987.

        [7] Andreasen T,Bulskov H,F(xiàn)rom Ontology over Similarity to Query Evaluation[C].Elsevier Science,2003.

        [8] 甘建候,姜躍,夏幼明.本體方法及其應(yīng)用[M].北京:科學(xué)出版社,2011.

        [9] 劉恒文.基于網(wǎng)絡(luò)語(yǔ)義挖掘的典情監(jiān)測(cè)預(yù)警研究[D].武漢:武漢理工大學(xué),2010.

        猜你喜歡
        本體文檔輿情
        Abstracts and Key Words
        有人一聲不吭向你扔了個(gè)文檔
        對(duì)姜夔自度曲音樂(lè)本體的現(xiàn)代解讀
        基于RI碼計(jì)算的Word復(fù)制文檔鑒別
        輿情
        輿情
        《我應(yīng)該感到自豪才對(duì)》的本體性教學(xué)內(nèi)容及啟示
        輿情
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        微博的輿情控制與言論自由
        久久久av精品波多野结衣| 亚洲女同性恋激情网站| 亚洲日本一区二区三区四区| 夜夜爽妓女8888888视频| 国产av在线观看一区二区三区| 久久久国产乱子伦精品| 久久精品国产亚洲av高清漫画 | 激情五月开心五月av| 国产精品久久久爽爽爽麻豆色哟哟 | 国产婷婷成人久久av免费| 午夜视频在线观看视频在线播放| 亚洲国产成人精品无码区二本 | 在线a亚洲视频播放在线观看| 熟女丝袜美腿亚洲一区二区三区 | 成人偷拍自拍在线视频| 久久精品亚洲熟女av蜜謦| 九一九色国产| 无码日日模日日碰夜夜爽| 色婷婷久色国产成人免费| 日日麻批免费40分钟无码| 久久精品国产亚洲一区二区| 久久99久久99精品免观看女同| 亚洲精品中文字幕91| 久久久中文久久久无码| 99久久久无码国产精品9| 亚洲综合精品在线观看中文字幕| 国产成人精品一区二三区孕妇| 在线视频夫妻内射| 日本免费a级毛一片| 久久久久亚洲AV无码专| 久久国产精品超级碰碰热| 久久亚洲中文字幕伊人久久大| 欧美嫩交一区二区三区| 国产第一页屁屁影院| 五码人妻少妇久久五码| 性av一区二区三区免费| 污污内射在线观看一区二区少妇| 亚洲人成网站免费播放| 一区二区三区放荡人妻| 水蜜桃网站视频在线观看| 日本无码欧美一区精品久久|