亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于語(yǔ)義的主題網(wǎng)絡(luò)輿情挖掘系統(tǒng)模型研究

        2018-11-29 02:33:00余宏
        現(xiàn)代計(jì)算機(jī) 2018年31期
        關(guān)鍵詞:語(yǔ)義概念特征

        余宏

        (豫章師范學(xué)院數(shù)學(xué)與計(jì)算機(jī)學(xué)院,南昌 330103)

        0 引言

        隨著網(wǎng)絡(luò)技術(shù)的進(jìn)步,特別是移動(dòng)互聯(lián)網(wǎng)應(yīng)用的普及,使得社會(huì)生活得各個(gè)方面都與互聯(lián)網(wǎng)息息相關(guān)。中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)2018年1月發(fā)布的統(tǒng)計(jì)信息顯示:截至2017年12月,中國(guó)網(wǎng)民規(guī)模達(dá)7.72億,其中移動(dòng)手機(jī)用戶人數(shù)達(dá)7.53億,互聯(lián)網(wǎng)應(yīng)用普及率達(dá)到55.8%。與傳統(tǒng)媒體相比,新聞網(wǎng)站、博客、論壇、微信等網(wǎng)絡(luò)媒介交互性特征突出,特別是隨著移動(dòng)互聯(lián)網(wǎng)應(yīng)用的迅速普及,社會(huì)民眾參與網(wǎng)絡(luò)言論傳播變得前所未有的便利,互聯(lián)網(wǎng)成為當(dāng)今社會(huì)重要的輿情載體。只有及時(shí)把握住輿情信息,了解和掌握民眾的訴求和意見(jiàn),對(duì)初露端倪的不良輿論苗頭進(jìn)行有效抑制,才能發(fā)揮前瞻性,掌握網(wǎng)絡(luò)輿論引導(dǎo)的主動(dòng)權(quán)。而傳統(tǒng)對(duì)輿情的人工處理方法對(duì)于網(wǎng)絡(luò)上海量增長(zhǎng)的輿情信息來(lái)說(shuō)是不適用的,必須借助信息技術(shù)手段對(duì)網(wǎng)絡(luò)上的輿情信息進(jìn)行快速而有效的采集、分析并生成輔助決策的知識(shí)。

        輿情信息挖掘的任務(wù)主要包括輿情熱點(diǎn)話題檢測(cè)、話題追蹤、輿情觀點(diǎn)分析,這些任務(wù)主要通過(guò)輿情信息聚類和分類來(lái)實(shí)現(xiàn)。輿情信息聚類和分類的效率和準(zhǔn)確程度,對(duì)輿情熱點(diǎn)話題檢測(cè)和追蹤有著重要的影響。現(xiàn)有的輿情監(jiān)測(cè)系統(tǒng)在進(jìn)行輿情分析時(shí)大多采用基于統(tǒng)計(jì)和特征關(guān)鍵詞的方法,由于未考慮輿情文本中的語(yǔ)義信息往往導(dǎo)致分析結(jié)果不夠準(zhǔn)確。本文將本體論和語(yǔ)義計(jì)算技術(shù)引入網(wǎng)絡(luò)輿情挖掘以提高輿情挖掘系統(tǒng)的性能。

        1 基于語(yǔ)義的網(wǎng)絡(luò)輿情挖掘系統(tǒng)模型

        基于語(yǔ)義的主題網(wǎng)絡(luò)輿情挖掘系統(tǒng)主要包括網(wǎng)絡(luò)輿情數(shù)據(jù)采集、領(lǐng)域本體庫(kù)的構(gòu)建、輿情數(shù)據(jù)預(yù)處理、語(yǔ)義特征抽取轉(zhuǎn)換、輿情挖掘等關(guān)鍵功能。

        (1)網(wǎng)絡(luò)輿情信息采集模塊

        網(wǎng)絡(luò)輿情信息的來(lái)源主要包括:網(wǎng)絡(luò)論壇、新聞網(wǎng)站、博客與微博等,網(wǎng)絡(luò)輿情信息在表現(xiàn)形式上包括文字、圖片、音視頻,其中以文字信息為主。

        由于網(wǎng)絡(luò)輿情管理者往往只關(guān)注某一領(lǐng)域的輿情信息,因此,在對(duì)網(wǎng)絡(luò)輿情進(jìn)行采集時(shí),根據(jù)用戶定制的某個(gè)主題利用聚焦爬蟲(chóng)有針對(duì)性的爬取主題相關(guān)的網(wǎng)頁(yè)信息。

        (2)領(lǐng)域本體庫(kù)的構(gòu)建模塊

        本體是領(lǐng)域概念模型的顯式表示。本體通過(guò)它的概念集及其所處的上下文來(lái)刻畫概念的內(nèi)涵。本體的目標(biāo)是獲取、描述和表示相關(guān)領(lǐng)域的知識(shí),提供對(duì)該領(lǐng)域知識(shí)的共同理解。

        在輿情分析中,本體的最終目標(biāo)是精確地表示那些隱含的或者不明確的信息。通過(guò)應(yīng)用本體來(lái)消除同詞異義、多詞一義及詞義模糊等現(xiàn)象,從而完成對(duì)領(lǐng)域知識(shí)清晰、準(zhǔn)確、完整的定義與描述。

        在對(duì)主題網(wǎng)絡(luò)輿情分析中,所涉及的知識(shí)包括通用知識(shí)和主題相關(guān)的領(lǐng)域知識(shí)。目前在國(guó)內(nèi)外已有許多現(xiàn)成的本體庫(kù)可以免費(fèi)獲取,如國(guó)內(nèi)的知網(wǎng)庫(kù)(HowNet),國(guó)外的常識(shí)知識(shí)本體OpenCye等。我們?cè)谧鲋黝}網(wǎng)絡(luò)輿情分析的本體應(yīng)用時(shí),通用知識(shí)本體可以通過(guò)復(fù)用現(xiàn)有的知識(shí)庫(kù)如HowNet來(lái)獲得,而與輿情主題密切相關(guān)的領(lǐng)域本體通過(guò)本體構(gòu)建工具Protégé進(jìn)行構(gòu)建。

        (3)數(shù)據(jù)預(yù)處理與語(yǔ)義特征轉(zhuǎn)換模塊

        傳統(tǒng)上通過(guò)網(wǎng)絡(luò)爬蟲(chóng)獲得的網(wǎng)絡(luò)輿情信息經(jīng)過(guò)分詞處理后,依據(jù)詞袋模型生成文本特征向量,該方法忽略了文本特征項(xiàng)之間的語(yǔ)義關(guān)系、存在同義詞和一詞多義等問(wèn)題。將文本關(guān)鍵詞映射到本體中的類、屬性、實(shí)例等相關(guān)項(xiàng)上,將被映射到的不同層次的概念作為主題網(wǎng)絡(luò)輿情文本信息的語(yǔ)義特征,可以解決上述問(wèn)題并提高相似度計(jì)算的準(zhǔn)確程度。

        (4)輿情挖掘模塊

        在前面將文本特征項(xiàng)映射為概念之后,該模塊涉及如何計(jì)算兩個(gè)概念之間的語(yǔ)義相似度,并以此為基礎(chǔ)利用分類和聚類算法進(jìn)行網(wǎng)絡(luò)輿情挖掘處理。

        通過(guò)對(duì)系統(tǒng)各個(gè)模塊的分析,本文將基于語(yǔ)義的網(wǎng)絡(luò)輿情挖掘系統(tǒng)模型構(gòu)建如圖1所示:

        圖1 基于語(yǔ)義的主題網(wǎng)絡(luò)輿情挖掘系統(tǒng)模型框架

        2 基于本體的網(wǎng)絡(luò)輿情挖掘關(guān)鍵技術(shù)

        2.1 網(wǎng)絡(luò)輿情信息的語(yǔ)義特征建模

        主題網(wǎng)絡(luò)輿情分析主要是對(duì)當(dāng)前互聯(lián)網(wǎng)上主題方面的熱點(diǎn)話題進(jìn)行內(nèi)容分析,主要采用文本聚類和分類技術(shù)進(jìn)行話題的檢測(cè)和跟蹤。傳統(tǒng)的文本聚類和分類方法通常將文檔用關(guān)鍵詞特征向量來(lái)表示,文檔D1和文檔D2之間的內(nèi)容相關(guān)度通常用表示文檔的兩向量之間夾角的余弦值表示。該方法沒(méi)有考慮深層次的語(yǔ)義信息,例如不同關(guān)鍵詞表示相同的概念、相關(guān)的關(guān)鍵詞共現(xiàn)表示同一個(gè)主題等,導(dǎo)致聚類和分類結(jié)果的準(zhǔn)確性大大降低。因此,將基于本體的主題網(wǎng)絡(luò)輿情模型引入聚類和分類過(guò)程中,以概念語(yǔ)義相似度為核心進(jìn)行主題網(wǎng)絡(luò)輿情信息的聚類和分類,能夠提高輿情挖掘的效率和挖掘結(jié)果的精確度。

        (1)語(yǔ)義特征抽取

        語(yǔ)義(Semantic)即數(shù)據(jù)的含義,是對(duì)數(shù)據(jù)符號(hào)的解釋。語(yǔ)義特征,就是指能夠在語(yǔ)義層面上解釋文本內(nèi)容且定義規(guī)范的術(shù)語(yǔ)詞匯。本體中的類、屬性、實(shí)例以及關(guān)系等概念可以作為網(wǎng)絡(luò)輿情信息文本的概念特征,通過(guò)這些概念代替文本關(guān)鍵詞來(lái)描述文本,進(jìn)而根據(jù)概念之間的相關(guān)度來(lái)計(jì)算概念所描述的文本之間的相似度,該方法可用于解決“一詞多義”、“異詞同義”等問(wèn)題,有利于提高文檔相似度計(jì)算的準(zhǔn)確度。

        主題網(wǎng)絡(luò)輿情語(yǔ)義特征抽取分成兩個(gè)步驟:第一步是基于關(guān)鍵詞的輿情信息特征項(xiàng)選擇,主要是根據(jù)TF-IDF方法選取文檔中權(quán)重較大的N個(gè)特征詞形成一個(gè)N維特征向量來(lái)表示文檔;第二步是在關(guān)鍵詞特征項(xiàng)選擇的基礎(chǔ)上利用本體和語(yǔ)義詞典進(jìn)行語(yǔ)義特征轉(zhuǎn)換,其基本思想是:采用相應(yīng)的匹配算法將文本特征關(guān)鍵詞與本體和語(yǔ)義詞典中的概念進(jìn)行匹配,如果匹配成功則用概念代替關(guān)鍵詞特征項(xiàng),并將其加入概念特征集合中,如果匹配不成功則保留該關(guān)鍵詞特征項(xiàng)另行處理,最后將算法匹配出的概念特征集合中的相同項(xiàng)進(jìn)行合并,將權(quán)值較高的概念特征項(xiàng)保留作為網(wǎng)絡(luò)輿情文本的語(yǔ)義特征。其中的核心是將文本關(guān)鍵詞特征項(xiàng)映射為概念特征項(xiàng),匹配算法為算法1的描述。

        算法1文本關(guān)鍵詞映射為本體概念算法

        輸入:文檔關(guān)鍵詞特征項(xiàng)集K={k1,k2,k3,…kn};領(lǐng)域本體和Hownet通用本體;

        輸出:文檔的概念特征項(xiàng)集C={c1,c2,c3,…cm}及未匹配的關(guān)鍵詞特征向量K'={k1,k2,k3,…kt}

        Begin:

        1.讀取關(guān)鍵詞ki,將其與領(lǐng)域本體和通用本體HowNet中的概念、屬性或?qū)嵗M(jìn)行匹配;

        2.ifki與本體庫(kù)中的類ci匹配,則將ci加入概念特征項(xiàng)集合C;

        3.else ifki與本體庫(kù)中的屬性aj匹配,則將aj所屬的概念ci加入概念特征項(xiàng)集合C;

        4.else ifki與本體庫(kù)中的實(shí)例Ik匹配,則將實(shí)例Ik的最低下位概念ci加入概念特征項(xiàng)集合C;

        5.else將未能匹配的ki加入未匹配的關(guān)鍵詞特征集合K';

        6.將概念特征集合C中的相同項(xiàng)進(jìn)行合并,去除權(quán)值較低的概念特征項(xiàng),保留權(quán)值較高的概念特征項(xiàng)。

        End.

        (2)特征項(xiàng)權(quán)值計(jì)算

        典型的權(quán)值計(jì)算方法為由Salton提出的詞頻-逆文檔頻率(TF-IDF)計(jì)算法,其基本思想為:一個(gè)詞的重要性與它在該文檔中出現(xiàn)的頻率成正比,與它在整個(gè)文檔集中包含該詞匯的文檔數(shù)目成反比。TF-IDF計(jì)算方法為:

        其中,w(i,j)為文本特征項(xiàng)ti在文檔Dj中的權(quán)重值,tfij表示文本特征項(xiàng)ti在文檔Dj中出現(xiàn)的頻率,idfj表示特征項(xiàng)ti的逆文檔頻率。

        逆文檔頻率的計(jì)算方法為:

        其中,N為文檔集中的文檔總數(shù),nj表示包含特征項(xiàng)ti的文檔數(shù)。

        因此,綜合上述兩式,詞頻-逆文檔頻率(TF-IDF)典型的計(jì)算公式為:

        我們?cè)谶M(jìn)行主題網(wǎng)絡(luò)輿情分析時(shí),屬于某個(gè)主題領(lǐng)域內(nèi)的典型詞應(yīng)該給予更高的權(quán)值。本文的特征項(xiàng)權(quán)值計(jì)算以TF-IDF為基礎(chǔ),對(duì)文本關(guān)鍵詞特征項(xiàng)ki,如果ki未能與領(lǐng)域本體進(jìn)行匹配的特征項(xiàng),其權(quán)重值w(ki)按上述公式(3)計(jì)算。如果文本關(guān)鍵詞特征項(xiàng)kj能與主題領(lǐng)域內(nèi)本體庫(kù)中的概念ck進(jìn)行匹配,關(guān)鍵詞特征項(xiàng)kj則轉(zhuǎn)換為概念特征項(xiàng)ck,ck的權(quán)重值w(ck)將在kj的TF-IDF計(jì)算方法得出的結(jié)果的基礎(chǔ)進(jìn)行適當(dāng)增加權(quán)重。由于各個(gè)關(guān)鍵詞特征項(xiàng)的tfidf值的大小波動(dòng)比較大,因此,對(duì)關(guān)鍵詞特征項(xiàng)kj所轉(zhuǎn)換成的概念特征項(xiàng)ck的權(quán)值增加采用相對(duì)值,而非絕對(duì)值。實(shí)驗(yàn)顯示,關(guān)鍵詞特征項(xiàng)kj轉(zhuǎn)換成概念特征項(xiàng)ck后,ck的權(quán)值w(ck)在 kj的權(quán)值w(ki)基礎(chǔ)上提升50%左右效果較好,這樣既能突出領(lǐng)域本體范圍內(nèi)的特征詞,同時(shí)又不會(huì)大幅度影響數(shù)據(jù)的平衡。為區(qū)分關(guān)鍵詞特征項(xiàng)kj與本體庫(kù)中的類、屬性、實(shí)例等不同層次的項(xiàng)進(jìn)行匹配產(chǎn)生的概念特征項(xiàng)ck重要性,ck的權(quán)值w(ck)在kj的權(quán)值w(ki)基礎(chǔ)上提升幅度不同,如表1所示。

        表1 概念特征項(xiàng)的權(quán)值計(jì)算

        (3)文本表示

        在基于本體的主題網(wǎng)絡(luò)輿情信息語(yǔ)義特征抽取過(guò)程中,由于受本體知識(shí)覆蓋范圍等因素的限制,導(dǎo)致部分關(guān)鍵詞特征項(xiàng)不能轉(zhuǎn)化為概念特征,但這部分特征項(xiàng)對(duì)輿情信息的聚類和分類結(jié)果的準(zhǔn)確度也有一定影響,因此,本文將輿情文本D表示為概念特征向量VC和未匹配的關(guān)鍵詞特征向量VK'。

        其中,ki是第i個(gè)關(guān)鍵詞特征項(xiàng),w(ki)是關(guān)鍵詞特征項(xiàng)ki的權(quán)重;cj是第j個(gè)概念特征項(xiàng),w(cj)是概念特征項(xiàng)cj的權(quán)重。

        2.2 相似度的計(jì)算

        對(duì)用向量空間模型(Vector Space Model,VSM)表示的文檔,可通過(guò)計(jì)算向量之間的相似性來(lái)度量文檔間的相似性,將空間上的相似度轉(zhuǎn)化為語(yǔ)義上的相似度。VSM模型中度量?jī)蓚€(gè)文本間的相似度,常常通過(guò)計(jì)算兩個(gè)文本向量間的余弦?jiàn)A角來(lái)表示。相比距離度量,余弦相似度更加注重兩個(gè)向量在方向上的差異,計(jì)算公式如下:

        其中,X,Y為兩個(gè)文本向量,xi和yi分別為向量X,Y的分量。

        本文將一個(gè)輿情文檔D由概念特征向量VC和未匹配的關(guān)鍵詞特征向量VK'表示。即D={VC,VK'},其中:VC和VK'分別如公式(4)和公式(5)所示。為了體現(xiàn)關(guān)鍵詞向量和本體概念向量對(duì)輿情文檔相似性的貢獻(xiàn)度不同,在計(jì)算時(shí),我們將這兩個(gè)向量分開(kāi)進(jìn)行計(jì)算。對(duì)兩個(gè)輿情文檔 D1和 D2,其概念相似度CSim(D1,D2)和關(guān)鍵詞相似度KSim(D1,D2)分別為:

        其中,wD1(ki)和wD2(ki)分別表示文檔D1和D2未匹配本體的關(guān)鍵詞向量第i個(gè)分量關(guān)鍵詞特征項(xiàng)的權(quán)值;wD1(ci)和wD2(ci)分別表示文檔D1和D2本體概念向量第i個(gè)分量概念特征項(xiàng)的權(quán)值;n和m分別表示未匹配本體的關(guān)鍵詞向量和本體概念向量的維度。

        輿情文檔D1和D2的總相似度TSim(D1,D2)的計(jì)算公式為:

        其中,β為調(diào)節(jié)因子,用于調(diào)節(jié)輿情文檔概念語(yǔ)義特征相似度和未匹配的關(guān)鍵詞特征相似度對(duì)文檔相似度的影響。

        3 結(jié)語(yǔ)

        本文在分析現(xiàn)有的網(wǎng)絡(luò)輿情挖掘系統(tǒng)存在的不足的基礎(chǔ)上,將本體語(yǔ)義引入網(wǎng)絡(luò)輿情挖掘系統(tǒng),通過(guò)引入本體,構(gòu)建了基于語(yǔ)義的主題網(wǎng)絡(luò)輿情挖掘系統(tǒng)模型;重點(diǎn)研究了通過(guò)本體語(yǔ)義信息對(duì)網(wǎng)絡(luò)輿情文本進(jìn)行語(yǔ)義特征抽取和轉(zhuǎn)換、對(duì)網(wǎng)絡(luò)輿情文本融合語(yǔ)義信息建模并進(jìn)行混合相似性計(jì)算。但是當(dāng)前對(duì)網(wǎng)絡(luò)輿情信息的挖掘研究主要集中在輿情文本信息上,對(duì)圖像、視頻等媒體所包含的網(wǎng)絡(luò)輿情信息的挖掘有待進(jìn)一步研究。

        猜你喜歡
        語(yǔ)義概念特征
        Birdie Cup Coffee豐盛里概念店
        語(yǔ)言與語(yǔ)義
        幾樣概念店
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        學(xué)習(xí)集合概念『四步走』
        聚焦集合的概念及應(yīng)用
        抓住特征巧觀察
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        国产精品久久久久久久久鸭| 91精品国产福利在线观看麻豆| 色窝窝无码一区二区三区| 国产精品久久国产三级国不卡顿| 黄色毛片视频免费| 99熟妇人妻精品一区五一看片| 国产亚洲精品久久情侣| 日韩一区国产二区欧美三区| 国内精品久久久久久久久齐齐| 国产伪娘人妖在线观看| 日本精品一区二区三区在线观看| 成人亚洲精品777777| 成人免费视频在线观看 | 激情人妻中出中文字幕一区| 亚洲av三级黄色在线观看| 婷婷久久香蕉五月综合加勒比| 欧美国产日产一区二区| 国产高清亚洲精品视频| av在线免费高清观看| 极品少妇一区二区三区四区| 狠狠狠色丁香婷婷综合激情| 亚洲精品一区二区三区蜜臀| av在线观看免费天堂| 国模欢欢炮交啪啪150| 久久精品亚洲中文无东京热| 国产午夜精品综合久久久| 狠狠摸狠狠澡| 免费黄色电影在线观看| 国产精品国产三级国产在线观| 国产精品国产自产自拍高清av| 亚洲精品无码久久久影院相关影片| 国产精品一区二区在线观看99 | 精品国内自产拍在线视频| 亚洲成人免费久久av| 99久久无码一区人妻| 2019最新国产不卡a| 日韩人妻无码精品系列专区无遮| 男女搞事在线观看视频| 亚洲国产精品毛片av不卡在线| 亚洲AV日韩AV无码A一区| 日本一区二区在线播放|