亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于本體的互聯(lián)網(wǎng)輿情分析預警系統(tǒng)關(guān)鍵技術(shù)研究

        2018-07-12 01:08:08張慎武鄭州大學西亞斯國際學院
        數(shù)碼世界 2018年6期
        關(guān)鍵詞:本體文檔輿情

        張慎武 鄭州大學西亞斯國際學院

        1 引言

        互聯(lián)網(wǎng)改變著中國人的生活方式。2017年8月,中國互聯(lián)網(wǎng)絡(luò)信息中心(CNNIC)發(fā)布了第40次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》?!秷蟾妗凤@示,截至2017年6月, 我國網(wǎng)民規(guī)模達7.51億,普及率達到54.3%,其中微博用戶2.9億,網(wǎng)民使用率38.7%,使用網(wǎng)絡(luò)新聞和論壇/貼吧的用戶分別為83.1%和17.6%[1]。超過70%的網(wǎng)民在互聯(lián)網(wǎng)上發(fā)表言論并進行話題討論,充分表達思想觀點和利益訴求。因為自身的開放性、互動性、便捷性、及時性和影響范圍廣等特點,互聯(lián)網(wǎng)已成為思想文化信息的集散地和社會輿論的放大器[2]。在互聯(lián)網(wǎng)輿情中,有一些熱點問題容易引起廣泛的影響,特別是負面的影響。如果不能及時地發(fā)現(xiàn)、有效地引導,負面的互聯(lián)網(wǎng)輿情將對社會秩序和公共安全造成較大威脅。因此,對互聯(lián)網(wǎng)輿情進行高效快速分析預警的技術(shù)是保證良好、穩(wěn)定的社會秩序的重要保障手段,對此類技術(shù)的研究迫在眉睫?;ヂ?lián)網(wǎng)輿情分析與導控系統(tǒng)一般包括熱點、敏感話題識別、輿情主題跟蹤、自動摘要、輿情趨勢分析、突發(fā)事件分析和輿情報警等功能。目前國內(nèi)大多數(shù)網(wǎng)絡(luò)輿情分析系統(tǒng)都采用基于語法的輿情分析技術(shù),不能從語義層面對網(wǎng)絡(luò)輿情進行分析預警,可能會忽略一些熱點/敏感事件,影響了系統(tǒng)對于輿情的發(fā)現(xiàn)率。本文主要闡述基于本體的互聯(lián)網(wǎng)輿情分析預警系統(tǒng)的模型框架和關(guān)鍵技術(shù)。

        2 系統(tǒng)模型框架

        系統(tǒng)模型主要包含輿情規(guī)劃、信息采集、輿情分析、輿情報警和本題庫構(gòu)建等模塊,如圖1所示。

        a.輿情規(guī)劃模塊:操作員根據(jù)需要設(shè)置輿情主題和種子URL,形成定制化的輿情方案。

        b.信息采集模塊:負責利用爬蟲技術(shù)從新聞網(wǎng)頁、論壇、微博、貼吧等互聯(lián)網(wǎng)社交媒體中采集信息,將采集到的文本進行格式化、預處理以及向量化,用云存儲技術(shù)保存在分布式集群中,并隨時提供信息檢索服務。

        c.輿情分析模塊:以一系列最新理論技術(shù)研究成果為基礎(chǔ),涵蓋系統(tǒng)的三個核心模塊(自然語言處理、情感分析和語義分析),利用輿情分析產(chǎn)生的文本分類和情感傾向性結(jié)果產(chǎn)生輿情,為輿情服務提供基礎(chǔ)性數(shù)據(jù)分析支撐。

        d.輿情服務模塊:利用輿情分析模塊的處理結(jié)果,根據(jù)系統(tǒng)的配置提供輿情服務,進行輿情可視化分析并提供輿情預警和展示。

        圖1.系統(tǒng)模型框架

        3 互聯(lián)網(wǎng)輿情領(lǐng)域本體庫的構(gòu)建

        領(lǐng)域?qū)<以诒倔w構(gòu)建方法學的指導下,構(gòu)建網(wǎng)絡(luò)輿情領(lǐng)域本體庫。Tom Gruber給出了設(shè)計本體的基本準則: (1) 明確性和客觀性,本體應該有效地傳達所定義的術(shù)語內(nèi)涵; (2) 一致性,即由本體推斷出來的概念定義應該與本體中的概念定義一致; (3)可擴展性,指本體提供的共享詞匯集,應該在不改變原義的前提下能夠單調(diào)地進行擴展; (4) 最小編碼偏差,本體應該處于知識的層次,而與特定的符號級編碼無關(guān); (5)最小本體承諾,一個本體在提供必須的共享知識條件下,要求有最小的本體承諾[3]。本體建立的方法目前沒有統(tǒng)一的標準,一般都是參考軟件工程的方法。

        參考常用的本體開發(fā)方法后,在本系統(tǒng)中采用的本體建立方法如下: (1) 確定輿情分析本體應用的目的和范圍; (2) 進行本體概念和關(guān)系的初步選取; (3) 形式化表示及評價; (4)建立本體。

        由于領(lǐng)域知識龐大而復雜,不可能對其進行全面建模,在實際系統(tǒng)中應緊貼特定主題輿情分析的需要,選擇相關(guān)的領(lǐng)域建立領(lǐng)域本體庫。

        構(gòu)造本體時是以O(shè)WL來進行描述的,在對Web內(nèi)容進行語義標注和基于語義的輿情分析過程中會頻繁地訪問本體中的概念、實例、屬性及各種關(guān)系,所以需要將本體存入數(shù)據(jù)庫,以實現(xiàn)對本體的快速訪問。

        4 輿情內(nèi)容文本語義標注

        語義標注的目的是通過本體為輿情內(nèi)容文本增加計算機可以理解的語義信息,也就是為本體中的概念尋找文本中的實例或者為本體中的實例尋找相匹配實例的過程。在輿情分析系統(tǒng)中可以采用如下方案來實現(xiàn)網(wǎng)絡(luò)文本內(nèi)容的語義標注:

        (1) 網(wǎng)絡(luò)文檔特征詞提取。在傳統(tǒng)的空間向量模型文本表示方法中,特征選擇和權(quán)值計算忽略了文本的語義信息,所以在本系統(tǒng)中通過遍歷輿情分析本體庫進行文檔特征詞選擇,形成特征詞集合。

        (2) 基于輿情分析本體庫進行特征詞權(quán)值計算,形成文檔與領(lǐng)域本體的映射關(guān)系。文檔 dj表示成特征向量:

        dj= { ( t1,w1j) ,…,( ts,wsj) } ,其中t1…ts表示經(jīng)過本體進行匹配后特征詞,w1j…wsj表示經(jīng)過在本體計算后得到的概念權(quán)值。

        采用這種方案不僅可以揭示文檔的隱含語義信息,而且能較準確地劃分文檔與所屬類別,為輿情分析中的熱點話題發(fā)現(xiàn)提供基礎(chǔ)。

        5 基于語義相似度的輿情熱點/主題/話題分析

        Web 文本挖掘的目的是對文本內(nèi)容進行分析,發(fā)現(xiàn)有價值的模式和規(guī)則,并進行預測。而現(xiàn)有的文本挖掘都是基于語法層面,極少進行語義層面的挖掘,準確率不高。在輿情分析系統(tǒng)中,熱點、敏感話題發(fā)現(xiàn)主要是采用文本挖掘的聚類來實現(xiàn),在本系統(tǒng)中提出基于語義的熱點、敏感話題發(fā)現(xiàn),實現(xiàn)流程如下:(1) 在上述語義標注的結(jié)果上進行基于本體庫的文檔與文檔之間的語義相似度和相關(guān)度計算; (2) 按照預設(shè)的閾值進行聚類處理,形成相應的簇; (3) 形成文檔集合的劃分后,再次利用上述基于本體的語義特征詞概念權(quán)值計算方法進行文檔集合的特征提取,從而形成輿情分析中的熱點、敏感話題,在本體庫的支持下進行情感傾向性分析。

        在該過程中多次涉及到語義概念特征的相似度與相關(guān)度計算,對于概念的語義相似度

        其中:α(x)是以x為起點向上可達的結(jié)點集合;α(x)∩α(y) 是以x和y為起點,向上可達的結(jié)點集合的交集;ρ∈[0,1]是可調(diào)參數(shù)。式(1) 充分考慮

        了概念間的語義重合度、概念層次深度和相似度的不對稱性。

        在領(lǐng)域本體中任意2個概念特征相關(guān)度

        其中,ShortPath(x, y)表示從x到y(tǒng)的最短路徑距離,當x和y不相通時該值為∞,λ為可調(diào)參數(shù)。

        6 結(jié)束語

        本文闡述了互聯(lián)網(wǎng)輿情分析預警系統(tǒng)的模型框架和系統(tǒng)中使用的三個關(guān)鍵技術(shù):互聯(lián)網(wǎng)輿情領(lǐng)域本體庫的構(gòu)建、輿情內(nèi)容文本語義標注和基于語義相似度的輿情熱點/主題/話題分析,如何將這些關(guān)鍵技術(shù)和其他技術(shù)在模型框架內(nèi)整合成一套自動化的互聯(lián)網(wǎng)輿情分析預警系統(tǒng),為相關(guān)管理者、監(jiān)管部門提供一個基礎(chǔ)性平臺,是本文下一步的工作重點。

        猜你喜歡
        本體文檔輿情
        Abstracts and Key Words
        哲學分析(2023年4期)2023-12-21 05:30:27
        有人一聲不吭向你扔了個文檔
        對姜夔自度曲音樂本體的現(xiàn)代解讀
        中國音樂學(2020年4期)2020-12-25 02:58:06
        基于RI碼計算的Word復制文檔鑒別
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        《我應該感到自豪才對》的本體性教學內(nèi)容及啟示
        文學教育(2016年27期)2016-02-28 02:35:15
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        Persistence of the reproductive toxicity of chlorpiryphos-ethyl in male Wistar rat
        微博的輿情控制與言論自由
        国产黄色看三级三级三级| 国产喷水1区2区3区咪咪爱av| 最近在线更新8中文字幕免费| 国产精品区一区第一页| 精品无码成人片一区二区| 黄网站a毛片免费观看久久| 中文字幕综合一区二区| 日本少妇高潮喷水视频| 377p日本欧洲亚洲大胆张筱雨 | 亚洲性久久久影院| 亚洲av无码潮喷在线观看 | 白丝美女被狂躁免费视频网站 | 久久中文字幕av一区二区不卡 | 日本视频一区二区三区| 男女无遮挡高清性视频| 亚洲精品国偷拍自产在线观看| 久久久www成人免费无遮挡大片 | av大片在线无码永久免费网址| 国产女主播福利一区二区| 亚洲精品1区2区在线观看 | 四虎影视免费观看高清视频| 国产又色又爽又刺激视频| 国产精品一区区三区六区t区| av成人综合在线资源站| 无码熟妇人妻av在线网站 | 就国产av一区二区三区天堂| 久久婷婷夜色精品国产| 国产一区二区三区在线视频观看| 粗大的内捧猛烈进出少妇 | 人妻系列影片无码专区| 亚洲精品天堂日本亚洲精品| 午夜影视免费| 午夜成人鲁丝片午夜精品| 午夜短无码| 97激情在线视频五月天视频| 免费一区二区高清不卡av| 女人和拘做受全程看视频| 天天影视色香欲综合久久| 亚洲综合精品在线观看中文字幕| 国产成人啪精品午夜网站| 粉嫩av一区二区在线观看|