亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)時(shí)代輿情信息的搜集與分類管理研究

        2020-12-08 09:30:18劉羽
        魅力中國 2020年21期
        關(guān)鍵詞:分詞搜索引擎輿情

        劉羽

        (鄭州升達(dá)經(jīng)貿(mào)管理學(xué)院,河南 鄭州 450000)

        一、輿情數(shù)據(jù)收集是檔案信息收集的基礎(chǔ)

        當(dāng)前,互聯(lián)網(wǎng)輿情數(shù)據(jù)收集系統(tǒng)主要包含三種數(shù)據(jù)收集技術(shù):人工收集、搜索引擎收集和第三方互聯(lián)網(wǎng)機(jī)構(gòu)定向收集。人工收集是指通過人工瀏覽網(wǎng)絡(luò)平臺(tái),通過人工監(jiān)測獲取有價(jià)值的數(shù)據(jù)和信息,經(jīng)匯總、分析后觀察社會(huì)輿論走勢。人工收集是當(dāng)前檔案管理人員較常用的輿情數(shù)據(jù)檔案信息收集方式之一。

        搜索引擎收集按其工作方式主要可分為三種,分別是全文搜索引擎收集、目錄索引類搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360 搜索、谷歌搜索和百度搜索。以百度搜索為例,據(jù)CNNIC 發(fā)布的《2018 年中國網(wǎng)民搜索行為研究報(bào)告》顯示:百度日均搜索量超過50 億人次,截至2018 年12 月,搜索引擎是中國網(wǎng)民的最基礎(chǔ)應(yīng)用,百度搜索滲透率為97.4%,使用率略遜于即時(shí)通信。人工收集和搜索引擎收集是當(dāng)前比較常用的互聯(lián)網(wǎng)輿情收集技術(shù),但是這兩種收集方式的缺點(diǎn)是可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率不高的狀況??朔@一技術(shù)難題的方法借助第三方互聯(lián)網(wǎng)輿情機(jī)構(gòu)定向采集,通過對核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。

        二、輿情數(shù)據(jù)預(yù)處理是檔案信息收集的前提。

        第一,對文本進(jìn)行預(yù)處理。文本預(yù)處理是對通過輿情采集器收集的未加工的Web 網(wǎng)頁進(jìn)行初步處理,再對經(jīng)初步處理過的網(wǎng)頁文本進(jìn)行發(fā)現(xiàn)話題和數(shù)字建模,文本預(yù)處理最重要的環(huán)節(jié)是進(jìn)行特征選擇和中文分詞。中文分詞對命名實(shí)體進(jìn)行識(shí)別,采用 ICTCLAS 系統(tǒng)對所獲語料標(biāo)注詞性和進(jìn)行中文分詞,基于詞頻提煉出web模型的特征向量對中文分詞后的文本語料庫進(jìn)行向量化分析。分詞技術(shù)是針對提交查詢的關(guān)鍵詞串進(jìn)行處理,將收集到的網(wǎng)頁文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化向量。

        第二,對話題進(jìn)行檢測。對文本經(jīng)過預(yù)處理后的文本語料庫形成了擴(kuò)展空間向量模型VSM 向量集。利用 VSM 各向量間的相似度,對文本進(jìn)行話題檢測和聚類,對文本內(nèi)容分析的深度決定了聚類技術(shù)的效果,聚類技術(shù)的功能在于挖掘熱點(diǎn)話題。一般情況下,可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率難以權(quán)衡的狀況。克服這一技術(shù)難題的方法就是引入詞擴(kuò)展技術(shù),通過對核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。詞擴(kuò)展技術(shù)是指利用特定算法對原始文本向量進(jìn)行處理,使原始數(shù)據(jù)中的鄰近對象形成核心明確、分布較為離散且粒度小的話題集合,將話題集合進(jìn)一步劃分為多個(gè)“微簇”,利用特定算法,對“微簇”進(jìn)行二次聚類,用滿足一定的閾值要求、質(zhì)量較高的核心對象代表“微簇”。

        第三,利用話題綜合評價(jià)標(biāo)準(zhǔn)對話題進(jìn)行過濾。運(yùn)用語義識(shí)別技術(shù),對之前采集的數(shù)據(jù)信息進(jìn)行更深一步的過濾識(shí)別,通過對數(shù)據(jù)信息中句子的結(jié)構(gòu)、語法及部分關(guān)鍵詞的詞義進(jìn)行過濾處理,從而將信息轉(zhuǎn)化為人們常用的語言,將大量復(fù)雜的信息簡單化。從進(jìn)行過聚類、過濾處理后的文本中提取中心詞,將分析后的中心詞進(jìn)行組合,通過結(jié)構(gòu)化分析獲取中心詞組,計(jì)算中心詞組所涉及的文本數(shù)量,運(yùn)算模塊根據(jù)文本參數(shù)進(jìn)行加權(quán)計(jì)算,統(tǒng)計(jì)熱門關(guān)鍵詞組的文本數(shù)量,獲取熱門關(guān)鍵詞組的熱度值。

        三、加強(qiáng)互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息跨維度動(dòng)態(tài)管理

        (一)構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息管理跨維度互動(dòng)模式。

        “趨勢與定向判斷是網(wǎng)絡(luò)輿情分析與分類的核心,是應(yīng)對與引導(dǎo)的依據(jù),根據(jù)匯總到的輿情信息,通過系統(tǒng)的分析,做出關(guān)于輿情發(fā)展趨勢與走向的基本判斷,這一判斷主要是在定量基礎(chǔ)上得出的定向判斷?!睓n案管理人員應(yīng)將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與互聯(lián)網(wǎng)內(nèi)容治理相結(jié)合,讓數(shù)據(jù)流顯現(xiàn)關(guān)聯(lián);將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與政府科學(xué)決策相結(jié)合,讓信息流暢通無阻;將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理和輿情日常管理相結(jié)合,讓輿情流和諧運(yùn)轉(zhuǎn)。

        (二)構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息多元管理模式

        傳統(tǒng)檔案管理結(jié)構(gòu)模式中公眾的參與度比較低。大數(shù)據(jù)時(shí)代為輿論的快速形成和公眾對公共事務(wù)話語權(quán)的表達(dá)提供了討論空間,由單一主體治理變?yōu)槎嘣黧w治理,多元主體治理的基本結(jié)構(gòu)體現(xiàn)了混合的特點(diǎn),多元主體治理的邊界與范圍不是簡單的信息關(guān)聯(lián)和多元混合?;ヂ?lián)網(wǎng)和大數(shù)據(jù)技術(shù)拓寬了檔案管理的內(nèi)容,改變了檔案管理人員和民眾的連接與互動(dòng)方式,因此需要尋求一種新的檔案管理模型和良性互動(dòng)的連接機(jī)制來消解傳統(tǒng)檔案管理成長的困境。

        (三)構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息管理回應(yīng)指標(biāo)體系

        警惕輿情動(dòng)態(tài)在復(fù)雜的演進(jìn)過程中出現(xiàn)的不和諧因素,準(zhǔn)確界定輿情等級,通過級別劃分、輿情聚類、有效處置和事后評估構(gòu)建輿情回應(yīng)的指標(biāo)體系,通過行為干預(yù)及早進(jìn)行有效處置,匯編典型事件檔案庫。檔案管理人員應(yīng)從追問事實(shí)到反思制度,從線上輿論和線下互動(dòng)的有效對接到挖掘方法和社會(huì)洞察的有效結(jié)合,構(gòu)建互聯(lián)網(wǎng)輿情檔案管理回應(yīng)指標(biāo)體系,改進(jìn)和完善檔案管理中的制度性、結(jié)構(gòu)性問題。

        猜你喜歡
        分詞搜索引擎輿情
        結(jié)巴分詞在詞云中的應(yīng)用
        值得重視的分詞的特殊用法
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        微博的輿情控制與言論自由
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        亚洲熟妇无码av不卡在线播放| 日本免费视频| 白丝兔女郎m开腿sm调教室| 亚洲男人av香蕉爽爽爽爽| 国产啪精品视频网站免| 亚洲av熟女天堂久久天堂| 日韩欧美中文字幕公布| 东北妇女肥胖bbwbbwbbw| 国模无码视频专区一区| 精品人妻夜夜爽一区二区| 一区二区三区人妻少妇| 无码国产伦一区二区三区视频| 亚洲高清无码第一| 精品视频一区二区在线观看| 免费人成视网站在线剧情| 国产一区二区内射最近更新 | 日韩视频在线观看| 日日躁夜夜躁狠狠久久av| 在线偷窥制服另类| 男男啪啪激烈高潮无遮挡网站网址| 在线看无码的免费网站| 亚欧国产女人天堂Av在线播放 | 国产精品 视频一区 二区三区| 蜜桃av观看亚洲一区二区| 国产一品二品精品在线| 男人激烈吮乳吃奶视频免费 | 一本一道久久a久久精品综合蜜桃| 亚洲国产精品久久又爽av| 亚洲中文字幕在线观看| 99国产精品久久久蜜芽| 亚洲成在人网站天堂日本| 午夜免费电影| 五十路熟女一区二区三区| 午夜天堂精品一区二区| 日本视频一区二区三区一| 麻麻张开腿让我爽了一夜| 国产精品原创永久在线观看| 久久精品熟女亚洲av香蕉| 影音先锋女人aa鲁色资源| 中国老熟妇自拍hd发布| 欧美日韩国产另类在线观看 |