亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        互聯(lián)網(wǎng)時(shí)代輿情信息的搜集與分類管理研究

        2020-12-08 09:30:18劉羽
        魅力中國 2020年21期
        關(guān)鍵詞:分詞搜索引擎輿情

        劉羽

        (鄭州升達(dá)經(jīng)貿(mào)管理學(xué)院,河南 鄭州 450000)

        一、輿情數(shù)據(jù)收集是檔案信息收集的基礎(chǔ)

        當(dāng)前,互聯(lián)網(wǎng)輿情數(shù)據(jù)收集系統(tǒng)主要包含三種數(shù)據(jù)收集技術(shù):人工收集、搜索引擎收集和第三方互聯(lián)網(wǎng)機(jī)構(gòu)定向收集。人工收集是指通過人工瀏覽網(wǎng)絡(luò)平臺(tái),通過人工監(jiān)測獲取有價(jià)值的數(shù)據(jù)和信息,經(jīng)匯總、分析后觀察社會(huì)輿論走勢。人工收集是當(dāng)前檔案管理人員較常用的輿情數(shù)據(jù)檔案信息收集方式之一。

        搜索引擎收集按其工作方式主要可分為三種,分別是全文搜索引擎收集、目錄索引類搜索引擎收集和元搜索引擎收集。搜索引擎收集的代表是360 搜索、谷歌搜索和百度搜索。以百度搜索為例,據(jù)CNNIC 發(fā)布的《2018 年中國網(wǎng)民搜索行為研究報(bào)告》顯示:百度日均搜索量超過50 億人次,截至2018 年12 月,搜索引擎是中國網(wǎng)民的最基礎(chǔ)應(yīng)用,百度搜索滲透率為97.4%,使用率略遜于即時(shí)通信。人工收集和搜索引擎收集是當(dāng)前比較常用的互聯(lián)網(wǎng)輿情收集技術(shù),但是這兩種收集方式的缺點(diǎn)是可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率不高的狀況??朔@一技術(shù)難題的方法借助第三方互聯(lián)網(wǎng)輿情機(jī)構(gòu)定向采集,通過對核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。

        二、輿情數(shù)據(jù)預(yù)處理是檔案信息收集的前提。

        第一,對文本進(jìn)行預(yù)處理。文本預(yù)處理是對通過輿情采集器收集的未加工的Web 網(wǎng)頁進(jìn)行初步處理,再對經(jīng)初步處理過的網(wǎng)頁文本進(jìn)行發(fā)現(xiàn)話題和數(shù)字建模,文本預(yù)處理最重要的環(huán)節(jié)是進(jìn)行特征選擇和中文分詞。中文分詞對命名實(shí)體進(jìn)行識(shí)別,采用 ICTCLAS 系統(tǒng)對所獲語料標(biāo)注詞性和進(jìn)行中文分詞,基于詞頻提煉出web模型的特征向量對中文分詞后的文本語料庫進(jìn)行向量化分析。分詞技術(shù)是針對提交查詢的關(guān)鍵詞串進(jìn)行處理,將收集到的網(wǎng)頁文本內(nèi)容轉(zhuǎn)化為結(jié)構(gòu)化向量。

        第二,對話題進(jìn)行檢測。對文本經(jīng)過預(yù)處理后的文本語料庫形成了擴(kuò)展空間向量模型VSM 向量集。利用 VSM 各向量間的相似度,對文本進(jìn)行話題檢測和聚類,對文本內(nèi)容分析的深度決定了聚類技術(shù)的效果,聚類技術(shù)的功能在于挖掘熱點(diǎn)話題。一般情況下,可提取關(guān)鍵信息的文本內(nèi)容都比較短,容易因?yàn)閿?shù)據(jù)稀疏導(dǎo)致在做相關(guān)運(yùn)算時(shí)出現(xiàn)準(zhǔn)確率和推薦召回率難以權(quán)衡的狀況。克服這一技術(shù)難題的方法就是引入詞擴(kuò)展技術(shù),通過對核心詞的外拓實(shí)現(xiàn)了準(zhǔn)確率和推薦召回率的同步提升。詞擴(kuò)展技術(shù)是指利用特定算法對原始文本向量進(jìn)行處理,使原始數(shù)據(jù)中的鄰近對象形成核心明確、分布較為離散且粒度小的話題集合,將話題集合進(jìn)一步劃分為多個(gè)“微簇”,利用特定算法,對“微簇”進(jìn)行二次聚類,用滿足一定的閾值要求、質(zhì)量較高的核心對象代表“微簇”。

        第三,利用話題綜合評價(jià)標(biāo)準(zhǔn)對話題進(jìn)行過濾。運(yùn)用語義識(shí)別技術(shù),對之前采集的數(shù)據(jù)信息進(jìn)行更深一步的過濾識(shí)別,通過對數(shù)據(jù)信息中句子的結(jié)構(gòu)、語法及部分關(guān)鍵詞的詞義進(jìn)行過濾處理,從而將信息轉(zhuǎn)化為人們常用的語言,將大量復(fù)雜的信息簡單化。從進(jìn)行過聚類、過濾處理后的文本中提取中心詞,將分析后的中心詞進(jìn)行組合,通過結(jié)構(gòu)化分析獲取中心詞組,計(jì)算中心詞組所涉及的文本數(shù)量,運(yùn)算模塊根據(jù)文本參數(shù)進(jìn)行加權(quán)計(jì)算,統(tǒng)計(jì)熱門關(guān)鍵詞組的文本數(shù)量,獲取熱門關(guān)鍵詞組的熱度值。

        三、加強(qiáng)互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息跨維度動(dòng)態(tài)管理

        (一)構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息管理跨維度互動(dòng)模式。

        “趨勢與定向判斷是網(wǎng)絡(luò)輿情分析與分類的核心,是應(yīng)對與引導(dǎo)的依據(jù),根據(jù)匯總到的輿情信息,通過系統(tǒng)的分析,做出關(guān)于輿情發(fā)展趨勢與走向的基本判斷,這一判斷主要是在定量基礎(chǔ)上得出的定向判斷?!睓n案管理人員應(yīng)將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與互聯(lián)網(wǎng)內(nèi)容治理相結(jié)合,讓數(shù)據(jù)流顯現(xiàn)關(guān)聯(lián);將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理與政府科學(xué)決策相結(jié)合,讓信息流暢通無阻;將互聯(lián)網(wǎng)輿情大數(shù)據(jù)檔案管理和輿情日常管理相結(jié)合,讓輿情流和諧運(yùn)轉(zhuǎn)。

        (二)構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息多元管理模式

        傳統(tǒng)檔案管理結(jié)構(gòu)模式中公眾的參與度比較低。大數(shù)據(jù)時(shí)代為輿論的快速形成和公眾對公共事務(wù)話語權(quán)的表達(dá)提供了討論空間,由單一主體治理變?yōu)槎嘣黧w治理,多元主體治理的基本結(jié)構(gòu)體現(xiàn)了混合的特點(diǎn),多元主體治理的邊界與范圍不是簡單的信息關(guān)聯(lián)和多元混合?;ヂ?lián)網(wǎng)和大數(shù)據(jù)技術(shù)拓寬了檔案管理的內(nèi)容,改變了檔案管理人員和民眾的連接與互動(dòng)方式,因此需要尋求一種新的檔案管理模型和良性互動(dòng)的連接機(jī)制來消解傳統(tǒng)檔案管理成長的困境。

        (三)構(gòu)建互聯(lián)網(wǎng)輿情數(shù)據(jù)檔案信息管理回應(yīng)指標(biāo)體系

        警惕輿情動(dòng)態(tài)在復(fù)雜的演進(jìn)過程中出現(xiàn)的不和諧因素,準(zhǔn)確界定輿情等級,通過級別劃分、輿情聚類、有效處置和事后評估構(gòu)建輿情回應(yīng)的指標(biāo)體系,通過行為干預(yù)及早進(jìn)行有效處置,匯編典型事件檔案庫。檔案管理人員應(yīng)從追問事實(shí)到反思制度,從線上輿論和線下互動(dòng)的有效對接到挖掘方法和社會(huì)洞察的有效結(jié)合,構(gòu)建互聯(lián)網(wǎng)輿情檔案管理回應(yīng)指標(biāo)體系,改進(jìn)和完善檔案管理中的制度性、結(jié)構(gòu)性問題。

        猜你喜歡
        分詞搜索引擎輿情
        結(jié)巴分詞在詞云中的應(yīng)用
        值得重視的分詞的特殊用法
        輿情
        中國民政(2016年16期)2016-09-19 02:16:48
        輿情
        中國民政(2016年10期)2016-06-05 09:04:16
        輿情
        中國民政(2016年24期)2016-02-11 03:34:38
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        微博的輿情控制與言論自由
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        av色综合久久天堂av色综合在| 少妇裸淫交视频免费看| 白白色免费视频一区二区在线 | 成人亚洲精品777777| 精品人妻无码一区二区色欲产成人| 国产精品久久久一本精品| 国成成人av一区二区三区| 亚洲最新无码中文字幕久久| 国产麻豆精品久久一二三| 粉嫩极品国产在线观看| 国产av熟女一区二区三区蜜臀| 日本a级片免费网站观看| 午夜无码片在线观看影视| 亚洲午夜无码久久yy6080| 在线亚洲精品一区二区三区| 曰韩少妇内射免费播放| 中文字幕精品一二三四五六七八| 日韩丝袜亚洲国产欧美一区| 少妇深夜吞精一区二区| 国产精品永久久久久久久久久| 又黄又爽又色的视频| 国产美女被遭强高潮露开双腿| 亚洲一区精品中文字幕| 国产精品伦理久久一区| 三级做a全过程在线观看| 国产女精品视频网站免费| 视频女同久久久一区二区三区| 国产精品一区av在线| 久久99国产精一区二区三区| 久久香蕉成人免费大片| 一区二区三区在线日本| 日本中文字幕精品久久| 51看片免费视频在观看| 日韩中文字幕中文有码| 国产欧美亚洲另类第一页| 男女视频一区二区三区在线观看| 超碰人人超碰人人| 学生妹亚洲一区二区| 精品中文字幕日本久久久| 亚洲综合av一区二区三区蜜桃| 丰满人妻在公车被猛烈进入电影|