亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間構(gòu)建*

        2022-09-24 13:32:56張曉君
        情報(bào)雜志 2022年9期
        關(guān)鍵詞:沙盒數(shù)據(jù)源引擎

        趙 旭 黃 微 張曉君

        (1.吉林大學(xué)商學(xué)與管理學(xué)院 長(zhǎng)春 132000;2.吉林師范大學(xué)圖書館 四平 136000)

        0 引 言

        第48次中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告顯示,截至2021年6月,我國(guó)網(wǎng)民規(guī)模為10.11 億[1]。在互聯(lián)網(wǎng)社會(huì)化升級(jí)和營(yíng)造清朗網(wǎng)絡(luò)空間的社會(huì)背景下,網(wǎng)絡(luò)輿情分眾化和時(shí)效性特征,使引導(dǎo)管控網(wǎng)絡(luò)輿情受眾的參與行為成為了現(xiàn)代化社會(huì)治理迫切需求[2]。

        自20世紀(jì)末,國(guó)內(nèi)外學(xué)者就開(kāi)始展開(kāi)網(wǎng)絡(luò)輿情受眾參與行為的研究?!笆鼙姟币辉~本義是指信息傳播的接收者,這一定義強(qiáng)調(diào)了受眾“接收者”的被動(dòng)身份[3]。實(shí)際上,隨著互聯(lián)網(wǎng)的不斷發(fā)展,網(wǎng)民數(shù)量持續(xù)穩(wěn)定增長(zhǎng),網(wǎng)絡(luò)輿情受眾已經(jīng)不僅是被動(dòng)的輿情信息接收者,而是網(wǎng)絡(luò)輿情產(chǎn)生、傳播過(guò)程中的重要參與主體,是最直接的驅(qū)動(dòng)力量。鑒于此,網(wǎng)絡(luò)輿情受眾被定義為“對(duì)社會(huì)敏感話題有持續(xù)關(guān)注度,并在網(wǎng)絡(luò)空間以搜索、轉(zhuǎn)載、回帖、評(píng)論、利用社交媒體發(fā)布原生新聞等形式,積極參與網(wǎng)絡(luò)輿情信息生產(chǎn)傳播的公民評(píng)論員[4]。而網(wǎng)絡(luò)輿情受眾參與行為更多的是指輿情受眾的信息行為,所有與網(wǎng)絡(luò)輿情信息源選擇、信息使用、信息搜尋、信息交流等相關(guān)的人類行為[5]。

        引導(dǎo)管控網(wǎng)絡(luò)輿情受眾的參與行為對(duì)于營(yíng)造風(fēng)清氣朗互聯(lián)網(wǎng)空間至關(guān)重要,而對(duì)網(wǎng)絡(luò)輿情受眾的參與行為靶向引導(dǎo)、有效管控的前提,則建立在網(wǎng)絡(luò)輿情受眾參與行為精準(zhǔn)標(biāo)定基礎(chǔ)之上[6]。在網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定研究中,首先建立受眾參與行為標(biāo)準(zhǔn),將網(wǎng)絡(luò)輿情受眾參與行為劃分為操作活動(dòng)、交互活動(dòng)和內(nèi)驅(qū)活動(dòng)[7];進(jìn)而,基于輿情數(shù)據(jù)對(duì)單個(gè)輿情受眾參與行為進(jìn)行定性到定量、抽象到具體的描述,定量數(shù)據(jù)源自于對(duì)網(wǎng)絡(luò)輿情受眾個(gè)體的識(shí)別、行為的識(shí)別、情感的識(shí)別及體征的識(shí)別[8];最后對(duì)標(biāo)定結(jié)果進(jìn)行精度檢驗(yàn)與校準(zhǔn),擬合參與行為軌跡,預(yù)測(cè)靶向引導(dǎo)的行為趨勢(shì)[9]。

        圖1 網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型

        然而,輿情事件信息散布在多個(gè)移動(dòng)輿情平臺(tái)。并且,數(shù)據(jù)形式復(fù)雜、數(shù)據(jù)體量較大、數(shù)據(jù)更新速度較快、信息價(jià)值密度較低。可是,PZ,DY〗數(shù)據(jù)整合匯聚在一個(gè)輿情受眾參與行為標(biāo)定大數(shù)據(jù)中心成本高、技術(shù)復(fù)雜,也會(huì)因?yàn)楦饕苿?dòng)輿情平臺(tái)的數(shù)據(jù)保護(hù)壁壘而更不具有可行性[10]。同時(shí),輿情受眾參與行為標(biāo)定最基礎(chǔ)的標(biāo)定粒度是單個(gè)受眾,所有的輿情數(shù)據(jù)的數(shù)據(jù)對(duì)象必須明晰,進(jìn)而確定輿情數(shù)據(jù)的占有、使用、收益、處分權(quán)利人,才能夠建立任何一條輿情數(shù)據(jù)和受眾、受眾行為的關(guān)聯(lián),并基于輿情管理的多價(jià)值協(xié)同目標(biāo)破除不同輿情平臺(tái)的數(shù)據(jù)壁壘[11]。但是,即便解決了標(biāo)定所需數(shù)據(jù)基礎(chǔ)問(wèn)題和數(shù)據(jù)對(duì)象問(wèn)題,在展開(kāi)受眾行為標(biāo)定及面向操作層面的靶向引導(dǎo)過(guò)程中,我們亦會(huì)發(fā)現(xiàn),如何基于數(shù)據(jù)面向標(biāo)定和引導(dǎo)需求提供精準(zhǔn)、全面、智慧的數(shù)據(jù)服務(wù)和知識(shí)服務(wù),是網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定的另一個(gè)關(guān)鍵問(wèn)題[12]。

        因而,在上述問(wèn)題導(dǎo)向下,本文在梳理國(guó)內(nèi)外相關(guān)學(xué)者的研究基礎(chǔ)上,引入了數(shù)據(jù)空間的概念:數(shù)據(jù)空間是面向特定組織或個(gè)人的所有分布數(shù)據(jù)源及其豐富關(guān)聯(lián)關(guān)系的集合,并包括數(shù)據(jù)對(duì)象、數(shù)據(jù)集、數(shù)據(jù)服務(wù)3個(gè)維度[13]。網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間則可以被界定為:面向特定輿情主體的所有移動(dòng)輿情平臺(tái)分布數(shù)據(jù)源及其豐富的輿情受眾行為和數(shù)據(jù)關(guān)聯(lián)關(guān)系的集合。

        1 網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型

        1.1 輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型框架

        網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型由管理引擎、數(shù)據(jù)中樞系統(tǒng)和數(shù)據(jù)空間模型三大部分組成,如圖1所示。參與行為標(biāo)定數(shù)據(jù)協(xié)同需求驅(qū)動(dòng)的管理引擎主要功能是感知參與行為標(biāo)定對(duì)數(shù)據(jù)的需求,采集并調(diào)用數(shù)據(jù),清洗并處理數(shù)據(jù),沙盒數(shù)據(jù)輸出?;诘讓咏涌趲?kù)的數(shù)據(jù)中樞系統(tǒng)主要功能則是對(duì)管理引擎進(jìn)行管理、保障標(biāo)定需求精準(zhǔn)契合、中樞數(shù)據(jù)的實(shí)時(shí)更新。對(duì)數(shù)據(jù)對(duì)象進(jìn)行管理,實(shí)現(xiàn)數(shù)據(jù)主體、輿情受眾、數(shù)據(jù)權(quán)限、參與行為和數(shù)據(jù)關(guān)系的全生命周期管理。對(duì)數(shù)據(jù)集進(jìn)行管理,保證數(shù)據(jù)具有較高的價(jià)值密度、適宜的體量、較細(xì)的粒度。提供數(shù)據(jù)服務(wù)和知識(shí)服務(wù),保障輿情受眾行為標(biāo)定的數(shù)據(jù)基礎(chǔ)和知識(shí)支撐。網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型則包括數(shù)據(jù)協(xié)同管理引擎模型、智能彈性數(shù)據(jù)沙盒模型、行為標(biāo)定數(shù)據(jù)中樞模型、行為標(biāo)定服務(wù)接口模型,融合爬蟲技術(shù)、彈性分發(fā)技術(shù)、數(shù)據(jù)技術(shù)、語(yǔ)義本體技術(shù),采用數(shù)據(jù)映射方法、生命周期管理方法、社會(huì)網(wǎng)絡(luò)分析方法,實(shí)現(xiàn)上述模型的功能。

        1.2 參與行為標(biāo)定數(shù)據(jù)協(xié)同需求驅(qū)動(dòng)的管理引擎模型

        網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)協(xié)同需求驅(qū)動(dòng)的管理引擎模型如圖2所示,包括數(shù)據(jù)采集引擎、數(shù)據(jù)中樞引擎和數(shù)據(jù)輸出引擎3個(gè)子引擎,數(shù)據(jù)采集引擎基于行為標(biāo)定的數(shù)據(jù)需求,感知并觸發(fā)采集行為指令,對(duì)多數(shù)據(jù)源數(shù)據(jù)進(jìn)行并發(fā)采集。數(shù)據(jù)中樞引擎實(shí)際上是沙盒數(shù)據(jù)中樞引擎,執(zhí)行數(shù)據(jù)清洗和處理,并暫存在沙盒數(shù)據(jù)集中。數(shù)據(jù)采集引擎在采集或調(diào)用數(shù)據(jù)前,需要根據(jù)數(shù)據(jù)中樞引擎的數(shù)據(jù)一致性檢驗(yàn)結(jié)果,來(lái)判斷是否執(zhí)行采集或調(diào)用執(zhí)行。數(shù)據(jù)輸出引擎則是對(duì)數(shù)據(jù)沙盒的數(shù)據(jù)進(jìn)行輸出,以執(zhí)行參與行為標(biāo)定過(guò)程中的數(shù)據(jù)預(yù)檢驗(yàn)。輿情數(shù)據(jù)沙盒可以理解為正式存儲(chǔ)到數(shù)據(jù)中樞系統(tǒng)的暫存數(shù)據(jù),以便在管理引擎的處理下,最終形成需求驅(qū)動(dòng)、多源數(shù)據(jù)協(xié)同、價(jià)值密度較高、數(shù)據(jù)體量相對(duì)較小的子數(shù)據(jù)集,進(jìn)而通過(guò)數(shù)據(jù)中樞系統(tǒng)引擎管理模塊的檢驗(yàn),正式存儲(chǔ)到數(shù)據(jù)中樞系統(tǒng)。

        圖2 網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)協(xié)同需求驅(qū)動(dòng)的管理引擎模型

        1.3 基于底層接口庫(kù)的參與行為標(biāo)定數(shù)據(jù)中樞系統(tǒng)模型

        網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)中樞系統(tǒng)如圖3所示,主要包括引擎管理模塊、數(shù)據(jù)對(duì)象管理模塊、數(shù)據(jù)集管理模塊、數(shù)據(jù)服務(wù)模塊,同時(shí)基于數(shù)據(jù)協(xié)同管理引擎接口、智能彈性數(shù)據(jù)沙盒接口、數(shù)據(jù)服務(wù)接口、行為標(biāo)定數(shù)據(jù)中樞接口等接口庫(kù)同輿情參與行為數(shù)據(jù)標(biāo)定操作進(jìn)行數(shù)據(jù)交互,并采用數(shù)據(jù)映射方法、智慧服務(wù)方法、生命周期管理方法、社會(huì)網(wǎng)絡(luò)分析方法、分級(jí)管理技術(shù)、語(yǔ)義本體技術(shù)、云存儲(chǔ)技術(shù)、大數(shù)據(jù)技術(shù)支撐中樞系統(tǒng)運(yùn)行。

        圖3 基于底層接口庫(kù)的網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)中樞系統(tǒng)模型

        2 網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間算法

        2.1 數(shù)據(jù)協(xié)同管理引擎算法

        圖5 數(shù)據(jù)協(xié)同管理引擎工作流程

        定義J操作計(jì)算Zh,算法如公式(1)所示:

        (1)

        定義N操作計(jì)算Oh,算法如公式(2)所示:

        (2)

        接著開(kāi)始HITS計(jì)算,初始化(D,k),D為j個(gè)種子數(shù)據(jù)源集合,k為任意自然數(shù)。設(shè)a=(1,1…1)∈Sj,設(shè)O0、Z0初始值為a,執(zhí)行以下循環(huán)操作,返回Zk、Ok值:

        Fori=1,2,…k

        對(duì)Zi-1,Oi-1執(zhí)行J操作,求得Zi

        對(duì)0i-1,Oi-1執(zhí)行N操作,求得Oi

        END

        接著判斷數(shù)據(jù)權(quán)限,如果沒(méi)有權(quán)限則重新選擇數(shù)據(jù)源,對(duì)于有權(quán)限的數(shù)據(jù)源則建立連接,如果連接建立不成功,則入庫(kù)到待采集地址,循環(huán)n次后仍然不成功則放棄采集。連接建立成功后,獲取數(shù)據(jù)內(nèi)容。具有完全數(shù)據(jù)權(quán)限的,則下載數(shù)據(jù)后,存儲(chǔ)到數(shù)據(jù)沙盒,部分權(quán)限的則不下載數(shù)據(jù),解析數(shù)據(jù)后,建立地址映射。中樞引擎負(fù)責(zé)數(shù)據(jù)的清洗、處理和數(shù)據(jù)輸出,其核心的功能是對(duì)沙盒數(shù)據(jù)及待采集映射數(shù)據(jù)的相關(guān)性比對(duì),本文采取基于塊的相關(guān)性算法實(shí)現(xiàn)。

        將數(shù)據(jù)源內(nèi)容劃分為多個(gè)獨(dú)立的塊,假設(shè)為標(biāo)定內(nèi)容塊Cd、噪音塊Cb、鏈接塊Co。標(biāo)定內(nèi)容塊與標(biāo)定所需檢索詞相同或相似,或者同沙盒存儲(chǔ)內(nèi)容相同或相似,鏈接塊指向與標(biāo)定內(nèi)容相關(guān)的鏈接,噪音塊鏈接同待采集數(shù)據(jù)源沒(méi)有關(guān)系。設(shè)定標(biāo)定主題u,正在采集的數(shù)據(jù)源用Vi表示,已經(jīng)獲取的內(nèi)容為Qi,Vi的鏈出數(shù)據(jù)地址用Vu表示,Vu為待采集數(shù)據(jù)源Qu,Qu的標(biāo)定相關(guān)度用Sc表示。則Sc可以由公式(3)計(jì)算:

        (3)

        其中α為優(yōu)先度,當(dāng)Vu為噪音塊鏈接,則同標(biāo)定主題不相關(guān)。當(dāng)Vu為標(biāo)定內(nèi)容塊時(shí),則與標(biāo)定主題相關(guān)。本文采用以下方法改進(jìn)詞頻逆文本頻率指數(shù)(TF-IDF)算法[15],當(dāng)Vu為導(dǎo)航鏈接塊,數(shù)據(jù)源地址同標(biāo)定主題索引有關(guān),剔除噪音塊及Qu∩Qi數(shù)據(jù)源,確定采集優(yōu)先順序,引入數(shù)據(jù)源數(shù)據(jù)協(xié)同權(quán)重改進(jìn)TF-IDF算法來(lái)計(jì)算相似度,如公式(4)所示:

        (4)

        (5)

        其中ti,l是標(biāo)定主題詞L在數(shù)據(jù)源的密度,O是數(shù)據(jù)源的數(shù)據(jù)總量,Ol是含有標(biāo)定主題詞L的數(shù)據(jù)頁(yè)面總數(shù),WSiSN為數(shù)據(jù)源的數(shù)據(jù)協(xié)同權(quán)重,如公式(6)所示:

        (6)

        公式(6)中,PRSi為目標(biāo)數(shù)據(jù)源Alexa指數(shù)(alexa.cn)的3個(gè)月日均UV值,PLl為待采集數(shù)據(jù)地址的鏈出數(shù)量,PLk為待采集地址的鏈入和鏈出數(shù)量和。

        沙盒數(shù)據(jù)和緩存數(shù)據(jù)在采集管理引擎中樞處理后,再通過(guò)數(shù)據(jù)中樞的協(xié)同管理引擎處理,確定最終是否存儲(chǔ)到數(shù)據(jù)中樞。

        2.2 智能彈性數(shù)據(jù)沙盒算法

        網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間管理引擎的智能彈性數(shù)據(jù)沙盒工作流程如圖5所示。

        圖5 智能彈性數(shù)據(jù)沙盒工作流程

        數(shù)據(jù)沙盒作為一個(gè)相對(duì)臨時(shí)的數(shù)據(jù)集,在數(shù)據(jù)管理引擎中具有重要的作用,一方面支持標(biāo)定數(shù)據(jù)獲取或者標(biāo)定過(guò)程中的實(shí)時(shí)結(jié)果的輸出;另一方面,基于敏捷開(kāi)發(fā)的思維,避免數(shù)據(jù)直接存儲(chǔ)到中樞系統(tǒng)數(shù)據(jù)集后,行為標(biāo)定數(shù)據(jù)和標(biāo)定需求不匹配而帶來(lái)的時(shí)間和成本大幅上升問(wèn)題。再者,對(duì)于采集的數(shù)據(jù)或者映射到的數(shù)據(jù)源,其真實(shí)性、可靠性、數(shù)據(jù)質(zhì)量往往并不能在沒(méi)有經(jīng)過(guò)數(shù)據(jù)檢驗(yàn)、數(shù)據(jù)集并不完善、采集映射進(jìn)程還在進(jìn)行的前提下,得到最終的可靠檢驗(yàn)結(jié)果,此時(shí)數(shù)據(jù)或者映射地址存儲(chǔ)到數(shù)據(jù)中樞數(shù)據(jù)庫(kù),會(huì)對(duì)數(shù)據(jù)中樞數(shù)據(jù)質(zhì)量、時(shí)效性、真實(shí)性、價(jià)值密度帶來(lái)很大影響。沙盒數(shù)據(jù)和映射數(shù)據(jù)、采集數(shù)據(jù)在數(shù)據(jù)檢驗(yàn)和操作判斷環(huán)節(jié),一個(gè)最主要的標(biāo)準(zhǔn)就是內(nèi)容相關(guān)度,本文提出基于輿情受眾參與行為表示的內(nèi)容相關(guān)度算法,首先構(gòu)建內(nèi)容子句網(wǎng)絡(luò)圖,接著計(jì)算詞、節(jié)點(diǎn)、邊權(quán)重,最后計(jì)算行為-內(nèi)容相關(guān)度,得出不同行為維度下采集數(shù)據(jù)、映射數(shù)據(jù)和現(xiàn)有沙盒數(shù)據(jù)的相關(guān)程度,如下計(jì)算:

        首先,將采集數(shù)據(jù)、映射數(shù)據(jù)以及沙盒數(shù)據(jù)進(jìn)行字句提取,提取字句盡量充分覆蓋該內(nèi)容主題。接著,將每個(gè)子句作為網(wǎng)絡(luò)圖節(jié)點(diǎn),以重合詞建立連接構(gòu)成無(wú)向圖,邊權(quán)重算法如公式(7)所示。其中,L1和L2代表子句構(gòu)成的節(jié)點(diǎn),Weight(L1,L2)代表L1和L2的邊初始權(quán)重,|L1∩L2|代表子句分詞集合交集詞數(shù)量,|L1∪L2|代表子句分詞集合并集詞數(shù)量。

        (7)

        節(jié)點(diǎn)算法選擇上,鑒于Text Rank算法[16]適用于無(wú)向圖,并將關(guān)鍵詞視為節(jié)點(diǎn),因而本文將子句視為節(jié)點(diǎn)并進(jìn)行改進(jìn)來(lái)實(shí)現(xiàn)節(jié)點(diǎn)權(quán)重的迭代,如公式(8)所示。

        WeightT(Li)=(1-e)+e×

        (8)

        其中e為阻尼系數(shù)取0.85[17],WeightT(Li)為節(jié)點(diǎn)Li權(quán)重,in(Li)和out(Lj)分別為節(jié)點(diǎn)Li的鏈入和鏈出。Weightij代表節(jié)點(diǎn)Li與Lj邊權(quán)重,Weightjk代表節(jié)點(diǎn)Lj與Lk邊權(quán)重。進(jìn)而基于節(jié)點(diǎn)權(quán)重更新詞權(quán)重,如公式(9)所示。其中,Weight(Xi)是詞Xi權(quán)重,X為包含詞Xi節(jié)點(diǎn)結(jié)合,WeightT(Lk)為節(jié)點(diǎn)Lk權(quán)重,L為全部節(jié)點(diǎn),|L|為集合中元素?cái)?shù)量。

        (9)

        節(jié)點(diǎn)間連接的邊權(quán)重在詞權(quán)重基礎(chǔ)上計(jì)算,如公式(10)所示,Weight(L1,L2)為節(jié)點(diǎn)L1和L2連接的邊權(quán)重。

        (10)

        Sim(A,B)=

        2.3 行為標(biāo)定數(shù)據(jù)中樞算法

        數(shù)據(jù)中樞系統(tǒng)主要實(shí)現(xiàn)數(shù)據(jù)引擎管理、數(shù)據(jù)對(duì)象管理、數(shù)據(jù)集管理和數(shù)據(jù)服務(wù)功能,數(shù)據(jù)引擎管理其實(shí)就是同數(shù)據(jù)協(xié)同管理引擎和數(shù)據(jù)沙盒的引擎指令交互,數(shù)據(jù)服務(wù)模塊和數(shù)據(jù)集管理模塊則主要基于傳統(tǒng)的大數(shù)據(jù)、語(yǔ)義本體、社會(huì)網(wǎng)絡(luò)分析等技術(shù)和方法,通過(guò)數(shù)據(jù)服務(wù)和知識(shí)服務(wù)接口實(shí)現(xiàn)有關(guān)功能。輿情受眾參與行為數(shù)據(jù)空間同傳統(tǒng)大數(shù)據(jù)的主要區(qū)別,就在于數(shù)據(jù)對(duì)象的管理,因而本文重點(diǎn)圍繞數(shù)據(jù)對(duì)象權(quán)限,采用分級(jí)管理技術(shù)和生命周期管理方法,設(shè)計(jì)了行為標(biāo)定數(shù)據(jù)中樞工作流程,如圖6所示。

        面向數(shù)據(jù)權(quán)限的輿情主體可以被區(qū)分為擁有全部數(shù)據(jù)權(quán)限的數(shù)據(jù)權(quán)人,擁有部分?jǐn)?shù)據(jù)權(quán)限的被授權(quán)人,尚未確定數(shù)據(jù)權(quán)限的未授權(quán)人以及沒(méi)有任何數(shù)據(jù)權(quán)限的不被授權(quán)人。從數(shù)據(jù)權(quán)限的類型來(lái)看,包括數(shù)據(jù)占有、使用、收益和處分4種類型。然而,網(wǎng)絡(luò)輿情數(shù)據(jù)源多樣,同一用戶在跨數(shù)據(jù)源的身份標(biāo)識(shí)可能不同,那么如何跨輿情網(wǎng)絡(luò)匹配網(wǎng)絡(luò)用戶則是數(shù)據(jù)中樞需要解決的主要問(wèn)題。只有解決了這個(gè)問(wèn)題,才能夠?qū)⒉煌浨槠脚_(tái)的同一用戶識(shí)別出來(lái),并基于數(shù)據(jù)權(quán)限展開(kāi)行為識(shí)別和標(biāo)定。因而,本文設(shè)計(jì)了基于好友的跨輿情平臺(tái)用戶身份匹配算法,計(jì)算過(guò)程如下:

        圖6 行為標(biāo)定數(shù)據(jù)中樞工作流程

        (12)

        (13)

        (14)

        (15)

        (16)

        2.4 行為標(biāo)定服務(wù)接口算法

        網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定服務(wù)接口從標(biāo)定需求出發(fā),面向數(shù)據(jù)空間的知識(shí)服務(wù)和數(shù)據(jù)服務(wù),基于數(shù)據(jù)指令和算法請(qǐng)求指令,執(zhí)行相應(yīng)的數(shù)據(jù)所示或算法操作,將返回結(jié)果通過(guò)Api工具進(jìn)行輸出,流程如圖7所示。

        從過(guò)程來(lái)看,首先基于指令進(jìn)行數(shù)據(jù)檢索,接著判斷是否需要深度學(xué)習(xí)計(jì)算,一般情況下基于行為類型標(biāo)簽檢索、數(shù)據(jù)源地址標(biāo)簽檢索、受眾ID檢索是不需要深度學(xué)習(xí)計(jì)算的,那么則拼接查詢語(yǔ)句,執(zhí)行查詢語(yǔ)句,返回?cái)?shù)據(jù)結(jié)果并輸出。如果需要深度學(xué)習(xí)計(jì)算,則進(jìn)入消息隊(duì)列等待,并輸出是否處理的結(jié)果,同時(shí)請(qǐng)求計(jì)算,計(jì)算完成后輸出數(shù)據(jù)結(jié)果。從算法請(qǐng)求流程來(lái)看,對(duì)提交的算法指令在算法庫(kù)中進(jìn)行檢索,接著判斷是否需要深度學(xué)習(xí),不需要深度學(xué)習(xí)則拼接、執(zhí)行語(yǔ)句,返回算法執(zhí)行結(jié)果并輸出。如果需要深度學(xué)習(xí),則進(jìn)一步計(jì)算后輸出算法計(jì)算結(jié)果。然而,基于輿情主題進(jìn)行檢索,進(jìn)而將輸出數(shù)據(jù)作為標(biāo)定基礎(chǔ)數(shù)據(jù)集,也是輿情標(biāo)定實(shí)踐操作的重要內(nèi)容,則需要采用科學(xué)的算法來(lái)提高檢索精度,因而在公式(7)-(9)基礎(chǔ)上,進(jìn)一步改進(jìn)算法,以適應(yīng)主題-內(nèi)容數(shù)據(jù)輸出的檢索需求,可如下計(jì)算。

        圖7 行為標(biāo)定服務(wù)接口工作流程

        首先構(gòu)建檢索主題句和數(shù)據(jù)空間內(nèi)容子句網(wǎng)絡(luò)圖,接著計(jì)算詞、節(jié)點(diǎn)、邊權(quán)重,最后計(jì)算主題-內(nèi)容相關(guān)度。檢索主題句進(jìn)行字詞提取,數(shù)據(jù)空間內(nèi)容則進(jìn)行子句、字詞提取,將檢索主題句和內(nèi)容子句作為網(wǎng)絡(luò)圖節(jié)點(diǎn),以重合詞建立連接構(gòu)成無(wú)向圖,邊權(quán)重算法如公式(17)所示。其中,L1代表檢索主題句,L2代表內(nèi)容子句構(gòu)成的節(jié)點(diǎn),Weight(L1,L2)代表L1和L2的邊初始權(quán)重,|L1∩L2|代表檢索主題句和內(nèi)容子句分詞集合交集詞數(shù)量,|L1∪L2|代表子句分詞集合并集詞數(shù)量。

        (17)

        節(jié)點(diǎn)權(quán)重、邊權(quán)重采用上文公式(8)-(10)計(jì)算,接著構(gòu)建以檢索主題句為節(jié)點(diǎn)A,以及數(shù)據(jù)空間內(nèi)容句B為節(jié)點(diǎn)的無(wú)向網(wǎng)絡(luò)圖U,基于公式(18)計(jì)算檢索主題-內(nèi)容相關(guān)度。其中|U|為網(wǎng)絡(luò)圖U所有節(jié)點(diǎn)數(shù)量,k為節(jié)點(diǎn)Li邊的數(shù)量,ConditionA為檢索主題條件約束集,ConditionB為同檢索主題條件約束集要素對(duì)應(yīng)的數(shù)據(jù)空間內(nèi)容條件屬性集。例如ConditionA=(數(shù)據(jù)源:新浪微博,數(shù)據(jù)主體:光明日?qǐng)?bào)),ConditionB=(數(shù)據(jù)源:新浪微博,數(shù)據(jù)主體:光明日?qǐng)?bào)∪參考消息)。

        Sim(A,B)=

        (18)

        最后,采用上述方法循環(huán)計(jì)算出所有數(shù)據(jù)內(nèi)容同檢索主題的相關(guān)度,按照從高到低排列,調(diào)整輸出窗口大小輸出數(shù)據(jù),作為該主題下輿情受眾參與行為標(biāo)定的基礎(chǔ)數(shù)據(jù)。

        3 實(shí)驗(yàn)設(shè)計(jì)與結(jié)果分析

        3.1 實(shí)驗(yàn)環(huán)境

        a.實(shí)驗(yàn)工具。

        操作系統(tǒng)Windows 10 專業(yè)版(64 位)

        處理器Intel(R) Core(TM) i5-8250U

        CPU @ 1.60GHz 1.80 GHz

        內(nèi)存4GB

        編譯環(huán)境Python 3.8.3、MATLAB2019a、

        Gephi0.6.2

        b.參數(shù)設(shè)置。

        參數(shù)設(shè)置如表1所示。

        表1 實(shí)驗(yàn)參數(shù)設(shè)置表

        3.2 實(shí)驗(yàn)數(shù)據(jù)

        采用爬蟲在抖音、新浪微博獲取數(shù)據(jù),新浪微博樣本數(shù)據(jù)樣例見(jiàn)表2。

        表2 “湯加火山爆發(fā)”事件輿情受眾參與行為標(biāo)定數(shù)據(jù)樣本

        續(xù)表2 “湯加火山爆發(fā)”事件輿情受眾參與行為標(biāo)定數(shù)據(jù)樣本

        3.3 結(jié)果分析

        3.3.1數(shù)據(jù)協(xié)同管理引擎效率分析

        在多次試驗(yàn)后,最終選擇相關(guān)度指標(biāo)0.2方案,進(jìn)行了數(shù)據(jù)的采集。Python爬蟲數(shù)據(jù)采集線程為10, 新浪微博以https://m.weibo.cn/search?containerid=100103type%3D1%26q%3D%E6%B1%A4%E5%8A%A0%E7%81%AB%E5%B1%B1為起始地址,抖音以https://www.douyin.com/search/%E6%B1%A4%E5%8A%A0%E7%81%AB%E5%B1%B1%E5%96%B7%E5%8F%91?source=normal_search&aid=9cfa6148-ab76-4594-b149-d49c62bb6b6e&enter_from=recommend為起始地址開(kāi)始爬取,耗時(shí)3小時(shí)24分,cpu平均利用率72% ,內(nèi)存平均利用率83%。采集過(guò)程中共選取地址189個(gè),連接失敗地址12個(gè),連接成功地址177個(gè),其中抖音地址59個(gè),新浪微博地址118個(gè),最終采集新浪微博數(shù)據(jù)12 126條,采集抖音數(shù)據(jù)3 105條,抖音映射地址59個(gè)。為檢測(cè)數(shù)據(jù)協(xié)同管理引擎算法效率,進(jìn)一步將不采用算法的Python采集[18]和火車頭采集[19]效果進(jìn)行了對(duì)比,結(jié)果如表3所示。

        表3 采集效率對(duì)比

        結(jié)果表明,本文設(shè)計(jì)的數(shù)據(jù)采集流程清晰、有效,能夠針對(duì)標(biāo)定數(shù)據(jù)需求,采集到足夠的樣本數(shù)據(jù),并降低了數(shù)據(jù)存儲(chǔ)對(duì)硬件的要求。同不采用數(shù)據(jù)協(xié)同管理引擎算法的其他采集方式相比較,優(yōu)點(diǎn)是樣本數(shù)據(jù)質(zhì)量更高、更精準(zhǔn),缺點(diǎn)是耗時(shí)雖然比火車頭采集短,但是相較未應(yīng)用本算法的普通Python采集方式,耗時(shí)相對(duì)較長(zhǎng)。

        3.3.2沙盒數(shù)據(jù)和映射數(shù)據(jù)分析

        最終沙盒數(shù)據(jù)和映射數(shù)據(jù)統(tǒng)計(jì)如表4所示。隨著相關(guān)度指標(biāo)的上升,采集數(shù)據(jù)量、沙盒數(shù)據(jù)量、映射數(shù)據(jù)量和輸出數(shù)據(jù)量都增大。說(shuō)明相關(guān)度指標(biāo)值越大,采集的數(shù)據(jù)內(nèi)容和沙盒數(shù)據(jù)內(nèi)容相似度越大,在達(dá)不到數(shù)據(jù)標(biāo)定樣本數(shù)據(jù)差異化要求情況下,將會(huì)采集并輸出更多的數(shù)據(jù)。而相關(guān)度指標(biāo)為0時(shí),則說(shuō)明采集內(nèi)容和數(shù)據(jù)沙盒數(shù)據(jù)內(nèi)容相似度較小,但是卻可能存在偏離標(biāo)定數(shù)據(jù)主題的情況。從映射數(shù)量來(lái)看,因?yàn)橛成鋽?shù)據(jù)更多的是抖音的視頻數(shù)據(jù),因而,隨著相關(guān)度指標(biāo)的增大,映射數(shù)據(jù)量雖然有所攀升,但是幅度不大,說(shuō)明抖音視頻的內(nèi)容相似度較小,而新浪微博的數(shù)據(jù)相似度較高。最終本文選擇相關(guān)度為0.2展開(kāi)進(jìn)行其他數(shù)據(jù)實(shí)驗(yàn),實(shí)驗(yàn)結(jié)束后,映射抖音數(shù)據(jù)地址2 105條,輸出數(shù)據(jù)15 231條,沙盒中尚有21 294條數(shù)據(jù)待檢驗(yàn),因抖音映射數(shù)據(jù)的地址、對(duì)象、標(biāo)題、標(biāo)簽、摘要元數(shù)據(jù)在沙盒及輸出數(shù)據(jù)中,因而采集數(shù)據(jù)量是沙盒數(shù)據(jù)和輸出數(shù)據(jù)之和36 525條。

        表4 沙盒數(shù)據(jù)和映射數(shù)據(jù)統(tǒng)計(jì)表

        3.3.3行為標(biāo)定中樞及服務(wù)數(shù)據(jù)分析

        行為標(biāo)定中樞數(shù)據(jù)存儲(chǔ)了上述實(shí)驗(yàn)結(jié)果的輸出數(shù)據(jù),以便基于標(biāo)定數(shù)據(jù)服務(wù)需求向標(biāo)定行為人輸出,有關(guān)數(shù)據(jù)結(jié)果已經(jīng)在上文說(shuō)明。但,行為數(shù)據(jù)中樞數(shù)據(jù)處理過(guò)程中,更重要的是采用了基于好友的跨輿情平臺(tái)用戶身份匹配算法,對(duì)于跨平臺(tái)的同一真實(shí)用戶進(jìn)行識(shí)別。而此識(shí)別結(jié)果在標(biāo)定服務(wù)中,作為檢索主題-內(nèi)容相關(guān)度條件約束,則能夠更精準(zhǔn)地匹配到中樞數(shù)據(jù)內(nèi)容[20]。相關(guān)結(jié)果如表5和表6所示。

        表5 跨輿情平臺(tái)用戶身份匹配和基于昵稱匹配結(jié)果對(duì)比

        表6 檢索主題-內(nèi)容相關(guān)度數(shù)據(jù)結(jié)果統(tǒng)計(jì)表

        續(xù)表6 檢索主題-內(nèi)容相關(guān)度數(shù)據(jù)結(jié)果統(tǒng)計(jì)表

        數(shù)據(jù)結(jié)果表明,基于好友的跨輿情平臺(tái)用戶身份匹配算法隨著內(nèi)容相關(guān)度指標(biāo)的增加,識(shí)別效果得以提升,相較昵稱識(shí)別的方式提高了識(shí)別精度。檢索主題-內(nèi)容相關(guān)度算法在檢索主題-內(nèi)容相關(guān)度設(shè)定為0.8以上時(shí),能夠取得較好的檢索結(jié)果,其中表中相關(guān)度為檢索主題-內(nèi)容相關(guān)度,內(nèi)容相關(guān)度取0.2,一致數(shù)量為檢索主題-內(nèi)容完全一致的數(shù)量,作為判定標(biāo)準(zhǔn)。選擇數(shù)量為不同檢索主題-內(nèi)容相關(guān)度算法,檢索到的數(shù)據(jù)數(shù)量,正確數(shù)量為選擇數(shù)量中,同一致數(shù)量完全相同的數(shù)據(jù)量。

        3.3.4數(shù)據(jù)空間可視化分析

        基于獲取的網(wǎng)絡(luò)數(shù)據(jù),采用Gephi軟件繪圖并獲取數(shù)據(jù)統(tǒng)計(jì)結(jié)果。以輿情受眾參與行為關(guān)系連接為邊,構(gòu)建了網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間的行為關(guān)系網(wǎng)絡(luò)。網(wǎng)絡(luò)圖中,行為關(guān)系連接數(shù)為24 438,平均加權(quán)度為11.88,反映了標(biāo)定數(shù)據(jù)空間用戶參與行為較為緊密。參與行為統(tǒng)計(jì)結(jié)果顯示,點(diǎn)贊行為比例為48.58,評(píng)論行為比率為15.76%,內(nèi)驅(qū)行為比率為0.02%。從交互、參與和內(nèi)驅(qū)行為匯總比例來(lái)看,比值為100∶30∶1。說(shuō)明在標(biāo)定數(shù)據(jù)空間,以交互行為數(shù)據(jù)為主,參與行為數(shù)據(jù)為輔,而內(nèi)驅(qū)行為較少。也說(shuō)明僅僅以獲取到的基礎(chǔ)數(shù)據(jù)作為輿情受眾參與行為識(shí)別和標(biāo)定的結(jié)果性數(shù)據(jù)存在疏漏、不科學(xué)、錯(cuò)誤的可能性,需要進(jìn)一步對(duì)行為表象形成的數(shù)據(jù)空間數(shù)據(jù)進(jìn)行分析挖掘,特別是基于語(yǔ)義對(duì)內(nèi)驅(qū)行為的挖掘。

        圖8 數(shù)據(jù)空間數(shù)據(jù)源核心節(jié)點(diǎn)圖

        以受眾用戶為節(jié)點(diǎn),以鏈接關(guān)系為邊,構(gòu)建了輿情受眾參與行為標(biāo)定數(shù)據(jù)空間云圖,數(shù)據(jù)空間用戶節(jié)點(diǎn)眾多,連接較為頻繁,輿情受眾關(guān)系明晰,具備參與行為標(biāo)定的用戶識(shí)別基礎(chǔ)。以數(shù)據(jù)源為核心節(jié)點(diǎn),以輿情話題相關(guān)性為邊,構(gòu)建數(shù)據(jù)源核心節(jié)點(diǎn)如圖8所示。可見(jiàn),新浪微博數(shù)據(jù)源的衍生話題較多,而抖音衍生話題較少,為基于話題對(duì)輿情受眾參與行為進(jìn)行標(biāo)定和識(shí)別構(gòu)建了數(shù)據(jù)基礎(chǔ)。

        4 結(jié) 論

        針對(duì)網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)源分散、數(shù)據(jù)整合存在壁壘、數(shù)據(jù)主體不明晰、數(shù)據(jù)管理權(quán)限缺失現(xiàn)狀,為解決輿情受眾參與行為標(biāo)定所需基礎(chǔ)數(shù)據(jù)建設(shè)和知識(shí)支撐問(wèn)題,構(gòu)建了網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間模型,提出了網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間算法,并設(shè)計(jì)了實(shí)驗(yàn),分析了實(shí)驗(yàn)結(jié)果。

        結(jié)果表明,本文設(shè)計(jì)的數(shù)據(jù)采集流程清晰、有效,能夠針對(duì)標(biāo)定數(shù)據(jù)需求,采集到足夠的樣本數(shù)據(jù),樣本數(shù)據(jù)質(zhì)量更高、更精準(zhǔn)。智能彈性數(shù)據(jù)沙盒算法有效地起到了數(shù)據(jù)中樞數(shù)據(jù)緩沖、篩選的作用,跨輿情平臺(tái)用戶身份匹配算法識(shí)別效率較高,檢索主題-內(nèi)容算法在相關(guān)度設(shè)定合理的情況下,召回率、精準(zhǔn)率、準(zhǔn)確率達(dá)到理想效果。所構(gòu)建的網(wǎng)絡(luò)輿情受眾參與行為標(biāo)定數(shù)據(jù)空間數(shù)據(jù)體量合理、數(shù)據(jù)對(duì)象清晰、受眾行為被如實(shí)反映。未來(lái)研究,將匯聚更多的數(shù)據(jù)源展開(kāi)實(shí)驗(yàn),并重點(diǎn)對(duì)本文提出的算法進(jìn)一步優(yōu)化。

        猜你喜歡
        沙盒數(shù)據(jù)源引擎
        不好惹的沙盒樹(shù)
        韓國(guó)版金融科技“監(jiān)管沙盒”法案及其啟示
        Windows 10“沙盒” 不僅更安全
        Web 大數(shù)據(jù)系統(tǒng)數(shù)據(jù)源選擇*
        藍(lán)谷: “涉藍(lán)”新引擎
        商周刊(2017年22期)2017-11-09 05:08:31
        基于不同網(wǎng)絡(luò)數(shù)據(jù)源的期刊評(píng)價(jià)研究
        熱點(diǎn)追蹤 角逐創(chuàng)新沙盒絕賽Phantom異軍突起奪冠
        無(wú)形的引擎
        河南電力(2015年5期)2015-06-08 06:01:46
        基于真值發(fā)現(xiàn)的沖突數(shù)據(jù)源質(zhì)量評(píng)價(jià)算法
        基于Cocos2d引擎的PuzzleGame開(kāi)發(fā)
        日韩人妻少妇一区二区三区 | 国产一区二区三免费视频| 国产乱子伦一区二区三区国色天香| 亚洲第一女人的天堂av| 亚洲一区二区日韩专区| 亚洲精品国产一二三区| 国产精品二区一区二区aⅴ污介绍| 色欲网天天无码av| 色欲人妻综合网| 中年人妻丰满AV无码久久不卡| 无码一区二区三区不卡AV| 黄色录像成人播放免费99网| 黄色三级视频中文字幕| 人妻少妇激情久久综合| 久久成人精品国产免费网站| av天堂网手机在线观看| 国产一级一片内射视频播放| 新婚少妇无套内谢国语播放| 国产精久久一区二区三区| 精品久久久久成人码免费动漫| 国产成年女人特黄特色毛片免| 午夜无码片在线观看影院| 国产精品无码久久久一区蜜臀 | 精品国产又大又黄又粗av| 美女人妻中文字幕av| 国产精品国产传播国产三级| 国产日产韩国av在线| 亚洲av男人电影天堂热app| 久久99精品久久水蜜桃| 无遮挡又爽又刺激的视频| 乱码午夜-极国产极内射| 日本视频一区二区三区免费观看| 久草视频在线这里只有精品| 日日麻批视频免费播放器| 午夜免费观看国产视频| 精品国产一区二区三区色搞| 99久久99久久精品免费看蜜桃| 97久久人人超碰超碰窝窝| 亚洲av无码一区二区乱子伦as| 国内精品国产三级国产av另类| 亚洲乱码中文字幕综合|