亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        “互聯網+”環(huán)境下數據可信度量方法研究

        2019-09-10 07:22:44李阿芳
        河南科技 2019年26期
        關鍵詞:大數據互聯網

        李阿芳

        摘 要:大數據在生產活動中扮演著越來越重要的角色,不可信數據給大數據的應用帶來了很大的麻煩,如何篩選出真實可信的數據成為大數據應用的重要課題。本文闡述了當前數據可信計算方法和模型,并分析其優(yōu)缺點,提出了“互聯網+”環(huán)境下的數據可信度量方法及其評價方法。該數據可信度量方法依據發(fā)布信息的主體、數據源以及數據自身的相關屬性,計算數據的主觀可信度、全局可信度以及本地可信度。試驗結果表明,本方法在電子商務數據可信度計算方面有較好的效果。

        關鍵詞:互聯網+;大數據;可信度計算

        中圖分類號:TP393.09 文獻標識碼:A 文章編號:1003-5168(2019)26-0017-04

        Research on Data Credibility Measurement in "Internet +" Environment

        LI Afang

        (Shandong College of Information Technology,Weifang Shandong 261061)

        Abstract: Big data plays an increasingly important role in production activities, and untrusted data has caused great trouble for big data applications. How to filter out authentic data becomes an important topic in big data applications. This paper expounded the current data trustworthy computing methods and models, and analyzed its advantages and disadvantages, and proposed a data credibility measurement method and its evaluation method under the "Internet +" environment. The data trusted metric method calculates the subjective credibility, global credibility and local credibility of the data according to the main body of the published information, the data source and the related attributes of the data itself. The test results show that the method has a good effect on the reliability calculation of e-commerce data.

        Keywords: Internet +;big data;data credibility measurement

        新時代,大數據呈現出規(guī)模大、流轉快、類型多等特點,在數據生成和傳播過程中不可避免地產生數據不一致、數據缺失等問題,導致大數據的可信度受到質疑[1],低可信度[2]的數據對大數據應用造成了很大的麻煩。

        針對上述問題,本文提出了“互聯網+”[3]環(huán)境下基于大數據處理技術的可信度量方法[4]。該方法依據發(fā)布信息的主體、數據源以及數據自身的相關屬性,計算數據的主觀可信度、全局可信度以及本地可信度,具體來說,通過用戶與數據源之間的交互記錄計算主觀可信度,通過數據源發(fā)布或者產生數據的交互記錄計算全局可信度,通過歷史數據來計算本地可信度。試驗結果表明,本方法在電子商務數據可信度計算方面有較好的效果。

        1 數據可信度計算方法

        1.1 數據可信度

        在數據源可信度計算模型中,可信度包括直接和間接可信度兩部分[5],根據實際情況,人們可以對兩者分別進行加權,得到兩實體之間的可信度。假設直接可信度為[DR],間接可信度為[IDR],則兩實體之間的可信度為[wDR+1-wIDR],其中[w]表示權重,且滿足[w∈[0,1]]。權重的大小取決于兩實體之間交互記錄的多少,如果交互記錄多,則[w]值越大,否則[w]值越小。如果兩實體之間沒有直接交互記錄,需要引入第三實體,且第三實體與前兩個實體之間都需要有交互記錄,如圖1所示。

        圖1中,A和B之間、B和C之間都有交互記錄,因此可以計算出兩者的直接信任度,而A和C之間沒有交互記錄,因此只能通過B來計算A和C的間接信任度。

        1.2 可信度計算模型

        “互聯網+”環(huán)境下,數據可信度主要包括動態(tài)和靜態(tài)兩種計算模型[6],基本可以劃分為基于交易反饋的可信模型、基于關系的可信模型和基于興趣的可信模型。

        上述三種模型并非相互獨立,每種模型各有優(yōu)點和缺點,在計算可信度過程中,人們經常需要運用多個模型共同計算。從上面三種模型可以看出,影響數據可信度的因素主要有三個,即主體本身、數據源和數據,因此在“互聯網+”環(huán)境下計算數據的可信度需要從上述三個方面入手。

        2 大數據可信度量方法

        2.1 大數據可信計算模型

        大數據環(huán)境下有各種數據源和用戶,為了方便計算,人們需要將數據源和用戶分別抽象為節(jié)點,數據源和用戶之間的互動就可以抽象出5個交互數據,即用戶、數據源、時間、結果以及數據內容,分別用符號User、DS、time、Res和Data表示,結果表示用戶對該次交互的是否認可。在大數據可信計算模型中,首先通過網絡爬蟲獲取用戶和數據源的交互記錄,并對這些交互記錄進行預處理,刪除重復和無效的數據,然后對每條記錄提取交互五元組[T](User,DS,time,Res,Data),之后對五元組進行可信度的計算,具體計算流程如圖2所示。

        在數據可信度計算過程中,用戶對數據源之間的交互記錄主要包括用戶對數據源發(fā)布的信息的評論,主要用于計算數據源的全局可信度,也就是說,通過分析全體用戶對該數據源的評價,獲得關于該數據源的客觀評價。主觀可信度表示單個用戶對數據源發(fā)布消息的信任度,與全局信任度不同,主觀可信度表示個人對數據源的信任程度。本地可信度是基于數據源本身特點計算的信任度,如數據源的所有者、數據源取得的認證信息、滿足的標準等。

        數據可信度綜合計算就是針對主觀可信度、全局可信度以及本地可信度,采用加法原則,根據數據可信度的側重點加以權重。假設用戶User在t時刻對數據源DS的主觀可信度為[STUser,DS,t],數據源DS在t時刻的全局可信度為[GTDS,t],數據源DS的本地可信度為[LTDS],則此時數據源發(fā)布的數據D的可信度可用如式(1)計算:

        [TUser,DS,D,t=αSTUser,DS,t+βGTDS,t+λLTDS]? ? ? ? ? (1)

        式中,[α],[β],[λ]分別為三種信任度的權重系數,且[α+β+λ=1]。在對待不同的數據類型時,可以動態(tài)調整系數的大小。

        2.2 主觀可信度計算

        主觀可信度從本質上來說是一種直接可信度,是通過用戶和數據源之間的交互歷史記錄來計算的。假設用戶與數據源的交互記錄為[T],[T=T1,T2,…,Tn],其中[Ti=(Di,Si,ti)],三者分別表示交互信息的內容、交互信息是否成功、交互時間。一般來說,人們傾向于相信能夠持續(xù)提供準確信息的數據源,因此交互記錄中成功交互可以作為計算主觀可信度的依據。在數據預處理過程中,依據是否可信,人們需要將交互記錄劃分為可信子序列[CTS=ts1,ts2,…,tsp]和不可信子序列[CFS=fs1,fs2,…,fsp]。

        在主觀可信度計算過程中,本文采用直接可信計算的PeerTrust算法,以記錄開始時間t為準,距離t越長的交互,即最新的交互的可信程度越高,交互次數越多,交互的可信程度越高,因此可信交互計算公式為:

        [CTrustUser,DS,t=i=1peti-t×count(tsi)/n]? ? ? ? (2)

        式中,[ti]為交互序列[tsi]發(fā)生的時間;[count(tsi)]為交互序列[tsi]中交互的次數。

        不可信交互計算公式為:

        [CNTrustUser,DS,t=i=1ll2×count(tsi)2eti-t/n2]? ? ? (3)

        為了避免在交互過程中“網絡水軍”對正常交互過程的干擾,在計算可信交互和不可信交互的過程中,需要對交互的用戶主體進行評分,評分以用戶主體的個人信息完成程度為標準,如是否提供年齡、職業(yè)、通信方式等,以用戶個人信息為空和提供了完整信息為準,將用戶主體的信息完整程度歸一到[0,1]的區(qū)間,即0<[w(User)]<1,因此用戶User對數據源DS的主觀可信度[STUser,DS,t]為:

        [STUser,DS,t=λUserw(User)CTrustw(User)CTrust+(1-w(User))CNTrust]? ? ? ? ?(4)

        式中,[λUser]為用戶節(jié)點的獨立參數。

        2.3 全局可信度計算

        全局信任來自數據源與所有用戶的交互記錄,假設當前數據源與用戶和其他數據源的交互記錄為[T],[T=T1,T2,…,Tn],其中[Ti=(Vi,Di,Si,ti)],[Vi]表示數據源在網絡中的標識,其他符號與主觀可信度計算中的意義相同。由于全局可信度是由所有用戶對該數據源的信任度決定的,一般來說,對該數據源的信任度特別高或者特別低的用戶的評價通常有較強的主觀性,因此需要弱化該部分用戶的信任度在全局可信度計算中的比例。在t時刻,全局可信值用[GTrust(DS,t)]表示,則有

        [GTrust(DS,t)=mi=1m1STUser,DS,t]? ? ? ?(5)

        2.4 本地可信度計算

        本地可信度是指數據源自身的可信度,該值的大小取決于其所有發(fā)布信息的可信度,且消息的發(fā)布時間越新,其可信度在本地可信度中占比越大。假設數據源DS發(fā)布的歷史記錄為[D=Dt1,Dt2,…,Dtn],該序列按時間順序排列,每條記錄的格式為[Dti=dti1,dti2,…,dtim],[dtim]表示記錄[Dti]的第[m]個主題,每個主題包括兩個Title和Value兩部分內容,因此本地可信度的計算公式如下:

        [LTrust(Dn)=j-1n-1sim(Dn,Dj)×LTrust(Dj)j=1nsim(Da,Db)]? ? ? ?(6)

        式中,[sim(Dn,Dj)]函數表示記錄[Dn]與[Dj]的相似度。相似度的計算公式為:

        [sim(Da,Db)=i=1mdai×dbi(i=1md2ai)×(i=1md2bi)]? ? ? ? ? (7)

        式中,[m]表示在兩個記錄[Da]、[Db]中相同主題的個數。

        3 試驗仿真

        本仿真試驗的目的是檢驗方法的正確性,試驗的數據集采用社會化電子商務網站Epinions.數據集,包含用戶對項目的評分信息和用戶之間的信任信息。為了方便計算,其間對數據集進行歸一化處理,將數據集的信任值使用[TTmax]轉化到[0,1]區(qū)間內,數據集的統計特征如表1所示。

        計算過程中,用戶和數據源可抽象為節(jié)點Entity,實體之間的交互記錄記為Data,Data的記錄中有多個主題,涉及數據源之間的參數如表2所示。

        在試驗過程中,首先根據大數據可信度計算方法計算出數據的可信值,然后通過實際的數據可信值與數據集中預先計算好的信任值進行比較。在計算過程中,根據式(1)、式(4)、式(5)和式(6)分別計算其信任值,并對比迭代次數為500和1 000的計算結果。本文采用傳統的EigenTrust算法、PeerTrust算法與本算法的計算結果進行對比,并使用平均絕對誤差MAE和均方根誤差RMSE兩種指標來衡量三種算法的性能,計算結果如表3所示。

        從表3可以看出,隨著迭代次數的增加,基于大數據的數據可信度計算方法在計算準確度上明顯高于其他兩種算法,本文提出的算法在MAE和RMSE兩個指標上分別提升了13.1%和9.5%,明顯高于其他兩種算法。

        4 結語

        本文研究了大數據、社會學中的信任理論和各種可信度分析模型,然后提出了“互聯網+”環(huán)境下基于大數據處理技術的可信度量方法,根據實際情況,分別計算用戶對數據源的主觀可信度、數據源的全局可信度和本地可信度,然后通過權重加成的方式獲取最終的可信度。在Epinions.數據集上與其他可信度計算算法對比,結果發(fā)現,本算法在準確度上明顯高于其他算法。

        參考文獻:

        [1]李剛,李天琦,程曉榮,等.大數據可信性度量方法[J].計算機工程與設計,2017(3):652-658.

        [2]李淑慧.C2C電子商務信用評價體系研究:以淘寶網為例[J].山西農經,2019(3):11-12.

        [3]趙陽,朱全銀,胡榮林,等.基于自編碼機和聚類的混合推薦算法[J].微電子學與計算機,2018(11):52-56.

        [4]戚耀元,戴淑芬,葛澤慧.“互聯網+”環(huán)境下企業(yè)創(chuàng)新系統耦合研究:技術創(chuàng)新與商業(yè)模式創(chuàng)新耦合案例分析[J].科技進步與對策,2016(23):76-80.

        [5]林泓,辛海濤,謝嘉楠.基于直接和推薦可信度的P2P綜合信任模型[J].武漢理工大學學報(信息與管理工程版),2011(6):887-891.

        [6]中國科學院信息工程研究所.一種基于動態(tài)信任模型的IP定位數據庫可信度評估方法:中國,CN201710092867.8[P].2017-08-01.

        猜你喜歡
        大數據互聯網
        “互聯網+”環(huán)境之下的著作權保護
        今傳媒(2016年9期)2016-10-15 22:15:57
        “互聯網+”對傳統圖書出版的影響和推動作用
        今傳媒(2016年9期)2016-10-15 22:09:11
        從“數據新聞”看當前互聯網新聞信息傳播生態(tài)
        今傳媒(2016年9期)2016-10-15 22:06:04
        互聯網背景下大學生創(chuàng)新創(chuàng)業(yè)訓練項目的實施
        考試周刊(2016年79期)2016-10-13 23:23:28
        大數據環(huán)境下基于移動客戶端的傳統媒體轉型思路
        新聞世界(2016年10期)2016-10-11 20:13:53
        基于大數據背景下的智慧城市建設研究
        科技視界(2016年20期)2016-09-29 10:53:22
        以高品質對農節(jié)目助力打贏脫貧攻堅戰(zhàn)
        中國記者(2016年6期)2016-08-26 12:52:41
        數據+輿情:南方報業(yè)創(chuàng)新轉型提高服務能力的探索
        中國記者(2016年6期)2016-08-26 12:36:20
        免费国产a国产片高清网站| 黄色大片一区二区中文字幕| 扒开非洲女人大荫蒂视频| 日本本土精品午夜视频| 亚洲日韩精品无码av海量| 波多野结衣乳巨码无在线| 亚洲VA不卡一区| 大红酸枝极品老料颜色| 亚洲男人av天堂久久资源| 成人做受视频试看60秒| 精品三级久久久久久久电影| www.尤物视频.com| 中文字幕乱码亚洲一区二区三区| 久久久中日ab精品综合| 亚洲精品无码高潮喷水在线| 国产欧美激情一区二区三区| 中文字幕一区二三区麻豆| 人人人妻人人澡人人爽欧美一区| 乱码午夜-极国产极内射 | 国产内射999视频一区| 日韩啪啪精品一区二区亚洲av | 久久精品国产亚洲av大全相关| 亚洲女同高清精品一区二区99| 欧美怡春院一区二区三区| 无遮挡又黄又刺激又爽的视频| 久久青草亚洲AV无码麻豆| 亚洲综合在不卡在线国产另类| 欧美综合天天夜夜久久| 狠狠躁夜夜躁无码中文字幕| 亚洲一区二区高清在线| 国产亚洲精品色婷婷97久久久| 亚洲va中文字幕| 亚洲日本va99在线| 日韩国产一区二区三区在线观看 | 欧美亚洲午夜| 日本熟女视频一区二区三区| 亚洲av乱码一区二区三区林ゆな| 亚洲精品一区二区三区大桥未久| 丝袜人妻无码中文字幕综合网 | 人妻丰满熟妇av无码处处不卡| 日韩一区二区三区中文字幕|