亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于K-medoids-NCA-SMOTE-BSVM融合模型的網(wǎng)絡(luò)交易平臺(tái)高質(zhì)量數(shù)據(jù)資源識(shí)別研究

        2023-02-01 01:29:32李思遠(yuǎn)房津玉
        運(yùn)籌與管理 2023年11期
        關(guān)鍵詞:高質(zhì)量分類資源

        倪 淵, 李思遠(yuǎn), 徐 磊, 張 健, 房津玉

        (1.北京信息科技大學(xué) 經(jīng)濟(jì)管理學(xué)院,北京 100192; 2.綠色發(fā)展大數(shù)據(jù)決策北京市重點(diǎn)實(shí)驗(yàn)室,北京 100192)

        0 引言

        數(shù)據(jù)資源作為數(shù)字經(jīng)濟(jì)時(shí)代的產(chǎn)物,蘊(yùn)含巨大商業(yè)價(jià)值和社會(huì)價(jià)值,是一種新型生產(chǎn)要素[1]。然而,伴隨數(shù)據(jù)規(guī)模指數(shù)型增長,數(shù)據(jù)質(zhì)量問題引發(fā)了廣泛關(guān)注[2,3]。大量低質(zhì)量數(shù)據(jù)充斥于各類數(shù)據(jù)資源交易平臺(tái),它們價(jià)格低、規(guī)模大、且不乏熱點(diǎn)領(lǐng)域數(shù)據(jù);但實(shí)際上有效信息載量低,權(quán)屬模糊、開發(fā)易用性和適用性并不高。低質(zhì)量數(shù)據(jù)資源無法幫助企業(yè)實(shí)現(xiàn)科學(xué)決策,還可能帶來災(zāi)難性后果[4]。而且,長期利用低價(jià)值數(shù)據(jù)吸引用戶也難以增加平臺(tái)價(jià)值,會(huì)導(dǎo)致“劣幣驅(qū)逐良幣”的反效果。因此,在國家積極倡導(dǎo)平臺(tái)經(jīng)濟(jì)高質(zhì)量發(fā)展的大背景下,如何讓高質(zhì)量數(shù)據(jù)從交易平臺(tái)的海量資源中脫穎而出,提升數(shù)據(jù)要素市場(chǎng)配置效率,成為各界關(guān)注的焦點(diǎn)。

        回顧已有文獻(xiàn),平臺(tái)環(huán)境下高質(zhì)量數(shù)據(jù)識(shí)別問題源于數(shù)據(jù)質(zhì)量的相關(guān)研究,包括數(shù)據(jù)質(zhì)量的概念、數(shù)據(jù)質(zhì)量影響因素以及數(shù)據(jù)質(zhì)量評(píng)價(jià)三方面內(nèi)容。第一,關(guān)于數(shù)據(jù)質(zhì)量定義,最早可追溯到上世紀(jì)70年代計(jì)算機(jī)領(lǐng)域的研究。WANG等將“數(shù)據(jù)使用的適用性”作為衡量數(shù)據(jù)質(zhì)量的標(biāo)準(zhǔn)[5]。REDMAN認(rèn)為高質(zhì)量數(shù)據(jù)是能夠滿足數(shù)據(jù)使用者經(jīng)營決策需求的數(shù)據(jù)[6]。AEBI和PERROCHON從信息系統(tǒng)視角定義高質(zhì)量數(shù)據(jù)特征,即一致性、完整性、原子性和正確性[7]。曹建軍和刁興春則將數(shù)據(jù)質(zhì)量定義為數(shù)據(jù)內(nèi)在特性對(duì)需求的滿足程度[8]。第二,關(guān)于數(shù)據(jù)質(zhì)量的影響因素探索,涉及三個(gè)研究視角。一是生產(chǎn)周期的視角,該視角認(rèn)為數(shù)據(jù)質(zhì)量受到數(shù)據(jù)生產(chǎn)整體過程的影響。比如,WANG和STOREY將數(shù)據(jù)視為一種特殊商品,參考商品生產(chǎn)過程提出了數(shù)據(jù)質(zhì)量分析框架[9];江洪和王春曉調(diào)研了15家數(shù)據(jù)中心,提出了共性的科學(xué)數(shù)據(jù)質(zhì)量評(píng)價(jià)體系[10]。二是特征視角,該觀點(diǎn)認(rèn)為高數(shù)據(jù)質(zhì)量特征與用戶需求滿足具有一致性。比如,林平等構(gòu)建了數(shù)據(jù)開放度、可利用性、可持續(xù)性和數(shù)據(jù)數(shù)量的四維評(píng)估體系[11];張曉娟和唐長樂提出了包括一致性、存在性與開放性在內(nèi)的數(shù)據(jù)質(zhì)量判別指標(biāo)[12]。三是平臺(tái)服務(wù)視角,該視角認(rèn)為平臺(tái)服務(wù)是決定數(shù)據(jù)質(zhì)量的關(guān)鍵。比如,PEER等對(duì)比了多個(gè)平臺(tái),發(fā)現(xiàn)平臺(tái)數(shù)據(jù)質(zhì)量包括注意力、理解力、誠實(shí)性和可靠性[13]。第三,關(guān)于數(shù)據(jù)質(zhì)量評(píng)估方法,包括經(jīng)驗(yàn)驅(qū)動(dòng)和數(shù)據(jù)驅(qū)動(dòng)兩大類。經(jīng)驗(yàn)驅(qū)動(dòng)方法借助專家經(jīng)驗(yàn)、領(lǐng)域知識(shí)、用戶反饋對(duì)數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià)。比如,CARO等通過用戶反饋統(tǒng)計(jì)對(duì)門戶網(wǎng)站數(shù)據(jù)質(zhì)量進(jìn)行評(píng)價(jià)[14];孫嘉睿和安小米通過層次分析法評(píng)價(jià)政府開放平臺(tái)數(shù)據(jù)質(zhì)量[15]。數(shù)據(jù)驅(qū)動(dòng)方法采用綜合評(píng)價(jià)思想,構(gòu)建量化模型識(shí)別高質(zhì)量數(shù)據(jù)。比如,HEINRICH和KLIER提出了基于概率的數(shù)據(jù)質(zhì)量PBCM模型[16];林娟娟等采用 KNN分類機(jī)器學(xué)習(xí)算法對(duì)城市空氣質(zhì)量數(shù)據(jù)集評(píng)價(jià)[17]。

        綜上所述,已有研究為平臺(tái)交易情境下高質(zhì)量數(shù)據(jù)識(shí)別提供了基礎(chǔ),但是仍存在兩方面不足:一是,現(xiàn)有識(shí)別方法的人工參與成分較多,自動(dòng)化程度不足,僅適用于小規(guī)模、同質(zhì)化數(shù)據(jù)資源質(zhì)量評(píng)價(jià),難以應(yīng)對(duì)平臺(tái)交易情境下大規(guī)模數(shù)據(jù)資源的質(zhì)量識(shí)別需求。二是,現(xiàn)有識(shí)別方法忽略了不同質(zhì)量數(shù)據(jù)資源分布不均衡的問題,容易引發(fā)分類結(jié)果偏誤,難以滿足平臺(tái)交易情境下異質(zhì)化樣本分類的魯棒性要求。對(duì)此,本文提出K-medoids-NCA-SMOTE-BSVM高質(zhì)量數(shù)據(jù)資源識(shí)別模型,該模型具有兩方面優(yōu)點(diǎn):第一,基于高質(zhì)量數(shù)據(jù)的多維特征,結(jié)合K-medoids算法與輪廓系數(shù),確定最優(yōu)分類標(biāo)簽數(shù)量,減少數(shù)據(jù)樣本的孤立點(diǎn)及離群點(diǎn)對(duì)分類標(biāo)簽的影響,實(shí)現(xiàn)大規(guī)模數(shù)據(jù)資源質(zhì)量分類標(biāo)簽的自動(dòng)生成;第二,通過近鄰成分分析(NCA)與少數(shù)類過采樣技術(shù)(SMOTE)優(yōu)化貝葉斯支持向量機(jī)模型(BSVM),減少冗余特征與樣本不平衡性對(duì)分類結(jié)果的干擾,提升異質(zhì)化數(shù)據(jù)資源質(zhì)量分類識(shí)別的準(zhǔn)確性。本研究構(gòu)建的模型不僅有助于數(shù)據(jù)交易平臺(tái)依據(jù)數(shù)據(jù)質(zhì)量差異開展定價(jià)機(jī)制優(yōu)化,提升數(shù)據(jù)資源配置效率,最大限度賦能平臺(tái)服務(wù)價(jià)值;同時(shí),對(duì)于完善多層次、多元化數(shù)據(jù)高質(zhì)量供給體系的也有積極意義。

        1 高質(zhì)量數(shù)據(jù)的特征識(shí)別

        1.1 高質(zhì)量數(shù)據(jù)的界定與形成過程

        高質(zhì)量數(shù)據(jù)是能夠較好滿足需求者訴求的一種區(qū)別性數(shù)據(jù)商品,具有高信息性、高適用性、高經(jīng)濟(jì)性的特點(diǎn)。平臺(tái)經(jīng)濟(jì)下數(shù)據(jù)流轉(zhuǎn)是一個(gè)多主體參與的開放市場(chǎng),政府、企業(yè)、高校及個(gè)人等社會(huì)主體是數(shù)據(jù)資源需求者,也是提供者。作為需求者,不同主體針對(duì)業(yè)務(wù)場(chǎng)景從外部購買并獲取數(shù)據(jù)資源,支撐業(yè)務(wù)延續(xù)與創(chuàng)新;作為提供者,主體通過數(shù)字化編碼和物理存儲(chǔ),將活動(dòng)記錄轉(zhuǎn)化為數(shù)據(jù),匯集成龐大的、待開發(fā)的原始數(shù)據(jù)資源池。數(shù)據(jù)服務(wù)平臺(tái)鏈接供需雙方,負(fù)責(zé)數(shù)據(jù)資源的市場(chǎng)化配置,包括數(shù)據(jù)交易平臺(tái)與數(shù)據(jù)綜合服務(wù)平臺(tái)。數(shù)據(jù)交易平臺(tái)面向社會(huì)主體,登記數(shù)據(jù)需求,發(fā)送訂單給數(shù)據(jù)綜合服務(wù)供應(yīng)商。接受訂單的數(shù)據(jù)服務(wù)商從提供者處獲得授權(quán),進(jìn)行原始數(shù)據(jù)的采集、整合、分析,加工后的數(shù)據(jù)商品經(jīng)過交易平臺(tái)篩選,被劃分成不同質(zhì)量等級(jí)。高質(zhì)量數(shù)據(jù)交付于需求者,而低質(zhì)量數(shù)據(jù)返還給數(shù)據(jù)服務(wù)商,進(jìn)行二次加工。

        在整個(gè)數(shù)據(jù)流通循環(huán)鏈中,高質(zhì)量數(shù)據(jù)是最大程度滿足主體需求的數(shù)據(jù)商品,其形成需要兩次前置加工:一是“行為記錄-原始數(shù)據(jù)”的加工,二是“原始數(shù)據(jù)-數(shù)據(jù)商品”的加工。第一次加工由社會(huì)主體單獨(dú)完成,決定著原始數(shù)據(jù)資源的固有品質(zhì),比如原始數(shù)據(jù)記錄是否完整、格式是否符合標(biāo)準(zhǔn)等,它是高質(zhì)量數(shù)據(jù)形成的基礎(chǔ);第二次加工由數(shù)據(jù)綜合服務(wù)平臺(tái)完成,決定著數(shù)據(jù)資源的商品化表征,比如多源數(shù)據(jù)格式統(tǒng)一、字段對(duì)齊、數(shù)據(jù)商品描述等,它旨在提升數(shù)據(jù)資源對(duì)場(chǎng)景應(yīng)用的可感知性、可理解性,是高質(zhì)量數(shù)據(jù)形成的核心。兩個(gè)環(huán)節(jié)相輔相成,共同影響平臺(tái)交易情境下數(shù)據(jù)質(zhì)量。

        1.2 高質(zhì)量數(shù)據(jù)資源識(shí)別指標(biāo)體系

        將固有品質(zhì)和商品表征作為高質(zhì)量數(shù)據(jù)識(shí)別的特征維度,結(jié)合數(shù)據(jù)交易平臺(tái)調(diào)研,按照系統(tǒng)性、可量化性、可更新性以及高場(chǎng)景適用性原則,得到9個(gè)識(shí)別指標(biāo),整個(gè)指標(biāo)體系如表1所示。

        表1 高質(zhì)量數(shù)據(jù)資源指標(biāo)體系

        2 高質(zhì)量數(shù)據(jù)資源識(shí)別模型構(gòu)建

        2.1 模型構(gòu)建流程

        以高質(zhì)量數(shù)據(jù)識(shí)別指標(biāo)體系為基礎(chǔ),提出一種融合K-medoids聚類-近鄰成分分析-過采樣技術(shù)-貝葉斯優(yōu)化支持向量機(jī)(K-medoids-NCA-SMOTE-BSVM)的高質(zhì)量數(shù)據(jù)識(shí)別模型。模型構(gòu)建基本思路是將高質(zhì)量數(shù)據(jù)識(shí)別作為一個(gè)模式識(shí)別問題對(duì)待,采用有監(jiān)督機(jī)器學(xué)習(xí)方法加以實(shí)現(xiàn),模型主要包括四個(gè)部分,整體流程如圖1所示。

        圖1 K-medoids-NCA-SMOTE-BSVM模型流程圖

        2.2 基于K-medoids聚類生成類型標(biāo)簽

        針對(duì)高質(zhì)量數(shù)據(jù)特點(diǎn),本文綜合數(shù)據(jù)資源的瀏覽量、收藏量和下載量作為判別依據(jù),確定數(shù)據(jù)質(zhì)量分類標(biāo)簽。平臺(tái)交易背景下,數(shù)據(jù)商品參差不齊,樣本中存在較多極端值和離群點(diǎn),對(duì)此選擇K-medoids法對(duì)數(shù)據(jù)資源進(jìn)行聚類。K-mediods是K-means的一種改進(jìn)方法,改善了K-means方法對(duì)噪聲點(diǎn)過于敏感的問題,受離群點(diǎn)的影響較小,可以產(chǎn)生緊湊明顯的分類結(jié)果[18]。

        初始條件設(shè)置會(huì)導(dǎo)致K-mediods聚類結(jié)果差異,本文借助輪廓系數(shù)來判斷最優(yōu)K值。輪廓系數(shù)取值為-1到1之間,分值越高說明分類效果越好。選取輪廓系數(shù)最大的值對(duì)應(yīng)的K作為最終的集群數(shù)目。

        本文分別求出K為2,3,4,5,6,7,8,9的輪廓系數(shù),取輪廓系數(shù)最大值對(duì)應(yīng)的K值,將數(shù)據(jù)資源依據(jù)不同質(zhì)量分為K類。

        2.3 基于近鄰成分分析(NCA)特征降維

        鑒于所選指標(biāo)中或存在與高質(zhì)量數(shù)據(jù)資源特征關(guān)系較小的因素,因此采用NCA方法進(jìn)行特征選擇,NCA通過搜索線性變換矩陣,得到的低秩矩陣,將高維訓(xùn)練數(shù)據(jù)嵌入低維空間[19],具體步驟如下:

        (1)求出數(shù)據(jù)集中兩個(gè)樣本間的馬氏距離。設(shè)dw(xj,xz)為樣本j和樣本z馬氏距離,s為指標(biāo)個(gè)數(shù),wi為第i個(gè)指標(biāo)的權(quán)重,那么:

        (1)

        (2)計(jì)算樣本相似的概率。設(shè)pjz(w)為樣本j和樣本z相似的概率,則:

        (2)

        (3)計(jì)算樣本分類正確的概率。設(shè)pj(w)為樣本j被分類正確的概率,那么:

        (3)

        (4)構(gòu)建目標(biāo)函數(shù)。算法的目標(biāo)為最大化分類正確概率,設(shè)F(w)為可調(diào)節(jié)參數(shù),則:

        (4)

        2.4 基于SMOTE的不平衡分類處理

        鑒于聚類劃分后不同類別樣本數(shù)量差別較大,會(huì)影響模型的識(shí)別準(zhǔn)確率,因此,使用SMOTE過采樣技術(shù)平衡數(shù)據(jù)分布。它是基于隨機(jī)過采樣算法的一種改進(jìn)方案,通過在局部區(qū)域采用K-鄰近生成新數(shù)據(jù),獲得平衡數(shù)據(jù)集,解決了隨機(jī)過采樣的過擬合的問題,且對(duì)噪音的抵抗力更強(qiáng)。算法基本過程如下:

        第一,對(duì)于少數(shù)類中每一個(gè)樣本X,以歐氏距離為標(biāo)準(zhǔn)計(jì)算它到少數(shù)類樣本集中所有樣本的距離,得到其k近鄰。

        第二,對(duì)于每一個(gè)樣本X,從其k近鄰中隨機(jī)選擇若干個(gè)樣本,假設(shè)選擇的近鄰為Xn。

        第三,對(duì)于每一個(gè)隨機(jī)選出的近鄰Xn,分別與原樣本按照公式(5)構(gòu)建新的樣本。

        Xnew=X+rand(0,1)×|X-Xn|

        (5)

        2.5 基于BSVM的識(shí)別模型訓(xùn)練

        將特征降維后的數(shù)據(jù)資源識(shí)別指標(biāo)作為輸入,將聚類后的數(shù)據(jù)資源貼上類別標(biāo)簽,并平衡數(shù)據(jù)集后作為模型的輸出。按照上述規(guī)則,構(gòu)建基于貝葉斯優(yōu)化支持向量機(jī)的高質(zhì)量數(shù)據(jù)資源識(shí)別模型,該模型使用貝葉斯優(yōu)化支持向量機(jī)參數(shù),使得模型分類準(zhǔn)確率有較大提升。

        3 實(shí)證研究

        3.1 數(shù)據(jù)采集及預(yù)處理

        本文選取“京東萬象”數(shù)據(jù)交易平臺(tái)開展實(shí)證研究,選擇該平臺(tái)上成交的API數(shù)據(jù)資源作為研究對(duì)象。使用Python爬取數(shù)據(jù),經(jīng)過數(shù)據(jù)清洗,最終獲取有效數(shù)據(jù)945條,樣本數(shù)據(jù)數(shù)據(jù)集信息如表2所示。

        表2 樣本數(shù)據(jù)特征及處理

        3.2 實(shí)證結(jié)果

        3.2.1 數(shù)據(jù)資源的分類標(biāo)簽結(jié)果

        根據(jù)K-mediods聚類算法進(jìn)行數(shù)據(jù)資源分類并計(jì)算輪廓系數(shù)值,分類數(shù)K=3時(shí),輪廓系數(shù)值最大,此時(shí)數(shù)據(jù)資源可以分為三個(gè)集群。其次,通過對(duì)聚類結(jié)果中三個(gè)聚類中心的分析,確定了數(shù)據(jù)資源質(zhì)量的三個(gè)層次,分別將其定義為高質(zhì)量數(shù)據(jù)資源、低質(zhì)量數(shù)據(jù)資源以及中質(zhì)量數(shù)據(jù)資源,并將其后續(xù)輸入模型的標(biāo)簽定義為1,2,3,如表3所示。

        表3 K-mediods聚類結(jié)果

        3.2.2 特征指標(biāo)有效性篩選

        根據(jù)NCA算法特征降維,數(shù)據(jù)資源特征指標(biāo)的最優(yōu)權(quán)重和排序如表4所示。根據(jù)結(jié)果將數(shù)據(jù)可溯性剔除,保留剩余的8個(gè)指標(biāo)。

        表4 特征最優(yōu)權(quán)重和排序結(jié)果

        3.2.3 BSVM模型訓(xùn)練及結(jié)果對(duì)比

        通過SMOTE過采樣技術(shù),本文將C1—高質(zhì)量數(shù)據(jù)資源集和C2—低質(zhì)量數(shù)據(jù)資源集分別擴(kuò)展到462條,匯總形成的平衡數(shù)據(jù)集共有1386條,以此為基礎(chǔ)進(jìn)行BSVM的訓(xùn)練。初始參數(shù)設(shè)置如下:懲罰參數(shù)C和徑向基核函數(shù)寬度參數(shù)g設(shè)置為1,觀測(cè)點(diǎn)個(gè)數(shù)設(shè)置為10,目標(biāo)函數(shù)為識(shí)別錯(cuò)誤率函數(shù),參數(shù)優(yōu)化最大迭代次數(shù)設(shè)置為30,將數(shù)據(jù)集中的90%作為訓(xùn)練樣本,其余作為測(cè)試樣本。

        為了驗(yàn)證模型的效果,本研究將所構(gòu)建的BSVM模型與SVM模型、鯨魚算法優(yōu)化支持向量機(jī)(WOA-SVM)、粒子群算法優(yōu)化支持向量機(jī)(PSO-SVM)以及多層感知機(jī)(MLP)和卷積神經(jīng)網(wǎng)絡(luò)(CNN)進(jìn)行比較。此外,以未擴(kuò)展的非平衡數(shù)據(jù)集為基礎(chǔ),作為對(duì)照組。本文選用準(zhǔn)確率評(píng)價(jià)指標(biāo)進(jìn)行分類模型效果評(píng)價(jià)。

        準(zhǔn)確率指標(biāo)算法如下:

        (6)

        其中m代表測(cè)試樣本總數(shù),a代表測(cè)試樣本分類正確的總數(shù)。

        本文基于兩組數(shù)據(jù)集對(duì)六種模型的分類效果進(jìn)行對(duì)比分析,實(shí)驗(yàn)結(jié)果如表5所示。通過橫向?qū)Ρ瓤芍?SMOTE過采樣技術(shù)對(duì)優(yōu)化后的SVM模型有明顯改善作用,平衡處理顯著提高了分類準(zhǔn)確率;對(duì)于單一預(yù)測(cè)模型,未達(dá)到明顯性能提升。通過縱向?qū)Ρ瓤芍?無論是基于非平衡數(shù)據(jù)集還是平衡數(shù)據(jù)集,BSVM模型總能有更好的表現(xiàn),預(yù)測(cè)準(zhǔn)確率均高于其他五種模型。特別地,對(duì)于平衡數(shù)據(jù)集,測(cè)試數(shù)據(jù)在SVM,WOA-SVM,PSO-SVM,BSVM,MLP和CNN模型中的準(zhǔn)確率分別為49.72%,66.19%,59.71%,82.01%,47.10%和44.93%,BSVM識(shí)別效果最好,說明本文提出的識(shí)別模型分類效果最優(yōu),能夠更準(zhǔn)確地對(duì)不同數(shù)據(jù)資源進(jìn)行分類。此外,比較訓(xùn)練時(shí)長可見,經(jīng)過算法優(yōu)化后的模型訓(xùn)練時(shí)長會(huì)增加。與其他優(yōu)化算法相比,BSVM訓(xùn)練時(shí)長最短,說明BSVM在參數(shù)調(diào)優(yōu)時(shí)具有較高的算法效能。

        表5 不同模型分類效果對(duì)比

        在貝葉斯優(yōu)化參數(shù)過程中,最小化識(shí)別錯(cuò)誤率函數(shù)作為貝葉斯優(yōu)化的目標(biāo)函數(shù),參數(shù)優(yōu)化和目標(biāo)函數(shù)模型訓(xùn)練結(jié)果如圖2所示。參數(shù)優(yōu)化共30次,隨著迭代次數(shù)增加,觀測(cè)點(diǎn)越來越多。當(dāng)運(yùn)行次數(shù)小于10時(shí),估計(jì)的函數(shù)最小目標(biāo)值存在較大波動(dòng),運(yùn)行次數(shù)超過20后,最小目標(biāo)函數(shù)值雖有輕微波動(dòng),但整體趨于穩(wěn)定,表明此時(shí)懲罰參數(shù)C和核函數(shù)參數(shù)g對(duì)SVM模型來說已有較好的效果。最終觀測(cè)到的最優(yōu)懲罰參數(shù)C=99.502,最優(yōu)核函數(shù)參數(shù)g=35.191,此時(shí)觀測(cè)到的目標(biāo)函數(shù)值為0.24611,估計(jì)的目標(biāo)函數(shù)值為0.24669。

        圖2 貝葉斯優(yōu)化過程

        4 結(jié)論

        信息時(shí)代背景下,高質(zhì)量數(shù)據(jù)資源己成為關(guān)系企業(yè)生存發(fā)展的重要因素,對(duì)企業(yè)數(shù)字化轉(zhuǎn)型、新機(jī)遇挖掘具有革新性影響。如何在海量資源中識(shí)別出高質(zhì)量數(shù)據(jù)資源,是促進(jìn)平臺(tái)交易情境下數(shù)據(jù)經(jīng)濟(jì)新動(dòng)能的關(guān)鍵問題。本文針對(duì)現(xiàn)有方法對(duì)平臺(tái)情境下大規(guī)模、非均衡數(shù)據(jù)資源質(zhì)量識(shí)別適應(yīng)性弱的缺陷,構(gòu)建了一套相對(duì)完整、客觀的高質(zhì)量數(shù)據(jù)識(shí)別指標(biāo)體系,提出了多方法集成的數(shù)據(jù)資源質(zhì)量分類識(shí)別模型,具體結(jié)論如下:

        第一,明確了高質(zhì)量數(shù)據(jù)資源的內(nèi)涵,將其定義為處于交易階段的數(shù)據(jù)資源能夠與購買者需求契合,且進(jìn)行貨幣變現(xiàn)后滿足購買者期望的數(shù)據(jù)商品,可以借助網(wǎng)絡(luò)平臺(tái)下數(shù)據(jù)資源交易的瀏覽量、收藏量和下載量加以衡量。

        第二,基于平臺(tái)環(huán)境下數(shù)據(jù)資源流轉(zhuǎn)與高質(zhì)量數(shù)據(jù)形成過程,構(gòu)建了“固有品質(zhì)-商品表征”二維高質(zhì)量數(shù)據(jù)資源識(shí)別指標(biāo)體系,并借助“京東萬象”交易平臺(tái)數(shù)據(jù)充分驗(yàn)證了指標(biāo)體系有效性,對(duì)數(shù)據(jù)資源質(zhì)量評(píng)估理論進(jìn)行了創(chuàng)新性嘗試和重要補(bǔ)充。

        第三,基于非平衡數(shù)據(jù)集和平衡數(shù)據(jù)集對(duì)比實(shí)驗(yàn)表明,針對(duì)優(yōu)化后的SVM模型,SMOTE平衡處理能夠明顯提升標(biāo)簽生成準(zhǔn)確度,改善數(shù)據(jù)資源質(zhì)量識(shí)別效果;平衡數(shù)據(jù)集下的多模型對(duì)比可以看出,BSVM方法表現(xiàn)更優(yōu),具有更高的算法效能。綜合結(jié)果表明,K-medoids-NCA-SMOTE-BSVM高質(zhì)量數(shù)據(jù)資源識(shí)別模型可以高效率生成海量數(shù)據(jù)資源的質(zhì)量標(biāo)簽,提高對(duì)異質(zhì)化數(shù)據(jù)資源的識(shí)別準(zhǔn)度,對(duì)推動(dòng)數(shù)據(jù)資源的活躍交易具有較強(qiáng)的指導(dǎo)意義。

        猜你喜歡
        高質(zhì)量分類資源
        堅(jiān)持以高質(zhì)量發(fā)展統(tǒng)攬全局
        基礎(chǔ)教育資源展示
        分類算一算
        高質(zhì)量項(xiàng)目 高質(zhì)量發(fā)展
        牢牢把握高質(zhì)量發(fā)展這個(gè)根本要求
        一樣的資源,不一樣的收獲
        “三部曲”促數(shù)學(xué)復(fù)習(xí)課高質(zhì)量互動(dòng)
        分類討論求坐標(biāo)
        資源回收
        數(shù)據(jù)分析中的分類討論
        另类内射国产在线| 国产一区二区av免费观看| 亚洲精品久久久久一区二区| 久久不见久久见中文字幕免费| 日韩a∨精品日韩在线观看| 爆乳午夜福利视频精品| 日韩一区二区av伦理| 亚洲精品国偷拍自产在线| a级毛片免费观看网站| 午夜a福利| 国产免费一区二区三区三| 在线麻豆精东9制片厂av影现网| 熟妇丰满多毛的大隂户| 久久无码人妻一区=区三区| 亚洲一区二区三区一站| 国产精品主播在线一区二区| 超清精品丝袜国产自在线拍| 国产综合自拍| 蜜桃av一区二区三区| 国产无套内射又大又猛又粗又爽 | 亚洲日韩av无码| 婷婷九月丁香| 国产网友自拍视频在线观看| 国产av无码专区亚洲av男同| 欧美天欧美天堂aⅴ在线| 阿v视频在线| 精品国产一区二区三区a| 欧美国产综合欧美视频| 日韩精品大片在线观看| 国产一区二区三区色区| 洲色熟女图激情另类图区| 国产情侣久久久久aⅴ免费| 亚洲精品中文字幕观看| 午夜少妇高潮在线观看视频| 亚洲av日韩aⅴ无码色老头| 国产欧美精品在线一区二区三区 | 精品午夜福利1000在线观看| 亚洲免费成年女性毛视频| 国产成人久久精品一区二区三区| 一二三四在线观看免费视频| 最新国产成人综合在线观看|