亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于效用的數(shù)據(jù)質(zhì)量綜合評估方法探討

        2024-08-09 00:00:00唐勇李東鵬林娟娟
        財會月刊·下半月 2024年8期
        關(guān)鍵詞:數(shù)據(jù)質(zhì)量效用函數(shù)

        【摘要】隨著數(shù)據(jù)規(guī)模的不斷擴大, 數(shù)據(jù)質(zhì)量問題不斷涌現(xiàn)。數(shù)據(jù)質(zhì)量究竟如何評估才能合理體現(xiàn)數(shù)據(jù)實際適用情況, 適應(yīng)數(shù)據(jù)要素市場化需要, 為數(shù)據(jù)資產(chǎn)定價、 估值提供合適的評估方法。本文從應(yīng)用場景出發(fā), 構(gòu)建數(shù)據(jù)質(zhì)量指標體系, 根據(jù)指標累計權(quán)重剔除低影響的指標。在簡單比率法的基礎(chǔ)上, 構(gòu)建異質(zhì)偏好效用函數(shù)對不同維度的數(shù)據(jù)質(zhì)量進行評估, 并采用組合賦權(quán)法確定權(quán)重, 計算綜合評估得分。最后以我國碳試點市場公布的交易數(shù)據(jù)為例進行實證分析, 結(jié)合CNN-LSTM模型估計數(shù)據(jù)效用, 降低評估過程中的主觀性。研究結(jié)果表明, 在數(shù)據(jù)應(yīng)用過程中, 數(shù)據(jù)使用者對不同維度的數(shù)據(jù)質(zhì)量問題具有不同的容忍度, 即存在異質(zhì)風險偏好。該方法能夠有效反饋數(shù)據(jù)真實適用程度, 為數(shù)據(jù)資產(chǎn)價值評估提供依據(jù)。本文立足于數(shù)據(jù)可用性, 結(jié)合效用提出非線性的數(shù)據(jù)質(zhì)量評估方法, 以期為數(shù)據(jù)質(zhì)量評估提供新思路。

        【關(guān)鍵詞】數(shù)據(jù)質(zhì)量;綜合評估;效用函數(shù);組合賦權(quán);CNN-LSTM

        【中圖分類號】 F810.6" " "【文獻標識碼】A" " " 【文章編號】1004-0994(2024)16-0110-7

        一、 引言

        2020年3月《中共中央 國務(wù)院關(guān)于構(gòu)建更加完善的要素市場化配置體制機制的意見》出臺, 首次把數(shù)據(jù)要素單列出來, 并將數(shù)據(jù)作為與土地、 勞動力、 資本、 技術(shù)并列的生產(chǎn)要素, 要求加快培育數(shù)據(jù)要素市場, 促進重點領(lǐng)域政府開放和數(shù)據(jù)資源有效流動。但隨著數(shù)據(jù)規(guī)模的不斷擴大, 數(shù)據(jù)質(zhì)量問題不斷涌現(xiàn), 嚴重阻礙了數(shù)據(jù)要素市場化進程。一方面, 數(shù)據(jù)質(zhì)量評估過程中, 以人工評估為主, 評估成本高、 效率低, 存在較大的主觀隨意性, 導(dǎo)致數(shù)據(jù)交易所在數(shù)據(jù)質(zhì)量評估把控尺度上松緊不一, 影響數(shù)據(jù)要素自由流動(王琪,2023;姜琪等,2024)。另一方面, 數(shù)據(jù)質(zhì)量評估方法多聚焦于數(shù)據(jù)綜合治理角度, 忽略了數(shù)據(jù)應(yīng)用場景, 在數(shù)據(jù)價值評估中存在“水土不服”的現(xiàn)象, 這給數(shù)據(jù)要素的交易價格確定帶來了難題, 導(dǎo)致數(shù)據(jù)交易中買方支付的意愿通常較低(Spiekermann,2019)。

        2022年6月中國資產(chǎn)評估協(xié)會下發(fā)的《數(shù)據(jù)資產(chǎn)評估指導(dǎo)意見(征求意見稿)》指出, 數(shù)據(jù)質(zhì)量評估是數(shù)據(jù)資產(chǎn)評估的基礎(chǔ)。2023年12月財政部印發(fā)的《關(guān)于加強數(shù)據(jù)資產(chǎn)管理的指導(dǎo)意見》提出, 數(shù)據(jù)質(zhì)量是數(shù)據(jù)資產(chǎn)價值的屬性之一, 并進一步明確了數(shù)據(jù)質(zhì)量在數(shù)據(jù)價值評估中的應(yīng)用方法。這是因為數(shù)據(jù)質(zhì)量反映了數(shù)據(jù)的適用水平, 直接影響數(shù)據(jù)價值轉(zhuǎn)化的順利與否。故本文依托于數(shù)據(jù)應(yīng)用場景, 落腳于數(shù)據(jù)資產(chǎn)估值與定價, 構(gòu)建基于效用的數(shù)據(jù)質(zhì)量評估模型。本文的主要貢獻體現(xiàn)在以下三個方面: 第一, 本文從效用角度入手, 構(gòu)建異質(zhì)偏好效用函數(shù)來厘清不同維度數(shù)據(jù)質(zhì)量問題的容忍程度, 通過風險偏好因子來體現(xiàn)不同應(yīng)用場景下使用者對數(shù)據(jù)質(zhì)量要求的變化, 使得評估結(jié)果隨應(yīng)用場景而變化, 能夠滿足實際需要, 即同一份數(shù)據(jù)在不同的應(yīng)用場景下有著不一樣的評估結(jié)果。第二, 利用機器學(xué)習(xí)、 主客觀組合賦權(quán)方法對數(shù)據(jù)資產(chǎn)進行實證分析, 降低數(shù)據(jù)評估過程中的人工參與度, 保證評估結(jié)果的客觀性, 提高評估效率。同時, 改進數(shù)據(jù)質(zhì)量指標選取的方式, 通過事先確權(quán)來剔除低影響指標、 保留高價值指標, 提高評估效率, 突出數(shù)據(jù)評估重點。第三, 適應(yīng)數(shù)據(jù)要素市場化需要, 為數(shù)據(jù)資產(chǎn)定價、 估值提供合適的數(shù)據(jù)質(zhì)量評估方法, 進一步提高買賣雙方溝通效率從而促進數(shù)據(jù)資產(chǎn)自由流通。

        二、 相關(guān)研究現(xiàn)狀述評

        1. 國外研究??v觀國內(nèi)外研究現(xiàn)狀, 國外相關(guān)學(xué)者對數(shù)據(jù)質(zhì)量的研究較早, 數(shù)據(jù)質(zhì)量評估涉及三個主體角色, 即數(shù)據(jù)生產(chǎn)者、 數(shù)據(jù)管理者和數(shù)據(jù)消費者(Strong等,1997)。起初對于數(shù)據(jù)質(zhì)量評估多是基于數(shù)據(jù)生產(chǎn)者或管理者的主體角度 (Wang等,2003;Arazy和Kopak,2011), 但隨著數(shù)據(jù)技術(shù)的發(fā)展, 基于該視角進行評估已經(jīng)無法滿足實際需求。因為數(shù)據(jù)質(zhì)量是一個多維和主觀的問題, 其定義和評估嚴格取決于所涉及的內(nèi)容和用戶。因此, 在考慮數(shù)據(jù)質(zhì)量時, 應(yīng)始終將用戶的感受視為基礎(chǔ)(Batini等,2009)。即同一份數(shù)據(jù)有多種用途和用戶, 這會導(dǎo)致有一些人認為數(shù)據(jù)質(zhì)量高, 另一些人認為數(shù)據(jù)質(zhì)量低(Sundararaman,2011)。而關(guān)于數(shù)據(jù)質(zhì)量的評估量化, 有學(xué)者對數(shù)據(jù)的商用價值建立了效用驅(qū)動的數(shù)據(jù)質(zhì)量評估模型, 并利用數(shù)據(jù)實際效用與潛在最大效用之比來衡量數(shù)據(jù)質(zhì)量(Even和Shankaranarayanan,2007)。但效用值需要人工評估, 效率較低且評估結(jié)果主觀性強。也有學(xué)者借助“預(yù)測市場”來建立類似股票期權(quán)的數(shù)據(jù)質(zhì)量衍生品, 根據(jù)用戶交易結(jié)束后最終形成衍生品市場的交易價格評估數(shù)據(jù)質(zhì)量(Pierce和Thomas,2007)。該方法需要將數(shù)據(jù)公布給大眾, 本質(zhì)上也是用戶反饋調(diào)查的一種。受限于人工評估的不便, 開始有學(xué)者從數(shù)據(jù)應(yīng)用角度對數(shù)據(jù)質(zhì)量進行評估, 以客觀量化評估為主。如從信息價值的角度出發(fā), 將擾動圖像傳送到模型以計算預(yù)測概率的熵, 稱為擾動熵。擾動熵可以從信息價值的角度區(qū)分好數(shù)據(jù)和壞數(shù)據(jù), 將其視為圖像數(shù)據(jù)質(zhì)量得分(Li等,2022)。也有學(xué)者從數(shù)據(jù)信息量角度進行評估, 采取距離熵方法來選取高質(zhì)量的數(shù)據(jù)樣本, 即距各個中心點距離較遠的樣本具有較大的信息量(Yang等,2022)。而這些方法對數(shù)據(jù)質(zhì)量的解釋性仍存在一定的問題, 僅僅從單個角度對數(shù)據(jù)質(zhì)量展開量化評估。

        2. 國內(nèi)研究。國內(nèi)學(xué)者多以綜合評估為主。綜合評估是對評估對象做出價值判斷的一種方法, 它既能發(fā)揮主觀能動性, 又能相對客觀地給出評價(蔡莉等,2021)。常見的綜合評估方法包括模糊綜合評價法模糊層次 (孔敏等,2023)、 層次分析法(莊計龍和陳敏剛,2019)、 德爾菲法 (孫嘉睿和安小米,2022)和扎根理論(撒旭等,2020)。通用的數(shù)據(jù)質(zhì)量評估方法雖然適用性強, 但具體的應(yīng)用效果依舊不盡如人意(劉桂鋒等,2021)。就此情況, 有學(xué)者根據(jù)數(shù)據(jù)應(yīng)用場景開發(fā)有特色的數(shù)據(jù)質(zhì)量評估方法, 從而提高評估結(jié)果的針對性。如為加強數(shù)據(jù)質(zhì)量管理, 在對電力數(shù)據(jù)進行評估時, 根據(jù)線損數(shù)據(jù)質(zhì)量差異問題, 建立基于懲罰變權(quán)的“秩和”數(shù)據(jù)質(zhì)量評估模型, 能有效提高整體數(shù)據(jù)管理水平(王方雨等,2020)。而對于政府開放數(shù)據(jù), 有學(xué)者針對當前政府開放數(shù)據(jù)質(zhì)量不高、 用戶需求得不到滿足的問題, 從數(shù)據(jù)內(nèi)容、 數(shù)據(jù)表達、 數(shù)據(jù)獲取、 數(shù)據(jù)效用四個維度構(gòu)建了政府開放數(shù)據(jù)質(zhì)量評價指標體系(宋暮凡,2022)。此外, 為提高評估的效率, 針對數(shù)據(jù)主要應(yīng)用場景, 從欠費挖掘的角度對電信數(shù)據(jù)展開評估, 根據(jù)缺失、 離群數(shù)據(jù)對挖掘結(jié)果的影響實現(xiàn)對數(shù)據(jù)質(zhì)量的量化(王曉華,2010)。 總體來說, 針對具體需求所提出的數(shù)據(jù)質(zhì)量評估的應(yīng)用效果有所提升, 但當下數(shù)據(jù)爆炸性增長, 針對性的數(shù)據(jù)質(zhì)量評估方法存在捉襟見肘的困境。故亟需提出一種既能夠滿足應(yīng)用場景又適用廣的數(shù)據(jù)質(zhì)量評估方法, 從而滿足數(shù)據(jù)增長的新需要。

        三、 相關(guān)理論分析

        1. 數(shù)據(jù)質(zhì)量。關(guān)于數(shù)據(jù)質(zhì)量的定義大都集中在數(shù)據(jù)的適用性上(Tayi和Ballou,1998;Huang等,1999)。從用戶角度來看, 數(shù)據(jù)質(zhì)量的高低取決于用戶是否可以高效地使用數(shù)據(jù)(Ismael等,2016;宋立榮,2016)。隨著研究的不斷深入, 有學(xué)者將數(shù)據(jù)質(zhì)量與數(shù)據(jù)質(zhì)量維度結(jié)合起來, 進一步將數(shù)據(jù)質(zhì)量的定義具象化, 主要包括時效性、 完整性、 及時性、 準確性、 一致性、 可訪問性等維度(Strong等,1997;李永紅和張淑雯,2018;王博和溫繼文,2021)。在數(shù)據(jù)應(yīng)用過程中, 低質(zhì)量的數(shù)據(jù)不但無法產(chǎn)生經(jīng)濟價值, 甚至?xí)斐刹豢珊鲆暤膿p失。比如重復(fù)數(shù)據(jù)不但會導(dǎo)致機器學(xué)習(xí)模型的性能下降, 還會導(dǎo)致模型過度擬合訓(xùn)練數(shù)據(jù)。又如就準確性而言, 數(shù)據(jù)準確性問題導(dǎo)致企業(yè)普遍提高了數(shù)據(jù)庫數(shù)據(jù)獲取、 數(shù)據(jù)預(yù)處理、 用戶分析等各個環(huán)節(jié)的工作量和難度(王禹,2023)。再如, 如果數(shù)據(jù)標準不一致、 數(shù)據(jù)質(zhì)量不高, 智能財務(wù)系統(tǒng)就很難對數(shù)據(jù)進行分析和預(yù)測, 從而使得企業(yè)財務(wù)大數(shù)據(jù)在智能財務(wù)中無法發(fā)揮作用(陸興鳳和曹翠珍,2022)。

        2. 數(shù)據(jù)的效用。數(shù)據(jù)本身沒有價值, 需要通過數(shù)據(jù)挖掘技術(shù)獲取有用的信息, 并將信息應(yīng)用于具體任務(wù)時才會產(chǎn)生價值。機器學(xué)習(xí)是目前應(yīng)用較廣的數(shù)據(jù)挖掘模型, 能夠從大量的數(shù)據(jù)之間尋找到某種規(guī)律, 從而輔助人們在某項工作或生活需求中做出決策。數(shù)據(jù)預(yù)測結(jié)果常常依賴于數(shù)據(jù)本身, 提高數(shù)據(jù)質(zhì)量能夠有效地降低預(yù)測誤差(Nespoli等,2020)。在數(shù)據(jù)的建模、 訓(xùn)練過程中, 數(shù)據(jù)質(zhì)量越高, 所訓(xùn)練出來的模型質(zhì)量越好, 模型準確度就越高。模型準確度體現(xiàn)的是數(shù)據(jù)的貢獻, 可以將其定義為數(shù)據(jù)的效用(Niyato等,2016)。數(shù)據(jù)的效用與各影響因素之間并非線性關(guān)系(嚴鵬等,2023)。例如在圖片識別的深度學(xué)習(xí)模型中, 由于數(shù)據(jù)集存在冗余度問題, 此時較低的數(shù)據(jù)量就可以達到與完整數(shù)據(jù)集相似的測試精度(Yang等,2022), 故增加數(shù)據(jù)的完整性帶來的對預(yù)測精度的提升效果會大大減少, 即完整性存在邊際效用遞減的情況。再比如天氣預(yù)測領(lǐng)域中, 短期預(yù)測的效果往往會大大優(yōu)于長期預(yù)測的效果, 從而對數(shù)據(jù)及時性要求較高, 僅當數(shù)據(jù)及時性達到一定水平后, 預(yù)測結(jié)果才能夠有一個較好的表現(xiàn), 即及時性存在邊際效用遞增的情況。

        四、 基于效用的數(shù)據(jù)綜合評估模型構(gòu)建

        效用刻畫的是消費者擁有消費商品或服務(wù)對欲望的滿足程度, 數(shù)據(jù)資產(chǎn)本身也是一種商品或某種服務(wù), 用效用評估數(shù)據(jù)質(zhì)量, 既能保證可量化性, 又能契合數(shù)據(jù)質(zhì)量的含義。故本文結(jié)合數(shù)據(jù)應(yīng)用場景, 從數(shù)據(jù)效用角度出發(fā), 對數(shù)據(jù)質(zhì)量進行綜合評估, 具體流程如圖1所示。

        1. 數(shù)據(jù)質(zhì)量評估指標的選取。本文綜合《信息技術(shù) 數(shù)據(jù)質(zhì)量評價指標》(GB/T 36344-2018)標準及《系統(tǒng)與軟件工程系統(tǒng)與軟件質(zhì)量要求和評價CSQuaRE第24部分:數(shù)據(jù)質(zhì)量測量》(ISO/IEC 25024-2015)標準, 共選取10個一級指標, 每個一級指標下的二級指標作為評估規(guī)則建立的依據(jù), 由于相關(guān)標準中已經(jīng)對指標定義進行了詳盡闡釋, 本文不再贅述。具體指標體系如圖2所示。

        數(shù)據(jù)指標是對數(shù)據(jù)質(zhì)量的具體化, 但指標選取過少易導(dǎo)致數(shù)據(jù)評估結(jié)果不夠全面。而指標選取過多又容易攤平指標權(quán)重, 同時也會導(dǎo)致客觀賦權(quán)法應(yīng)用效果不佳, 不能實際突出反映數(shù)據(jù)問題的存在, 增加評估成本。故本文通過事先確權(quán)的方法來改進指標選取, 即在評估前通過層次分析法主觀賦權(quán), 計算累計權(quán)重, 剔除權(quán)重小的指標。如此在保留高價值指標的同時降低評估成本, 突出該類數(shù)據(jù)的質(zhì)量問題。具體步驟如下:

        第一步, 根據(jù)所選的一級指標構(gòu)建層次結(jié)構(gòu)模型, 對層次結(jié)構(gòu)模型中指標之間的相對重要性進行判斷和比較, 按照1 ~ 9標度方法形成判斷矩陣B。

        [B=bijn×n=b11" b12" …" b1nb21" b22" …" b2n…" " …" "…" …bn1" bn2" …" bnn]

        其中, bij×bji=1。

        第二步, 利用方根法計算出各個指標的權(quán)重W(w1,w2,…,wn)T, 并進行一致性檢驗, 如果未通過就重新構(gòu)建判斷矩陣。

        第三步, 將權(quán)重從大到小排序, 生成新的指標權(quán)重向量W(w1,w2,…,wn)T。

        第四步, 計算累計權(quán)重。

        (1)

        記最小的i使得Ei≥α, α即累計權(quán)重閾值, 其值越大保留的指標越多, 一般根據(jù)指標情況, 取值范圍為α∈[0.8,1]。

        根據(jù)i值更新權(quán)重向量。

        (2)

        得到新的權(quán)重向量" " " " " " " " " " " " " " " " " " "。其中賦值為0的指標便是被剔除掉的指標。

        2. 數(shù)據(jù)效用評估函數(shù)構(gòu)造。在不同應(yīng)用場景下, 隨著不同維度數(shù)據(jù)質(zhì)量水平的提高, 對數(shù)據(jù)使用者效用的邊際增長也會變化。針對這一特性, 本文從風險偏好角度構(gòu)建效用函數(shù)評估不同維度數(shù)據(jù)質(zhì)量。效用函數(shù)內(nèi)含了個體的主觀感應(yīng)(價值判斷), 不同個體(不同應(yīng)用場景)對某測評的需求欲望存在差異性, 分別是風險中性型、 風險偏好型和風險規(guī)避型(尹薇,2021)。即對不同維度數(shù)據(jù)質(zhì)量水平, 使用者對其抱有的態(tài)度是不同的, 從而構(gòu)造異質(zhì)偏好效用函數(shù)來對數(shù)據(jù)各個指標進行評估。

        效用函數(shù)的擬合常見的形式有線性函數(shù)型、 冪函數(shù)型、 對數(shù)函數(shù)型和指數(shù)函數(shù)型等??紤]到指數(shù)函數(shù)能夠更好地擬合各個形狀從而刻畫偏好要求, 故選取指數(shù)函數(shù)型效用函數(shù)作為數(shù)據(jù)質(zhì)量評估函數(shù)。具體如下所示:

        (3)

        其中: ui(sij)指的是第i個維度下第j個二級指標對應(yīng)的質(zhì)量評估分數(shù), 其值越大代表數(shù)據(jù)質(zhì)量越高。λi反映數(shù)據(jù)使用者對該數(shù)據(jù)維度的風險偏好: λi小于0時為風險規(guī)避型; λi大于0時為風險偏好型; λi趨近于無窮大時為風險中性型, 此時等價于ui(sij)=sij。sij是二級指標的量化值, 本文采用簡單比率法(Pipino等,2002)進行度量。該方法計算簡單、 具有較高的穩(wěn)健性。具體公式如下所示:

        (4)

        其中, Nij表示數(shù)據(jù)集中符合數(shù)據(jù)質(zhì)量規(guī)則要求的數(shù)據(jù)量, Mij為所檢測的數(shù)據(jù)量或用戶期望的值。sij越大說明數(shù)據(jù)質(zhì)量問題越少, 反之越多。

        3. 綜合評估模型與權(quán)重的確定。數(shù)據(jù)質(zhì)量的各個指標體現(xiàn)的是數(shù)據(jù)使用者對數(shù)據(jù)各個方面的要求, 這些指標共同作用從而實現(xiàn)數(shù)據(jù)的價值。故指標之間不存在完全替代性, 即數(shù)據(jù)某個維度質(zhì)量問題較為嚴重時, 哪怕其他維度質(zhì)量較高, 其實際適用程度也將會是較低的。基于此選取乘法合成作為綜合評估模型能更好地刻畫數(shù)據(jù)質(zhì)量不同指標之間的關(guān)聯(lián)關(guān)系。其具體公式如下:

        (5)

        其中: G稱為效用評估得分, 在數(shù)據(jù)質(zhì)量的綜合評估中, 權(quán)重反映的是指標之間的相對重要性, 會直接影響綜合評價的結(jié)果。指標選取中的層次分析法屬于主觀賦權(quán)法, 受評估專家偏好影響。為降低評估結(jié)果的主觀性, 本文根據(jù)評估數(shù)據(jù)集分別選取合適的主觀賦權(quán)法及客觀賦權(quán)法確定主觀權(quán)重w1和客觀權(quán)重w2, 引入博弈理論對二者進行組合優(yōu)化, 確定主客觀權(quán)重在綜合權(quán)重中所占比例, 求解最優(yōu)線性組合系數(shù), 達到穩(wěn)定均衡效果, 得出更為科學(xué)合理的組合權(quán)重(黃耀倞等,2021)。

        (1)根據(jù)評估數(shù)據(jù)集分別選取合適的主觀賦權(quán)法及客觀賦權(quán)法確定主觀權(quán)重w1和客觀權(quán)重w2, 進行線性組合求取組合權(quán)重w, 表達式如下:

        (6)

        其中, β1、 β2分別表示主觀權(quán)重和客觀權(quán)重的線性系數(shù)。

        (2)利用博弈論思想求取權(quán)重納什均衡點, 即:

        (7)

        (3)對式(7)求導(dǎo), 其最優(yōu)解滿足下式:

        (8)

        (4)根據(jù)上式求得權(quán)重系數(shù)β1和β2, 并按下式進行歸一化處理:

        (9)

        從而得到組合權(quán)重:

        (10)

        五、 實證分析

        2014年前后, 北京、 天津、 上海、 重慶、 湖北、 廣東、 深圳七省市試點碳排放權(quán)交易市場陸續(xù)建成運行, 隨后2021年全國碳排放權(quán)交易市場正式上線。在缺乏透明和廣泛可獲得的市場信息的情況下, 碳市場價格發(fā)現(xiàn)可能會失敗, 市場參與者無法做出正確的交易決策(霍學(xué)靜,2020)。獲取充分和相關(guān)的信息可確保企業(yè)有效參與碳市場交易。其中部分碳試點交易數(shù)據(jù)存在登記錯誤、 空缺不完整、 更新不及時等數(shù)據(jù)質(zhì)量問題, 使得市場信息無法有效地在投資者與企業(yè)間傳達。因此, 本文選取我國碳試點市場所公布的交易數(shù)據(jù)進行數(shù)據(jù)質(zhì)量評估, 研究我國碳市場信息披露情況。

        1. 數(shù)據(jù)來源。根據(jù)各碳交易市場交易官方網(wǎng)站, 通過python爬蟲技術(shù)逐一采集該市場碳排放權(quán)配額的歷史交易數(shù)據(jù), 若有多個碳排放權(quán)配額進行交易, 則僅采集交易時間最長的碳排放權(quán)配額, 采集時間截止至2023年1月10日。由于重慶碳市場的官網(wǎng)中間出現(xiàn)過較大的調(diào)整, 故不納入數(shù)據(jù)質(zhì)量評估中。共選取廣東、 湖北、 上海、 天津、 四川、 北京、 深圳七個碳排放權(quán)交易試點地區(qū)的交易數(shù)據(jù)。

        2. 數(shù)據(jù)質(zhì)量指標選取。根據(jù)數(shù)據(jù)實際應(yīng)用問題, 選取相關(guān)專家, 使用層次分析法確定權(quán)重, 剔除部分指標, 步驟如下:

        第一步, 根據(jù)專家意見, 構(gòu)建如下指標判斷矩陣:

        [B=12…5121…5…………1515…1]

        第二步, 通過方根法計算得到權(quán)重向量為:

        W=(0.218,0.130,0.080,0.234,0.072,0.100,0.033,0.049,0.045,0.038)

        其CR=0.0766lt;0.1, 故通過一致性檢驗。

        第三步, 將指標權(quán)重向量W重新排序得到新的權(quán)重向量W':

        W'=(0.234,0.218,0.130,0.100,0.080,0.072,0.049,0.045,0.038,0.033)

        第四步, 計算累計權(quán)重, 設(shè)定權(quán)重閾值α=0.85, 根據(jù)式(1), 記最小的i使得Ei≥α, 求得i=7。

        第五步, 根據(jù)式(2)更新權(quán)重, 并且恢復(fù)順序:

        W''=(0.247,0.147,0.091,0.265,0.082,0.113,0.000,0.055,0.000,0.000)

        即剔除可恢復(fù)性、 可信性、 效率性三個一級指標。

        3. 數(shù)據(jù)指標量化。上文通過累計權(quán)重剔除了3個一級指標, 故選取剩下的6個一級指標、 12個二級指標構(gòu)建碳市場交易數(shù)據(jù)評估指標體系, 如圖3所示。

        本文根據(jù)各碳排放權(quán)交易市場的交易規(guī)則, 定義各個二級指標中具體評估規(guī)則描述如表1所示。

        參考歐洲碳市場、 全國碳市場公布的數(shù)據(jù)格式及數(shù)據(jù)挖掘?qū)?shù)據(jù)量的要求, 本文設(shè)定屬性期望個數(shù)為6個, 而考慮到最早的碳試點市場距今已經(jīng)運行9年之久, 故數(shù)據(jù)期望記錄為2000個。期望交易數(shù)據(jù)更新時間為12小時, 期望更新頻率為一周5次, 數(shù)據(jù)值精確到百分位。根據(jù)各個二級指標的規(guī)則進行量化, 得到量化值sij, 結(jié)果如表2所示。各市場的交易數(shù)據(jù)準確性、 一致性等指標的問題較少。而數(shù)據(jù)完整性、 更新及時性量化評估結(jié)果差異較大, 其中: 四川交易所屬性完整性最差, 該市場只公布累計交易量數(shù)據(jù); 從數(shù)據(jù)值完整性來看, 該市場開市較晚從而記錄交易數(shù)據(jù)長度較短。此外深圳、 天津市場由于有多個碳排放額交易標的, 較早發(fā)現(xiàn)的交易標的隨時間逐漸退出交易舞臺, 從而導(dǎo)致采集的數(shù)據(jù)記錄較短。在更新及時性上, 北京碳市場問題較嚴重, 在更新延遲久、 停止交易較久后才公布當天交易數(shù)據(jù), 且常常因為無交易而停止更新數(shù)據(jù)。

        4. 數(shù)據(jù)效用質(zhì)量評估??紤]到碳交易數(shù)據(jù)的主要用途, 本文選取CNN-LSTM預(yù)測每日碳交易收市價, 以其預(yù)測準確性作為數(shù)據(jù)的效用。CNN具有很強的數(shù)據(jù)特征提取能力, 其預(yù)測效果與數(shù)據(jù)質(zhì)量相關(guān)性較強。而LSTM能夠提取長、 短時間序列的復(fù)雜特征關(guān)系, 在處理時間序列方面具有良好的性能, 本文選取的數(shù)據(jù)為時間序列數(shù)據(jù), 適合用LSTM進行預(yù)測。因此, CNN-LSTM兼具對數(shù)據(jù)特征的強提取能力和對時間序列良好處理的能力, 更適用于解釋數(shù)據(jù)質(zhì)量與數(shù)據(jù)預(yù)測結(jié)果之間的關(guān)系。具體結(jié)果如圖4所示。

        考慮到廣東碳市場開市較久, 交易活躍, 數(shù)據(jù)較為完整, 將其作為原始數(shù)據(jù)。截止到2023年1月10日, 數(shù)據(jù)集總共有1927個。通過控制唯一變量的方法, 對原始數(shù)據(jù)添加噪聲、 刪除數(shù)據(jù)后生成四個系列共40個數(shù)據(jù)集" " " 。

        數(shù)據(jù)集表示僅出現(xiàn)第i個維度的數(shù)據(jù)質(zhì)量問題, 其第j個一級指標量化評分為" ", 而" " " " " " " " " " " 。如" " " 指數(shù)據(jù)集在準確性方面的評分為" ", 而其他一級指標對應(yīng)評分為1。記數(shù)據(jù)" " "所訓(xùn)練出的模型平均絕對百分比誤差為

        。為與數(shù)據(jù)質(zhì)量一致, 需將其采用最大最小值法歸一化, 即:

        [yki=MAPEkimax-MAPEkiMAPEkimax-MAPEkimin]

        其中: ui(0)=0,ui(1)=1。

        故式(3)中a=0, b=1。以" " 為自變量、" " "為因變量, 使用非線性最小二乘法對式(3)估計參數(shù)λi, 具體估計結(jié)果如表3所示。

        由表3可知, 指數(shù)效用函數(shù)能夠較好地擬合數(shù)據(jù)的效用。其中及時性、 準確性、 規(guī)范性、 精確性表現(xiàn)為風險偏好型, 即該維度質(zhì)量增加, 模型預(yù)測準確性的增長是遞增的。而完整性、 一致性、 可訪問性呈現(xiàn)的是風險厭惡型。

        將表3數(shù)值代入所估計出的效用函數(shù)(3)中, 得到各個市場數(shù)據(jù)效用評估得分如表4所示。相對來說, 風險偏好型的效用函數(shù)評估值的差異會大于量化值, 體現(xiàn)數(shù)據(jù)應(yīng)用場景對該維度的高要求, 而風險保守型的效用函數(shù)的評分差異會小于量化值, 這意味著在數(shù)據(jù)應(yīng)用場景下, 對這些維度具有較高的容忍度, 即一定程度的損失對數(shù)據(jù)應(yīng)用影響不大。

        5. 數(shù)據(jù)質(zhì)量綜合評估。根據(jù)所選取的數(shù)據(jù)集應(yīng)用場景, 采用層次分析法確定主觀權(quán)重w1, 由專家采用1 ~ 9標度法分別對二級指標的重要性進行比較, 并結(jié)合一級指標權(quán)重計算得到二級指標權(quán)重:

        w1=(0.15,0.10,0.10,0.04,0.05,0.05,0.13,0.13,0.04,0.04,0.11,0.06)

        再選取熵權(quán)法確定客觀權(quán)重w2, 根據(jù)實測數(shù)據(jù)處理得到客觀權(quán)重如下:

        w2=(0.08,0.05,0.14,0.16,0.01,0.15,0.10,0.07,0.02,0.02,0.02,0.13)

        將w1、 w2代入式(6) ~ (9)中, 得到權(quán)重系數(shù)為:" " "=0.59;" " "=0.41。

        代入式(10)中得到組合權(quán)重:

        w=(0.12,0.08,0.12,0.09,0.04,0.09,0.12,0.11,0.04,0.04,0.08,0.09)

        根據(jù)式(5), 計算各個碳市場碳交易數(shù)據(jù)質(zhì)量綜合評估得分如表5所示。其中, 廣東碳試點交易市場數(shù)據(jù)質(zhì)量最高, 其數(shù)據(jù)披露完整, 更新及時, 格式一致。而四川碳試點交易市場數(shù)據(jù)質(zhì)量最低, 主要是由于其數(shù)據(jù)完整性低, 僅公布每日交易額, 缺乏關(guān)鍵數(shù)據(jù), 這也導(dǎo)致在我國碳試點市場研究中該市場常常被忽略掉, 說明該市場的數(shù)據(jù)無法滿足研究、 分析需要。

        信息披露制度不完善是影響碳市場有效性的直接因素, 碳市場透明度的提高有助于緩解信息不對稱問題, 增加碳交易價格對信息的反應(yīng)程度, 從而提高碳市場有效性(馬躍和馮連勇,2022)。交易數(shù)據(jù)屬于信息披露的一部分, 提高披露數(shù)據(jù)質(zhì)量能夠提高市場有效性。相關(guān)研究表明, 試點碳市場大致可分為三個等級: 第一等級為湖北、 廣東、 深圳; 第二等級為北京、 上海; 第三等級為天津。這與數(shù)據(jù)質(zhì)量評估結(jié)果一致(吳偉光等,2021)。

        6. 評估結(jié)果分析。若不考慮數(shù)據(jù)的效用, 忽略數(shù)據(jù)各個維度對數(shù)據(jù)應(yīng)用的非線性影響, 兩者的評估結(jié)果是不相同的。這主要是受數(shù)據(jù)的應(yīng)用場景影響, 不同的應(yīng)用場景對數(shù)據(jù)各個維度的需求是不同的, 如量化投資場景下數(shù)據(jù)主要用于收益率預(yù)測, 那么對于及時性的需求自然是極高的, 若數(shù)據(jù)的及時性不能達到一定的程度就會導(dǎo)致其在量化投資時失去優(yōu)勢, 則無法發(fā)揮應(yīng)用價值。再如數(shù)據(jù)的完整性, 機器學(xué)習(xí)對數(shù)據(jù)量具有一定的需求, 當數(shù)據(jù)的完整性低于某個量時, 機器學(xué)習(xí)模型便無法得到有效的訓(xùn)練, 其模型性能自然是較差的。

        將無應(yīng)用場景與投資預(yù)測應(yīng)用場景下的情況進行評估對比, 前者由于不考慮應(yīng)用場景, 各個維度的數(shù)據(jù)質(zhì)量評估采用簡單比率法, 即默認風險中性。而投資預(yù)測場景下的數(shù)據(jù)集以預(yù)測準確率作為效用, 進行綜合評估。其對比結(jié)果如圖5所示。在考慮應(yīng)用場景下北京碳市場的數(shù)據(jù)質(zhì)量評分為0.7258, 排序第5, 而無應(yīng)用場景下其質(zhì)量評分為0.8310, 排序第4。這是由于北京碳市場的數(shù)據(jù)及時性較差, 在投資預(yù)測時北京碳市場的數(shù)據(jù)適用性不強。因為高延遲的數(shù)據(jù)容易在市場錯失先機, 所以在評估時數(shù)據(jù)的及時性是風險偏好型的, 對及時性問題給予了更高的懲罰, 從而其綜合質(zhì)量評估得分較低。再如在考慮應(yīng)用場景下上海碳市場的數(shù)據(jù)質(zhì)量評分為0.8294, 而無應(yīng)用場景下其質(zhì)量評分為0.8206, 排序不變??紤]應(yīng)用場景時上海碳市場的數(shù)據(jù)質(zhì)量有了一定的提升, 這是由于上海碳市場的數(shù)據(jù)完整性較差, 但仍包含每日開盤價、 收盤價、 交易量等關(guān)鍵數(shù)據(jù)信息, 從而在應(yīng)用時數(shù)據(jù)仍能夠提供有效的信息, 滿足使用者的需要。在評估時, 考慮應(yīng)用場景下完整性為風險厭惡性, 對完整性給予了更高的容忍度, 從而較無應(yīng)用場景下評分更高。

        基于效用的數(shù)據(jù)質(zhì)量綜合評估方法更契合數(shù)據(jù)應(yīng)用場景下適用性描述, 具有較強的針對性。該方法能夠根據(jù)不同的應(yīng)用場景給出不同的評估結(jié)果, 從而適應(yīng)不同用戶的評估需要, 即同一個數(shù)據(jù)集在有些用戶心目中已經(jīng)是高質(zhì)量的數(shù)據(jù), 而對于另一部分用戶來說可能還遠不能滿足使用需要。

        六、 結(jié)語

        在數(shù)據(jù)要素流通過程中, 價值評估是必不可少的一環(huán), 數(shù)據(jù)質(zhì)量可作為數(shù)據(jù)資產(chǎn)價值的源泉(李雪梅和趙小磊,2024)。這是由于高質(zhì)量的數(shù)據(jù)才能產(chǎn)生價值, 而低質(zhì)量的數(shù)據(jù)不但無法發(fā)揮價值, 反而會使得決策失誤, 導(dǎo)致難以估計的損失。事實證明, 數(shù)據(jù)價值評估離不開數(shù)據(jù)質(zhì)量評估。但以往的數(shù)據(jù)質(zhì)量評估多落腳于數(shù)據(jù)質(zhì)量管理角度, 從數(shù)據(jù)的破壞性、 成本等方面進行評估。這與數(shù)據(jù)資產(chǎn)價值評估中對數(shù)據(jù)質(zhì)量的需要有所不同。前者更注重數(shù)據(jù)維護, 后者則更注重數(shù)據(jù)的適用程度, 即數(shù)據(jù)是否能夠達到使用者的需求。而這種需求在不同的應(yīng)用場景下是變化的, 如果不能體現(xiàn)出這種變化, 必然導(dǎo)致價值評估失效。

        故本文從效用角度入手, 借助機器學(xué)習(xí)模型客觀評估數(shù)據(jù)效用, 減少評估過程中對人工的依賴性。構(gòu)建異質(zhì)偏好效用函數(shù)來厘清不同維度的數(shù)據(jù)質(zhì)量問題的容忍程度, 通過風險偏好因子來體現(xiàn)不同應(yīng)用場景下使用者對數(shù)據(jù)質(zhì)量要求的變化, 使得評估結(jié)果較為真實地反饋數(shù)據(jù)的可用性、 適用性。該模型評估結(jié)果更適用于數(shù)據(jù)資產(chǎn)的估值或定價, 為推動我國數(shù)據(jù)要素市場化作出了一定的貢獻。

        【 主 要 參 考 文 獻 】

        蔡莉,李永軒,王淑婷等.基于層次分析法的眾源地理數(shù)據(jù)質(zhì)量評估研究[ J].測繪地理信息,2021(3):98 ~ 102.

        黃耀倞,許拴梅,姜苗苗等.基于博弈論組合賦權(quán)的航道水域通航安全評價[ J].安全與環(huán)境學(xué)報,2021(6):2430 ~ 2437.

        姜琪,孫超臣,倪碩.數(shù)據(jù)要素市場化進程中的數(shù)據(jù)流通與價值創(chuàng)造——基于上海數(shù)據(jù)交易所的案例研究[ J].金融教育研究,2024(3):3 ~ 10.

        孔敏,王風帆,耿姍姍等.模糊層次分析法在淺剖數(shù)據(jù)質(zhì)量評價中的應(yīng)用[ J].海洋科學(xué),2023(10):65 ~ 75.

        李雪梅,趙小磊. 基于經(jīng)濟學(xué)視角的數(shù)據(jù)要素定價研究[ J].河南社會科學(xué),2024(1):33 ~ 42.

        李永紅,張淑雯.數(shù)據(jù)資產(chǎn)價值評估模型構(gòu)建[ J].財會月刊,2018(9):30 ~ 35.

        劉桂鋒,聶云貝,劉瓊.數(shù)據(jù)質(zhì)量評價對象、體系、方法與技術(shù)研究進展[ J].情報科學(xué),2021(11):13 ~ 20.

        陸興鳳,曹翠珍.利益相關(guān)者視角下的企業(yè)財務(wù)大數(shù)據(jù)治理[ J].財會月刊,2022(1):39 ~ 47.

        馬躍,馮連勇.中國試點碳排放權(quán)交易市場有效性分析[ J].運籌與管理,2022(8):195 ~ 202.

        撒旭,王健,范智萱等.數(shù)據(jù)期刊同行評議視角下科學(xué)數(shù)據(jù)質(zhì)量評價指標識別[ J].圖書情報工作,2020(17):123 ~ 130.

        宋立榮.基層科技報告資源建設(shè)中元數(shù)據(jù)質(zhì)量評估研究——以中國科學(xué)技術(shù)信息研究所為例[ J].中國科技資源導(dǎo)刊,2016(1):57 ~ 66.

        宋暮凡.數(shù)據(jù)開放視角下的政府開放數(shù)據(jù)質(zhì)量評價研究[ J].圖書情報導(dǎo)刊,2022(8):63 ~ 70.

        孫嘉睿,安小米.開放政府數(shù)據(jù)質(zhì)量評估指標體系研究[ J].情報理論與實踐,2022(6):94 ~ 100+78.

        王博,溫繼文.基于元數(shù)據(jù)的林業(yè)開放政府數(shù)據(jù)質(zhì)量評估[ J].情報學(xué)報,2021(2):173 ~ 183.

        王方雨,劉文穎,陳鑫鑫等.基于懲罰變權(quán)的RDA同期線損數(shù)據(jù)質(zhì)量評估模型[ J].中國電力,2020(12):223 ~ 231.

        王琪.打通數(shù)據(jù)交易所壁壘,構(gòu)建統(tǒng)一數(shù)據(jù)交易市場——基于對數(shù)據(jù)交易所的比較分析[ J].中國電信業(yè),2023(1):30 ~ 33.

        王禹.數(shù)據(jù)資產(chǎn)的商業(yè)價值研究[ J].全國流通經(jīng)濟,2023(19):189 ~ 192.

        吳偉光,祝雅璐,顧光同.中國試點碳市場有效性的決定因素[ J].資源科學(xué),2021(10):2119 ~ 2129.

        莊計龍,陳敏剛.數(shù)據(jù)質(zhì)量量化評價研究與實現(xiàn)[ J]. 智能計算機與應(yīng)用,2019(4):71 ~ 74+78.

        Arazy O., Kopak R.. On the measurability of information quality[ J]. Journal of the American Society for Information Science amp; Technology,2011(1):89 ~ 99.

        Batini C., Cappiello C., Francalanci C., et al.. Methodologies for data quality assessment and improvement[ J]. Acm Computing Surveys,2009(3):1 ~ 52.

        Even A., Shankaranarayanan G.. Utility-driven assessment of data quality[ J].ACM SIGMIS Database,2007(2):75 ~ 93.

        Li Y., Chao X., Ercisli S.. Disturbed-entropy: A simple data quality assessment approach[ J]. ICF Express,2022(3):309 ~ 312.

        Nespoli A., Ogliari E., Pretto S., et al.. Data quality analysis in day-ahead load forecast by means of LSTM[C]. 2020 IEEE International Conference on Environment and Electrical Engineering and 2020 IEEE Industrial and Commercial Power Systems Europe (EEEIC/Iamp;CPS Europe),2020.

        Niyato D., Alsheikh M. A., Wang P., et al.. Market model and optimal pricing scheme of big data and internet of things (IoT)[C]. IEEE Internatio-nal Conference on Communications (ICC),2016.

        Pierce E., Thomas L.. Assessing information quality using prediction markets[C]. 12th International Conference on Information Quality(ICIQ-2007),2007.

        Spiekermann M.. Data marketplaces: Trends and monetisation of data goods[ J]. Intereconomics,2019(4):208 ~ 216.

        Strong D. M., Lee Y. W., Wang R. Y.. Data quality in context[ J]. Communications of the ACM,1997(5):103 ~ 110.

        Sundararaman A.. A framework for linking data quality to business objectives in decision support systems[C]. International Conference on Trendz in Information Sciences amp; Computing,2011.

        Tayi G. K., Ballou D. P.. Examining data quality[ J]. Communications of the ACM,1998(2):54 ~ 57.

        Yang J., Lan G,. Li Y., et al.. Data quality assessment and analysis for pest identification in smart agriculture[ J]. Computers and Electrical Engineering,2022(103):108322.

        猜你喜歡
        數(shù)據(jù)質(zhì)量效用函數(shù)
        效用函數(shù)模型在動態(tài)三角模糊多屬性決策中的應(yīng)用
        基于冪效用函數(shù)的最優(yōu)投資消費問題研究
        供給側(cè)改革的微觀基礎(chǔ)
        淺析統(tǒng)計數(shù)據(jù)質(zhì)量
        中國市場(2016年40期)2016-11-28 04:58:19
        金融統(tǒng)計數(shù)據(jù)質(zhì)量管理的國際借鑒與中國實踐
        時代金融(2016年27期)2016-11-25 19:02:25
        淺談統(tǒng)計數(shù)據(jù)質(zhì)量控制
        提高政府統(tǒng)計數(shù)據(jù)質(zhì)量,增強政府公信力
        基于廣義效用函數(shù)的公共自行車租賃點布局方法研究
        河南科技(2014年16期)2014-02-27 14:13:27
        亚洲精品欧美二区三区中文字幕| 97精品一区二区三区| 日日麻批免费高清视频| 日韩一区二区三区熟女| 中文字幕亚洲乱码成熟女1区| 亚洲 欧美 综合 在线 精品| 无码人妻丰满熟妇区bbbbxxxx| 又色又爽又高潮免费视频国产 | 色婷婷久久精品一区二区| 蜜桃视频在线看一区二区三区 | 自拍成人免费在线视频| 日本一区二区三区视频免费观看| 色综合久久中文字幕综合网| 99精品国产一区二区三区不卡| 亚洲av麻豆aⅴ无码电影| 国产欧美日韩一区二区三区在线| 亚洲av色先锋资源电影网站| 欧美亚洲国产人妖系列视| 天下第二社区在线视频| 久久综合狠狠综合久久| 少妇人妻偷人精品视蜜桃| 人妻在卧室被老板疯狂进入国产| 亚洲专区路线一路线二天美 | 国产av剧情久久精品久久| 丝袜美腿av在线观看| 全免费a敌肛交毛片免费| 日韩精品一区二区亚洲av| 亚洲aⅴ无码国精品中文字慕| WWW拍拍拍| 偷柏自拍亚洲综合在线| 国产午夜福利在线观看中文字幕| 亚洲日本人妻少妇中文字幕| 伊人久久大香线蕉av不变影院| 国产精品三级av及在线观看| 久久久久人妻精品一区蜜桃| 亚洲中文av一区二区三区| 中文字幕二区三区在线| 青青草国产手机观看视频| 久久精品国产亚洲av无码娇色 | 精品国产a∨无码一区二区三区| 亚洲AV成人无码久久精品在|