亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于用戶適用度的開放數(shù)據(jù)質(zhì)量提升研究*

        2019-01-15 11:12:54王瑞云賈君枝
        數(shù)字圖書館論壇 2018年12期
        關(guān)鍵詞:列數(shù)行數(shù)次數(shù)

        王瑞云 賈君枝

        (1.山西大學(xué)經(jīng)濟與管理學(xué)院,太原 030006;2.中國人民大學(xué)信息資源管理學(xué)院,北京 100872)

        當(dāng)前大數(shù)據(jù)和“互聯(lián)網(wǎng)+”等國家項目正致力于促進國家信息化發(fā)展,確保公民公平、公正、準(zhǔn)確地獲取到所需信息。2015年,國務(wù)院印發(fā)《促進大數(shù)據(jù)發(fā)展行動綱要》規(guī)劃大數(shù)據(jù)發(fā)展目標(biāo),旨在2018年底前建成國家政府?dāng)?shù)據(jù)統(tǒng)一開放平臺,2020年底前逐步實現(xiàn)信用、交通、醫(yī)療、衛(wèi)生、就業(yè)、社保、地理、文化、教育、科技、資源、農(nóng)業(yè)、環(huán)境、安監(jiān)、金融、質(zhì)量、統(tǒng)計、氣象、海洋、企業(yè)登記監(jiān)管等民生保障服務(wù)相關(guān)領(lǐng)域的政府?dāng)?shù)據(jù)集向社會開放[1]。政府和公用事業(yè)機構(gòu)的開放數(shù)據(jù)是大數(shù)據(jù)的基本數(shù)據(jù)內(nèi)容,因來源機構(gòu)的信用擔(dān)??煽慷哂泻芨叩挠脩粜湃魏蛻?yīng)用價值。

        國內(nèi)開放數(shù)據(jù)發(fā)展起步晚于國外,在開放數(shù)據(jù)規(guī)模和質(zhì)量上都存在一定的缺陷,亟需改進。根據(jù)互聯(lián)網(wǎng)基金會發(fā)布的第四次《開放數(shù)據(jù)晴雨表》的評價,中國在115個國家/機構(gòu)中排名71位。在開放數(shù)據(jù)評價的15個主題數(shù)據(jù)集中,我國只有人口普查細(xì)節(jié)數(shù)據(jù)和公共交通時間表兩項排名在前69位,其他項單項排名都在70位以后;而且已提供的開放數(shù)據(jù)只達(dá)到該機構(gòu)的最低要求,即數(shù)據(jù)集存在和可在線獲取,沒有達(dá)到整體可用和提供數(shù)據(jù)關(guān)鍵元素鏈接等更高要求[2]。

        國外學(xué)者[3-7]的研究重視開放數(shù)據(jù)與用戶需求的匹配,利用開放數(shù)據(jù)定量研究方法結(jié)合專家知識解決現(xiàn)實中的具體問題,如某一地區(qū)的人口下降和社區(qū)公共服務(wù)的可持續(xù)性,以及空氣污染治理、疾病傳播和控制等。國內(nèi)學(xué)者[8-9]首先研究分析發(fā)達(dá)國家開放數(shù)據(jù)的經(jīng)驗以供借鑒,還有一些學(xué)者[10-13]采用各種定量研究方法進行國內(nèi)開放數(shù)據(jù)的質(zhì)量評價和質(zhì)量提高研究。國內(nèi)的定量研究通常采用問卷調(diào)查方法,對開放數(shù)據(jù)門戶網(wǎng)站的整體質(zhì)量進行評價。評價指標(biāo)采用通用網(wǎng)站評價指標(biāo)(如網(wǎng)站的下載速度等),不反映開放數(shù)據(jù)網(wǎng)站的重要特征。由于初期用戶對開放數(shù)據(jù)使用很少,很多被調(diào)查的用戶前期沒有瀏覽和下載過開放數(shù)據(jù)[14],回收的調(diào)查問卷準(zhǔn)確性受到用戶對開放數(shù)據(jù)認(rèn)知的限制,所以現(xiàn)階段有必要根據(jù)開放數(shù)據(jù)用戶使用行為方面的特點,研究開放數(shù)據(jù)質(zhì)量和質(zhì)量提升。北京開放數(shù)據(jù)門戶網(wǎng)站是國內(nèi)開放數(shù)據(jù)各方面指標(biāo)較好的網(wǎng)站之一,有大量的用戶進行瀏覽和下載,本文后續(xù)部分以北京開放數(shù)據(jù)門戶網(wǎng)站數(shù)據(jù)集作為案例數(shù)據(jù)來源。

        1 研究的概念框架構(gòu)建

        1.1 用戶適用度的用戶行為表示

        用戶適用度是開放數(shù)據(jù)滿足用戶應(yīng)用各方面需求的綜合指標(biāo)。開放數(shù)據(jù)的根本目的是利用[15],開放數(shù)據(jù)集的用戶適用度指標(biāo)可以通過用戶需求匹配和選擇數(shù)據(jù)集的行為顯式地表示出來?;谟脩粜枨笃ヅ浜瓦x擇數(shù)據(jù)集的行為全過程見圖1。首先用戶面對開放數(shù)據(jù)門戶網(wǎng)站的海量數(shù)據(jù)集,根據(jù)網(wǎng)站推廣和導(dǎo)航進行初選,得到初步匹配需求的所有數(shù)據(jù)集集合。集合中的數(shù)據(jù)集都獲得了用戶瀏覽點擊行為,該行為參數(shù)包括瀏覽的對象、瀏覽時間。本文只簡單化選取當(dāng)前時點數(shù)據(jù)集的累計瀏覽次數(shù)指標(biāo)。其次,用戶通過瀏覽數(shù)據(jù)集的內(nèi)容說明和元數(shù)據(jù),進一步精確地判斷該數(shù)據(jù)集和自身需求的匹配程度。用戶根據(jù)元數(shù)據(jù)詳細(xì)說明來判斷該數(shù)據(jù)集是否為所需內(nèi)容,數(shù)據(jù)集的更新頻率、最新更新時間影響用戶對數(shù)據(jù)的及時性需求;數(shù)據(jù)集發(fā)布更新主體的可信程度影響用戶對數(shù)據(jù)的可靠性需求;數(shù)據(jù)格式、數(shù)據(jù)集行列數(shù)等也是影響用戶判定的質(zhì)量指標(biāo)。經(jīng)過綜合需求匹配階段的精確判斷,用戶決定是否下載數(shù)據(jù)集提供的數(shù)據(jù)資源,符合用戶精確需求匹配的數(shù)據(jù)集選入精確匹配數(shù)據(jù)集集合,并得到用戶下載點擊行為,行為參數(shù)具體包括下載對象和下載時間,本文表示為當(dāng)前時點數(shù)據(jù)集的累計下載次數(shù)指標(biāo)。用戶開放數(shù)據(jù)的利用還包括手機端的APP用戶關(guān)注的新型用戶行為,表現(xiàn)為用戶關(guān)注數(shù)的指標(biāo)。最后,用戶對下載到本地的數(shù)據(jù)資源進行處理,可能做出質(zhì)量評價、問題反饋、提出進一步需求等一系列行為,作為門戶網(wǎng)站未來提高數(shù)據(jù)集的質(zhì)量參考。

        1.2 用戶適用度的數(shù)據(jù)集內(nèi)在質(zhì)量

        數(shù)據(jù)的內(nèi)在質(zhì)量是用戶選擇的內(nèi)因和基礎(chǔ),而行為統(tǒng)計為數(shù)據(jù)表示內(nèi)在質(zhì)量的需求匹配結(jié)果。用戶適用度概念是由Vetrò等[3]提出,由于低質(zhì)量的開放數(shù)據(jù)集增加了用戶的再利用成本,從而不能滿足用戶顯式和隱含的需要;并提出基于用戶適用度的質(zhì)量量度定義,包括從數(shù)據(jù)集到單元格不同粒度對象的9個質(zhì)量量度定義,即創(chuàng)建更新可溯源性、及時性、過期延遲時間、數(shù)據(jù)單元和行的完整性、數(shù)據(jù)單元和數(shù)據(jù)集的標(biāo)準(zhǔn)符合性、單元粒度的易理解性和單元粒度的準(zhǔn)確性。從上述九方面達(dá)到用戶選擇利用的要求,能降低用戶的整體使用成本,提升數(shù)據(jù)集可靠性、及時性和準(zhǔn)確性,從而大幅降低開放數(shù)據(jù)集的總體利用成本,整體上提高數(shù)據(jù)的用戶適用度[5],使數(shù)據(jù)集得到增值性的利用和再利用。

        圖1 用戶需求匹配和選擇數(shù)據(jù)集的行為全過程

        另一個數(shù)據(jù)質(zhì)量內(nèi)在標(biāo)準(zhǔn)是關(guān)聯(lián)開放數(shù)據(jù)質(zhì)量的五星標(biāo)準(zhǔn)[16],主要基于開放數(shù)據(jù)的發(fā)布格式和符合標(biāo)準(zhǔn)的程度,最低標(biāo)準(zhǔn)是存在任何格式用戶可獲取的開放數(shù)據(jù),但是這些數(shù)據(jù)可能是圖片格式,不方便用戶的機器編輯處理。二星和三星的數(shù)據(jù)集分別是.xls和.csv格式的表格數(shù)據(jù),這兩個級別的數(shù)據(jù)集可以導(dǎo)入數(shù)據(jù)庫;三星與二星的數(shù)據(jù)集相比,其優(yōu)勢體現(xiàn)在表格數(shù)據(jù)集不局限于微軟的Excel數(shù)據(jù)(.xls格式)。四星的數(shù)據(jù)集符合W3C的開放標(biāo)準(zhǔn),數(shù)據(jù)采用RDF表示,并且可以通過SPARQL查詢獲取。五星開放數(shù)據(jù)實現(xiàn)數(shù)據(jù)到其他提供方數(shù)據(jù)的關(guān)聯(lián)。四星和五星的高質(zhì)量數(shù)據(jù)方便用戶集成多來源的開放數(shù)據(jù),實現(xiàn)開放數(shù)據(jù)門戶的互操作。國內(nèi)的開放數(shù)據(jù)總體達(dá)到三星標(biāo)準(zhǔn),提供.xls和.csv格式的表格數(shù)據(jù),還有少部分的word文件和pdf圖片文件。三星標(biāo)準(zhǔn)的數(shù)據(jù)集質(zhì)量限制用戶在多網(wǎng)站來源的數(shù)據(jù)集之間的互操作,提高用戶的處理成本。而word和pdf圖片格式的數(shù)據(jù)資源需要用戶付出更高的處理成本,甚至需要安裝專門軟件處理數(shù)據(jù),用戶的利用成本更高。

        1.3 基于用戶適用度的數(shù)據(jù)質(zhì)量框架

        構(gòu)建基于用戶適用度的數(shù)據(jù)質(zhì)量框架可以分為數(shù)據(jù)集內(nèi)在質(zhì)量指標(biāo)和用戶行為的外在質(zhì)量指標(biāo)。內(nèi)在質(zhì)量指標(biāo)包括數(shù)據(jù)集的內(nèi)容主題、數(shù)據(jù)集的元數(shù)據(jù)說明、數(shù)據(jù)集的及時性、數(shù)據(jù)列表現(xiàn)出的數(shù)據(jù)屬性豐富度、數(shù)據(jù)行(多個表的總行數(shù))表示出的數(shù)據(jù)規(guī)模5方面指標(biāo);用戶行為的外在質(zhì)量指標(biāo)包括瀏覽次數(shù)、下載次數(shù)和用戶關(guān)注數(shù)3個方面基本指標(biāo),以及計算出的下載瀏覽比、時段下載瀏覽比等分析性二級指標(biāo)。

        2 數(shù)據(jù)集內(nèi)在質(zhì)量與用戶行為的關(guān)系

        以北京開放數(shù)據(jù)門戶網(wǎng)站作為實例研究對象,利用網(wǎng)絡(luò)爬蟲工具從門戶網(wǎng)站的用戶互動信息、數(shù)據(jù)集的主題導(dǎo)航、主題數(shù)據(jù)集的下載/瀏覽排行、數(shù)據(jù)集的熱門下載等統(tǒng)計信息中獲取數(shù)據(jù)集質(zhì)量和用戶行為數(shù)據(jù),對該開放數(shù)據(jù)門戶每個數(shù)據(jù)集的用戶選擇行為和數(shù)據(jù)集內(nèi)在質(zhì)量的關(guān)系進行分析,旨在為基于用戶適用度的數(shù)據(jù)集質(zhì)量提升奠定基礎(chǔ)。

        2.1 下載瀏覽關(guān)注與數(shù)據(jù)集內(nèi)在質(zhì)量的關(guān)系

        2.1.1 下載次數(shù)與主題數(shù)據(jù)集個數(shù)的相關(guān)關(guān)系

        門戶網(wǎng)站共提供20個主題的1 023個數(shù)據(jù)集,由于網(wǎng)站數(shù)據(jù)集個數(shù)較多,為方便用戶選擇適合自身需求的數(shù)據(jù)集提供主題導(dǎo)航,通過主題數(shù)據(jù)集個數(shù)和主題內(nèi)容兩個屬性向用戶展示數(shù)據(jù)。門戶網(wǎng)站給出按主題分類的數(shù)據(jù)集個數(shù)如表1所示,可以看出,不同主題的數(shù)據(jù)集分布差異明顯。根據(jù)一般常識和開放數(shù)據(jù)提供者的考慮,提出假設(shè)S1。

        S1:各主題的數(shù)據(jù)集個數(shù)與用戶下載瀏覽次數(shù)正相關(guān)。

        表1 按數(shù)據(jù)集個數(shù)排序的數(shù)據(jù)集主題情況

        本文樣本的獲取時間為2018年10月10日,下載排名前30的數(shù)據(jù)集信息見表2[17]。由于“下載次數(shù)”比“瀏覽次數(shù)”更能體現(xiàn)開放數(shù)據(jù)集用戶適用度的行為結(jié)果,故選取下載次數(shù)為首要因素排序。其中的6~8列在后文研究中使用。對瀏覽次數(shù)和下載次數(shù)按照主題分類匯總統(tǒng)計見圖2。由于瀏覽次數(shù)遠(yuǎn)大于下載次數(shù),為了圖形顯示清晰,圖2中對瀏覽次數(shù)除以10。

        下載量最多的數(shù)據(jù)集主題集中在教育科研、交通服務(wù)、旅游住宿、企業(yè)服務(wù)。教育科研主題占據(jù)下載次數(shù)排名第1和第2,該主題在下載次數(shù)前30的數(shù)據(jù)集個數(shù)為8,總下載次數(shù)12 087,遠(yuǎn)大于其他主題的數(shù)據(jù)集;但表1中該主題的數(shù)據(jù)集個數(shù)為81,排名第3,遠(yuǎn)少于第1主題的數(shù)據(jù)集個數(shù)298,所以教育科研主題是不支持假設(shè)S1正相關(guān)關(guān)系的一個異常。不支持假設(shè)S1最大的異常是表1中提供數(shù)據(jù)集個數(shù)最多主題的經(jīng)濟建設(shè),在表2中下載量前30的數(shù)據(jù)集中沒有出現(xiàn)。具體到經(jīng)濟建設(shè)主題內(nèi)部,該主題按下載次數(shù)排名的數(shù)據(jù)集信息見表3。該主題下載次數(shù)排名前2的數(shù)據(jù)集在總體排名分別為111和136,其他的都在總體排名260以后。

        上述兩種異常否定了基于提供者和一般常識的假設(shè)S1。第一個異常的數(shù)據(jù)集主題是當(dāng)前用戶重點關(guān)注教育科研主題的外在表現(xiàn),主題內(nèi)容對瀏覽下載次數(shù)的影響遠(yuǎn)超過假設(shè)S1的正相關(guān)影響。第二個異常更需要開放數(shù)據(jù)門戶管理者思考,經(jīng)濟主題的數(shù)據(jù)集提供的數(shù)據(jù)集個數(shù)很多,但是并沒有被用戶瀏覽和下載,網(wǎng)站需要對該主題的數(shù)據(jù)集增大推廣力度,更好地滿足用戶需求,使該主題的數(shù)據(jù)集更多地被用戶瀏覽下載。

        表2 按下載次數(shù)排序前30的數(shù)據(jù)集

        圖2 主題分類的下載次數(shù)和瀏覽次數(shù)匯總(前8項)

        2.1.2 下載次數(shù)與數(shù)據(jù)集及時性的正相關(guān)及異常

        本文后續(xù)將研究6個正相關(guān)關(guān)系,分別是下載次數(shù)與數(shù)據(jù)及時性、數(shù)據(jù)表列數(shù)、數(shù)據(jù)表行數(shù)的3個相關(guān)關(guān)系,以及下載瀏覽比與數(shù)據(jù)及時性、數(shù)據(jù)表列數(shù)、數(shù)據(jù)表行數(shù)的3個相關(guān)關(guān)系。為準(zhǔn)確地判定各數(shù)據(jù)集的各對指標(biāo)的正相關(guān)關(guān)系是否成立,下面分別根據(jù)每個正相關(guān)判斷的兩個指標(biāo),對表2的數(shù)據(jù)集進行聚類。本文的6個相關(guān)關(guān)系共涉及5個指標(biāo),分別為下載次數(shù)、下載瀏覽比、及時性、列數(shù)、行數(shù);應(yīng)用這5個指標(biāo)對數(shù)據(jù)集進行聚類。聚類算法采用最小化組內(nèi)距離、最大化組間距離的原則,分組參數(shù)設(shè)為5,編寫程序計算。上述5個指標(biāo)對表2的30個數(shù)據(jù)集的聚類分組結(jié)果見表4。

        表3 經(jīng)濟建設(shè)主題按下載次數(shù)排序前5的數(shù)據(jù)集

        表4 數(shù)據(jù)集的下載次數(shù)、下載瀏覽比、及時性、列數(shù)、行數(shù)聚類分組賦值結(jié)果

        表4第1列是5個分組對應(yīng)的分值,第2~6列是按指標(biāo)的聚類結(jié)果分組內(nèi)的數(shù)據(jù)集編號。對5組分別按5級量級賦值,同一組內(nèi)的數(shù)據(jù)集賦同一值,如第2列第1個分組“1,2,3”,表示1、2、3號數(shù)據(jù)集按下載次數(shù)分在一組,分值為5(5最好,1最差)。

        指標(biāo)及時性需要元數(shù)據(jù)給出固有的更新頻率,在最新更新時間基礎(chǔ)上分析。先按公式(1)計算數(shù)據(jù)集的延遲度。

        其中研究時點、最新更新時間的單位為年。由于門戶網(wǎng)站數(shù)據(jù)集的元數(shù)據(jù)中沒有提供更新頻率,本文假設(shè)更新頻率為1次/年。再根據(jù)公式(2)計算及時性。指標(biāo)聚類采用的是最后計算出的及時性值,聚類結(jié)果見表4的第4列。

        利用表4“下載次數(shù)各分組數(shù)據(jù)集”和“及時性各分組數(shù)據(jù)集”的結(jié)果,對30個數(shù)據(jù)集的對應(yīng)值進行成對比較,基本支持正相關(guān)15個數(shù)據(jù)集;找到極端不支持正相關(guān)的6個數(shù)據(jù)集,屬于異常數(shù)據(jù)集,不符合及時性高數(shù)據(jù)集的下載次數(shù)高的正相關(guān)常識。這6個異常數(shù)據(jù)集為“小學(xué)”“中學(xué)”“土地用途區(qū)分”“北京地區(qū)博物館”“車管所”和“養(yǎng)老機構(gòu)”。其中有重要參考價值的是前3個數(shù)據(jù)集,分別為“小學(xué)”“中學(xué)”“土地用途分區(qū)”,這3個數(shù)據(jù)集下載次數(shù)最大,及時性反向最差,是極端負(fù)相關(guān)異常;該異常說明與這些數(shù)據(jù)集主題相關(guān)的社會問題得到大量用戶關(guān)注,故下載和瀏覽次數(shù)最高。網(wǎng)站尤其需要解決異常數(shù)據(jù)集的及時性問題,及時更新數(shù)據(jù)集,更好地滿足大量用戶的數(shù)據(jù)及時性需求,避免嚴(yán)重挫傷大量用戶的積極性。而另外的3個異常數(shù)據(jù)集為“北京地區(qū)博物館”“車管所”和“養(yǎng)老機構(gòu)”,及時性最高,下載數(shù)卻排在表2的最后組,但是只是相對表2前面的20個數(shù)據(jù)集最低,放在全部數(shù)據(jù)集中下載數(shù)不低,可以排除該異常。

        2.1.3 下載瀏覽次數(shù)與數(shù)據(jù)集行列數(shù)的正相關(guān)及異常

        數(shù)據(jù)集的列數(shù)反映數(shù)據(jù)屬性的豐富程度,行數(shù)反映數(shù)據(jù)集的規(guī)模。數(shù)據(jù)集的列數(shù)和行數(shù)越多,說明數(shù)據(jù)集的質(zhì)量越高,可以得到更高的用戶下載瀏覽次數(shù),一般列數(shù)、行數(shù)與下載瀏覽次數(shù)具有正相關(guān)關(guān)系。

        利用表2“列數(shù)”和“行數(shù)”兩列的數(shù)據(jù)聚類分組結(jié)果(見表4的“列數(shù)各分組數(shù)據(jù)集”和“行數(shù)各分組數(shù)據(jù)集”),將其分別與表4“下載次數(shù)各分組數(shù)據(jù)集”列的數(shù)據(jù)成對比較,分析兩組正相關(guān)關(guān)系。結(jié)果表明,基本支持列數(shù)與下載瀏覽次數(shù)正相關(guān)的數(shù)據(jù)集有16個,正相關(guān)性不顯著。支持行數(shù)與下載瀏覽次數(shù)基本正相關(guān)的數(shù)據(jù)集個數(shù)有13個,正相關(guān)同樣不顯著。

        列數(shù)與下載瀏覽次數(shù)正相關(guān)的極端異常為“土地用途分區(qū)”數(shù)據(jù)集,下載次數(shù)最高極端反向?qū)?yīng)了列數(shù)最少值,該異常需要對數(shù)據(jù)集的列進行深入分析,對于用戶亟需的重點數(shù)據(jù)用2列是否足夠表達(dá)實際數(shù)據(jù)的屬性,能否滿足用戶的應(yīng)用需求。行數(shù)正相關(guān)的極端異常為“軌道交通線路”數(shù)據(jù)集,下載次數(shù)較高反向?qū)?yīng)了行數(shù)最小值,對此異常進行深入分析,該數(shù)據(jù)集為用戶重點瀏覽下載的數(shù)據(jù)集,但只有16行數(shù)據(jù),是否能滿足用戶的數(shù)據(jù)要求,是否需要細(xì)化數(shù)據(jù)粒度。

        2.1.4 下載次數(shù)與及時性、列數(shù)、行數(shù)的正相關(guān)異常總結(jié)

        綜合下載次數(shù)與及時性、列數(shù)和行數(shù)的正相關(guān)的極端異常,需要提醒開放數(shù)據(jù)管理者注意共有的異常數(shù)據(jù)集(即用戶下載次數(shù)最高的“小學(xué)”“中學(xué)”和“土地用途區(qū)分”數(shù)據(jù)集),更需要抓住用戶需求迫切的契機,提高這些數(shù)據(jù)集的及時性,提高“土地用途區(qū)分”數(shù)據(jù)集的列豐富性和“軌道交通線路”數(shù)據(jù)集的行數(shù)。

        2.2 用戶下載瀏覽比與開放數(shù)據(jù)集內(nèi)在質(zhì)量的關(guān)系

        2.2.1 用戶下載瀏覽比的含義與計算

        用戶的下載瀏覽比反映用戶在瀏覽數(shù)據(jù)集內(nèi)容選擇下載數(shù)據(jù)集鏈接數(shù)據(jù)資源的概率,代表用戶根據(jù)數(shù)據(jù)集的元數(shù)據(jù)詳細(xì)說明與自身需求進一步匹配選擇的概率。表2中30個數(shù)據(jù)集的瀏覽次數(shù)和下載次數(shù)的分布見圖3,圖4中給出二者的3種方案的線性擬合,包括所有點的直線擬合、高區(qū)的直線擬合、低區(qū)的直線擬合。

        分析數(shù)據(jù)集實際語義,下載次數(shù)小于瀏覽次數(shù),下載次數(shù)與瀏覽次數(shù)正相關(guān)。下載次數(shù)y和瀏覽次數(shù)x函數(shù)關(guān)系如公式(3)所示。

        圖3 瀏覽次數(shù)和下載次數(shù)散點分布

        圖4 整體擬合直線和高低區(qū)分別擬合直線

        由于門戶網(wǎng)站初期用戶下載需要用戶注冊登錄,而瀏覽不需要登錄,所以某一段時間數(shù)據(jù)集的瀏覽次數(shù)增長,而下載次數(shù)為0,這時間點情景為x>0、y=0;該實際情景下,直線與x的交點x≥0,則與y交點處y≤0,即要求公式(3)中的參數(shù)a≤0。擬合結(jié)果如圖4中的全部點、低區(qū)和高區(qū)的3條擬合直線,其參數(shù)(a,b)分為(155,0.071),(106,0.090),(-2 057,0.145)。其中兩條擬合直線的參數(shù)a>0,嚴(yán)重違反實際情形;只有高區(qū)的擬合直線a=-2 057,不顯著違背實際情況,其下載瀏覽比值為0.145。以上分析說明每個數(shù)據(jù)集的瀏覽下載擬合直線有顯著差別,不能用同一條直線擬合。所以本文后續(xù)對每個數(shù)據(jù)集計算下載瀏覽比。

        本文用兩種方法計算下載瀏覽比。方法1:在公式(3)參數(shù)a=0時計算每個數(shù)據(jù)集的全局平均下載瀏覽比。方法2:根據(jù)公式(4)計算在最近參考時間段(2018年8月23日—10月13日)的下載瀏覽比b1[18],這兩種下載瀏覽比計算結(jié)果如圖5所示。

        方法1的下載瀏覽比集中在0.07~0.14;方法2的下載瀏覽比中有8個數(shù)據(jù)集超過0.20,最高是幼兒園數(shù)據(jù)集達(dá)0.45。經(jīng)濟建設(shè)主題的數(shù)據(jù)集下載排名在100后,但方法2計算的下載瀏覽比較高,為0.35。

        比較圖5下載瀏覽比和圖3的下載次數(shù),可以看出,雖然前6個數(shù)據(jù)集瀏覽次數(shù)和下載次數(shù)都很高,但是下載瀏覽比很低。這說明門戶網(wǎng)站前6個數(shù)據(jù)集雖然被大量的用戶瀏覽,但是其中大部分用戶進一步根據(jù)元數(shù)據(jù)判斷數(shù)據(jù)資源與自身需求匹配時,沒有選擇下載數(shù)據(jù)集資源,數(shù)據(jù)集其他方面的質(zhì)量可能無法滿足用戶需求。后面24個數(shù)據(jù)集用方法2計算的最近區(qū)間平均下載瀏覽比高于全局平均的下載瀏覽比,說明后面數(shù)據(jù)集的下載次數(shù)有加速發(fā)展的趨勢。綜合上述分析,兩種方法下載比加權(quán)綜合得到最終下載瀏覽比,用于數(shù)據(jù)集根據(jù)下載瀏覽指標(biāo)的聚類,聚類結(jié)果見表4的第3列下載瀏覽比各分組的數(shù)據(jù)集。

        圖5 數(shù)據(jù)集的平均下載瀏覽比和最近時段的下載瀏覽比

        2.2.2 用戶下載瀏覽比與數(shù)據(jù)及時性的正相關(guān)及異常

        用表4中的下載瀏覽比和數(shù)據(jù)及時性的聚類分組值進行成對比較,驗證這2個指標(biāo)的正相關(guān)性。支持正相關(guān)的數(shù)據(jù)集有13個,正相關(guān)關(guān)系不成立。從本次正相關(guān)驗證得到一個新的解釋:2.1.2節(jié)的5個極端異常在本次不再是異常,而變成支持正相關(guān)的數(shù)據(jù)集,“小學(xué)”“中學(xué)”“土地用途區(qū)分”和“軌道交通線路”4個數(shù)據(jù)集的2個屬性分類都在最低組,支持正相關(guān),該結(jié)論可以部分解釋2.1.2中下載次數(shù)與及時性正相關(guān)的極端異常,這4個數(shù)據(jù)集的下載瀏覽比指標(biāo)低,表明下載次數(shù)的相對速度有降低的趨勢,更是提醒管理人員盡快提高這些數(shù)據(jù)集的及時性,才有可能扭轉(zhuǎn)下載次數(shù)下降的趨勢。

        本次相關(guān)驗證在解釋消除已有異常的同時,驗證結(jié)果還發(fā)現(xiàn)了新的負(fù)相關(guān)的極端異常,異常數(shù)據(jù)集是表2的“中職”數(shù)據(jù)集和“幼兒園”數(shù)據(jù)集,這兩個數(shù)據(jù)集的下載瀏覽比最好,表明它們有很好的下載應(yīng)用趨勢,但是及時性最差。這兩個數(shù)據(jù)集在下載次數(shù)和及時性正相關(guān)驗證中,沒有表現(xiàn)出明顯的相關(guān)異常。所以需要提醒網(wǎng)站管理者重視這兩個隱藏的異常數(shù)據(jù)集的及時性質(zhì)量提升。另外,不太極端的負(fù)相關(guān)異常還包括“三級醫(yī)院”“機場班車線路”“快速路”數(shù)據(jù)集,也應(yīng)該得到網(wǎng)站管理者注意,提早安排數(shù)據(jù)更新。

        2.2.3 下載瀏覽比與數(shù)據(jù)集行列的正相關(guān)及異常

        對表4中的下載瀏覽比與數(shù)據(jù)集的列數(shù)和行數(shù)的聚類數(shù)據(jù)進行成對比較,分別計算兩個相關(guān)關(guān)系。支持下載瀏覽比與列數(shù)正相關(guān)的數(shù)據(jù)集有10個,正相關(guān)不能成立。異常數(shù)據(jù)集為“教育部直屬高?!薄懊褶k高校及獨立學(xué)院”數(shù)據(jù)集,下載瀏覽比最差,但數(shù)據(jù)集的列數(shù)在最好組;分析其原因是:①雖然教育科研主題是熱門主題,但用戶的關(guān)注熱點在主題內(nèi)部更加細(xì)分,這兩個數(shù)據(jù)集正在逐步退出用戶熱門數(shù)據(jù);②列數(shù)雖然多,但列內(nèi)容不能匹配用戶需要。

        支持下載瀏覽比與行數(shù)正相關(guān)的數(shù)據(jù)集有13個,正相關(guān)不成立。但是在兩個指標(biāo)最高和最低兩端組內(nèi),正相關(guān)表現(xiàn)比較顯著。如下載瀏覽比最好的“備案停車場(位)”“幼兒園”數(shù)據(jù)集,正相關(guān)行數(shù)在最好組;下載瀏覽比最差的“軌道交通線路”“教育部直屬高?!薄懊褶k高校及獨立學(xué)院”數(shù)據(jù)集,正相關(guān)行數(shù)在最差組,該部分正相關(guān)也部分說明“教育部直屬高?!焙汀懊褶k高校及獨立學(xué)院”數(shù)據(jù)集的列相關(guān)異常,可能是內(nèi)在質(zhì)量行數(shù)上存在缺陷;發(fā)現(xiàn)的行數(shù)正相關(guān)異常數(shù)據(jù)集是“小學(xué)”和“土地用途區(qū)分”數(shù)據(jù)集,下載瀏覽比最差,但數(shù)據(jù)表行數(shù)在最好組。說明數(shù)據(jù)規(guī)模對下載瀏覽比的影響遠(yuǎn)小于數(shù)據(jù)集主題內(nèi)容的影響。

        2.2.4 下載瀏覽與內(nèi)在指標(biāo)的正相關(guān)及異常小結(jié)

        數(shù)據(jù)集的及時性、數(shù)據(jù)表列數(shù)和行數(shù)與下載瀏覽比的正相關(guān)關(guān)系都不能得到顯著支持。但是2.1.2節(jié)下載次數(shù)與及時性正相關(guān)的極端異常在本節(jié)的下載瀏覽比與及時性的正相關(guān)得到部分解釋,并且發(fā)現(xiàn)不太外顯的2.1.2節(jié)沒有發(fā)現(xiàn)的新隱含異常“中職”“幼兒園”數(shù)據(jù)集,需要提醒網(wǎng)站管理者注意這些隱含的異常。列相關(guān)的異常數(shù)據(jù)集中的“教育部直屬高?!焙汀懊褶k高校及獨立學(xué)院”數(shù)據(jù)集,既可能是用戶關(guān)注熱門的細(xì)分和分支熱門的轉(zhuǎn)變,也可能有行數(shù)指標(biāo)差的影響因素。行相關(guān)的異常數(shù)據(jù)集為“小學(xué)”和“土地用途區(qū)分”兩個數(shù)據(jù)集,也可以從其下載比和及時性的同為最低正相關(guān)得到解釋,這兩個數(shù)據(jù)集行數(shù)雖然很多,但是及時性最差,所以下載瀏覽比最差。

        2.3 下載瀏覽比與用戶總體適用度的關(guān)系

        下載瀏覽比可以顯式地反映數(shù)據(jù)集與用戶需求的匹配選擇情況,在很大程度上,可以反映數(shù)據(jù)集的用戶適用度質(zhì)量,所以本文前面研究下載瀏覽比(下載次數(shù))與其他質(zhì)量指標(biāo)的正相關(guān)關(guān)系,試圖通過提高相關(guān)的質(zhì)量指標(biāo)來提高下載瀏覽比或下載次數(shù),以期最終提高數(shù)據(jù)集的用戶適用度。

        下載瀏覽比過低表示數(shù)據(jù)集的質(zhì)量有待提高的方面,但是并不能只限于提高下載瀏覽比。下載行為是用戶根據(jù)數(shù)據(jù)集詳細(xì)頁面上元數(shù)據(jù)和數(shù)據(jù)說明,判斷數(shù)據(jù)集的內(nèi)容主題是否與需求的內(nèi)容匹配;數(shù)據(jù)集的及時性是否符合用戶要求,以及數(shù)據(jù)集的列數(shù)和行數(shù)與數(shù)據(jù)的屬性豐富度和數(shù)據(jù)規(guī)模需求的匹配度。數(shù)據(jù)集元數(shù)據(jù)的準(zhǔn)確說明為用戶下載選擇提供正確的依據(jù),避免用戶下載不適用數(shù)據(jù)的后期處理成本,對數(shù)據(jù)集的總體利用成本的降低和數(shù)據(jù)集的總體適用度有積極的作用。

        因此,數(shù)據(jù)集的總體適用度質(zhì)量需要在準(zhǔn)確詳細(xì)的數(shù)據(jù)集元數(shù)據(jù)基礎(chǔ)上,保證數(shù)據(jù)集質(zhì)量提升是建立在對總體成本有效降低的基礎(chǔ)上,再提高重點數(shù)據(jù)集的相關(guān)指標(biāo)質(zhì)量進而提高下載次數(shù)和長期的下載瀏覽比。

        3 研究結(jié)論及展望

        本文基于用戶利用開放數(shù)據(jù)的行為過程研究開放數(shù)據(jù)的用戶適用度質(zhì)量,研究對象涉及最微觀的單個數(shù)據(jù)集和主題分類,通過研究下載次數(shù)、下載瀏覽比與數(shù)據(jù)集的及時性、列數(shù)和行數(shù)的正相關(guān)關(guān)系,發(fā)現(xiàn)極端不符合正相關(guān)關(guān)系異常數(shù)據(jù)集,深入分析異常數(shù)據(jù)集的應(yīng)用情景,針對異常數(shù)據(jù)集,提出質(zhì)量提升建議。

        影響數(shù)據(jù)集下載次數(shù)和下載瀏覽比的最重要因素是數(shù)據(jù)集的主題內(nèi)容和細(xì)分主題,門戶網(wǎng)站應(yīng)該根據(jù)用戶的需求,發(fā)布更多熱門主題的數(shù)據(jù)集,對數(shù)據(jù)集的主題分類盡量劃分到熱門主題,使數(shù)據(jù)集得到高的瀏覽次數(shù)和下載次數(shù)。

        對于在多對正相關(guān)研究中發(fā)現(xiàn)的異常數(shù)據(jù)集,分析具體應(yīng)用情景提出的建議應(yīng)及時反饋給開放數(shù)據(jù)管理者。積極推進管理者利用相關(guān)關(guān)系改進熱門重要異常數(shù)據(jù)集的質(zhì)量缺陷。對于熱門主題相關(guān)的異常數(shù)據(jù)集更為重要,重點提高異常數(shù)據(jù)集的及時性,長遠(yuǎn)提高異常數(shù)據(jù)集的下載瀏覽比;再進一步提高數(shù)據(jù)集列數(shù),豐富數(shù)據(jù)集的屬性信息,并且提高數(shù)據(jù)集的行數(shù),從更細(xì)的粒度,提供規(guī)模更大的、更精準(zhǔn)的數(shù)據(jù),從而為用戶提供更高的利用價值。最終不僅要提高數(shù)據(jù)集的當(dāng)前下載瀏覽次數(shù),更從長遠(yuǎn)發(fā)展的角度提高數(shù)據(jù)集的下載瀏覽比,提高開放數(shù)據(jù)的整體適用度。

        另外數(shù)據(jù)集還應(yīng)該保證元數(shù)據(jù)說明的準(zhǔn)確性,提高下載次數(shù)和下載瀏覽比的工作應(yīng)該在不增加后期應(yīng)用成本的基礎(chǔ)上進行,防止用戶因下載不適用的數(shù)據(jù)集而浪費大量的后期處理成本。

        本文研究的局限在于研究案例的開放數(shù)據(jù)還處在發(fā)展的初級階段,無法獲取多個階段的用戶行為數(shù)據(jù)比較,以及用戶的行為數(shù)據(jù)還缺少后期應(yīng)用成本數(shù)據(jù);下一步研究將跟蹤國內(nèi)開放數(shù)據(jù)的發(fā)展,從更加系統(tǒng)的動態(tài)演變的角度關(guān)注開放數(shù)據(jù)的質(zhì)量提升,同時關(guān)注關(guān)聯(lián)數(shù)據(jù)技術(shù)在國內(nèi)開放數(shù)據(jù)中的應(yīng)用發(fā)展,提高開放數(shù)據(jù)機器處理方面的質(zhì)量,更好地發(fā)掘海量開放數(shù)據(jù)的潛在價值。

        猜你喜歡
        列數(shù)行數(shù)次數(shù)
        把握規(guī)則 確定位置
        機場航站樓年雷擊次數(shù)計算
        2020年,我國汽車召回次數(shù)同比減少10.8%,召回數(shù)量同比增長3.9%
        商用汽車(2021年4期)2021-10-13 07:16:02
        兔子列數(shù)
        一類無界算子的二次數(shù)值域和譜
        英語專業(yè)八級統(tǒng)測改錯試題語言特征
        讀天下(2020年4期)2020-04-14 04:48:52
        玉米超多穗行數(shù)基因型通15D969 的 單倍體育種效應(yīng)
        玉米超多穗行數(shù)DH系15D969的發(fā)現(xiàn)
        依據(jù)“次數(shù)”求概率
        高強螺栓的布置
        亚洲AV无码秘 蜜桃1区| 国产专区一线二线三线码| 曰韩人妻无码一区二区三区综合部| a级毛片免费观看视频| 激,情四虎欧美视频图片| av在线不卡一区二区| 欧美日韩精品一区二区视频| 236宅宅理论片免费 | 国产98在线 | 日韩| 久久久久久久中文字幕| 成人全视频在线观看免费播放 | 国产成人精品999视频| 精品无码国产污污污免费网站| 性无码国产一区在线观看| 国产成人精品久久二区二区91| 亚洲av成人片色在线观看高潮 | 人妻少妇精品久久久久久| 免费人成无码大片在线观看| 免费 无码 国产精品| 国产免费成人自拍视频| 国产乱人伦av在线a麻豆| 乌克兰少妇xxxx做受6| 米奇亚洲国产精品思久久| 白白色发布会在线观看免费| 国内精品卡一卡二卡三| 久久精品国产亚洲AV成人公司| 亚洲一区二区一区二区免费视频| 午夜天堂av天堂久久久| 日韩在线一区二区三区免费视频| 男人天堂av在线成人av| 我揉搓少妇好久没做高潮| 男人边做边吃奶头视频| 日韩激情小视频| 国产白浆流出一区二区| 欧美疯狂性受xxxxx喷水| 日韩精品无码av中文无码版| 中文字幕午夜AV福利片| 一区二区三区四区在线观看日本| 国产精品第一国产精品| 97SE亚洲国产综合自在线不卡 | 91露脸半推半就老熟妇|