亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        淺析國內(nèi)數(shù)據(jù)集檢索的數(shù)據(jù)源

        2020-09-10 00:23:52王國碩譚蓉陳彥均
        客聯(lián) 2020年8期

        王國碩 譚蓉 陳彥均

        【摘 要】國內(nèi)數(shù)據(jù)集眾多,為了有效檢索數(shù)據(jù)集亟需面向基于垂直檢索的數(shù)據(jù)集檢索平臺。本文從數(shù)據(jù)集數(shù)據(jù)源形成,和國內(nèi)的數(shù)據(jù)集數(shù)據(jù)源分布情況進(jìn)行分析,并對數(shù)據(jù)集檢索存在的問題進(jìn)行思考,同時為需要數(shù)據(jù)集的工作者提供參考。

        【關(guān)鍵詞】數(shù)據(jù)集;數(shù)據(jù)開放;數(shù)據(jù)集檢索

        數(shù)據(jù)集是由數(shù)據(jù)組成的集合,隨機器學(xué)習(xí)而興起,在數(shù)據(jù)驅(qū)動的時代,數(shù)據(jù)從未如此重要,不但應(yīng)用于機器學(xué)習(xí)等領(lǐng)域,也是各學(xué)科的科學(xué)研究者的重要數(shù)據(jù)來源。

        數(shù)據(jù)集在數(shù)據(jù)集檢索平臺出現(xiàn)之前,需要去各個網(wǎng)站進(jìn)行站內(nèi)檢索,費時費力。但是除了檢索公開的數(shù)據(jù)集外,想要獲得大量的數(shù)據(jù)非常困難。2012年,科瑞唯安公司推出數(shù)據(jù)集引用統(tǒng)計和共享平臺,主要分享科研過程中產(chǎn)生的數(shù)據(jù)集,依托著名文獻(xiàn)庫WebOfScience得到廣泛傳播。2018年9月,Google推出數(shù)據(jù)集檢索平臺(Dataset Search)的測試版,2020年1月才正式上線,搜索范圍涵蓋媒體、網(wǎng)站上存在的數(shù)據(jù)集。

        國內(nèi)目前數(shù)據(jù)集平臺很多,尚缺少全網(wǎng)數(shù)據(jù)集的檢索,這里針對數(shù)據(jù)集檢索中數(shù)據(jù)源的問題進(jìn)行淺析。

        一、數(shù)據(jù)集的形成

        數(shù)據(jù)集的形成早期依賴于科研過程中產(chǎn)生,后隨著我國數(shù)據(jù)應(yīng)用技術(shù)的提升和應(yīng)用范圍的擴大,產(chǎn)生了各種政府、商業(yè)領(lǐng)域的大量數(shù)據(jù)集。

        數(shù)據(jù)集形成多種多樣,為了了解數(shù)據(jù)集檢索中信息源的形成根源,這里以國內(nèi)外媒體在COVID-19疫情期間大量引用的霍普金斯大學(xué)的疫情儀表板為例。疫情儀表板依托的就是疫情的數(shù)據(jù)集,且來自各個國家。疫情數(shù)據(jù)雖然在各個平臺包括國內(nèi)的騰訊、阿里以及世界衛(wèi)生組織都有發(fā)布,但任一時間,經(jīng)常會看到各平臺的數(shù)據(jù)不盡相同。也就是各平臺相對獨立,并不是互相聯(lián)通,各自有自己的數(shù)據(jù)采集過程。在2020年1月份啟動的時候,霍普金斯大學(xué)獲取各個國家的數(shù)據(jù),主要還是依賴手工整理,更新的數(shù)量通常每天進(jìn)行早晚兩次,2月份采用半自動化采集。數(shù)據(jù)源包括多個國家政府衛(wèi)生部門,以及數(shù)據(jù)匯總網(wǎng)站,包括1point3acres(一畝三分地論壇),Worldometers.info,BNO,和COVID跟蹤項目(檢測和住院),依靠當(dāng)?shù)匦l(wèi)生部門和當(dāng)?shù)孛襟w報道的組合,其中,中國的數(shù)據(jù)來自于丁香園社區(qū)。

        經(jīng)過分析后,數(shù)據(jù)集檢索中面臨的幾個問題:1.數(shù)據(jù)集在形成的過程中就分屬各個部門、網(wǎng)站甚至各個國家,最后也分屬在各個平臺上,沒有統(tǒng)一的檢索平臺,對很多科研人員查找數(shù)據(jù)造成困難。例如霍普金斯大學(xué)選擇在github上進(jìn)行開放。2.通過例子可以看出,一份數(shù)據(jù)集通常包含了很多科研工作人員大量的心血,特別是涉及商業(yè)領(lǐng)域的數(shù)據(jù)集,如何開放,哪些免費也是要考慮的問題。3.疫情數(shù)據(jù)除了在github上獲取,也會在其他網(wǎng)站找到數(shù)據(jù)集,但是很多不能確定是否權(quán)威,還有數(shù)據(jù)集質(zhì)量的問題,很多數(shù)據(jù)集如果只是簡單的清洗分本無法使用。

        針對目前國內(nèi)數(shù)據(jù)集的情況,在沒有統(tǒng)一數(shù)據(jù)集檢索平臺的時候,優(yōu)先考慮現(xiàn)有數(shù)據(jù)集分布在哪些網(wǎng)站里。

        二、國內(nèi)數(shù)據(jù)集的信息源

        (一)政府機構(gòu)

        從2014年廣東省成立了大數(shù)據(jù)管理局并發(fā)布廣州市政府?dāng)?shù)據(jù)統(tǒng)一開放平臺之后,截至2019年上半年,我國已有82個各級的政府部門發(fā)布了數(shù)據(jù)開放平臺,比2018年增加了78.2%,我國的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》中明確提出“推動政府?dāng)?shù)據(jù)開放共享”。所以,政府開放數(shù)據(jù)是大勢所趨。從省級到低級,開放了各種數(shù)據(jù)平臺,均提供了數(shù)據(jù)集下載的功能。

        以成都市公共數(shù)據(jù)開放平臺(http://www.cddata.gov.cn)為例,2018年5月平臺正式開通。截至2020年7月,共開放1649個開放目錄,1708個開放數(shù)據(jù)集,涉及57個部門,具體105873807條數(shù)據(jù),5106個數(shù)據(jù)文件,86個API,13個應(yīng)用。平臺提供了兩種方式獲取數(shù)據(jù)資源,分別是下載數(shù)據(jù)和在線調(diào)用API。平臺已經(jīng)提供的數(shù)據(jù)來源于各政府部門,可以通過各類數(shù)據(jù)的元數(shù)據(jù)文件查看了解其來源,每類數(shù)據(jù)都有其固定的更新周期,各部門會根據(jù)數(shù)據(jù)的更新周期進(jìn)行更新。

        以具體數(shù)據(jù)集來看,例如“設(shè)計企業(yè)(市政)信用排名”數(shù)據(jù)集信息,該數(shù)據(jù)開放狀態(tài)為普遍開放,來源部門為成都市住房和城鄉(xiāng)建設(shè)局,數(shù)據(jù)量達(dá)到314894條,提供四種格式的下載,分別是XLS、XML、JSON、CSV。該數(shù)據(jù)集共包含10個字段,分別是主鍵、唯一標(biāo)識、企業(yè)名稱、組織機構(gòu)碼或統(tǒng)一社會信用代碼、今日得分、今日排名、發(fā)布時間、提供日期、60日平均得分、60日排名,其中今日得分是定量數(shù)據(jù)。以具體一條數(shù)據(jù)來看,數(shù)據(jù)內(nèi)容詳細(xì),沒有缺失字段。

        (二)科研機構(gòu)

        早期的數(shù)據(jù)集分享主要集中在科研機構(gòu)的科學(xué)數(shù)據(jù)集和學(xué)術(shù)文獻(xiàn)分享的數(shù)據(jù)。這一類數(shù)據(jù)集的應(yīng)用收到開放數(shù)據(jù)運動的影響。開放數(shù)據(jù)的想法是,任何人都應(yīng)可以自由使用某些數(shù)據(jù),并在不受版權(quán)、專利或其他限制的情況下隨意重新發(fā)布?!闭M織和機構(gòu)發(fā)布可以完全訪問數(shù)據(jù)的開放數(shù)據(jù)已經(jīng)在我國積極推進(jìn),如果科研機構(gòu)也開放更多的科研數(shù)據(jù),提供有組織,有據(jù)可查和及時的數(shù)據(jù)公開方式,它將具有巨大的社會經(jīng)濟價值,并有助于個人和社區(qū)做出更好的決策,對職能部門的監(jiān)督只是表面功能之一,更大的價值在于可以推進(jìn)社會對數(shù)據(jù)進(jìn)行創(chuàng)新性應(yīng)用,這一點更符合“數(shù)據(jù)是拿來用的“的思維。

        以中國科學(xué)院數(shù)據(jù)云門戶的資源學(xué)科創(chuàng)新平臺(http://www.data.ac.cn/info/)為例,共開放180個數(shù)據(jù)集,涵蓋了基礎(chǔ)地理數(shù)據(jù)、生態(tài)環(huán)境數(shù)據(jù)、社會經(jīng)濟數(shù)據(jù)、典型全球數(shù)據(jù)等類別,以黃河泥沙水文數(shù)據(jù)集為例,雖然數(shù)據(jù)字段豐富,但是存在下載渠道沒有及時維護(hù)的情況。通過平臺的整體來看,大數(shù)據(jù)驅(qū)動的資源學(xué)科創(chuàng)新示范平臺是面向重大科學(xué)問題和國家發(fā)展戰(zhàn)略布局、經(jīng)濟社會重大需求的重要平臺,國內(nèi)的科研機構(gòu)也在積極推進(jìn)科研數(shù)據(jù)的開放,只是數(shù)據(jù)集的具體下載等需求的滿足需要逐步進(jìn)行完善。

        (三)商業(yè)機構(gòu)

        商業(yè)機構(gòu)也是數(shù)據(jù)集下載的重要途經(jīng),多樣性較強。既有政府推動的項目也有企業(yè)的自行探索。例如,貴陽大數(shù)據(jù)交易所就是2014年在貴州省政府、貴陽市政府的支持下掛牌運營,是我國乃至全球第一家大數(shù)據(jù)交易所貴陽大數(shù)據(jù)交易所,但是主要面向企業(yè)提供數(shù)據(jù)集的交易服務(wù)。

        國內(nèi)存在一些致力的數(shù)據(jù)集服務(wù)的網(wǎng)站,該類多為近幾年出現(xiàn)的創(chuàng)業(yè)公司提供的服務(wù),以數(shù)據(jù)超市網(wǎng)站(http://www.data-shop.net/)為例,該平臺的數(shù)據(jù)由定制的爬蟲程序采集于互聯(lián)網(wǎng),所有數(shù)據(jù)均為網(wǎng)站公開的非隱私數(shù)據(jù),任何人均可看到,以數(shù)據(jù)集的形式提供。該類數(shù)據(jù)的商業(yè)性應(yīng)用更強,相當(dāng)于節(jié)省了用戶批量采集數(shù)據(jù)的時間,代替用戶進(jìn)行爬蟲實施與部署,直接提供數(shù)據(jù)集,大部分是付費服務(wù),需要用戶進(jìn)行權(quán)衡。

        很多商業(yè)網(wǎng)站提供免費的致力于機器學(xué)習(xí)的數(shù)據(jù)集,例如百度的paddle和阿里的天池平臺。以阿里的天池平臺為例,截至2020年7月,提供的數(shù)據(jù)集有40個,注重數(shù)據(jù)量和時效性。例如,平臺提供2019-nCoV 新型冠狀病毒基因測序數(shù)據(jù)、中文糖尿病標(biāo)注數(shù)據(jù)集、優(yōu)酷視頻增強和超分?jǐn)?shù)據(jù)集,囊括的多領(lǐng)域的數(shù)據(jù)集。綜合來看,創(chuàng)業(yè)公司的網(wǎng)站提供多面向市場以爬蟲為主要獲取途徑的商業(yè)數(shù)據(jù)集,而有機器學(xué)習(xí)研究背景的公司會提供數(shù)據(jù)量較大適合深度學(xué)習(xí)領(lǐng)域應(yīng)用的數(shù)據(jù)集

        三、國內(nèi)數(shù)據(jù)集檢索的思考

        綜合上面的分析,針對國內(nèi)數(shù)據(jù)集檢索提出一些下列思考

        (一)需要一個數(shù)據(jù)集垂直檢索平臺

        國內(nèi)的數(shù)據(jù)集廣泛分布在政府機構(gòu)、科研機構(gòu)、商業(yè)機構(gòu)和媒體以及開源網(wǎng)站上,構(gòu)建一個垂直檢索平臺,專注于數(shù)據(jù)集在全網(wǎng)的搜索,將提高檢索效率,同時讓更多有價值的數(shù)據(jù)集得到應(yīng)用。垂直檢索平臺的構(gòu)建從國外經(jīng)驗來看,一般適合擁有搜索引擎技術(shù)且數(shù)據(jù)資源豐富的公司來實施。目前全世界范圍內(nèi)也在探索,但是各數(shù)據(jù)集檢索的平臺也在日益完善,從數(shù)據(jù)集的質(zhì)量和數(shù)量上穩(wěn)步提升,國內(nèi)可以借鑒可參考。

        (二)數(shù)據(jù)集檢索需要規(guī)范元數(shù)據(jù)的著錄標(biāo)準(zhǔn)

        可政府開放數(shù)據(jù)早期遇到的難題相同,各個部門各自為戰(zhàn),各自存儲了大量的數(shù)據(jù),但是整合到同一個政府?dāng)?shù)據(jù)開放平臺遇到的最大挑戰(zhàn)就是元數(shù)據(jù)的朱璐標(biāo)準(zhǔn)不統(tǒng)一的問題,大幅降低了數(shù)據(jù)整合的效率。一個面向全網(wǎng)的數(shù)據(jù)集的垂直檢索平臺同樣面臨這樣的問題,而且是各個類型的機構(gòu),數(shù)據(jù)集的元數(shù)據(jù)標(biāo)準(zhǔn)想統(tǒng)一難度更大。但是可以像都柏林核心元數(shù)據(jù)標(biāo)準(zhǔn)一樣,將幾個核心字段加以描述,同時有利于數(shù)據(jù)集的檢索,更容易被用戶發(fā)現(xiàn),這樣可以驅(qū)動數(shù)據(jù)集的提供者提高元數(shù)據(jù)的著錄質(zhì)量。

        (三)知識產(chǎn)權(quán)問題

        涉及到數(shù)據(jù)開發(fā),都會考慮到哪些應(yīng)該開放的問題,特別是商業(yè)領(lǐng)域的數(shù)據(jù),需要加強知識產(chǎn)權(quán)意識,科研數(shù)據(jù)集也應(yīng)該明確數(shù)據(jù)集所有者的權(quán)利,規(guī)范應(yīng)享有的基本權(quán)利。良好的知識產(chǎn)權(quán)保護(hù)體系更有利于數(shù)據(jù)集檢索的實施與數(shù)據(jù)集的利用??梢詤⒖既澜绶秶鷥?nèi)推廣的知識共享許可協(xié)議(簡稱CC協(xié)議),將其應(yīng)用于數(shù)據(jù)集的存儲領(lǐng)域,將有利于數(shù)據(jù)集檢索的實施,更快鎖定信息源并知曉數(shù)據(jù)集所有者該享有的權(quán)益。

        【參考文獻(xiàn)】

        [1]楊波趙揚焦紅.國際主要科學(xué)數(shù)據(jù)集檢索平臺對比研究[J].情報工程,2020(01):22-33

        [2] 徐咪咪.我國政府開放數(shù)據(jù)的元數(shù)據(jù)標(biāo)準(zhǔn)主題研究[J]. 江蘇科技信息.2020(02):7-9

        [3] Mapping COVID-19[EB/OL].[2020/1/23][2020/07/02]. https://systems.jhu.edu/research/public-health/ncov.

        又爽又黄无遮挡高潮视频网站| 久久久久中文字幕无码少妇| 中文字幕精品久久天堂一区 | 视频福利一区二区三区| 国产亚洲精品精品综合伦理| 日产精品久久久一区二区| 色欲aⅴ亚洲情无码av蜜桃| 国产久视频| 在线观看一区二区三区视频| 久久久精品国产免大香伊| 免费中文熟妇在线影片| 精品无码AV无码免费专区| 经典亚洲一区二区三区| 无遮挡激情视频国产在线观看| 国产真人性做爰久久网站| 五月婷网站| 免费视频一区二区三区美女| 欧美做受又硬又粗又大视频| 免费观看又色又爽又黄的韩国| 一区二区在线亚洲av蜜桃| 亚洲精品一区二区三区播放| 精品中文字幕在线不卡| 精品欧洲av无码一区二区14| 日韩精品一区二区三区在线观看| 日本一区二区国产高清在线播放 | 亚洲 自拍 另类 欧美 综合| 久久久久久久尹人综合网亚洲 | 日韩亚洲在线观看视频| 丰满人妻一区二区三区免费视频| 比比资源先锋影音网| 久久精品韩国日本国产| 日本一区二区视频在线| 久久成人国产精品| 国产主播在线 | 中文| 久久中文字幕国产精品| 国产精品爽爽ⅴa在线观看| 国产偷国产偷亚洲清高| 国产一区二区三区免费主播| 国产精品一区二区三区专区| 日韩亚洲av无码一区二区三区| 老熟女多次高潮露脸视频|