亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于知識庫的政務(wù)數(shù)據(jù)質(zhì)量評價

        2021-03-11 03:35:08駱文輝陳鋼毛建水新瑩
        電子技術(shù)與軟件工程 2021年21期
        關(guān)鍵詞:數(shù)據(jù)項覆蓋率知識庫

        駱文輝 陳鋼 毛建 水新瑩

        (長三角信息智能創(chuàng)新研究院 安徽省蕪湖市 241000)

        1 引言

        政府在大數(shù)據(jù)時代扮演重要角色,政府既是大數(shù)據(jù)的生產(chǎn)者,也是大數(shù)據(jù)的消費(fèi)者。國務(wù)院印發(fā)的《促進(jìn)大數(shù)據(jù)發(fā)展行動綱要》指出,大數(shù)據(jù)已成為“提升政府治理能力的新途徑”。從狹義上說,政務(wù)大數(shù)據(jù)是指政府為履行職能在業(yè)務(wù)開展過程中所擁有、產(chǎn)生和管理的數(shù)據(jù),通常源自于城市管理和公共服務(wù),如社保數(shù)據(jù)、稅務(wù)數(shù)據(jù)、教育數(shù)據(jù)等。從廣義上說,政務(wù)大數(shù)據(jù)是政府將自身的業(yè)務(wù)數(shù)據(jù)和收集的外部社會數(shù)據(jù)進(jìn)行匯聚、融合和治理后形成[1],是政府部門權(quán)力和責(zé)任在政務(wù)服務(wù)領(lǐng)域的應(yīng)用實踐。

        俗話說:“垃圾數(shù)據(jù)進(jìn),垃圾數(shù)據(jù)出”。數(shù)據(jù)質(zhì)量是政務(wù)大數(shù)據(jù)的重中之重,事關(guān)提升城市治理能力的最終成效??茖W(xué)的數(shù)據(jù)質(zhì)量評價體系不但能夠提升政務(wù)大數(shù)據(jù)的可用性,而且還能為有效分析數(shù)據(jù)、反哺數(shù)據(jù)提供便利。為了能夠讓政務(wù)大數(shù)據(jù)解決更多業(yè)務(wù)問題,在理想情況下數(shù)據(jù)維度越多越好,數(shù)據(jù)準(zhǔn)確性越高越好?;诖?,本文探討如何通過構(gòu)建知識庫從數(shù)據(jù)目錄、數(shù)據(jù)項和數(shù)據(jù)值這三個不同層次來對政務(wù)大數(shù)據(jù)進(jìn)行質(zhì)量評價。

        2 評價模型

        2.1 數(shù)據(jù)指標(biāo)知識庫

        智慧城市所服務(wù)的主體是自然人和法人,城市大數(shù)據(jù)的核心是關(guān)于自然人和法人的數(shù)據(jù)。因此,有必要建立一個能夠全面描述自然人和法人且能夠反映其歷史狀態(tài)變化的數(shù)據(jù)體系。雖然有些省市制定了市民信息和企業(yè)信息的地方標(biāo)準(zhǔn)(如貴州制定了人口基礎(chǔ)數(shù)據(jù)和法人單位基礎(chǔ)數(shù)據(jù)標(biāo)準(zhǔn)),但我國當(dāng)前沒有完善的自然人和法人數(shù)據(jù)體系標(biāo)準(zhǔn),在各類涉人和涉企的信息系統(tǒng)建設(shè)中沒有考慮全生命周期特征,無法形成全維度、跨層級、跨系統(tǒng)、跨部門、跨業(yè)務(wù)的數(shù)據(jù)指標(biāo)體系[2]?;诖耍疚睦米匀徽Z言處理技術(shù),結(jié)合多個城市政務(wù)服務(wù)網(wǎng)站數(shù)據(jù),形成數(shù)據(jù)指標(biāo)知識庫,包括數(shù)據(jù)目錄、數(shù)據(jù)項和數(shù)據(jù)來源部門。

        2.2 知識庫構(gòu)建方法

        根據(jù)《2021 省級政府和重點(diǎn)城市網(wǎng)上政務(wù)服務(wù)能力調(diào)查評估報告》[3],選取一體化政務(wù)服務(wù)能力較高的10 個重點(diǎn)城市(深圳、廣州、南京、杭州、寧波、合肥、青島、武漢、哈爾濱、南昌)的政務(wù)服務(wù)網(wǎng)站作為數(shù)據(jù)指標(biāo)知識庫形成的來源。數(shù)據(jù)指標(biāo)體系主要包括四個部分:權(quán)力清單與政務(wù)服務(wù)目錄匹配、自然人和法人事件構(gòu)建,政務(wù)服務(wù)目錄與事件匹配和目錄數(shù)據(jù)項構(gòu)建。

        2.2.1 來源部門構(gòu)建

        首先,對中文RoBERTa 預(yù)訓(xùn)練語言模型采用政務(wù)領(lǐng)域語料庫進(jìn)行無監(jiān)督訓(xùn)練,獲取擁有政務(wù)領(lǐng)域知識的RoBERTa 預(yù)訓(xùn)練語言模型。其次,使用政務(wù)領(lǐng)域知識的RoBERTa 預(yù)訓(xùn)練語言模型對政務(wù)服務(wù)清單文本和權(quán)力清單文本進(jìn)行語義提取,得到政務(wù)服務(wù)清單文本詞向量和權(quán)力清單文本詞向量。最后,計算服務(wù)清單文本詞向量和權(quán)力清單文本詞向量的余弦相似度,選取相似度最高的文本進(jìn)行匹配,形成來源部門。

        2.2.2 數(shù)據(jù)目錄構(gòu)建

        首先,獲取上述10 個城市政務(wù)服務(wù)網(wǎng)中個人辦事和法人辦事的網(wǎng)頁數(shù)據(jù)。使用xpath 和BeautifulSoup 以及JSON 數(shù)據(jù)解析方法對網(wǎng)頁進(jìn)行數(shù)據(jù)清洗和相關(guān)數(shù)據(jù)的數(shù)據(jù)提取,提取出對應(yīng)的自然人事件和法人事件。將提取的數(shù)據(jù)進(jìn)行規(guī)整,通過pymysql 技術(shù)連接到本地MySQL 數(shù)據(jù)庫,將規(guī)整后的數(shù)據(jù)存入數(shù)據(jù)庫中。運(yùn)用詞向量計算文本相似度,設(shè)定指定閾值,對相似自然人事件和法人事件進(jìn)行融合,形成數(shù)據(jù)目錄。

        2.2.3 數(shù)據(jù)項構(gòu)建

        首先,獲取10 個城市辦事結(jié)果表格、證書圖片等。對表格數(shù)據(jù)直接處理得到目錄對應(yīng)的數(shù)據(jù)項;對證書圖片應(yīng)用OCR 算法進(jìn)行文本提取,獲取具體文本后再進(jìn)行文本處理獲取數(shù)據(jù)項,具體算法如下:

        Step1.使用卷積神經(jīng)網(wǎng)絡(luò)(VGG、ResNet、DenseNet 等)作為特征提取網(wǎng)絡(luò),提取事項申請材料(證照)圖片中信息生成特征圖;

        Step2.使用文本檢測模型(Faster-RCNN、RRPN、CTPN、TextBoxes 等)處理特征圖定位到文字框;

        Step3.使用CRNN+CTC、CNN+RNN+Attention 或CNN+Seq2Seq+Attention 模型實現(xiàn)對文字框中的文字內(nèi)容識別。

        Step4.文字內(nèi)容進(jìn)行數(shù)據(jù)清洗,并過濾掉與業(yè)務(wù)事項相關(guān)性弱的數(shù)據(jù)項,保留核心數(shù)據(jù)項。

        Step5.將數(shù)據(jù)項按照數(shù)據(jù)目標(biāo)進(jìn)行組合,形成數(shù)據(jù)項標(biāo)準(zhǔn)。

        在完成數(shù)據(jù)目錄、數(shù)據(jù)項和來源部門構(gòu)建后,數(shù)據(jù)指標(biāo)知識庫就構(gòu)建完成了,以此對政務(wù)數(shù)據(jù)按數(shù)據(jù)目錄、數(shù)據(jù)項和來源部門進(jìn)行匹配和識別。該方法基于詞向量計算相似度,若相似度超過指定閾值,則認(rèn)為數(shù)據(jù)目錄或數(shù)據(jù)項或來源部門匹配成功。

        3 數(shù)據(jù)質(zhì)量評價方法

        3.1 評價流程

        基于數(shù)據(jù)指標(biāo)知識庫對政務(wù)數(shù)據(jù)質(zhì)量的評價流程如下:

        3.1.1 確定評價對象

        以數(shù)據(jù)指標(biāo)知識庫為基礎(chǔ),對政務(wù)數(shù)據(jù)按數(shù)據(jù)目錄進(jìn)行識別(基于詞向量計算相似度,若相似度超過指定閾值,則認(rèn)為數(shù)據(jù)目錄匹配成功),把在數(shù)據(jù)指標(biāo)知識庫覆蓋范圍內(nèi)的數(shù)據(jù)目錄及其數(shù)據(jù)項作為質(zhì)量評價的對象。

        3.1.2 確定評價指標(biāo)

        對于數(shù)據(jù)目錄、數(shù)據(jù)項和來源部門而言,以覆蓋率作為評價指標(biāo)。對于數(shù)據(jù)值而言,根據(jù)《GB/T 36344-2018 信息技術(shù)數(shù)據(jù)質(zhì)量評價指標(biāo)》[4],選取選取規(guī)范性、完整性、準(zhǔn)確性、一致性、時效性和可訪問性作為評價指標(biāo)。

        3.1.3 確立每個評價維度權(quán)重

        政務(wù)數(shù)據(jù)質(zhì)量最終取決于兩個因素:覆蓋率和數(shù)據(jù)值質(zhì)量。在實際操作中,可以按照“均等權(quán)重”來設(shè)置,也可根據(jù)實際需要來設(shè)置權(quán)重。本文主要采取“均等權(quán)重”來計算。

        3.1.4 計算分值

        基于數(shù)據(jù)質(zhì)量的各個評價維度,運(yùn)用內(nèi)置度量規(guī)則和檢核方法對對政務(wù)大數(shù)據(jù)進(jìn)行多角度分析計算,得出每個評價維度下的分值。

        3.1.5 結(jié)果輸出

        輸出分析結(jié)果及評價報告,給出政務(wù)數(shù)據(jù)質(zhì)量提升建議。

        3.2 覆蓋率評價

        對于數(shù)據(jù)目錄、數(shù)據(jù)項和來源部門進(jìn)行覆蓋率評價,不但可以清楚地了解地市政務(wù)服務(wù)事項覆蓋度,還有助于精確定位問題數(shù)據(jù)產(chǎn)生的源頭部門,給出問題數(shù)據(jù)的所屬分類及解決辦法,以數(shù)據(jù)質(zhì)量工單的方式反饋源頭部門。在覆蓋率評價時,政務(wù)數(shù)據(jù)目錄、數(shù)據(jù)項和來源部門命名可能與數(shù)據(jù)指標(biāo)知識庫存在差異,為此需要判斷名稱之間的相似度。本文采用word2vec 模型將詞向量化,比較兩個詞(短文本)的相似度,設(shè)置相似度閾值,規(guī)定大于閾值的兩詞具有一致的語義,如圖1所示。

        圖1:基于詞向量的相似性檢測

        覆蓋率評價公式如下所示:

        數(shù)據(jù)目錄覆蓋率 = 匹配成功的數(shù)據(jù)目錄÷數(shù)據(jù)指標(biāo)知識庫中數(shù)據(jù)目錄的數(shù)量×100%

        數(shù)據(jù)項覆蓋率 = 匹配成功的數(shù)據(jù)項÷數(shù)據(jù)指標(biāo)知識庫中數(shù)據(jù)目錄中數(shù)據(jù)項的數(shù)量×100%

        部門覆蓋率 = 匹配成功的部門÷數(shù)據(jù)指標(biāo)知識庫中數(shù)據(jù)目錄中部門的數(shù)量×100%

        3.3 數(shù)據(jù)值評價

        《GB/T 36344-2018》定義了共計20 個二級評價指標(biāo)?;诳蓪崿F(xiàn)角度考慮,方案選取其中12 個二級評價指標(biāo)設(shè)置具體規(guī)則(R代表規(guī)則)。

        3.3.1 規(guī)范性

        規(guī)范性是待評價數(shù)據(jù)集中各數(shù)據(jù)項的名稱、描述、類型值域等內(nèi)容必須符合元數(shù)據(jù)定義的度量。

        R1:數(shù)據(jù)目錄和數(shù)據(jù)項具有可理解的中文注釋。

        3.3.2 完整性

        完整性是待評價的數(shù)據(jù)集中數(shù)據(jù)元素應(yīng)被賦值的程度。

        R2:按配置表來檢測表數(shù)據(jù),首先根據(jù)表名查詢數(shù)據(jù)總量,記錄下來,第二天在查詢同一個數(shù)據(jù)庫,檢測數(shù)據(jù)總量并與昨日數(shù)據(jù)量進(jìn)行相減,若差值小于指定閾值,則認(rèn)為數(shù)據(jù)完整,否則,認(rèn)為該表數(shù)據(jù)不完整。

        3.3.3 準(zhǔn)確性

        準(zhǔn)確性是待評價數(shù)據(jù)元素與期望的數(shù)據(jù)元素之間的真實程度,即待評價數(shù)據(jù)元素是否錯誤或異常。準(zhǔn)確性指的是數(shù)據(jù)合規(guī)性、數(shù)據(jù)重復(fù)率和數(shù)據(jù)唯一性。數(shù)據(jù)合規(guī)性主要檢查待評價數(shù)據(jù)的數(shù)據(jù)格式包括數(shù)據(jù)類型、數(shù)值范圍、數(shù)據(jù)長度、精度等是否滿足預(yù)期要求。數(shù)據(jù)重復(fù)率主要評價數(shù)據(jù)集中數(shù)據(jù)元素意外重復(fù)的度量。數(shù)據(jù)唯一性是指特定數(shù)據(jù)項、數(shù)據(jù)元素唯一性的度量。

        R3:待評價數(shù)據(jù)集中各數(shù)據(jù)項必須對應(yīng)指定數(shù)據(jù)項類型,如姓名必須varchar 格式,日期數(shù)據(jù)項可以為date 或varchar 格式。

        R4:待評價數(shù)據(jù)集中各數(shù)據(jù)項必須在正確值域內(nèi)取值。

        R5:待評價數(shù)據(jù)集匯總各數(shù)據(jù)項的數(shù)據(jù)精度不得過長,必須符合給定配置表規(guī)則的長度和數(shù)據(jù)類型。

        R6:根據(jù)配置表規(guī)則,選中指定數(shù)據(jù)目錄、指定數(shù)據(jù)項進(jìn)行重復(fù)率檢測,數(shù)據(jù)集中不出現(xiàn)兩行所有屬性都一樣的數(shù)據(jù),即認(rèn)為是數(shù)據(jù)集非重復(fù)。

        R7:根據(jù)配置表規(guī)則,一個表中指定數(shù)據(jù)項中的每個數(shù)據(jù)必須唯一。

        3.3.4 一致性

        一致性是用于描述數(shù)據(jù)與數(shù)據(jù)之間在某一特定條件下滿足某一相同的條件或狀態(tài)。一致性指標(biāo)包括相同數(shù)據(jù)一致性和關(guān)聯(lián)數(shù)據(jù)一致性。

        R8:根據(jù)指定配置表規(guī)則,找出同一部門同一類業(yè)務(wù)數(shù)據(jù)之間的一致性,即同部門數(shù)據(jù)表之間相同或關(guān)聯(lián)數(shù)據(jù)項必須一致。

        R9:單個數(shù)據(jù)目錄中一致性約束規(guī)則檢查關(guān)聯(lián)數(shù)據(jù)的一致性。如根據(jù)身份證數(shù)據(jù)項可以關(guān)聯(lián)到年齡、籍貫、性別、出生日期等數(shù)據(jù)項。

        3.3.5 時效性

        時效性是按照業(yè)務(wù)規(guī)則,數(shù)據(jù)在時間變化中的正確程度。時效性指標(biāo)包括基于時間段的正確性、基于時間點(diǎn)的及時性和時序性。本文僅評價基于時間段的正確性和基于時間點(diǎn)的及時性。

        越南當(dāng)?shù)貢r間11月22日上午9點(diǎn)30分(北京時間10點(diǎn)30分),“2018香港古董車滇越行”在越南海防正式發(fā)車,8輛世界級古董車從這里開啟了從大海出發(fā)到達(dá)云貴高原世界之“滇”昆明的旅程。

        R10:基于時間戳的記錄數(shù)、頻率分布或延遲時間符合業(yè)務(wù)需求的程度。根據(jù)配置表規(guī)則,查詢指定業(yè)務(wù)表中指定業(yè)務(wù)時間數(shù)據(jù)項的最大值,計算該值與計算時間(當(dāng)天)的差值,將差值與閾值進(jìn)行比較,若小于閾值,則認(rèn)為該表數(shù)據(jù)及時。

        R11:基于時間段的正確性:基于日期范圍的記錄數(shù)或頻率分布符合業(yè)務(wù)需求的程度。根據(jù)配置表規(guī)則,查詢指定業(yè)務(wù)表中指定業(yè)務(wù)時間數(shù)據(jù)項的取值范圍,然后計算該取值范圍在指定閾值中的符合程度。

        3.3.6 可訪問性

        可訪問性是數(shù)據(jù)能被訪問的程度。

        R12:在獲取數(shù)據(jù)記錄時是否如期返回所有數(shù)據(jù)項值。獲取數(shù)據(jù)日志,根據(jù)日志進(jìn)行打分。

        3.4 分值計算

        其中Ri為第i 個指標(biāo)的評價結(jié)果,c 為指標(biāo)i 對應(yīng)的評價規(guī)則總數(shù)(在本文中為c 為12),wj為指標(biāo)i 各規(guī)則的權(quán)重;Nij為數(shù)據(jù)集上符合第i 個指標(biāo)的第j 條規(guī)則的數(shù)據(jù)記錄數(shù)或數(shù)據(jù)元素數(shù);Mij為總數(shù)據(jù)記錄數(shù)或數(shù)據(jù)元素數(shù)。數(shù)據(jù)值數(shù)據(jù)質(zhì)量綜合評價的得分計算公式為:

        假設(shè)某個政府部門有N 張數(shù)據(jù)表,每張數(shù)據(jù)表數(shù)據(jù)質(zhì)量得分為Gi,則該部門數(shù)據(jù)值質(zhì)量平均得分為:

        4 實例分析

        4.1 測評對象

        選擇某地市494 個數(shù)據(jù)目錄、9655 個數(shù)據(jù)項所產(chǎn)生的67843797 條實體數(shù)據(jù)作為數(shù)據(jù)質(zhì)量測評對象。根據(jù)某地市政府權(quán)力清單和責(zé)任清單,這些數(shù)據(jù)來自19 個部門。

        4.2 總體質(zhì)量評價

        4.2.1 覆蓋率質(zhì)量得分

        在實際評價過程中,對于數(shù)據(jù)目錄覆蓋率、數(shù)據(jù)項覆蓋率和部門覆蓋率賦予同等權(quán)重。

        覆蓋率得分 = 數(shù)據(jù)目錄覆蓋率分值86.43×33.33% +數(shù)據(jù)項覆蓋率分值69.16×33.33% +部門覆蓋率分值76.00×33.34% = 77.20

        4.2.2 數(shù)據(jù)值質(zhì)量得分

        在實際評價過程中,對于準(zhǔn)確性、完整性、一致性、時效性、規(guī)范性和可訪問性賦予同等權(quán)重。

        數(shù)據(jù)值質(zhì)量得分 = 準(zhǔn)確性分值77.12×16.66% + 完整性分值79.81×16.66% + 一致性分值89.76×16.66% + 時效性分值99.99×16.66% + 規(guī)范性得分 89.71×16.66% + 可訪問性得分97.35×16.70% = 88.96

        4.3 部門質(zhì)量狀況

        表1展示了4 個典型部門的數(shù)據(jù)目錄和數(shù)據(jù)項覆蓋率情況及相應(yīng)的數(shù)據(jù)值問題率??梢钥闯觯行┎块T的數(shù)據(jù)目錄覆蓋率和數(shù)據(jù)項覆蓋率都比較好,但相應(yīng)的數(shù)據(jù)值問題率比較高。有些部門雖然目錄覆蓋率達(dá)到了100%,但目錄中的數(shù)據(jù)項較為匱乏,由于數(shù)據(jù)項較少的原因,其數(shù)據(jù)值問題率也較低。圖2展示了部門D 部分?jǐn)?shù)據(jù)項的錯誤率情況。

        圖2:部門D 部分?jǐn)?shù)據(jù)項的錯誤率情況

        表1:部分部門數(shù)據(jù)質(zhì)量狀況概覽

        5 結(jié)語

        通過完成政務(wù)數(shù)據(jù)質(zhì)量評價,加強(qiáng)數(shù)據(jù)質(zhì)量與數(shù)據(jù)應(yīng)用之間的聯(lián)結(jié),驅(qū)動地市政府完善并修正相關(guān)數(shù)據(jù)目錄、數(shù)據(jù)項和數(shù)據(jù)值。與此同時,輸出可理解性和可操作性較強(qiáng)的數(shù)據(jù)質(zhì)量評價報告,提升政府領(lǐng)導(dǎo)對數(shù)據(jù)質(zhì)量的感知度。隨著政務(wù)大數(shù)據(jù)不斷完善,不但能夠滿足單一政府部門業(yè)務(wù)的需要,還能夠滿足“三融五跨”的要求,真正實現(xiàn)基于數(shù)據(jù)的業(yè)務(wù)協(xié)同。

        猜你喜歡
        數(shù)據(jù)項覆蓋率知識庫
        民政部等16部門:到2025年村級綜合服務(wù)設(shè)施覆蓋率超80%
        我國全面實施種業(yè)振興行動 農(nóng)作物良種覆蓋率超過96%
        一種多功能抽簽選擇器軟件系統(tǒng)設(shè)計與實現(xiàn)
        甘肅科技(2020年19期)2020-03-11 09:42:42
        非完整數(shù)據(jù)庫Skyline-join查詢*
        基于Python的Asterix Cat 021數(shù)據(jù)格式解析分析與實現(xiàn)
        基于TRIZ與知識庫的創(chuàng)新模型構(gòu)建及在注塑機(jī)設(shè)計中的應(yīng)用
        高速公路信息系統(tǒng)維護(hù)知識庫的建立和應(yīng)用
        基于噴丸隨機(jī)模型的表面覆蓋率計算方法
        基于Drupal發(fā)布學(xué)者知識庫關(guān)聯(lián)數(shù)據(jù)的研究
        圖書館研究(2015年5期)2015-12-07 04:05:48
        基于覆蓋率驅(qū)動的高性能DSP指令集驗證方法
        国产男女免费完整视频| 欧洲一区在线观看| 激情五月天俺也去综合网| 日本a爱视频二区三区| 青青草亚洲视频社区在线播放观看| 山外人精品影院| 欧美日韩中文国产一区发布 | 亚洲妓女综合网99| 亚洲黄色尤物视频| 精品蜜桃在线观看一区二区三区| 日韩五码一区二区三区地址| 亚洲av国产av综合av卡| 女人被男人躁得好爽免费视频| 亚洲精品国精品久久99热一| 亚洲中出视频| 日本人妻系列一区二区| 变态另类人妖一区二区三区| 人妻有码中文字幕| 久久久久久久99精品国产片| 香蕉亚洲欧洲在线一区| 国产剧情亚洲一区二区三区| 老女老肥熟女一区二区| 成人免费看吃奶视频网站| 久久国产精99精产国高潮| 97久久综合精品国产丝袜长腿| 韩国日本亚洲精品视频| 国产欧美日韩视频一区二区三区| 国产一起色一起爱| av网站可以直接看的| 亚洲成在人网站天堂日本| 亚洲国产色婷婷久久精品| 亚洲av永久无码精品漫画| 亚洲乱码日产精品bd在线观看| AV无码专区亚洲AVL在线观看| 日本免费三级一区二区| 欧美伦费免费全部午夜最新| 免费中文熟妇在线影片| 99热免费观看| 福利片免费 亚洲| 性色国产成人久久久精品二区三区 | 亚洲一区二区观看播放|