亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于職業(yè)院校數(shù)據(jù)與指標匹配的編輯距離算法的應用研究

        2019-03-08 14:22:47李華君郭晟君
        科技創(chuàng)新導報 2019年30期
        關(guān)鍵詞:數(shù)據(jù)分析

        李華君 郭晟君

        摘? ?要:隨著互聯(lián)網(wǎng)的迅速發(fā)展,數(shù)據(jù)越來越多,分析數(shù)據(jù)愈發(fā)困難。為給山西省職業(yè)教育大數(shù)據(jù)分析與決策平臺提供大量且準確的數(shù)據(jù),首先要將不同文本中的數(shù)據(jù)進行整理,其次將數(shù)據(jù)名稱與已經(jīng)命名好的指標進行匹配,進而實現(xiàn)數(shù)據(jù)與指標的匹配。基于此,本文采用了編輯距離算法,該算法以單個字符為單位進行編輯距離測算,通過計算從原字符串轉(zhuǎn)換到目標字符串所需插入、刪除和替換的數(shù)目,得到原字符串與目標字符串的相似度,進行字符串之間的匹配,進而解決了數(shù)據(jù)與指標匹配的問題。

        關(guān)鍵詞:數(shù)據(jù)分析? 指標匹配? 編輯距離? 相似度

        中圖分類號:G64? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? 文獻標識碼:A? ? ? ? ? ? ? ? ? ? ? ? 文章編號:1674-098X(2019)10(c)-0255-02

        為給山西省職業(yè)教育大數(shù)據(jù)分析與決策平臺提供大量且準確的數(shù)據(jù),必須通過調(diào)研采集信息或梳理年報等方式提取學校信息,由于學校無指標名稱且各個學校信息不同,所以梳理出來的數(shù)據(jù)名稱各式各樣,例如:就文本中關(guān)于指標“享受國家助學金人次”就有“享受國家助學金人數(shù)”、“國家助學金受助學生人數(shù)”、“中職學生國家助學金受助人數(shù)”、“享受國家助學金學生人數(shù)”等4種叫法。對于人工梳理信息,不僅要整理出原始數(shù)據(jù),還要將數(shù)據(jù)填到相應的指標,此外還要進行多次的重復檢查工作,大大降低了工作效率。采用編輯距離的算法通過算出指標字符串與數(shù)據(jù)名稱字符串的相似度,將相似度高的數(shù)據(jù)名稱被指標替代,并把數(shù)據(jù)提取出來,放在相應的指標下,這樣就實現(xiàn)了數(shù)據(jù)與指標的匹配。

        1? 編輯距離的概念

        編輯距離,又稱Levenshtein距離,是指兩個字串之間,由一個字符串轉(zhuǎn)成另一個字符串所需的最少編輯操作次數(shù),如果它們的距離越大,說明它們越是不同(即相似度越低)。

        許可的編輯操作只有三種:插入、刪除和替換。

        2? 編輯距離算法

        創(chuàng)建一個矩陣,假設有兩個字符串A和B,我們的字符串的長度分別是m和n,矩陣的維度就是(m+1)*(n+1),給矩陣第一行和第一列分別以0開始,以1遞增的方式賦值,如表1所示,通過計算規(guī)則:

        3? 數(shù)據(jù)與指標匹配思想的設計

        (1)人工提取內(nèi)容。

        由于數(shù)據(jù)是在文章中大篇幅存在,目前也沒有最準確的提取“內(nèi)容+數(shù)據(jù)”的方法,為保證數(shù)據(jù)的準確性和內(nèi)容的完整性,由人工按照原文檔內(nèi)容將數(shù)據(jù)整理成Excel表格,如圖2所示(以“資助情況”為例)。

        (2)將字符串分為單個字符。

        將表2中數(shù)據(jù)名稱每一格的文字提取出來,將單個字符依次按照順序排列到矩陣中,便于數(shù)據(jù)名稱(原字符串)與指標(目標字符串)匹配。

        (3)數(shù)據(jù)名稱與指標匹配。

        數(shù)據(jù)名稱(原字符串)與每個指標(目標字符串)通過編輯距離算法進行匹配,計算相似度,相似度越接近1,表示相似度越大,通過對比相似度,數(shù)據(jù)名稱可直接被相似度最高的指標所替代。

        (4)數(shù)據(jù)與指標匹配。

        4? 實驗結(jié)果及分析

        本文隨機選取了幾篇職業(yè)院校的年報,將同一版塊的內(nèi)容提取出來(以“資助情況”為主要板塊),共提取出50個數(shù)據(jù)名稱,按照人工匹配指標的方式和上述方法(編輯距離算法)分別對50個樣本進行測試,測試結(jié)果如圖7所示(每個數(shù)據(jù)名稱不一定都有對應的指標,所以存在數(shù)據(jù)名稱匹配不到指標的情況),實驗主要是通過測試編輯距離算法的準確率,得到編輯距離算法是否可大量減少人的工作量的結(jié)論。其中準確率計算方法為:

        測試的數(shù)據(jù)名稱共有50個,指標共有24個,本文對于相似度的閾值設置為0.65,當前相似度正好為0.65即認為這兩個語句相似,相似度越接近1,表示這兩個語句越相似。

        由實驗結(jié)果表明,編輯距離算法的準確率可以達到79.5%,充分說明了編輯距離算法可以在匹配指標上應用,可大大減少人的工作量。

        5? 結(jié)語

        本文論述了基于職業(yè)院校數(shù)據(jù)與指標匹配的編輯距離算法的應用研究,通過匹配數(shù)據(jù)名稱與指標,進而得到數(shù)據(jù)與指標的匹配。根據(jù)實驗結(jié)果,得出編輯距離算法在指標匹配上應用的結(jié)論,可大量減少人的工作量。但是該算法還有不足之處,由于是對中文語句進行相似度比較,同義近義字可能會導致算法有大的誤差,這時仍需要人工進行分辨,也是下一步研究的重點方向。

        參考文獻

        [1] 王芳,王繼榮,楊曉東,等.基于中文文本的編輯距離算法的改進[J].青島大學學報:自然科學版,2017,30(3):60-63.

        [2] 邵清,葉琨.基于編輯距離和相似度改進的漢字字符串匹配[J].電子科技,2016,29(9):7-11.

        [3] 姜華,韓安琪,王美佳,等.基于改進編輯距離的字符串相似度求解算法[J].計算機工程,2014,40(1):222-227.

        猜你喜歡
        數(shù)據(jù)分析
        電子物證檢驗的數(shù)據(jù)分析與信息應用研究
        基于matlab曲線擬合的數(shù)據(jù)預測分析
        商情(2016年40期)2016-11-28 11:28:07
        分眾媒體趨勢下場景營銷的商業(yè)前景
        商(2016年32期)2016-11-24 17:39:41
        佛山某給水管線控制測量探討
        科技資訊(2016年18期)2016-11-15 18:05:53
        SPSS在環(huán)境地球化學中的應用
        考試周刊(2016年84期)2016-11-11 23:57:34
        大數(shù)據(jù)時代高校數(shù)據(jù)管理的思考
        科技視界(2016年18期)2016-11-03 22:51:40
        我校如何利用體育大課間活動解決男生引體向上這個薄弱環(huán)節(jié)
        體育時空(2016年8期)2016-10-25 18:02:39
        Excel電子表格在財務日常工作中的應用
        淺析大數(shù)據(jù)時代背景下的市場營銷策略
        新常態(tài)下集團公司內(nèi)部審計工作研究
        中國市場(2016年36期)2016-10-19 04:31:23
        四房播播在线电影| 日本视频一中文有码中文| 国产乱码人妻一区二区三区| 人妻丝袜av中文系列先锋影音| 国产黄a三级三级三级av在线看| 岛国精品一区二区三区| 精品久久人妻一区二区 | 亚洲视频天堂| 西西少妇一区二区三区精品| 一区二区三区激情免费视频| 97在线观看播放| 中文字幕天堂网| 性视频毛茸茸女性一区二区| 日韩精品第一区二区三区| 久久精品国产亚洲av麻豆| 亚洲区小说区图片区qvod伊| 国产91九色视频在线播放| 蜜臀av一区二区三区免费观看| 成人毛片无码一区二区三区| 亚洲天堂成人在线| 亚洲国产人成自精在线尤物| 成年av动漫网站18禁| 人人添人人澡人人澡人人人人 | 变态调教一区二区三区女同| 久久精品娱乐亚洲领先| 日本一区二区三区激情视频| 高清中文字幕一区二区三区| 国产两女互慰高潮视频在线观看| 少妇极品熟妇人妻无码| 人妖熟女少妇人妖少妇| 白白发在线视频免费观看2| 成人精品一区二区三区中文字幕 | 丰满少妇人妻久久精品| 毛片大全真人在线| 一本大道在线一久道一区二区| 免费在线亚洲视频观看| 成人国产精品一区二区网站公司 | 国产精品国三级国产a| 国产成熟人妻换╳╳╳╳| 国产精品自产拍在线观看中文| 国产精品一区二区夜色不卡|