亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于ERNIE-DPCNN模型的地址清洗匹配方法研究*

        2023-01-18 09:55:28馬佳斌
        地礦測(cè)繪 2022年4期
        關(guān)鍵詞:特征方法模型

        陳 寅,馬佳斌

        (長(zhǎng)三角(嘉興)城鄉(xiāng)建設(shè)設(shè)計(jì)集團(tuán)有限公司,浙江 嘉興 314050)

        0 引言

        地名地址是由政府統(tǒng)一發(fā)布的社會(huì)公共信息,地址中承載了數(shù)據(jù)的空間位置信息,與人們生產(chǎn)生活密切相關(guān),無(wú)論是政府管理(不動(dòng)產(chǎn)登記、工商登記、居民戶口登記等),還是社會(huì)經(jīng)濟(jì)活動(dòng)(快遞、外賣(mài)等)都利用地址數(shù)據(jù)作為地理位置的空間表達(dá)方式[1-3],它是國(guó)家信息化發(fā)展戰(zhàn)略中最基礎(chǔ)的信息資源,是各類(lèi)信息的紐帶。為此,對(duì)地址進(jìn)行清洗使其匹配結(jié)果更加準(zhǔn)確,可為測(cè)繪、交通、導(dǎo)航等各個(gè)領(lǐng)域提供有效的地址地名數(shù)據(jù)資源[4]。

        當(dāng)前已有相關(guān)領(lǐng)域?qū)W者研究了地址匹配方法,例如,張琛[5]等人提出的自適應(yīng)分詞地址匹配方法,該方法通過(guò)對(duì)地址名詞進(jìn)行標(biāo)記后構(gòu)建Lucene索引,然后使用IK分詞器對(duì)地址名詞進(jìn)行分詞處理,根據(jù)分詞結(jié)果匹配度,得出地址匹配結(jié)果。但該方法在應(yīng)用過(guò)程中受地址名詞相似度高、存在冗余詞等情況影響,致使其地址匹配結(jié)果不夠準(zhǔn)確。劉斐[6]等人提出了運(yùn)輸?shù)刂菲ヅ浞椒?,該方法利用在線地理解析方式獲取運(yùn)輸?shù)刂坊A(chǔ)數(shù)據(jù),利用加權(quán)拼音全文檢索機(jī)制獲取地址匹配結(jié)果。但該方法在檢索地址匹配結(jié)果時(shí),檢索機(jī)制參數(shù)設(shè)置為人為設(shè)置,存在主觀性。ERNIE-DPCNN模型是由語(yǔ)言表征模型(ERNIE)和文本分類(lèi)模型(DPCNN)組成,其可獲取地址名詞表征并將該表征作為輸入,使用文本分類(lèi)模型獲得地址的特征,其輸出結(jié)果較為準(zhǔn)確,且受數(shù)據(jù)維度影響較小,在文本處理領(lǐng)域應(yīng)用極為廣泛。

        在此背景下,本文引入ERNIE-DPCNN模型,研究基于ERNIE-DPCNN模型的地址清洗匹配方法,通過(guò)對(duì)地址詞向量特征進(jìn)行地址分詞匹配處理,通過(guò)地址匹配引擎層實(shí)現(xiàn)地址清洗處理,獲取地址清洗匹配結(jié)果。

        1 地址清洗匹配方法

        1.1 地址清洗匹配方法技術(shù)架構(gòu)

        依據(jù)分層思想,設(shè)計(jì)地址清洗匹配方法技術(shù)架構(gòu),如圖1所示。

        圖1 地址清洗匹配方法技術(shù)架構(gòu)示意圖Fig.1 Schematic diagram of technical architecture of address cleaning and matching method

        地址清洗匹配方法技術(shù)架構(gòu)由數(shù)據(jù)準(zhǔn)備層、邏輯計(jì)算層、地址匹配引擎和應(yīng)用層組成。利用數(shù)據(jù)準(zhǔn)備層獲取行政區(qū)分區(qū)、街道、POI(地圖上非地理意義的標(biāo)記點(diǎn),如超市、加油站等)和門(mén)牌等地址數(shù)據(jù),然后將該地址數(shù)據(jù)輸入到邏輯計(jì)算層內(nèi)。邏輯計(jì)算層使用地址字段清洗方法對(duì)獲取的地址數(shù)據(jù)進(jìn)行清洗預(yù)處理,去除地址數(shù)據(jù)內(nèi)的冗余字段和意義不明的字段,然后將清洗后的地址數(shù)據(jù)存儲(chǔ)到地址標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)內(nèi)。利用ERNIE-DPCNN模型調(diào)取地址標(biāo)準(zhǔn)數(shù)據(jù)庫(kù)內(nèi)的地址數(shù)據(jù),并通過(guò)迭代訓(xùn)練輸出地址詞向量特征。然后利用地址分詞匹配方式對(duì)地址詞向量實(shí)施匹配處理,再利用地址匹配引擎層內(nèi)的門(mén)牌檢索器、方位詞處理器等生成行政區(qū)、街道、POI、門(mén)牌地址索引。該索引與應(yīng)用層內(nèi)的Web服務(wù)器連接,通過(guò)Web服務(wù)器為用戶展示地址清洗匹配結(jié)果。

        1.2 地址字段清洗方法

        由于街道、POI、門(mén)牌等地址數(shù)據(jù)眾多,存在大量的字段冗余情況,在對(duì)其進(jìn)行匹配時(shí),需對(duì)其進(jìn)行字段清洗預(yù)處理。在此使用Word2Vec詞向量開(kāi)源工具清洗地址數(shù)據(jù)內(nèi)的冗余字段,其詳細(xì)過(guò)程如下:

        首先利用Word2Vec詞向量開(kāi)源工具提取地址數(shù)據(jù)的文本,然后使用Skip-Gram模型訓(xùn)練地址字段的詞向量,Skip-Gram模型網(wǎng)絡(luò)結(jié)構(gòu)如圖2所示。

        圖2 Skip-Gram模型網(wǎng)絡(luò)結(jié)構(gòu)示意圖Fig.2 Schematic diagram of Skip-Gram model network structure

        Skip-Gram模型網(wǎng)絡(luò)輸入層輸入的是中心詞g的詞向量v(g),然后將v(g)輸入到投影層內(nèi),投影層的恒等投影表達(dá)公式[7]為:

        v(g)=v′(g)

        (1)

        式中:v′(g)表示v(g)的投影。

        Skip-Gram模型輸出層的目標(biāo)函數(shù)表達(dá)公式[8]為:

        (2)

        式中:C表示地址詞向量的語(yǔ)料庫(kù);Context(g)表示地址中心詞上下文;ζ(Context(g)|g)表示上下文的出現(xiàn)概率,其表達(dá)公式[9]為:

        (3)

        式中:u表示上下文Context(g)內(nèi)的冗余字段。

        將式(3)結(jié)果代入到式(2)中,輸出m個(gè)上下文Context(g)的地址詞向量。再結(jié)合距離算法計(jì)算上下文Context(g)地址詞向量與待清洗地址詞向量的距離,依據(jù)該距離去除待清洗地址詞向量?jī)?nèi)的超出距離閾值的字段,達(dá)到地址冗余字段清洗的目的。

        1.3 基于ERNIE-DPCNN模型的地址分詞匹配方法

        以清洗后的地址數(shù)據(jù)為基礎(chǔ),使用ERNIE-DPCNN模型獲取地址數(shù)據(jù)向量特征。首先使用ERNIE模型內(nèi)的Transformer編碼器對(duì)地址數(shù)據(jù)向量進(jìn)行表征描述,則Transformer編碼器輸出表達(dá)公式[10]為:

        Attentionoutput=Attention(Y,U,O)

        (4)

        式中:Attentionoutput表示輸出數(shù)值,該值即可描述數(shù)據(jù)向量表征;Y、U、O均表示地址詞向量矩陣;dk表示地址詞向量的維度。

        將式(4)結(jié)果作為輸入值,使用DPCNN模型輸出地址數(shù)據(jù)詞向量特征。將ERNIE模型和DPCNN模型相結(jié)合,則ERNIE-DPCNN模型獲取地址數(shù)據(jù)詞向量特征過(guò)程如下:

        第一步:將清洗后的地址數(shù)據(jù)提取成文本形式,并由A=(A1,A2,…,An)描述,其中An表示該文本內(nèi)第n個(gè)詞語(yǔ)。

        第二步:將A=(A1,A2,…,An)輸入到ERNIE模型內(nèi),經(jīng)過(guò)Transformer編碼器輸出地址詞向量表征描述,并構(gòu)建地址詞向量表征描述矩陣X。

        第三步:將X輸入到DPCNN模型內(nèi),利用該模型內(nèi)的等長(zhǎng)卷積層生成地址詞向量特征,其表達(dá)式[11]為:

        γ=f(φ)*X+f(?)+X

        (5)

        式中:γ表示等長(zhǎng)卷積層輸出數(shù)值;φ、?分別表示卷積核與偏差數(shù)值;f(·)表示非線性激活函數(shù)。

        第四步:使用池化層對(duì)上一步獲取的地址詞向量特征進(jìn)行分類(lèi)并歸一化處理,則地址詞向量特征的分類(lèi)概率表達(dá)公式[12]為:

        (6)

        利用式(6)獲得地址詞向量特征分類(lèi)結(jié)果,得到不同屬性的地址詞向量特征。

        使用地址分詞算法對(duì)上個(gè)小節(jié)獲取的地址詞向量特征進(jìn)行匹配[13]。分詞匹配算法是通過(guò)用戶輸入中文地址,對(duì)該中文地址進(jìn)行分詞處理,依據(jù)特征匹配規(guī)則不斷迭代將匹配范圍逐漸縮小[14],將最小范圍的匹配結(jié)果返回給用戶。使用分詞匹配算法對(duì)地址分詞進(jìn)行匹配過(guò)程如下:

        第一步:讀入需匹配的地址詞和地址標(biāo)準(zhǔn)庫(kù)數(shù)據(jù),判斷需匹配的地址詞內(nèi)是否劃分行政區(qū),若是則先進(jìn)行行政區(qū)判斷,然后進(jìn)行下一步。當(dāng)不存在行政區(qū)劃分時(shí)直接進(jìn)行下一步。

        第二步:尋找最大匹配子地址,并依據(jù)該最大匹配子地址尋找父地址。

        第三步:判斷父地址后是否存在下一個(gè)父地址,若是則匹配更上一級(jí)的地址詞特征[15],然后返回第二步繼續(xù)迭代,直至輸出終極父地址為止。

        第四步:判斷地址詞內(nèi)是否存在同義詞,若是則匹配下一個(gè)同義詞要素,并返回到第二步繼續(xù)迭代。反之則判斷地址詞特征相似度是否符合預(yù)設(shè)閾值,若是則輸出地址特征詞匹配結(jié)果,反之則繼續(xù)尋找地址特征詞的父地址。

        經(jīng)過(guò)上述過(guò)程,即可得到地址清洗匹配結(jié)果。

        2 實(shí)驗(yàn)分析

        以浙江省嘉興市地址數(shù)據(jù)為實(shí)驗(yàn)對(duì)象,應(yīng)用本文方法對(duì)該城市地址數(shù)據(jù)進(jìn)行清洗匹配處理,驗(yàn)證本文方法的應(yīng)用效果。

        2.1 可靠性驗(yàn)證

        以ERNIE-DPCNN模型迭代的損失值作為衡量本文方法地址清洗匹配結(jié)果可靠性指標(biāo),測(cè)試在地址數(shù)據(jù)量不同情況下,本文方法損失函數(shù)值變化情況,結(jié)果如圖3所示。

        圖3 可靠性驗(yàn)證結(jié)果Fig.3 Reliability verification results

        分析圖3可知,本文方法的損失函數(shù)數(shù)值隨著地址數(shù)據(jù)維度的增加而降低,且其降低到一定程度后開(kāi)始保持平衡狀態(tài)。在地址數(shù)據(jù)量為220個(gè)之前時(shí),本文方法的損失函數(shù)數(shù)值呈現(xiàn)大幅度降低趨勢(shì),當(dāng)?shù)刂窋?shù)據(jù)量超過(guò)220個(gè)之后,其損失函數(shù)值下降幅度較小。在地址數(shù)據(jù)量超過(guò)900個(gè)之后,本文方法的損失函數(shù)數(shù)值保持在0.5%左右。該結(jié)果說(shuō)明本文方法在清洗匹配地址時(shí)損失值小,輸出結(jié)果精度較高。

        2.2 地址字段清洗測(cè)試

        以10組地址數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,使用本文方法對(duì)其進(jìn)行地址字段清洗處理,測(cè)試本文方法地址字段清洗功能。為更清楚地呈現(xiàn)本文方法的地址字段清洗功能,同時(shí)使用文獻(xiàn)[5]方法和文獻(xiàn)[6]方法展開(kāi)實(shí)驗(yàn)。結(jié)果如表1所示。

        表1 地址字段清洗后字段數(shù)量(個(gè))Tab.1 Number of fields after address field cleaning

        分析表1可知,在3種方法中,本文方法對(duì)地址數(shù)據(jù)字段進(jìn)行清洗后,其地址字段降低幅度稍大,而文獻(xiàn)[5]方法和文獻(xiàn)[6]方法清洗后的地址數(shù)據(jù)字段下降幅度均低于本文方法。上述結(jié)果說(shuō)明:本文方法可有效對(duì)地址數(shù)據(jù)字段進(jìn)行清洗,且清洗后的地址數(shù)據(jù)字段數(shù)量下降明顯。

        以8組地址數(shù)據(jù)作為實(shí)驗(yàn)對(duì)象,進(jìn)一步驗(yàn)證本文方法對(duì)地址數(shù)據(jù)字段清洗能力,以地址數(shù)據(jù)字段的保留特征作為衡量指標(biāo),測(cè)試本文方法對(duì)其清洗后,該地址字段特征保留程度,結(jié)果如圖4所示。

        圖4 地址字段清洗后特征保留程度Fig.4 Degree of feature retention after address field cleaning

        分析圖4可知,在3種方法中,本文方法對(duì)地址數(shù)據(jù)字段進(jìn)行清洗后,該地址數(shù)據(jù)字段特征保留程度數(shù)值均高于95%。而文獻(xiàn)[5]方法和文獻(xiàn)[6]方法對(duì)地址數(shù)據(jù)字段進(jìn)行清洗后,較大程度地降低了地址數(shù)據(jù)字段特征,影響后續(xù)的地址匹配效果。綜上結(jié)果可知:本文方法具備較強(qiáng)的地址數(shù)據(jù)字段清洗能力,可有效保留地址數(shù)據(jù)字段特征。

        2.3 地址匹配測(cè)試

        以6組地址數(shù)據(jù)為實(shí)驗(yàn)對(duì)象,使用本文方法對(duì)其進(jìn)行匹配,結(jié)果如表2所示。

        表2 地址匹配測(cè)試結(jié)果Tab.2 Address matching test results

        分析表2可知,使用本文方法對(duì)待匹配地址進(jìn)行清洗匹配后,得到的匹配結(jié)果相似度較高,且可有效匹配到地址的行政區(qū)劃分。上述結(jié)果表明本文方法對(duì)地址清洗匹配效果精度高,具備較強(qiáng)的可靠性。

        3 結(jié)論

        本文研究基于ERNIE-DPCNN模型的地址清洗匹配方法,并對(duì)該方法進(jìn)行了實(shí)際驗(yàn)證。實(shí)驗(yàn)結(jié)果表明,本文方法在地址數(shù)據(jù)字段清洗時(shí)有效性較好,且其保留地址數(shù)據(jù)特征程度均高于60%。在地址清洗匹配過(guò)程中,本文方法的地址匹配結(jié)果準(zhǔn)確,證明了本文方法的實(shí)際應(yīng)用效果較好。

        猜你喜歡
        特征方法模型
        一半模型
        重要模型『一線三等角』
        重尾非線性自回歸模型自加權(quán)M-估計(jì)的漸近分布
        如何表達(dá)“特征”
        不忠誠(chéng)的四個(gè)特征
        抓住特征巧觀察
        可能是方法不對(duì)
        3D打印中的模型分割與打包
        用對(duì)方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        四大方法 教你不再“坐以待病”!
        Coco薇(2015年1期)2015-08-13 02:47:34
        国产精品久久久黄色片| 草莓视频一区二区精品| 免费大学生国产在线观看p | 国产精品污www一区二区三区| 国产69口爆吞精在线视频喝尿| 在线看高清中文字幕一区| 精品无码av一区二区三区不卡| 亚洲欧美aⅴ在线资源| 不卡高清av手机在线观看| 亚洲一区二区三区偷拍自拍| 亚洲日本精品国产一区二区三区 | 91网站在线看| 久久亚洲精精品中文字幕早川悠里 | 亚洲一区二区情侣| 国产片在线一区二区三区| 特黄做受又粗又长又大又硬 | 亚洲一区二区三区福利久久蜜桃| 老妇高潮潮喷到猛进猛出| 中日韩精品视频在线观看| 日本熟妇hd8ex视频| 国产护士一区二区三区| 后入到高潮免费观看| 五月天激情小说| 日韩av一区二区三区精品| 国产夫妻自拍视频在线播放| 老师粉嫩小泬喷水视频90| 9久久精品视香蕉蕉| 隔壁人妻欲求不满中文字幕| 色综合久久无码五十路人妻 | 日本最新一区二区三区视频观看 | 日本人妻免费一区二区三区| 男男啪啪激烈高潮cc漫画免费| 久久精品无码一区二区2020| 亚洲av色精品国产一区二区三区| 亚洲日韩在线中文字幕综合| 日本a级特黄特黄刺激大片| 蜜臀av人妻一区二区三区| 亚洲一区二区三区高清在线| 亚洲国产精品日韩av专区| 天天中文字幕av天天爽| 日本一级二级三级不卡|