亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于分詞技術(shù)的地址標準化治理方法與實現(xiàn)

        2023-08-31 06:42:34楊海杰
        大眾標準化 2023年15期
        關(guān)鍵詞:標準化標準

        葛 燕,楊海杰

        (1.廣州市工業(yè)和信息化產(chǎn)業(yè)發(fā)展中心,廣東 廣州 510030;2.廣州市數(shù)字政府運營中心,廣東 廣州 510630)

        1 引言

        1.1 地址數(shù)據(jù)的現(xiàn)狀

        地名地址數(shù)據(jù)作為最常用的社會公共信息資源之一,不僅與人們的日常生活息息相關(guān),而且是政府行政管理、經(jīng)濟建設(shè)、國內(nèi)外信息交往不可或缺的基礎(chǔ)信息資源。目前城市地址信息主要分散在公安、規(guī)劃、住建、網(wǎng)格管理等多個部門,民政部門負責道路街巷命名,公安部門負責門樓號牌管理,規(guī)劃部門負責建筑物、小區(qū)審批,網(wǎng)格管理部門負責實有人口、房屋信息采集。由于不同部門之間的地址信息資源相對獨立,遵循各自的行業(yè)標準,地址格式和命名規(guī)范缺乏統(tǒng)一的規(guī)范和標準,難以進行關(guān)聯(lián)整合。此外,政府各職能部門信息系統(tǒng)在采集地址時大多采用手工錄入,地址的規(guī)范性和準確性得不到保證,給城市管理和社會治理帶來諸多困難和不便。

        1.2 地址數(shù)據(jù)應(yīng)該標準化

        標準地址不僅是表達清晰、規(guī)范、準確的地點,而且歸屬于特定的行政區(qū)、街鎮(zhèn)、社區(qū)、網(wǎng)格,甚至歸屬于具體的責任人,根據(jù)業(yè)務(wù)地址找到與之對應(yīng)的標準地址就能把對應(yīng)數(shù)據(jù)、問題劃歸到特定的行政區(qū)、街鎮(zhèn),甚至是負責人員,方便有關(guān)政府部門采取即時查證、處置、評估、預防等干預措施,進而讓城市網(wǎng)格化管理落到實處,讓城市生活變得更便捷、更美好。

        2 標準地址庫建設(shè)

        2.1 標準地址庫建設(shè)內(nèi)容

        標準地址是某個地址的唯一標識,包括地址編碼和標準的地址文本描述。標準地址與其他標準數(shù)據(jù)一樣,一般是由某個權(quán)威部門發(fā)布的、形式規(guī)范的、滿足規(guī)則和管理要求的數(shù)據(jù),不同之處在于標準地址還標記了所屬的行政區(qū)劃、街鎮(zhèn)、社區(qū)、網(wǎng)格、經(jīng)緯度,甚至還有標準建筑物,而這部分數(shù)據(jù)既是地址標準化的價值,也是地址標準化之目的所在。

        通過整合公安、民政、規(guī)劃、住建等現(xiàn)有地址標準,基于網(wǎng)格化服務(wù)和管理工作,建立貫穿市、區(qū)(縣)、街道(鄉(xiāng)鎮(zhèn))、社區(qū)(村)、工作網(wǎng)格、基礎(chǔ)網(wǎng)格、建筑物、房屋(戶室)等多層結(jié)構(gòu)的空間地理與地址體系,形成統(tǒng)一的地址標準。

        2.2 標準地址的層級結(jié)構(gòu)

        標準地址雖然也是一個字符串,但是非常規(guī)整,具有良好的層級結(jié)構(gòu),如下圖1所示。標準地址存儲應(yīng)采用多表存儲、關(guān)聯(lián)表達完整的標準地址。

        圖1 城市地址數(shù)據(jù)標準表述

        3 地址標準化治理

        3.1 摘要匹配原理

        業(yè)務(wù)地址是人們在工作中、生活中使用的地址,是業(yè)務(wù)系統(tǒng)地址數(shù)據(jù)的統(tǒng)稱,也泛指所有的非標準地址。

        首先,業(yè)務(wù)地址和身份證號碼、電話號碼等數(shù)據(jù)一樣,如通過公眾口述錄入或公眾直接填寫登記,則容易導致出現(xiàn)全角數(shù)字、全角符號、空格、回車、換行、特殊字符的情況,有時也有某側(cè)、左右、路口、入口、出口、附近、與、和、多少米等模糊的定位詞。因此,在地址數(shù)據(jù)治理時應(yīng)該先對數(shù)據(jù)進行清洗,如檢查、修復,替換為半角字符,剔除特殊字符,去除模糊詞。

        其次,經(jīng)過初步治理的業(yè)務(wù)地址也不能簡單的和標準地址進行連接匹配。在實際業(yè)務(wù)中統(tǒng)計發(fā)現(xiàn),兩個地址一模一樣的概率相對較低,甚至可能低于20%。這個概率遠遠不滿足治理目標和分析應(yīng)用的需要。

        業(yè)務(wù)地址和標準地址匹配治理的本質(zhì)是語義相同或相近,也可解釋為是字符串的相似。但是對于語義相同或相近的判斷往往是非常困難的,即使是字符串相似也需要耗時巨大的運算,因此通過一條業(yè)務(wù)地址和全部標準地址進行相似性比較是行不通的。

        業(yè)務(wù)地址雖然不能直接和標準地址進行運算,但可以抽取標準地址、業(yè)務(wù)地址的摘要信息,同時對摘要信息進行匹配,匹配成功后將業(yè)務(wù)地址和對應(yīng)的標準地址進行字符串相似性或語義比較,取兩者相同或最相似的,這就是地址摘要匹配的原理。如下圖2所示,這樣不僅能夠找到目標地址,而且可以大幅降低地址匹配運算的數(shù)據(jù)規(guī)模,滿足了政務(wù)應(yīng)用的需要。

        圖2 摘要匹配原理示意

        3.2 分詞生成摘要

        摘要是地址的濃縮,也是地址的子串。不論標準地址還是業(yè)務(wù)地址都可以生成多個摘要,生成摘要的過程首先就是分詞,摘要是分詞的目的,分詞是摘要生成的手段。

        分詞不是新概念,在自然語言處理(NLP)技術(shù)中,分詞是一項基礎(chǔ)能力。不論英文、中文文本都有多種分詞算法、框架、產(chǎn)品,借助詞庫的和不借助詞庫的,分詞實現(xiàn)的選擇空間很大,分詞效果也對地址匹配結(jié)果有很大、很直接的影響。

        因此,摘要生成越多,越容易實現(xiàn)業(yè)務(wù)地址與標準地址的連接,從而保證地址標準化治理的匹配度指標。摘要生成后也應(yīng)進行質(zhì)量評估,拋棄過短、分異性差的摘要。

        3.3 摘要編目查找

        幾百萬條標準地址在業(yè)務(wù)地址匹配前全部完成分詞,便于以高速查找方式進行存儲,需要構(gòu)造倒排索引結(jié)構(gòu)、全部數(shù)據(jù)駐留內(nèi)存、支持散列查找、鏈接雷同摘要的多地址。其中,摘要和標準地址是多對多關(guān)系,即一個摘要可以指向多個不同的標準地址,少則幾十個,多則幾十萬個。且一個地址也可以產(chǎn)生很多摘要,通常是幾十個。

        文章實現(xiàn)的高效倒排索引結(jié)構(gòu)、散列表、鏈接關(guān)系如下圖3所示,Value存儲體存放標準地址數(shù)據(jù),其中也按需存放行政區(qū)、街鎮(zhèn)、網(wǎng)格、經(jīng)緯度,一個標準地址一條記錄,Idx、Hash存儲體沒有冗余,因此整體內(nèi)存占用不大,長駐內(nèi)存,支持多線程并發(fā)的只讀訪問。

        圖3 摘要倒排索引散列表結(jié)構(gòu)

        存儲結(jié)構(gòu)必須用散列表,因為其平均查找長度是小于2的常數(shù),與查找的數(shù)據(jù)規(guī)模無關(guān),而且數(shù)據(jù)規(guī)模越大優(yōu)勢越明顯。標準地址幾百萬條,衍生的摘要有幾千萬條,一條業(yè)務(wù)地址查找?guī)资?,用非散列查找性能無法保證。散列表構(gòu)造資料很多,java的hashmap、Redis實現(xiàn)均可參考。

        3.4 相似性比較

        摘要技術(shù)能夠使一個業(yè)務(wù)地址和多個標準地址連接起來,但如果還要找出最接近的那個,需要利用語義或字符串相似算法進行判定。

        與前述的分詞類似,字符串相似算法也很多,文章主要采用BM25。BM是Best Match的縮寫,25指的是第25次算法迭代,該算法也是Elastic Search采用的一種用來評價搜索詞和文檔之間的相似度算法。它是一種基于概率檢索模型提出的算法,借鑒了詞頻、逆向文檔頻率和向量空間模型。詞頻即分詞單元在文檔中出現(xiàn)的頻率,由于每個文本的長度不同,一個單詞在長文檔中出現(xiàn)的次數(shù)可能比短文檔中出現(xiàn)的次數(shù)要多得多,相當于一個詞出現(xiàn)的次數(shù)越多,它的得分就越高。通過對地址通用詞語“街道、路、巷,樓、幢、棟、小區(qū)”的加權(quán)處理,可突出多層級地址要素的重要性,有效提高重點關(guān)鍵詞在地址匹配的權(quán)重,大大提高準確度。

        4 地址標準化治理服務(wù)構(gòu)建

        4.1 地址標準化治理服務(wù)器

        業(yè)務(wù)系統(tǒng)本身缺少地址標準化治理能力,如果能將地址標準化治理能力封裝為一個服務(wù)器,可以簡單集成到各種業(yè)務(wù)系統(tǒng)中,使得業(yè)務(wù)系統(tǒng)可以方便地調(diào)用地址標準化治理功能,從而將地址標準化治理研究成果應(yīng)用推廣,實現(xiàn)廣泛、快速治理地址數(shù)據(jù),并享受標準地址標記準確的行政區(qū)劃、街鎮(zhèn)、社區(qū)、網(wǎng)格、經(jīng)緯度、標準建筑物等信息帶來的好處,讓業(yè)務(wù)系統(tǒng)變得更加智能化、人性化。

        地址標準化治理服務(wù)器提供常用功能包括:單條業(yè)務(wù)地址標準化匹配治理、批量業(yè)務(wù)地址標準化匹配治理、業(yè)務(wù)地址關(guān)聯(lián)地址查詢、POI(Place Of Information 興趣點)匹配標準地址、經(jīng)緯度匹配標準地址、地址查經(jīng)緯度、多邊形查標準地址等功能。

        地址標準化治理服務(wù)可以以服務(wù)或SDK的方式使用,服務(wù)可以是HTTP、socket、命名管道等形式,SDK則支持c、c++、java、python等開發(fā)語言。

        4.2 并發(fā)匹配

        地址標準化治理服務(wù)器除穩(wěn)定、可靠外,還要有較好的性能,才能保證可用性。摘要技術(shù)能夠使一個業(yè)務(wù)地址和多個標準地址連接起來,一個摘要可能導致一個業(yè)務(wù)地址和幾千、幾萬個標準地址連接,連接還要通過耗時的相似性計算求出唯一目標地址,而且摘要生成目標非常多,造成一條業(yè)務(wù)地址的匹配治理產(chǎn)生很大計算量,批量業(yè)務(wù)地址標準化匹配治理的開銷更大。

        文章實踐中采用pthread的多線程、無鎖緩沖區(qū)等技術(shù),充分利用了硬件資源,實現(xiàn)批量業(yè)務(wù)地址的并發(fā)計算,較好解決了性能和實用性問題。

        4.3 地址標準化治理效果

        在地址標準化治理精度、匹配度指標充分保證和地址標準化服務(wù)器功能完備的前提下,業(yè)務(wù)系統(tǒng)可以在短時間內(nèi)完成地址標準化治理能力構(gòu)建。比如某市城中村專項數(shù)據(jù)治理項目,僅用兩周時間就完成了全部業(yè)務(wù)地址治理。特定重點人群的業(yè)務(wù)地址與標準地址匹配率為33.58%,使用本文地址治理方式,匹配率提升到80.90%,增長47%。水電氣用戶地址與標準地址匹配率從原來的25.48%提升到71.43%,增長46%。

        應(yīng)用城中村專項數(shù)據(jù)治理項目的經(jīng)驗,某市人口庫的地址標準化治理能力得到極大提升,實有人口地址數(shù)據(jù)治理標準化率達到95%以上,形成人口基礎(chǔ)底數(shù)“一本明白賬”,有效支撐了城市實有人口的精細化管理。

        5 結(jié)束語

        基于分詞技術(shù)的地址標準化治理方法是一種很實用的數(shù)據(jù)治理方法,該方法思路巧妙且易于實現(xiàn),充分利用計算機并行計算能力,有效降低計算任務(wù)的時間開銷,使業(yè)務(wù)系統(tǒng)在獲得地址數(shù)據(jù)時,即時進行地址標準化治理成為可能。

        地址標準化治理是智慧城市運營管理的空間塊數(shù)據(jù)基礎(chǔ)技術(shù),有著廣闊的應(yīng)用前景,諸如AI、語義相關(guān)摘要生成方法、方向值得深入研究,歡迎感興趣的同仁、朋友共同參與、探討,推動基礎(chǔ)數(shù)據(jù)治理技術(shù)的快速發(fā)展和廣泛應(yīng)用。

        猜你喜歡
        標準化標準
        2022 年3 月實施的工程建設(shè)標準
        標準化簡述
        忠誠的標準
        當代陜西(2019年8期)2019-05-09 02:22:48
        美還是丑?
        企業(yè)標準化管理信息系統(tǒng)
        你可能還在被不靠譜的對比度標準忽悠
        標準化是綜合交通運輸?shù)谋U稀庾x《交通運輸標準化體系》
        中國公路(2017年9期)2017-07-25 13:26:38
        一家之言:新標準將解決快遞業(yè)“成長中的煩惱”
        專用汽車(2016年4期)2016-03-01 04:13:43
        2015年9月新到標準清單
        以標準化引領(lǐng)科技創(chuàng)新
        五月婷婷开心五月播五月| 午夜性刺激免费视频| 九九99久久精品在免费线97| 美女福利视频在线观看网址| 97色伦图片97综合影院| 精精国产xxxx视频在线播放| 国产av成人精品播放| 亚洲美女av二区在线观看| 欧美—iGAO视频网| 在线视频一区二区国产| 国产综合精品一区二区三区| 国产精品第一国产精品| 欧美第五页| 国产精品久久中文字幕亚洲| 国产精品女同一区二区免费站| 久久无码专区国产精品s| 久久久久欧洲AV成人无码国产| 亚洲国产中文字幕九色| 亚洲av无码乱码精品国产| 国外精品视频在线观看免费| 国产精品黄色片在线观看| 日韩精品一区二区三区影音视频 | 蜜臀av一区二区三区人妻在线| 女同性恋一区二区三区av| 免费国产线观看免费观看| 无码少妇一区二区性色av| 成人精品一级毛片| 亚洲AV秘 无码一区二区久久| 亚洲福利视频一区二区三区| 亚洲一区精品在线中文字幕| 亚洲国产av精品一区二区蜜芽 | 国产精品毛片无码久久| 国产情侣自拍偷拍精品| 欧美亚洲一区二区三区| 丰满爆乳一区二区三区| 中文字幕亚洲精品人妻| 一本久道竹内纱里奈中文字幕| 亚洲精品成人网线在线播放va| 亚洲综合偷自成人网第页色| 美腿丝袜美腿国产在线| 激情综合五月婷婷久久|