亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        一種面向中文非標建筑地址標準化的自動匹配方法

        2019-11-25 10:26:32鄒恩岑曾誠張謙徐川朱潤奚雪峰
        關鍵詞:標準實驗方法

        鄒恩岑,曾誠,張謙,徐川,朱潤,奚雪峰*

        (1.蘇州科技大學電子與信息工程學院,江蘇蘇州215009;2.蘇州市虛擬現(xiàn)實智能交互及應用技術重點實驗室,江蘇蘇州215009;3.昆山市公安局情報中心,江蘇蘇州215335)

        近年來,隨著我國智慧城市建設進程的快速發(fā)展,門市樓牌的地址信息在應用中的重要性日趨突出,尤其在公安業(yè)務領域[1-2]。然而由于當前社會上存在著多樣的地址信息,如自來水公司的用戶登記地址、燃氣公司的用戶登記地址、有線電視用戶地址、公安被盤查人員登記地址等。從而在包含地址信息的不同數(shù)據(jù)集中,如戶籍地址數(shù)據(jù)、報警地址數(shù)據(jù)、案發(fā)地址數(shù)據(jù)中,出現(xiàn)了多樣性的地址表述,即地址信息表述不唯一。例如,同樣的一個地址,在自來水公司用戶地址中被表述為“千燈美景園34#(原1-14#)604”,在被盤查人員登記地址中可能表述為“江蘇省昆山市千燈鎮(zhèn)美景園34幢604室”,而在戶籍地址中卻表述為“昆山市千燈鎮(zhèn)美景園34幢604室”。

        地址信息表述不唯一,導致不同來源的信息無法聯(lián)通、相關業(yè)務無法在公安電子地圖上匹配與顯示、情報研判難以深入、發(fā)現(xiàn)重點人員軌跡困難、預測重大事件成效不顯著、整合數(shù)據(jù)資源不充分等一系列問題。針對上述問題,構建一個標準化的地址庫,然后將其他地址統(tǒng)一映射到該標準地址庫中,是一種可行的方法[3]。把上述各類地址定義為“非標地址”,把構建的標準化地址庫中的地址稱為“標準地址”。

        因此,昆山市公安局開展了地址標準化建設。第一階段已完成90多萬條的公安標準地址庫建設,但同時來自社會各界采集到的非標地址類型達到2 275種,數(shù)量達到20億條。如此海量的非標地址,如何與標準地址進行匹配,存在著以下難點:(1)由于數(shù)據(jù)量大,人工檢索90多萬條數(shù)據(jù),耗時耗力,可行性差[4];(2)由于地址之間語義級相似度的存在,無法采用傳統(tǒng)的字符串匹配檢索方式。

        針對上述難點,筆者基于哈希映射、詞頻統(tǒng)計及余弦相似理論,提出一種面向中文非標建筑地址的標準化自動匹配方法,自動實現(xiàn)非標地址與標準地址的匹配映射。

        1 相關工作

        目前,在構建中文建筑地址庫方面使用的數(shù)據(jù)結構主要有樹形結構和魚型結構等[5],這些結構可以在一定程度上消除數(shù)據(jù)之間的冗余和強依賴關系,方便存儲數(shù)據(jù)。在面向中文短文本匹配工作中,為使匹配算法具有較低的空間復雜度和時間復雜度,一般采用哈希結構和Tire結構[6-7];也有研究者使用樹型結構實現(xiàn)具有較高匹配率的算法模型,但模型過于復雜[8-9]。目前有些應用系統(tǒng),通常使用地址分級和有限狀態(tài)機驅動方法[10],初步解決地址越級跳躍和地址分詞不準確的問題;使用索引結構與全文搜索[11],依托開源檢索引擎構建地址匹配工具也是常用的方法[12-13],但系統(tǒng)的識別率嚴重依賴標準地址庫規(guī)模的大小。基于自然語言處理技術,利用大量地址數(shù)據(jù)進行模型訓練,通過語義理解實現(xiàn)自動匹配,是當前人工智能及大數(shù)據(jù)技術在該領域的探索與嘗試[14-17]。

        相似度計算技術是解決地址匹配問題的關鍵技術,目前主要采用如下方法:基于詞形和詞序匹配的方法、基于語義計算的方法、使用語義依存的方法、基于骨架依存樹的方法、基于編輯樹的方法,以及基于模式的方法[18-19]。

        2 非標地址自動匹配模型

        2.1 任務描述

        標準地址是指公安機關自己定義的一套具有清晰結構特征的地理編碼,這套編碼中既包含了描述地理位置的地址信息,也包括了該地址信息包含的經(jīng)緯度信息等。非標準地址則是指從社會各界采集來的不具有公安系統(tǒng)規(guī)定的必要組成元素的一類地址。該類地址的典型特征就是人能夠理解和辨識這個地址所標識的地理位置,但是這類地址無法直接錄入公安系統(tǒng)進行信息整合。

        文中主要研究如何將非標準地址準確高效地映射到標準地址數(shù)據(jù)集中,其實驗數(shù)據(jù)集為:(1)95萬條標準地址樣本集;(2)1.6萬條某自來水公司提供的非標準地址樣本集;(3)1 000條來自其他5個社會機構(公安某部門、某燃氣公司一、某燃氣公司二、計生委某部門、某有線電視公司)的非標地址樣本集。

        筆者已采用人工眾包標注[20]的方法完成了數(shù)據(jù)集(2)的標注,以此作為訓練及測試數(shù)據(jù)集。數(shù)據(jù)集(3)用來驗證文中所提出模型的泛化能力。

        2.2 模型設計

        地址匹配的實現(xiàn),輸入為一個非標地址,輸出為按相似度從高到低排序的標準地址集合。在大量非標地址匹配過程中,采用計算機輔助方式,可以大幅度提高匹配效率,減少所需人工成本。隨著自動匹配精度與速度的不斷提高,該模型能夠聯(lián)通各非標地址系統(tǒng)間的信息孤島,形成順暢的地址搜索網(wǎng)絡,為各非標地址系統(tǒng)間轉換和地址統(tǒng)一計算提供重要的基礎支撐[21-22]。

        非標地址自動匹配主要包含兩大步驟:(1)標準地址建模。將標準地址建立可快速查找的詞典文件,主要結構為哈希結構,供后續(xù)非標地址匹配步驟使用。(2)非標地址匹配。根據(jù)輸入的非標地址,在標準地址模型數(shù)據(jù)中,通過兩級級聯(lián)的哈希查找和相似度匹配方法,找出與其匹配的標準地址。模型框圖如圖1所示。

        圖1 非標地址自動匹配模型框圖

        2.2.1 標準地址建模

        標準地址建模的流程分為如下5個步驟:(1)輸入原始標準地址數(shù)據(jù)InSADS;(2)清洗InSADS,去除不必要的數(shù)據(jù),保留規(guī)范地址數(shù)據(jù),形成ReInSADS;(3)在ReInSADS數(shù)據(jù)集中提取標準地址關鍵詞AddressKeyWords;(4)將標準地址轉換成詞向量;(5)以標準地址關鍵詞AddressKeyWords為Key,標準地址詞向量為Value,使用哈希表結構建立標準地址詞典。

        2.2.2 非標地址匹配

        非標地址匹配流程分為如下7個步驟:(1)輸入原始非標地址數(shù)據(jù)InNSAD;(2)清洗InNSAD,形成ReInNSAD;(3)在ReInNSAD中提取非標地址中的關鍵詞;(4)地址淘選,在標準地址詞典中通過非標地址關鍵詞查找標準地址數(shù)據(jù),形成候選標準地址子集CandSubSADS;(5)將淘選后的標準地址集CandSubSADS及非標地址ReInNSAD分別轉換成詞向量EMofCandSubSADS和EMofReInNSAD;(6)非標地址詞向量與淘選后的標準地址集中的詞向量逐一進行相似度計算;(7)篩選出與非標地址最相似的一組標準地址,按照相似度由高到低排序輸出結果集合SResult。

        3 數(shù)據(jù)結構與算法描述

        3.1 構建哈希標準地址詞典

        哈希標準地址詞典由哈希表構成,提取標準地址的關鍵詞作為哈希表的Key,標準地址詞向量的數(shù)組表作為哈希表的Value,詞典數(shù)據(jù)結構如圖2所示。

        圖2 哈希標準地址詞典數(shù)據(jù)結構示意圖

        3.1.1 標準地址關鍵詞提取

        文中設計了兩種標準地址關鍵詞提取方法:一種是經(jīng)驗法;另一種是詞頻法。

        經(jīng)驗法使用經(jīng)驗法提取關鍵詞,并實現(xiàn)匹配的啟發(fā)式規(guī)則如下:(1)提取“鎮(zhèn)”字后面的2個字作為關鍵詞,例如,在地址“昆山市玉山鎮(zhèn)柏廬南路1126號”中,提取“柏廬”作為關鍵詞;(2)提取“鎮(zhèn)”字后面的3個字作為關鍵詞,例如,在地址“昆山市玉山鎮(zhèn)柏廬南路1126號”中,提取“柏廬南”作為關鍵詞;(3)提取“鎮(zhèn)”字后第3個位置到第5個位置作為關鍵詞,例如,在地址“昆山市玉山鎮(zhèn)柏廬南路1126號”中,提取“南路”作為關鍵詞。

        詞頻法使用詞頻法提取關鍵詞,為關鍵詞查找提供匹配規(guī)則的算法步驟如下:(1)統(tǒng)計標準地址庫,按步長1、窗長2切割所有詞的頻率。(2)按照一定規(guī)則去除某些頻率的詞,并構建關鍵詞。例如,每個標準地址中都有“昆山”一詞,出現(xiàn)頻率為915 407次,“單元”一詞出現(xiàn)136 266次,“新村”一詞出現(xiàn)121 286次。這些高頻詞無法表示標準地址的關鍵特征,因此,需要去除。與此類似,有些包含數(shù)字或帶有特殊字符的詞,也同樣需要去除。

        3.1.2 詞向量切分

        為了計算地址之間的相似度,需先將地址轉換成詞向量。文中選擇使用步長為1、窗長為2的詞向量切分法來分割地址字符串,切割出的兩字字符串作為向量的基,每切割出一次基字符串,就在向量的這一維上增加一,以此構成詞向量。

        例如:地址“昆山市玉山鎮(zhèn)柏廬南路1126號”中,分割后的詞向量的基集合為U={昆山,山市,市玉,玉山,山鎮(zhèn),鎮(zhèn)柏,柏廬,廬南,南路,路1,11,12,26,6號,號},用該集合表示的向量共有15個維度。

        構成的詞向量和所對應的基為:(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1);(昆山,山市,市玉,玉山,山鎮(zhèn),鎮(zhèn)柏,柏廬,廬南,南路,路1,11,12,26,6號,號)。

        3.1.3 插入標準地址詞典

        詞典由哈希表構成,系統(tǒng)將提取的關鍵詞作為Key,包含關鍵詞信息的整條地址詞向量數(shù)組表ArrayList作為Value,加入到哈希表中。若新加入的地址和已存在的Key-Value具有相同的Key,則在Value中的ArrayList尾部添加新的地址的詞向量,形成如圖2所示的地址詞典結構。

        3.2 地址淘選

        地址淘選是將原先1個非標地址與95萬的標準地址匹配的問題,通過計算機輔助縮小為1個非標地址與數(shù)萬個標準地址匹配的問題。

        3.2.1 經(jīng)驗淘選法

        文中所使用的經(jīng)驗淘選方法步驟如下:

        (1)地址淘選模塊會提取非標地址的前兩個字作為關鍵詞,淘選子模塊查詢標準地址詞典得到淘選地址數(shù)據(jù)集。

        (2)如果得到的數(shù)據(jù)集數(shù)量不為空且小于15 000,則轉向步驟(3)。如果得到的數(shù)據(jù)集數(shù)量大于15 000或數(shù)據(jù)集為空,則跳過地址的第一個字,利用步長1、窗長2的字符切分法分割地址字符串作為關鍵詞,利用這些關鍵詞查找標準地址詞典,得到多個淘選地址數(shù)據(jù)集。該步驟中15 000是依據(jù)標準地址庫中地址數(shù)量和經(jīng)驗淘選算法的特點,經(jīng)過程序調試給出的一個在保證準確率情況下,冗余計算較少、計算速度較快的經(jīng)驗參數(shù)值。

        (3)使用前三個字作為關鍵詞查詢標準地址詞典得到淘選地址數(shù)據(jù)集。

        (4)在得到的多個淘選地址數(shù)據(jù)集中選擇包含地址數(shù)目最小的非空地址集,輸出作為淘選結果地址集。

        3.2.2 詞頻淘選法

        文中所使用的詞頻淘選方法步驟如下:

        (1)地址淘選模塊會以步長為1、窗長為2的詞向量切分法來分割非標地址字符串作為關鍵詞。

        (2)查找關鍵詞的詞頻,如果數(shù)量大于45 000,則跳過該關鍵詞,查找下一關鍵詞。如果詞頻數(shù)量小于45 000,則添加字典中關聯(lián)該關鍵詞的所有地址到地址候選集中。該步驟中45 000是依據(jù)標準地址庫中地址數(shù)量和詞頻淘選算法的工程特點,給出的一個限定計算規(guī)模、減少冗余計算的參數(shù)值,用于提高計算速度,該參數(shù)值在設置成大于等于45 000的數(shù)值情況下雖不會影響計算準確率,但增加了冗余計算,降低了計算速度。

        (3)若有多個關鍵詞滿足條件,則添加多個候選地址集,并對這些地址集做合并操作。

        (4)得到所有關鍵詞所對應的地址候選集并集,即為詞頻淘選法得到的地址集。

        3.3 非標地址與標準地址相似度計算

        3.3.1 共同向量空間的轉換

        以非標地址字符串分割后的詞向量記為向量a,標準地址分割后的詞向量記為b,a和b由于各自的基不同,所在的向量空間不同,需要換算至相同的向量空間。模塊程序提取a和b兩向量基的并集,構成合并基,將a、b兩向量轉換到合并基所組成的新的合并向量空間中。

        設向量a基的集合為:A={a1,a2,…,ai,c1,c2,…,ck},其中,a1至ai表示向量a獨有的基集合,c1至ck表示向量a和向量b所共有的基集合。

        向量b基的集合為:B={b1,b2,…,bj,c1,c2,…,ck},其中,b1至bj表示向量b獨有的基集合,c1至ck表示向量a和向量b所共有的基集合。

        則a與b的合并基集合為:C=A∪B={a1,a2,…,ai,b1,b2,…,bj,c1,c2,…,ck}。

        例如,非標地址“柏廬南路1126#”的基集合為:A={柏廬,廬南,南路,路1,11,12,26,6#,#};標準地址“昆山市玉山鎮(zhèn)柏廬南路1126號”基的集合為:B={昆山,山市,市玉,玉山,山鎮(zhèn),鎮(zhèn)柏,柏廬,廬南,南路,路1,11,12,26,6號,號}。對上述兩組集合取并集,得到的合并基為:C={昆山,山市,市玉,玉山,山鎮(zhèn),鎮(zhèn)柏,柏廬,廬南,南路,路1,11,12,26,6號,號,6#,#},合并基后用該集合表示的向量共有17個維度。

        非標地址“柏廬南路1126#”變換為合并基后的詞向量和對應的基為:a=(0,0,0,0,0,0,1,1,1,1,1,1,1,0,0,1,1),(昆山,山市,市玉,玉山,山鎮(zhèn),鎮(zhèn)柏,柏廬,廬南,南路,路1,11,12,26,6號,號,6#,#)。

        地址“昆山市玉山鎮(zhèn)柏廬南路1126號”變換為共同基后的詞向量和對應的基為:b=(1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,0,0),(昆山,山市,市玉,玉山,山鎮(zhèn),鎮(zhèn)柏,柏廬,廬南,南路,路1,11,12,26,6號,號,6#,#)。

        3.3.2 余弦相似度計算

        非標地址詞向量a與標準地址詞向量b之間使用余弦相似公式計算相似度

        記向量a=(x1,x2,…,xn),向量b=(y1,y2,…,yn),代入公式(1),得到a與b之間的余弦相似度

        3.3.3 相似度混合方法

        非標地址與多個標準地址之間的相似度經(jīng)過計算后排序輸出,理論上相似度最高的組合對(非標地址,標準地址)即是所求的最優(yōu)解,但有時候并非如此。例如:與非標地址“震川東路3#401(原A幢)”匹配的多個標準地址,它們相似度相同,均以“昆山市玉山鎮(zhèn)震川東路商住小區(qū)”起頭,后半部分分別為“5幢401室”、“6幢401室”,“1幢401室”、“2幢401室”、“4幢401室”和“3幢401室”。在這組相似度相同的標準地址中,順序會被隨機排列,而最優(yōu)解“昆山市玉山鎮(zhèn)震川東路商住小區(qū)3幢401室”被排在了第六號位置上。

        為了讓最優(yōu)解能夠排名靠前,系統(tǒng)將非標地址與標準地址中的數(shù)字作為關鍵詞單獨抽出計算相似度,以一定合適的比例與前面計算所得的地址相似度聯(lián)合加權,得到最終準確結果。

        4 實驗

        4.1 實驗準備

        4.1.1 數(shù)據(jù)集

        實驗使用某自來水公司非標準地址數(shù)據(jù)集16 682條(采用眾包技術實現(xiàn)人工標注匹配);標準地址數(shù)據(jù)集953 510條;來自5個社會機構的泛化非標地址數(shù)據(jù)1 000條(同樣采用眾包技術實現(xiàn)人工標注匹配)。

        非標地址的數(shù)據(jù)格式即為非標地址字符串,典型的非標地址數(shù)據(jù)如下所示:

        柏廬南路1126#

        錦景園63#(原1-18)404

        千燈美景園6#(原3-15#)204

        新陽廣場店面北5(有家床上品)

        北門路1014-302#(原永盛廣場B1區(qū)A外街南)(廁所)

        典型的標準地址格式由地址索引碼、地址字符串和經(jīng)緯度等信息組成,如下所示:

        “416F8B2A488741E7A87976662556C1BC”,“昆山市玉山鎮(zhèn)柏廬南路1126號”,“KUSYSZBLNL”,“120.9613000”,“31.3703500”,“320583”,“168B61105BC84D77975300FAD141929D”,“”,“”,“0”,“0”,“20-2月-12 10.57.01.109000上午”,“1126”,“1”,“0”。

        人工標注匹配地址數(shù)據(jù)集描述了淘選基礎上非標地址與標準地址的人工查找和觀察對應關系,地址中“ ”符號為制表分隔符,如下所示:

        震川中路2#底車庫12室 其他

        中華園15#405 昆山市玉山鎮(zhèn)中華園15幢405室

        富陽新村29#704(原604) 昆山市玉山鎮(zhèn)富陽新村29幢704室

        4.1.2 實驗工具與環(huán)境

        非標地址自動匹配系統(tǒng)采用Java語言設計與開發(fā),系統(tǒng)包含四個程序包,分別為:數(shù)據(jù)清洗工具程序包dataClean、地址自動匹配程序包addressSim、數(shù)據(jù)結果驗證工具包addressCheck和常用封裝庫程序包lib。

        數(shù)據(jù)清洗工具程序包dataClean用于提供清洗標準地址的子模塊程序;地址自動匹配程序包addressSim提供了標準地址建模模塊和非標地址匹配模塊;數(shù)據(jù)結果驗證工具包addressCheck用于驗證匹配結果是否正確;常用封裝庫程序包lib提供了常用的文件I/O、二元組數(shù)據(jù)結構和二元組比較器等常用自制程序庫。

        實驗硬件環(huán)境:文中使用計算服務器為8核Intel Xeon E5-2640 V2,2.00GHz處理器,128G內存。軟件配置為Ubuntu 16.04 LTS,Java JDK 1.8.0。

        4.2 評價指標

        文中實驗共設置計算速度和匹配準確性兩類指標,其中速度指標由標準地址數(shù)量、查找次數(shù)和查找時間反映,準確性指標由準確率(Accuracy)、精確率(Precision)、召回率(Recall)和F1值反映。

        實驗的計算速度中的標準地址數(shù)量指的是模型所構建的標準地址詞典中的地址數(shù)量;查找次數(shù)表示需自動匹配的非標地址總數(shù)量;查找時間表示自動匹配所有非標地址的總時間。

        實驗的準確性指標計算方法如下所示:在非標地址匹配中,設TP為模塊匹配正確的地址數(shù)量,設FP為模塊匹配錯誤的地址數(shù)量,設TN為模塊找到的匹配地址在實際情況下無標準地址,設FN為0。

        準確率計算公式

        精確率計算公式

        召回率計算公式

        F1計算公式

        4.3 實驗設計

        文中實驗分為四類:(1)系統(tǒng)運行速度指標實驗。該實驗在系統(tǒng)中編寫了時間戳程序,以計算時間差的方法獲取模塊運行時間。由于系統(tǒng)運行時間易受到計算機軟硬件環(huán)境等其他因素影響,該實驗使用多次運行取平均值方法確定時間。(2)地址淘選算法準確性實驗。該實驗用于評價淘選工作是否將非標地址自動匹配的計算空間縮小了范圍并仍使標準答案處于縮小后的計算空間中。該實驗中設縮小范圍后的搜索關鍵詞仍在結果中的計算次數(shù)為TP;設縮小范圍后搜索關鍵詞丟失的計算次數(shù)為FP;設原地址在字典中無關鍵詞的計算次數(shù)為TN,設FN為0。(3)系統(tǒng)整體自動匹配準確性實驗。該實驗在淘選實驗完成之后,使用某自來水公司非標地址數(shù)據(jù)集,將系統(tǒng)整體自動匹配的計算結果與人工標注答案比較,得出實驗結果。該實驗中假設與人工標注的正確標準地址一致的非標地址數(shù)量為TP,與人工標注的正確標準地址不一致的非標地址數(shù)量為FP。假設人工標注中無正確答案的非標地址數(shù)量為TN,該實驗中不設置將無正確答案地址做自動匹配,設FN為0。文中系統(tǒng)使用一級算法與二級算法組合的方法,設計了四組對比實驗。(4)系統(tǒng)整體自動匹配泛化能力準確性測試實驗。該實驗在淘選實驗完成之后,使用來自5個社會機構的泛化非標地址數(shù)據(jù)集,將系統(tǒng)整體自動匹配的計算結果與人工標注答案比較,得出實驗結果。該實驗分為四組,參數(shù)、實驗方法與實驗(3)相同。用于驗證匹配方法的泛化能力。

        4.4 實驗結果

        各項實驗經(jīng)過調試運行得到結果。系統(tǒng)運行速度指標實驗結果見表1。地址淘選準確性實驗結果見表2。系統(tǒng)整體自動匹配準確性度量指標實驗結果見表3。系統(tǒng)整體自動匹配泛化能力準確性測試指標見表4。

        表1 系統(tǒng)運行速度指標

        表2 地址淘選算法準確性度量指標(自來水公司非標地址數(shù)據(jù)集)

        表3 系統(tǒng)整體自動匹配準確性度量指標(自來水公司非標地址數(shù)據(jù)集)

        表4 系統(tǒng)整體自動匹配泛化能力準確性度量指標(拓展到五類來自其他機構的非標地址數(shù)據(jù)集)

        5 討論與分析

        5.1 系統(tǒng)運行速度指標分析

        由表1可知,在查找總時間方面,方法一為38 368 s,該方法在五種方法中最耗時,主要原因是因為使用了詞頻淘選法。該淘選方法相比經(jīng)驗淘選法,犧牲了大量淘選結果空間來提高淘選準確率,在淘選步驟后的余弦相似計算也需計算更多的候選項,因此,會耗時更多,約2 s才能匹配一個非標地址。

        方法二在方法一的基礎上,加入了多線程技術,使用20線程同時計算地址匹配數(shù)據(jù),因此,統(tǒng)計的耗時縮短為2 126 s。

        方法三與方法四的1.6萬非標地址匹配時間均為12 min左右,說明這兩類方法每秒可為約23條非標地址提供自動匹配。方法三的查找時間為734 s,比方法四使用的時間725 s多了9 s左右,原因是方法三添加了余弦相似的混合方法,因此,計算量增加。方法五的查找時間為587 s,小于方法四所用時間,其實質是因為減小窗長引起了向量空間維度的重疊,將原本應屬于不同維度的向量基合并到了一起;向量空間維度的降低使得查找范圍縮小,查找時間縮短,但嚴重降低了準確率和精確率。

        5.2 面向自來水公司非標地址淘選算法準確性度量指標分析

        由表2可知,面向自來水公司非標地址的經(jīng)驗淘選法其準確率、精確率和F1值分別為99.57%、99.43%和99.72%,表明基于經(jīng)驗的地址淘選方法具有較高的準確性。而單個關鍵詞對應最大地址數(shù)為15 000,表示通過對非標地址的一個關鍵詞查找后,可以將95萬條待選標準地址縮小到15 000以內,理想情況下,單關鍵詞查找范圍至少縮小了63倍。

        由于經(jīng)驗淘選法在縮小查找范圍時丟失了部分的正確匹配項,在系統(tǒng)地址匹配環(huán)節(jié)行引入了誤差,因此設計詞頻淘選法,該方法能夠在淘選時保留所有正確匹配項。相比經(jīng)驗淘選法,詞頻方法擴大了結果的查找范圍,但仍具有一定的縮小查找范圍的能力。由于保留了所有正確匹配項,詞頻淘選法的準確率、精確率、召回率和F1值均為100%。而單個關鍵詞對應最大地址數(shù)為45 000,表示通過對非標地址的一個關鍵詞查找后,可以將95萬條待選標準地址縮小到45 000以內,理想情況下,單關鍵詞查找范圍至少縮小了21倍。

        5.3 面向自來水公司非標地址的系統(tǒng)整體自動匹配準確性度量指標

        方法一:以詞頻淘選法為基礎,使用步長為1、窗長為2的詞向量切割方法搭配余弦相似算法和余弦相似混合方法,所得結果的準確率和精確率分別為97.95%和97.35%。方法二未使用方法一中的淘選方法,改用經(jīng)驗淘選法,其他與方法一相同,所得結果準確率和精確率分別為98.32%和97.82%;方法二對比方法三,由于加入了余弦相似混合算法,準確率提高了8.26%,精確率提高了10.66%,改進明顯。

        方法三:以經(jīng)驗淘選法為基礎,使用步長為1、窗長為2的詞向量切割方法搭配余弦相似算法,所得結果的準確率和精確率分別為90.06%和87.16%。對比方法四:步長為1、窗長為1的計算方法的準確率和精確率為42.85%和26.15%,可知增加詞向量切割窗長可大幅提高準確率和精確率。窗長為1時計算兩個詞向量的相似度,原本應為不同維度的向量基互相產(chǎn)生重疊,使得向量空間的維度減少,最終導致準確度和精確度嚴重下降。而方法一增加一個窗長長度,使得向量空間的各向量基保持在自己的維度上,不會互相重疊和影響,因而能得到較高的準確率和精確率。方法三的F1值為93.13%說明該相似度計算方法具有一定的可用性,而方法四的F1值僅為41.46%,說明該參數(shù)的相似度計算方法可用性很低。

        5.4 系統(tǒng)整體自動匹配泛化能力準確性測試指標

        由表4可知,在拓展到五類非自來水公司機構提供的非標地址數(shù)據(jù)集上實驗時,除了采用詞頻理論的方法一能夠保持性能穩(wěn)定,F(xiàn)1值達到98.33%之外,表中其他采用經(jīng)驗法的各項方法性能指標與表3相比顯著下降。說明這些方法泛化能力不佳,可能存在過擬合現(xiàn)象;而方法一在某自來水廠提供的非標準地址和其他5個社會機構地址的表現(xiàn)和性能一致,說明基于詞頻理論的算法具有良好的準確性和泛化能力。

        6 結語

        文中提出了一種建筑非標地址標準化自動匹配模型,主要包括標準地址建模和非標地址匹配兩個步驟;使用標準地址詞典、地址淘選、地址相似度計算等方法,完成非標地址與標準地址的匹配。實驗結果表明,基于詞頻理論所構建模型在準確率和泛化能力方面表現(xiàn)突出,已經(jīng)能夠達到實用要求;但計算速度還有待提高。下一步研究方向:(1)將模型實現(xiàn)移植到高性能云計算平臺,采用分布式計算架構,提高模型計算速度,為實戰(zhàn)應用提供基礎支撐;(2)將深度學習方法引入到地址匹配過程中,提升非標地址語義級別的處理性能。

        猜你喜歡
        標準實驗方法
        記一次有趣的實驗
        2022 年3 月實施的工程建設標準
        做個怪怪長實驗
        忠誠的標準
        當代陜西(2019年8期)2019-05-09 02:22:48
        美還是丑?
        可能是方法不對
        NO與NO2相互轉化實驗的改進
        實踐十號上的19項實驗
        太空探索(2016年5期)2016-07-12 15:17:55
        用對方法才能瘦
        Coco薇(2016年2期)2016-03-22 02:42:52
        一家之言:新標準將解決快遞業(yè)“成長中的煩惱”
        專用汽車(2016年4期)2016-03-01 04:13:43
        久久久熟女一区二区三区| 亚洲熟女乱色综合亚洲av| 双乳被一左一右吃着动态图| 草莓视频成人| 亚洲人成网站18男男| 日本在线视频二区一区| 国产精品一品二区三区| 日本h片中文字幕在线| 国产尤物精品视频| 久久久久国产一区二区三区| 一区一级三级在线观看| 中文字幕亚洲人妻系列| 亚洲av粉色一区二区三区| 日韩一区中文字幕在线| 我和丰满妇女激情视频| ā片在线观看免费观看| 亚洲色大成在线观看| 日本岛国大片不卡人妻| 免费看黄视频亚洲网站| 国产日产欧产精品精品蜜芽| 久久久无码人妻精品无码| 欧美粗大无套gay| 成人无码a级毛片免费| 亚洲精品一区二区三区日韩 | 久久精品国产亚洲av试看 | 亚洲国产成人精品女人久久久| 色人阁第四色视频合集网| 亚洲中文字幕剧情类别| 欧洲多毛裸体xxxxx| 国产亚洲av人片在线观看| 国产精品综合久久久久久久免费| 亚洲国产精品天堂久久久 | 人妻少妇人人丰满视频网站| 人妖系列在线免费观看| av影院手机在线观看| 亚洲欧美牲交| 久久香蕉免费国产天天看| 精品蜜桃av一区二区三区| 青青久在线视频免费视频| 日本无码欧美一区精品久久 | 久久天天躁狠狠躁夜夜中文字幕|