亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)挖掘地址的文本信息提取方法

        2022-12-21 10:04:20郭利榮
        信息記錄材料 2022年10期
        關(guān)鍵詞:服務(wù)供應(yīng)商語料庫數(shù)據(jù)挖掘

        郭利榮

        (中數(shù)通信息有限公司 廣東 廣州 510630)

        0 引言

        隨著計算機(jī)網(wǎng)絡(luò)的發(fā)展與普及,許多傳統(tǒng)的信息處理方式因此而改變,大量原本以書面方式存在的文本信息,被轉(zhuǎn)換成數(shù)字信息進(jìn)行傳遞[1]。從而極大地提升了信息的存儲及傳輸效率,信息的總量爆炸式增加,然而具有價值的信息量并未隨信息總量同比增長,具有價值的信息在信息規(guī)模爆炸的情況下反而更加難以獲取。傳統(tǒng)的信息檢索方法無法有效地幫助使用者分析和理解規(guī)模巨大的文本數(shù)據(jù),因此產(chǎn)生了許多試圖從文本中獲取知識的研究[2-3]。

        文本挖掘與數(shù)據(jù)挖掘?qū)Ρ龋渥畲髤^(qū)別便是數(shù)據(jù)挖掘面向的數(shù)據(jù)集通常是結(jié)構(gòu)化的,而文本挖掘所面對的文本信息往往是非結(jié)構(gòu)化的[4-5]。文本挖掘最常見的對象就是網(wǎng)頁文本。文本挖掘常常使用的技術(shù)有自然語言處理、統(tǒng)計分析、概率模式、機(jī)器學(xué)習(xí)等,運用及探究的方向主要有信息提取、文本摘要、信息過濾、對實體的標(biāo)注、意見分析、關(guān)系探索、情感分析、文本分類、文本聚類等。文本挖掘的目的就是從非結(jié)構(gòu)化的文字發(fā)掘出有用或是有趣的片段、模型、趨勢和規(guī)律[6-7]。

        目前,想要獲取地址文本信息,主要來源是通過高德地圖、百度地圖等地理信息服務(wù)供應(yīng)商[8]。這些供應(yīng)商擁有開放的平臺,可以獲取大量的地址文本信息及其對應(yīng)的地理信息。通過該平臺開放的逆地理編碼接口,使用隨機(jī)生成的地理位置坐標(biāo)信息,就能夠獲得大量的地址文本信息,這些地址文本信息是詳細(xì)且結(jié)構(gòu)化的。同時通過爬蟲從公開的媒體網(wǎng)站上獲取文本,用于構(gòu)建測試集。

        1 分析準(zhǔn)備工作

        1.1 馬爾可夫鏈

        馬爾可夫鏈(Markov chain,MC)來源于俄國數(shù)學(xué)家安德雷·安德耶維齊·馬爾可夫[9],其定義為以概率空間內(nèi)的一維可數(shù)集為指數(shù)集的隨機(jī)變量集合X ={Xn}(n>0),若隨機(jī)變量的取值均在可數(shù)集內(nèi),且隨機(jī)條件概率滿足式(1),可表示為:

        式中:Xt+1。即第t+1個隨機(jī)變量的取值只與第t個變量有關(guān),對于一個MC,在給定過去的狀態(tài)為X0,X1,…,Xn-1和當(dāng)前的狀態(tài)為Xn時,將來狀態(tài)Xn+1的條件分布獨立于過去的狀態(tài),只于當(dāng)前狀態(tài)Xn有關(guān)。

        由于馬爾科夫限定的隨機(jī)變量取值在可數(shù)集內(nèi),就意味著MC的狀態(tài)是有限的,由此可以定義Pij作為從i狀態(tài)轉(zhuǎn)移到j(luò)狀態(tài)的概率,其公式可表示為:

        由于概率非負(fù),且過程必須轉(zhuǎn)移到某個狀態(tài)(也可能轉(zhuǎn)移到自身),可表示為:

        如果將每種狀態(tài)之間的轉(zhuǎn)移概率以矩陣的形式記錄,就可以得到一個轉(zhuǎn)移概率矩陣,這個矩陣就表明了各個狀態(tài)間的轉(zhuǎn)移概率。MC經(jīng)常會被用于天氣預(yù)測、股市分析等領(lǐng)域[10]。

        對于研究而言,MC還可以推廣到更高階,其公式可表示為:

        也就是對于將來的狀態(tài)Xn+1而言,其狀態(tài)條件分布只與過去的t-k個和現(xiàn)在的狀態(tài)有關(guān)。因此,對于MC而言,可以稱之為無記憶性的,其表現(xiàn)只與之前限定期限內(nèi)狀態(tài)有關(guān)。在文本標(biāo)注中,由于其無記憶性,就可以專注于需要標(biāo)注的指定文本,而不需要對全文進(jìn)行分析。

        1.2 地圖服務(wù)接口

        由于文本中的地址信息是分散或是省略的,需要使用地圖服務(wù)接口對其進(jìn)行補(bǔ)全。目前中文互聯(lián)網(wǎng)上主要的2家地圖服務(wù)供應(yīng)商均對外提供了地圖服務(wù)接口,其中包括了地理/逆地理編碼,可以通過隨機(jī)生成經(jīng)緯度信息獲取大量的地點名詞典。同樣也包含了地名查詢的接口,可以將只包含部分地址信息的內(nèi)容通過該接口進(jìn)行補(bǔ)全。由于高德地圖提供的接口能夠有限度地免費供開發(fā)者使用,因此在研究過程中使用的均為高德地圖的接口,在實際項目實施的過程中需要依據(jù)實際情況決定。

        對于地圖服務(wù)接口的調(diào)用主要依靠python requests實現(xiàn),這種方法相對簡潔,只需要提供查詢詞、接口key和URL便可以獲得JSON格式的查詢結(jié)果。對于部分可能出現(xiàn)重復(fù)的地名,該接口同樣可以使用多個關(guān)鍵詞來提升查詢的準(zhǔn)確性。

        2 對案例文本的地點信息提取

        為了提升識別的準(zhǔn)確性,可以借助運算能力更強(qiáng)的機(jī)器或者花費相對多一點的時間,從而對文本做出更加精確的標(biāo)注。在基于模型的方法中,會更多地考慮到目標(biāo)詞在整段文本中的位置,通過其上下文,以及語意分析進(jìn)行考慮。

        2.1 文本收集和清洗

        用于訓(xùn)練的文本選擇人民日報2014語料庫,這是一個已經(jīng)事先標(biāo)注好詞性的語料庫,如圖1所示。

        圖1 語料庫

        其中標(biāo)注為ns的即為地點信息,只需要一個簡單的程序就可以對其拆分。首先,將地址詞前一個詞標(biāo)注為A,后一個詞標(biāo)注為B。之后,將ns對比已有的地點詞典,詞典中主要包含縣級及以上的行政區(qū)劃名,如果屬于這一類地點,則標(biāo)注為G,表明為現(xiàn)有地點,并拆分末尾的“省”“市”等行政區(qū)劃限定詞標(biāo)注為H。將不包含在現(xiàn)有地名的詞按字拆分,末尾字標(biāo)為H,首字標(biāo)為C,之后依次標(biāo)注中部為D、末部為E給各個字。最后,將剩余部分均標(biāo)注為Z。

        而對于收集到用于測試集得到文本數(shù)據(jù),首先要清除其中包含的非常用字符,僅保留中文字符和標(biāo)點符號,可以考慮半角標(biāo)點轉(zhuǎn)換為圓角標(biāo)點。進(jìn)行清理的目的是保證分詞程序的順暢運行,提升分詞程序的運行效率。

        2.2 序列標(biāo)注

        序列標(biāo)注所針對的是訓(xùn)練集,雖然用于訓(xùn)練的語料庫已經(jīng)進(jìn)行了分詞和標(biāo)注,但該語料庫所標(biāo)注的類型并不符合模型的需求。應(yīng)將語料庫進(jìn)一步劃分,具體的角色分配的意義及示例見表1。

        表1 角色分配的意義及示例

        此部分的處理可以通過自行編寫一個簡單的腳本進(jìn)行實現(xiàn)。具體實現(xiàn)過程如下:

        1)將被標(biāo)注為nr也就是人名部分的詞替換為“未##人/nr”;

        2)在首部和尾部分別添加“始##始/S”和“末##末/Z”,方便程序運行;

        3)將標(biāo)注為ns的前一詞標(biāo)注為A后一詞標(biāo)注為B,若前(或后)一詞也為ns則不變;

        4)當(dāng)發(fā)現(xiàn)ns的前一詞已經(jīng)被標(biāo)注為A時,將其標(biāo)為X;

        5)將ns對比現(xiàn)有地名,若已存在則部分標(biāo)為G,如不存在則將地名拆分成單個字,依次以C、D、E標(biāo)注,并將最后一個字標(biāo)為H;

        6)將剩余標(biāo)注修改為Z,表示無意義。

        2.3 最終實現(xiàn)

        自動識別的最大困難已經(jīng)在標(biāo)注過程中解決,因而識別過程相對簡單,只需要查找滿足CH/CDH/CDFH/GH的子串即可。自動識別效果如圖2所示。

        圖2 自動識別效果圖

        標(biāo)注結(jié)果為:

        始##始/S,未##人/Z,來自/A,湖北/G,的/X,荊/C,門/H,B,在/A,佛山/G,市/H,南/C,海/D,區(qū)/H,大/C,瀝/D,鎮(zhèn)/H,某/B,物業(yè)公司/Z,做/Z,保安/Z,末##末/Z。

        從中獲取到的地名有“荊門”“佛山市”“南海區(qū)”“大瀝鎮(zhèn)”。同時可以借助行政區(qū)劃或者地圖服務(wù)供應(yīng)商,將地名信息補(bǔ)充完整。在這個過程中,將滿足GH的子串定義為固有地點,將滿足CH/CDH/CDFH的子串定義為其他地點。通常固有地點為現(xiàn)有的行政區(qū)劃名稱,而其他地點通常為鄉(xiāng)一級的行政區(qū)劃或者是范圍較小的地點名,其他地點由于在全國范圍內(nèi)的重名率較高,容易出現(xiàn)混淆。因此通過結(jié)合固有地點與其他地點,可以獲得更準(zhǔn)確的地點信息。

        2.4 通過網(wǎng)絡(luò)服務(wù)優(yōu)化結(jié)果

        在互聯(lián)網(wǎng)的幫助下,可以通過地圖服務(wù)供應(yīng)商獲得更加龐大的地址數(shù)據(jù)庫,通過以下格式向高德地圖api發(fā)送請求:

        parameters = {'output':'json',

        'key':'#########################',

        'keywords':'#固有地址信息|其他地址信息#',

        }

        base = 'https://restapi.amap.com/v5/place/text?parameters'

        response = requests.get(base,parameters)

        通過這樣一種方式,就可以對提取到的地址信息進(jìn)行擴(kuò)張。對于部分如“望海樓”重名的地址名詞,往往無法獲得指定的地址,因此考慮通過與其最近的固有地址進(jìn)行組合查找。在“望海樓”前增加限定詞“珠?!焙?,該搜索結(jié)果便是精確可用的。通過這一種固有地址組合地名信息聯(lián)合查找的方式,對于一部分模糊地點也能夠進(jìn)行定位。這極大地提升了從文本中獲取到的地址信息的準(zhǔn)確性。

        本文是從案例文本中獲取地址信息的,因此希望獲得的地址信息應(yīng)當(dāng)是精確到縣級以下,因此要對模型方法所獲得的結(jié)果進(jìn)行后續(xù)處理。處理邏輯過程如下:

        1)按序提取已經(jīng)標(biāo)注的地點信息,排除其他詞的干擾,同時將地址類別為固有地址的詞段進(jìn)行標(biāo)記;

        2)遍歷全部的非固有地名信息,將其與其前一個最近的固有地名組合;

        3)該組使用request高德地圖api,獲取搜索結(jié)果,將結(jié)果替換原先非固有地名;

        4)刪除仍然存在的固有地名。

        經(jīng)過以上模型處理后,程序運行結(jié)果如圖3所示。

        圖3 程序運行結(jié)果

        顯然,“中大五院”未被識別為地點,實際上是由于模型未能識別該地點。通過對語料庫的分析判斷,可能是其被標(biāo)注為nt,即機(jī)構(gòu)團(tuán)體名所導(dǎo)致的結(jié)果。

        3 結(jié)語

        綜上所述,通過數(shù)據(jù)挖掘模型方法對文本內(nèi)容中的地址信息提取提供了方案。先介紹了文本數(shù)據(jù)挖掘的方法及在項目中所需要的模型算法,在對模型方法的實際運用過程中,可以看出模型方法在面對部分固有地名已經(jīng)退化統(tǒng)計。同時,對模型方法提出了更高的要求,能夠更加準(zhǔn)確地理解語境。本文也開創(chuàng)性地提出了將地點信息分級方法,通過將信息分級為固有地點和其他地點,并依據(jù)其他地點會跟固有地點相近出現(xiàn)的文本規(guī)律。通過地圖信息服務(wù)供應(yīng)商,結(jié)合查詢固有地點與其他地點,便能夠獲取準(zhǔn)確且相對單一的地點信息。

        猜你喜歡
        服務(wù)供應(yīng)商語料庫數(shù)據(jù)挖掘
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢
        《語料庫翻譯文體學(xué)》評介
        基于并行計算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        把課文的優(yōu)美表達(dá)存進(jìn)語料庫
        產(chǎn)品服務(wù)化供應(yīng)鏈協(xié)調(diào)的收益激勵機(jī)制
        服務(wù)供應(yīng)商參與煤炭交易中心平臺治理的方式
        中國煤炭(2016年1期)2016-05-17 06:11:30
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        基于JAVAEE的維吾爾中介語語料庫開發(fā)與實現(xiàn)
        語言與翻譯(2015年4期)2015-07-18 11:07:45
        導(dǎo)游服務(wù)供應(yīng)商競爭下服務(wù)外包激勵契約設(shè)計
        基于GPGPU的離散數(shù)據(jù)挖掘研究
        国产精品无码aⅴ嫩草| 亚洲黄色电影| 亚洲色大成人一区二区| 中文字幕高清一区二区| 久久精品国语对白黄色| 伊人久久大香线蕉av五月| 东北老女人高潮大喊舒服死了| 亚洲另类自拍丝袜第五页 | 欧美喷潮久久久xxxxx| 中国免费av网| 国产精品亚洲一二三区| 无码人妻久久一区二区三区蜜桃| 国产午夜精品久久久久免费视| 娇柔白嫩呻吟人妻尤物| 亚洲精彩av大片在线观看| 凹凸国产熟女精品视频app| 天天躁日日躁狠狠久久| 四虎精品免费永久在线| 国产内射视频免费观看| 东京热加勒比久久精品| 亚洲中文字幕无码中文字| 国产自偷自偷免费一区| 国产成人久久蜜一区二区| 日韩女同一区在线观看| 日韩中文字幕有码午夜美女| 99精品国产一区二区三区a片| 日韩精品无码一区二区三区免费| 国产精品网站夜色| 99视频偷拍视频一区二区三区| 亚洲av片无码久久五月| 久久久噜噜噜www成人网| 丁香六月久久| 草逼视频污的网站免费| 国产又粗又黄又爽的大片| 18禁无遮挡羞羞污污污污网站| 亚洲精品国产综合久久一线| 精品中文字幕久久久人妻| 亚洲乱码国产乱码精华| 成人免费网站视频www| 亚洲国产免费公开在线视频| 国产极品大秀在线性色|