亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于混合專業(yè)詞典的繼電保護(hù)定值在線智能比對(duì)方法

        2020-05-07 01:49:32李紅志王彪陳卉孔祥鵬陳中
        廣東電力 2020年4期
        關(guān)鍵詞:字符串分詞定值

        李紅志,王彪,陳卉,孔祥鵬,陳中

        (1.國網(wǎng)青海省電力公司電力調(diào)控中心,青海 西寧 810001;2.東南大學(xué) 電氣工程學(xué)院,江蘇 南京 210096;3.國網(wǎng)青海省電力公司電力科學(xué)研究院,青海 西寧 810008)

        繼電保護(hù)定值的正確性對(duì)保證電網(wǎng)的安全運(yùn)行和充分發(fā)揮繼電保護(hù)裝置性能至關(guān)重要[1-2]。隨著電網(wǎng)運(yùn)行方式的改變,裝置的保護(hù)定值也要隨之更改[3-7]。系統(tǒng)自動(dòng)修改保護(hù)定值短期內(nèi)難以實(shí)現(xiàn),手工修改定值對(duì)人員的責(zé)任心要求很高,需要進(jìn)行核對(duì)和把關(guān);在長期運(yùn)行中,繼電保護(hù)設(shè)備本身也會(huì)出現(xiàn)定值漂移的問題。及時(shí)有效地發(fā)現(xiàn)這些問題,不僅能解除電網(wǎng)的安全隱患,還能防止保護(hù)誤動(dòng)[8]。定值核對(duì)工作主要依靠專業(yè)人員手動(dòng)開展,工作量大,任務(wù)繁重[9]。保護(hù)信息管理系統(tǒng)對(duì)保護(hù)裝置運(yùn)行定值的召喚功能為繼電保護(hù)定值校核系統(tǒng)的研究和應(yīng)用提供了技術(shù)支撐[10-11]。

        文獻(xiàn)[12]基于方式變化影響域和故障量計(jì)算結(jié)果的排序來優(yōu)化提高定值在線分析的速度,實(shí)現(xiàn)繼電保護(hù)定值的快速在線預(yù)警。為了使繼電保護(hù)定值在線校核更加高效合理,文獻(xiàn)[13-14]以保護(hù)綜合重要度的量化指標(biāo),研究繼電保護(hù)定值的校核順序。文獻(xiàn)[15]在即插即用理論研究基礎(chǔ)上,結(jié)合電力系統(tǒng)智能化技術(shù),提出新的信息自動(dòng)校核技術(shù)。繼電保護(hù)定值在線比對(duì)系統(tǒng)實(shí)現(xiàn)的關(guān)鍵是變電站端運(yùn)行定值和主站端整定定值對(duì)應(yīng)定值項(xiàng)名稱的匹配,即字符串的模糊匹配和相似度連接問題。編輯距離在字符串相似度連接中得到了廣泛的應(yīng)用,文獻(xiàn)[16-20]都對(duì)編輯距離算法進(jìn)行了改進(jìn),優(yōu)化了字符串相似算法。中文分詞是中文信息處理中重要的預(yù)處理,分詞的速度和精度直接影響信息處理的結(jié)果。文獻(xiàn)[21]改進(jìn)了逆正向最大匹配算法,在整個(gè)句子范圍內(nèi)實(shí)現(xiàn)“長詞優(yōu)先”的原則,提高了分詞的準(zhǔn)確度。文獻(xiàn)[22]引入條件隨機(jī)處理未登錄詞。文獻(xiàn)[23-24]采用雙重過濾-驗(yàn)證機(jī)制減小候選集,降低了相似連接時(shí)間。

        目前已有上線的繼電保護(hù)定值比對(duì)系統(tǒng),但由于眾多設(shè)備廠家及調(diào)度主站對(duì)定值項(xiàng)名稱的命名規(guī)范和習(xí)慣不同,存在兩大類定值項(xiàng)匹配出錯(cuò)的問題:第1類是同義異形詞之間的匹配問題,分為中文同義異形詞(如“啟動(dòng)”和“起動(dòng)”),英文同義異形詞(如“TV”和“PT”)以及序號(hào)類同義異形詞(如“零序電流1段”和“零序電流Ⅰ段”);第2類是詞序不同語義相同的短語匹配問題,由漢語中多修飾詞的偏正短語表達(dá)多樣性引起,當(dāng)有多個(gè)修飾詞修飾、描述后面的中心詞時(shí),多個(gè)修飾詞的相對(duì)順序往往比較靈活(如“零序Ⅱ段電流定值”和“Ⅱ段零序電流定值”)。

        針對(duì)上述問題,本文對(duì)整詞二分詞典進(jìn)行改進(jìn),拓展詞典的數(shù)據(jù)結(jié)構(gòu),添加同義詞標(biāo)志項(xiàng),從而更好地處理同義異形詞的匹配問題。此外,將中文、英文以及一些序號(hào)類字符均納入詞典中,便于對(duì)包含各種語言元素的短語同時(shí)處理;基于改進(jìn)的混合詞典,通過最大正向匹配算法對(duì)短語進(jìn)行分詞操作,在分詞過程中,將同義詞直接替換為標(biāo)志同義詞以提高匹配準(zhǔn)確度;通過基于定值單結(jié)構(gòu)的類型過濾和首項(xiàng)過濾的雙重過濾算法進(jìn)行預(yù)處理操作,縮小精確匹配的目標(biāo)空間,減少時(shí)間開銷;然后采用集合相似性度量對(duì)篩選出的目標(biāo)空間進(jìn)行精確匹配;最后對(duì)符合字符串名稱匹配要求的定值項(xiàng)進(jìn)行定值比對(duì),若定值不一致,調(diào)整匹配策略進(jìn)行再次匹配篩選。

        1 在線智能比對(duì)方法總體架構(gòu)

        定值比對(duì)的總體架構(gòu)如圖1所示,整個(gè)定值單按照定值類型逐項(xiàng)進(jìn)行比對(duì)。首先采用改進(jìn)的最大正向匹配(forward maximum matching,F(xiàn)MM)算法對(duì)整定定值單Z和運(yùn)行定值單Y的定值項(xiàng)名稱分別進(jìn)行分詞,然后對(duì)原始搜索空間進(jìn)行雙重過濾,縮小目標(biāo)空間詞條數(shù),最后對(duì)過濾后的目標(biāo)空間進(jìn)行定值名稱的匹配和定值取值比對(duì)。

        圖1 定值比對(duì)方法總架構(gòu)Fig.1 Check of setting value architecture

        2 改進(jìn)最大正向匹配算法

        繼電保護(hù)定值名稱由繼電保護(hù)各類術(shù)語組成,在中文信息處理中,大部分是利用分詞技術(shù)進(jìn)行中文詞的提取[20]。本節(jié)通過構(gòu)建包含中西文的混合專業(yè)字典,利用改進(jìn)FMM算法進(jìn)行分詞處理,可有效地提高分詞準(zhǔn)確度。

        2.1 改進(jìn)詞典機(jī)制

        為了便于進(jìn)行分詞處理,基于對(duì)繼電保護(hù)定值名稱的分析,本文將繼電保護(hù)定值名稱分為兩類:一類是單一型詞結(jié)構(gòu),如電壓、電流;另一類是復(fù)合型詞結(jié)構(gòu),由序號(hào)類詞和中心詞復(fù)合才能表達(dá)完整語義,如Ⅱ段、支路1。復(fù)合型詞的中心詞可與不同的序號(hào)類詞搭配,從而表達(dá)不同的含義。為更好地解決引言提到的問題以及多種語言混合表達(dá)的問題,有必要對(duì)原有詞典結(jié)構(gòu)進(jìn)行改進(jìn)和拓展[17]。改進(jìn)的混合詞典為3層結(jié)構(gòu),如圖2所示。

        第1層為首字Hash表,包括首字、最大詞長和第一項(xiàng)指針;第2層為詞索引表,包括所有詞長和詞典正文指針;第3層為詞典正文,包括詞條、復(fù)合型詞標(biāo)志和同義詞標(biāo)志。詞條為繼電保護(hù)相關(guān)的專業(yè)詞匯,包括中文詞匯、英文詞匯、各種序號(hào)類字符;復(fù)合型詞標(biāo)志的數(shù)據(jù)類型為布爾型,“0”表示該詞條非復(fù)合型詞匯,“1”表示該詞條為復(fù)合型詞匯;同義詞標(biāo)志的數(shù)據(jù)類型為無符號(hào)整形,“0”表示該詞條在詞典中不存在同義詞或者該詞條為所有同義詞的標(biāo)志性表達(dá),非零整數(shù)表示該詞條在詞典中存在同義詞表達(dá),且該整數(shù)即為對(duì)應(yīng)同義詞在詞典中的序號(hào)。如圖2所示,“啟失靈”、“啟動(dòng)失靈”“起失靈”和“起動(dòng)失靈”均為同義表達(dá),其中“啟失靈”為該組同義詞的標(biāo)準(zhǔn)表達(dá),稱之為標(biāo)志詞,其下標(biāo)為0,其余同義詞的同義詞標(biāo)志項(xiàng)均為18,也即“啟失靈”在詞典中的序號(hào)。通過同義詞標(biāo)志可快速實(shí)現(xiàn)同義詞替換。

        2.2 分詞順序改進(jìn)

        基于改進(jìn)混合詞典,按照最大詞長原則對(duì)字符串進(jìn)行分詞[17]。為了配合過濾機(jī)制,使之有更高的效率,改變分詞順序,首先對(duì)復(fù)合型詞進(jìn)行分詞,再對(duì)單一型詞進(jìn)行分詞[17]。若定值名稱中含有復(fù)合型詞,則復(fù)合型詞總在分詞后的詞序列首位置。改進(jìn)FMM算法如圖3所示。首先遍歷整個(gè)定值名稱字符串,查找是否存在復(fù)合型詞標(biāo)志詞或序號(hào)類詞;若存在,則接著判斷該詞后一個(gè)詞是否為序號(hào)類詞或復(fù)合型詞標(biāo)志詞;若是,則將這2個(gè)詞組合成復(fù)合型詞。將整個(gè)字符串中的復(fù)合型詞都處理完再對(duì)單一型詞進(jìn)行分詞。

        3 基于分詞的雙重過濾機(jī)制

        如果對(duì)整個(gè)文本進(jìn)行精確匹配,將會(huì)產(chǎn)生巨大的時(shí)間資源消耗,應(yīng)該采用適當(dāng)?shù)倪^濾方法過濾掉文本中明顯不相似的定值項(xiàng),降低代價(jià)。文獻(xiàn)[20]采用長度和后綴的雙重過濾機(jī)制進(jìn)行過濾操作。繼電保護(hù)定值名稱長度多為4~12個(gè)字符,長度范圍較為集中,且大部分名稱長度相差不大,同時(shí)存在大量具有相同后綴的定值名稱;因此長度加后綴的雙重過濾機(jī)制過濾效率不高。結(jié)合繼電保護(hù)定值名稱特點(diǎn),本文采用定值類型-首項(xiàng)的雙重過濾機(jī)制,以提高過濾力度。

        3.1 類型過濾

        一個(gè)保護(hù)裝置的保護(hù)類定值數(shù)量可達(dá)兩三百項(xiàng),這些定值可按一定的原則進(jìn)行分類,如設(shè)備參數(shù)定值、控制字等,將定值單的格式按照定值類型、定值名稱、定值的形式進(jìn)行組織。設(shè)源字符串為s,原始目標(biāo)字符串空間T={t1,t2,…,tl}。首先獲取源字符串s的定值類型cs,然后按照定值類型對(duì)原始目標(biāo)空間進(jìn)行篩選,得到符合定值類型要求的定值項(xiàng)集合T1,以縮小搜索空間。裝置的定值類型集合記為C={c1,c2,…,cn}。類型過濾的流程如圖4所示。

        圖2 改進(jìn)詞典機(jī)制Fig.2 Improved dictionary mechanism

        圖3 改進(jìn)FMM算法流程Fig.3 Improved FMM algorithm flowchart

        圖4 類型過濾流程Fig.4 Process of type filtering

        3.2 首項(xiàng)過濾

        定值類型過濾后的目標(biāo)搜索空間T1包含同類型定值的所有定值項(xiàng),一般每種定值類型下有幾十項(xiàng)定值,過濾力度有限;因此采用首項(xiàng)過濾的方法進(jìn)行二次過濾,剔除必定不匹配的定值項(xiàng),進(jìn)一步減少目標(biāo)搜索空間的詞條數(shù)。

        在同一定值類型下的定值名稱,定值前綴多不相同,而相同前綴的定值多為階段式保護(hù)定值,這類定值名稱中包含復(fù)合型詞。為了方便表述,將包含復(fù)合型詞的定值名稱稱為數(shù)值型定值,反之稱為非數(shù)值型定值。首項(xiàng)過濾是基于分詞結(jié)果進(jìn)行的,在第2.2節(jié)中已經(jīng)將定值名稱按照先復(fù)合型詞后單一型詞的順序進(jìn)行切分,分詞后的定值名稱詞序列的首項(xiàng)為復(fù)合型詞組(數(shù)值型定值)或原定值名稱的首個(gè)詞(非數(shù)值型定值)。預(yù)匹配的2個(gè)定值名稱的詞序列首項(xiàng)詞類型不同,則二者的定值類型不同,定值名稱顯然不匹配;預(yù)匹配的2個(gè)定值名稱的詞序列首項(xiàng)詞類型均為復(fù)合型詞,則2個(gè)定值都是數(shù)值型定值,若其中的序號(hào)類字符不同,則必定不是同一個(gè)定值項(xiàng),此時(shí)的復(fù)合型詞具有“一票否決”的特性,而無需進(jìn)行剩余詞的匹配。對(duì)于預(yù)匹配的2個(gè)定值都是非數(shù)值型定值,取源字符串序列s的首項(xiàng),與目標(biāo)字符串序列中的詞逐一進(jìn)行匹配。若匹配成功,則將該詞添加到搜索空間T2,否則進(jìn)行下一個(gè)詞篩選。首項(xiàng)過濾的算法流程如圖5所示,其中“*”表示經(jīng)過改進(jìn)FMM分詞處理形成的字符串序列。

        4 基于分詞的定值匹配比對(duì)

        原始搜索空間經(jīng)過雙重過濾后已大大縮小,對(duì)T2空間的定值名稱進(jìn)行全字段匹配驗(yàn)證,計(jì)算其匹配度。定值名稱按匹配度從大到小排列,選擇匹配度最大的進(jìn)行定值比對(duì)。

        4.1 基于分詞的Jaccard度量

        常用的編輯距離相似性度量方法與字符的排列順序有關(guān),會(huì)導(dǎo)致第2類問題度量結(jié)果的偏差。一種可行的方法是采用不計(jì)字符順序的Jaccard相似性度量方式[25]。Jaccard相似性度量的基本思想為:對(duì)分詞后的2個(gè)字符串形成集合D*={d1,…,di,…,dm}和E*={e1,…,ej,…,en},如果2個(gè)集合的相似度大于給定閾值θ,那么這2個(gè)集合中的共同元素個(gè)數(shù)肯定大于某個(gè)值,其中di和ei為字符串分詞后形成的詞條。相似度表達(dá)式為

        (1)

        圖5 首項(xiàng)過濾流程Fig.5 Process of first filtering

        由于集合度量為無序度量,度量計(jì)算采用暴風(fēng)(brute force,BF)算法,流程如圖6所示,其中m為D*字符串序列中字符串個(gè)數(shù)。

        4.2 防誤比對(duì)機(jī)制

        依次計(jì)算源字符串和候選空間T2中目標(biāo)串的Jaccard距離,得到滿足給定相似度閾值的定值項(xiàng)序列,并對(duì)定值項(xiàng)按照相似度從大到小排列,對(duì)相似度最大的定值項(xiàng)進(jìn)行定值的核對(duì)。若定值項(xiàng)取值一致,則認(rèn)為定值名稱匹配正確,且該項(xiàng)定值正確。若定值取值不一致,則有2種可能:①該定值項(xiàng)名稱匹配正確,定值項(xiàng)取值不一致,運(yùn)行定值確實(shí)存在錯(cuò)誤;②該定值項(xiàng)名稱匹配錯(cuò)誤,從而導(dǎo)致定值項(xiàng)取值不一致的偽錯(cuò)誤,即滿足相似度閾值的2個(gè)定值項(xiàng)由于命名習(xí)慣等差異而導(dǎo)致匹配出錯(cuò),2個(gè)定值名稱描述的并非同一個(gè)定值。1個(gè)保護(hù)裝置不同定值項(xiàng)之間的保護(hù)原理、保護(hù)范圍和保護(hù)類

        圖6 Jaccard距離計(jì)算流程Fig.6 Jaccard distance calculation process

        型均不同,因此定值項(xiàng)取值的數(shù)值和單位也不同,出現(xiàn)不同定值的定值項(xiàng)取值完全相同的概率極低。為了解決因單純定值項(xiàng)名稱匹配錯(cuò)誤而導(dǎo)致偽錯(cuò)誤,引入防誤比對(duì)機(jī)制。該機(jī)制的基本思想是:對(duì)于滿足相似度閾值且按Jaccard相似度從大到小排列的定值序列,先取相似度最大的定值項(xiàng)進(jìn)行相應(yīng)定值項(xiàng)取值比對(duì),若定值項(xiàng)取值一致,則判定該定值項(xiàng)為源字符串對(duì)應(yīng)項(xiàng)且該項(xiàng)定值正確,否則進(jìn)行下一項(xiàng)定值項(xiàng)取值一致性比對(duì);若下一項(xiàng)比對(duì)結(jié)果一致,則判定該定值項(xiàng)為源字符串對(duì)應(yīng)項(xiàng)且該項(xiàng)定值正確,否則繼續(xù)下一項(xiàng)定值的定值項(xiàng)取值一致性比對(duì);若整個(gè)定值序列比對(duì)結(jié)束,仍無取值一致的定值項(xiàng),則判定相似度最大的定值項(xiàng)為源字符串對(duì)應(yīng)項(xiàng)且該項(xiàng)定值錯(cuò)誤。通過這種防誤機(jī)制,可有效提高比對(duì)正確度。

        5 測試實(shí)例分析

        為了驗(yàn)證上述方法的有效性,本文選取北方某省調(diào)度控制中心及其下轄某330 kV變電站的若干保護(hù)裝置定值數(shù)據(jù)。該站有多家繼電保護(hù)廠商的設(shè)備,調(diào)控中心與站端定值名稱描述存在差異。

        5.1 改進(jìn)最大正向匹配算法

        以某330 kV變電站南瑞繼保變壓器保護(hù)PCS-978T1定值s=“復(fù)壓過流Ⅲ段經(jīng)復(fù)壓閉鎖”為例進(jìn)行分詞過程說明。傳統(tǒng)FMM分詞過程見表1,改進(jìn)FMM的分詞過程見表2。

        表1 傳統(tǒng)FMM分詞過程Tab.1 Process of words segmentation using traditional FMM algorithm

        表2 改進(jìn)FMM分詞過程Tab.2 Process of words segmentation using improved FMM algorithm

        傳統(tǒng)中文詞典的FMM算法按照“最大詞長”的原則對(duì)目標(biāo)字符串進(jìn)行順序正向切分,分詞結(jié)果按照目標(biāo)字符串原來的順序進(jìn)行排布。改進(jìn)的FMM算法在分詞過程中,首先對(duì)整個(gè)字符串s進(jìn)行逐一遍歷,尋找是否存在序號(hào)型字符。找到序號(hào)型字符“Ⅲ”,由詞典正文的同義詞項(xiàng)得到其同義標(biāo)志詞“3”,并進(jìn)行替換。然后在前后1個(gè)字段的范圍內(nèi)找到與“3”匹配的數(shù)字型字符“段”,將“3”和“段”合并為1個(gè)詞組。將該詞組從目標(biāo)字串中剔除,此時(shí)目標(biāo)字符串全為漢字字符,便于繼續(xù)進(jìn)行后續(xù)分詞工作。

        5.2 過濾實(shí)例

        過濾機(jī)制能大幅縮小搜索空間,減少精確匹配次數(shù),提高匹配效率。以某330 kV變電站南瑞繼保變壓器保護(hù)PCS-978T1定值單為例,保護(hù)類定值共12類、250項(xiàng),按類進(jìn)行繼電保護(hù)定值核對(duì)。例如先核對(duì)設(shè)備參數(shù)定值,對(duì)類型名稱進(jìn)行字符串匹配,查找到設(shè)備參數(shù)定值類。設(shè)備參數(shù)定值類共31項(xiàng)定值。取源字符串字符s=“低壓側(cè)額定容量”,進(jìn)行首項(xiàng)過濾。過濾前后的目標(biāo)空間對(duì)比結(jié)果見表3。原始搜索空間T,類型過濾后搜索空間T1,首項(xiàng)過濾后搜索空間T2。

        表3 過濾前后搜索空間大小對(duì)比Tab.3 Size of search space comparison

        由表3可見,精確匹配空間為原始搜索空間的2/125,證明該過濾機(jī)制可將效率提高62.5倍。表4展示了4種保護(hù)測試?yán)拢L度-后綴過濾機(jī)制和類型-首項(xiàng)過濾機(jī)制的過濾力度對(duì)比表。P1為南瑞繼保母線保護(hù)PCS-915AL-DA,P2為南瑞繼保主變壓器保護(hù)PCS-978T1-DA,P3為南瑞繼保超高壓線路成套保護(hù)PCS-931-G,P4為南瑞繼保PCS-9616D-D。

        進(jìn)一步對(duì)2種過濾方法的過濾力度進(jìn)行對(duì)比,表4中裝置P1的源字符串為設(shè)備參數(shù)定值類中的“支路01CT一次值”,裝置P2的源字符串為高壓側(cè)后備保護(hù)定值類中的“低電壓閉鎖定值”,裝置P3的源字符串為控制字類中的“通道一差動(dòng)保護(hù)”,裝置P4的源字符串為功能軟壓板類中的“短充過流Ⅰ段軟壓板”。由表4可見,在不同裝置的不同類型定值對(duì)比中,后者的過濾力度都極大的優(yōu)于前者,大大提高了算法的效率。

        表4 長度-后綴和類型-首項(xiàng)過濾力度對(duì)比Tab.4 Filtering capability comparison between length-suffix and type-first

        5.3 基于分詞的定值比對(duì)實(shí)例

        取源字符串s=“零序電流Ⅱ段定值”和目標(biāo)字符串t=“Ⅱ段零序電流定值”,采用改進(jìn)的編輯距離(improved lenvenshtein distance,ILD)進(jìn)行匹配時(shí),偽編輯距離為2,相似度為0.75,匹配結(jié)果見表5。

        表5 ILD匹配結(jié)果Tab.5 ILD matching matrix

        注:第1行和第1列數(shù)值為編輯距離算法的初始化值。

        采用BF算法的Jaccard度量,匹配結(jié)果見表6,按式(1)計(jì)算匹配度,匹配度為1。

        表6 BF匹配結(jié)果Tab.6 BF matching results

        注:經(jīng)過算法分詞后,字符串s和字符串t的詞序列是相同的。

        由ILD算法和BF算法的匹配度比較可知,基于混合詞典分詞的BF算法具有更高的匹配準(zhǔn)確度。此外,采用ILD算法的匹配次數(shù)為16次,采用BF算法的匹配次數(shù)為4次,匹配次數(shù)為ILD的25 %,大大提高了效率。

        取源字符串s=“零序電流Ⅱ段定值”,目標(biāo)字符串空間為T3={t1,t2},其中t1=“零序過流Ⅱ段定值”,t2=“零序電流Ⅱ段時(shí)間”。源字符串和目標(biāo)字符串的分詞結(jié)果和整定值如表7所示。由式(1)得s與t1和t2的匹配度都為0.75,此時(shí)進(jìn)行定值項(xiàng)取值的比對(duì)。由表7可知s的整定值與t1的整定值一致,與t2的整定值不同,此時(shí)判定與s相對(duì)應(yīng)的目標(biāo)串為t1,整定值項(xiàng)比對(duì)結(jié)果為合格??梢?,由定值項(xiàng)取值的反校可以提高匹配結(jié)果的準(zhǔn)確度。

        表7 源字符串與目標(biāo)字符串的定值名稱和整定值Tab.7 Setting name and setting value for source and target strings

        6 結(jié)束語

        針對(duì)定值在線比對(duì)存在的一些匹配問題,基于已有定值匹配策略提出解決方案,同時(shí)對(duì)匹配過程中的一些步驟提出有效的改進(jìn)措施:

        a)改進(jìn)中文詞典機(jī)制,將定值名稱中出現(xiàn)的英文表達(dá)和序號(hào)類詞加入詞典,形成包含中英文和序號(hào)類字符的混合詞典,同時(shí)在詞典正文添加同義詞標(biāo)志和復(fù)合型詞標(biāo)志數(shù)據(jù)項(xiàng),更好地處理異形同義表達(dá)問題;

        b)改進(jìn)FMM算法,基于混合詞典對(duì)字符串進(jìn)行分詞,分詞過程中對(duì)同義詞進(jìn)行同義詞標(biāo)志詞替換,同時(shí)按照復(fù)合型詞和單一型詞對(duì)分詞后的詞序列進(jìn)行排序;

        c)結(jié)合定值名稱特點(diǎn),采用定值類型-首項(xiàng)的雙重過濾機(jī)制對(duì)原始空間進(jìn)行更高效的過濾;

        d)在精確匹配中引入防誤機(jī)制提高匹配準(zhǔn)確性。

        猜你喜歡
        字符串分詞定值
        圓錐曲線的一類定值應(yīng)用
        “大處著眼、小處著手”解決圓錐曲線中的定值問題
        結(jié)巴分詞在詞云中的應(yīng)用
        10kV線路保護(hù)定值修改后存在安全隱患
        電子制作(2018年10期)2018-08-04 03:25:02
        10kV線路保護(hù)定值修改后存在安全隱患
        電子制作(2018年12期)2018-08-01 00:48:08
        值得重視的分詞的特殊用法
        一種新的基于對(duì)稱性的字符串相似性處理算法
        高考分詞作狀語考點(diǎn)歸納與疑難解析
        依據(jù)字符串匹配的中文分詞模型研究
        一種針對(duì)Java中字符串的內(nèi)存管理方案
        蜜桃日本免费看mv免费版| 亚洲国产av中文字幕| 亚洲一区二区三区成人网| 日韩久久无码免费毛片软件| 米奇影音777第四色| 亚洲精品中国国产嫩草影院美女 | 性人久久久久| 国产成人aaaaa级毛片| 亚洲男女免费视频| 亚洲第一女人天堂av| 久久久久av综合网成人| 东京无码熟妇人妻av在线网址| 国产精品视频流白浆免费视频| 亚洲黄色官网在线观看| 东北女人一级内射黄片| 午夜性无码专区| 亚洲AV无码成人网站久久精品| 美女被插到高潮嗷嗷叫| 国产在线一区二区三区四区| 国产精品无码专区av在线播放| 亚洲V在线激情| 在线观看视频亚洲一区二区三区| 成人免费播放视频777777 | 精品国产高清自在线99| 男女搞黄在线观看视频| 手机在线亚洲精品网站| 欧洲熟妇色xxxx欧美老妇多毛图片| 国产综合久久久久影院| 在线视频自拍视频激情| 胸大美女又黄的网站| 亚洲av成人无码网天堂| 男人的天堂av一二三区| 中文字幕有码人妻在线| 国产永久免费高清在线| 日本午夜福利| av男人操美女一区二区三区| 女人18片毛片60分钟| 最近中文字幕在线mv视频在线| 国产毛片A啊久久久久| 91日韩东京热中文字幕| 99精品国产一区二区三区a片|