亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于字形編碼與拼音編碼的近似商標辨識算法研究

        2018-09-04 09:37:16祁俊輝龍華賴華畢丹宏
        軟件導刊 2018年6期
        關鍵詞:相似度

        祁俊輝 龍華 賴華 畢丹宏

        摘 要:為了實現(xiàn)高效、快速的商標自動評審工作,提出將商標文字通過字形編碼、拼音編碼等方式映射為數(shù)字型字符串和字母型字符串的辨識算法。算法依照字形和拼音描述商標信息,配合改進后的Jaro-Winkler distance算法計算出商標文字的字形相似度和拼音相似度,并根據(jù)相似匹配算法得出商標文字的相似程度。實驗結果表明,該方法所得結果有更好的辨識率,符合常規(guī)人體視覺和邏輯判斷。

        關鍵詞:商標辨識算法;近似商標;形近字;近音字;相似度

        DOI:10.11907/rjdk.172985

        中圖分類號:TP312

        文獻標識碼:A 文章編號:1672-7800(2018)006-0077-04

        Abstract:In order to realize efficient and rapid automatic evaluation of trademark, an identification algorithm is proposed to map the trademark text into numeric and alphabetic string using ideographic and Pinyin encoding. The algorithm is used to describe the trademark according to the font and Pinyin, and with the improved Jaro-Winkler distance algorithm the similarity of trademarks font and Pinyin coordinated is calculated. The similarity of words in trademark is calculated by similarity-matching algorithm. The experimental results show that the method conforms to judgment of physical vision and logic and has high recognition rate.

        Key Words:trademark identification algorithm; approximate trademark; homophonic characters; homomorphous characters; similarity

        0 引言

        商標作為商品生產(chǎn)者、經(jīng)營者的重要特征標識,是商品生產(chǎn)者、經(jīng)營者的重要知識產(chǎn)權資源。隨著全球經(jīng)濟迅速發(fā)展和經(jīng)濟一體化快速推進,知識產(chǎn)權保護已經(jīng)成為重要的商業(yè)活動。此外,新型產(chǎn)品和產(chǎn)業(yè)迅速興起,為人們帶來了更加豐富的產(chǎn)品,商標產(chǎn)生速度也大大加快。2016年,我國商標申請數(shù)量達396.1萬件以上,已連續(xù)15年位居世界第一,且呈現(xiàn)逐年遞增的趨勢。在這樣的形勢和數(shù)據(jù)規(guī)模下,依靠人工處理商標的評審工作已經(jīng)非常困難,急需高效的自動評審方法實現(xiàn)快速、準確的商標評審工作。

        中文商標作為國際化商標重要組成部分,不法分子會針對某些火爆的中文商標申請仿冒偽劣商標,進而制造出相似產(chǎn)品以迷惑消費者。事實上,我國《商標法》對近似商標的定義有明確規(guī)定,這也是人工處理商標評審工作應遵循的原則,但是不免會因為工作人員疏忽與個人因素的影響,造成評審工作不平衡。

        近似商標具體指,兩個商標相比較,商標文字的字形、讀音、含義等相似。經(jīng)研究發(fā)現(xiàn),文字字形相似的近似商標帶給消費者的影響最大,因為消費者在面對大多數(shù)產(chǎn)品時首先是通過視覺觀察該產(chǎn)品,由于中文漢字存在很多形近字,再加上快速閱讀習慣,難免會在一定程度上造成視覺的錯誤判斷;其次,文字讀音相似的近似商標也會給消費者帶來一定影響,因為消費者在面對大多數(shù)產(chǎn)品時會在潛意識中發(fā)出該產(chǎn)品的商標文本讀音。

        事實上,對近似商標的辨識,就是對短字符串相似度的檢測,但此處的相似度主要指字形、讀音上的相似,那么傳統(tǒng)的字符串相似度算法就顯得捉襟見肘了。相關研究工作中,文獻[1]提出把漢字描述成部件為操作數(shù)、部件間位置關系為運算符的數(shù)學表達式形式,文獻[2]也定義了一種語言采用筆畫、部件分層次的方法對漢字進行描述。以后的研究工作中,基本都圍繞這兩種方法對漢字字形相似進行研究,文獻[3]提出一種基于結構描述的漢字字形相似度計算方法,但由于漢字字形結構復雜,很多漢字無法用數(shù)學表達式進行精準描述,故還需進一步改進,文獻[4]提出三元組遞歸表示的漢字字形相似度計算方法,但該方法需要對原子部件進行人工分類及設置相似度,文獻[7]提供了一種對同音字和近音字的檢索算法,文獻[8]采用基于漢字、拼音和拼音改良的編輯距離對關鍵詞進行匹配,文獻[9]基于拼音輸入法對中文字符串近似串匹配查詢問題進行研究與改進。

        事實上,對近似商標的辨識,就是對短字符串相似度的檢測,但此處的相似度主要指字形、讀音相似,那么傳統(tǒng)的字符串相似度算法就顯得捉襟見肘。相關研究工作中,文獻[1]提出把漢字描述成部件為操作數(shù)、部件間位置關系為運算符的數(shù)學表達式形式;文獻[2]也定義了一種語言采用筆畫、部件分層次的方法對漢字進行描述;以后的研究工作中,基本都圍繞這兩種方法對漢字字形相似進行研究,文獻[3]提出一種基于結構描述的漢字字形相似度計算方法,但由于漢字字形結構復雜,很多漢字無法用數(shù)學表達式進行精準描述,故還需進一步改進;文獻[4]提出三元組遞歸表示的漢字字形相似度計算方法,但該方法需要對原子部件進行人工分類及相似度設置;文獻[5]對字符串的相似度作了介紹,但對短字符串沒有深入研究;文獻[6]介紹了一種商標相似方法,但沒有編程實現(xiàn);文獻[7]提供了一種對同音字和近音字的檢索算法;文獻[8]采用基于漢字、拼音和拼音改良的編輯距離對關鍵詞進行匹配;文獻[9]基于拼音輸入法對中文字符串近似串匹配查詢問題進行研究與改進;文獻[10-12]也對短字符串的提取、識別做了介紹;文獻[13]對手寫字的識別做了相應研究,但只使用了筆畫順序技術;文獻[14-15]則針對獨體字的識別做了相應研究,利用相似的獨體字也是商標識別中最常見的抄襲行為。

        以上參考文獻大多采用漢字結構(如上下結構、左右結構等)和筆畫對漢字部件進行描述,進而通過編輯距離(edit distance)等算法計算其字形相似度。雖然這種方法在理論研究中有較高的價值,但由于漢字結構類型的復雜性,目前沒有任何一個較為完整的漢字結構庫可供參考,所以此方法在實際運用過程中可能比較困難;其次,將漢字描述為數(shù)學表達式后,用何種算法對其計算相似度影響重大。本文以實際運用為主,不考慮過多復雜的概念,根據(jù)相關編碼規(guī)則對漢字進行字形編碼和拼音編碼,通過Jaro-Winkler distance分別計算兩者的相似度,再根據(jù)相似匹配算法確定其相似程度。

        1 商標文字形式化描述

        1.1 文字字形編碼

        在漢字計算機編碼標準中,編碼方式為Unicode的中日韓統(tǒng)一表意文字基本字符集收錄的漢字,共20 902個。因為每個中文漢字都可根據(jù)書寫筆畫順序分為橫、豎、撇、捺、折,故可按照表1所述編碼規(guī)則對任意漢字生成其漢字字形的數(shù)字型字符串。例如,漢字“明”可根據(jù)所述編碼規(guī)則,生成的數(shù)字型字符串為“25113511”;漢字“天”可根據(jù)所述編碼規(guī)則,生成的數(shù)字型字符串為“1134”。將編碼方式為Unicode的基本字符集中的20 902個漢字依照此編碼規(guī)則生成其數(shù)字型字符串并存入數(shù)據(jù)庫,組建Unicode漢字筆畫順序數(shù)據(jù)庫。

        對于商標文本來說,其往往由詞語,即多個漢字所構成。遍歷該商標文本中所有漢字,生成其漢字字形的數(shù)字型字符串,再按照商標文本中漢字出現(xiàn)順序進行數(shù)字型字符串的合并,最終生成其文字字形的數(shù)字型字符串。

        例如“脈動”一詞,經(jīng)查找數(shù)據(jù)庫,“脈”字的數(shù)字型字符串為“351145534”,“動”字的數(shù)字型字符串為“115453”,則詞語“脈動”的數(shù)字型字符串為“351145534/115453/”。

        1.2 文字拼音編碼

        在處理中文漢字拼音時,由于漢字存在大量的多音字、同音字,當對兩個漢字進行相似度匹配時,應考慮讀音的相同或相近。但對于漢字的讀音來講,由于地方方言的影響,使人們不能發(fā)出標準的漢字讀音,如將聲母l和n、c和ch、s和sh等混淆,不易處理,故本文直接采用漢字拼音的相似度替代其讀音的相似度。

        對于多音字來講,因為商標文本的內容大多是較為常用的字或音,所以取該漢字的常用拼音作為其拼音編碼;而對于同音字來講,如果僅僅考慮其拼音的相似程度,那么可以直接根據(jù)字符串相似算法計算其拼音的相似度。

        在編碼方式為Unicode的基本字符集中的20 902個漢字,其中有31個漢字無拼音,統(tǒng)一以“*”填充,對其它20 871個漢字按照常用拼音生成其字母型字符串并存入數(shù)據(jù)庫,組建Unicode漢字拼音數(shù)據(jù)庫。

        與生成商標文字字形的數(shù)字型字符串生成規(guī)則相同,也按此規(guī)則生成商標文字拼音的字母型字符串。例如“脈動”一詞,經(jīng)查找數(shù)據(jù)庫,“脈”字的字母型字符串為“mai”,“動”字的字母型字符串為“dong”,則詞語“脈動”的字母型字符串為“mai/dong/”。

        2 商標文字相似度算法

        2.1 文字字形、拼音相似度算法

        為量化文字之間的相似度,引入改進后的Jaro-Winkler distance算法分別對描述其字形的數(shù)字型字符串和描述拼音的字母型字符串進行相似度計算。

        (2)匹配字符數(shù)m和匹配字符換位數(shù)n的計算:若數(shù)字型/字母型字符串str-x和str-y中相同字符相差距離小于匹配窗口值MW,則視為該字符匹配。但應注意,在匹配過程中,需排除被匹配過的字符,若找到匹配字符,則需跳出此次匹配,進行下一字符的匹配,所有匹配字符的個數(shù)即為m。然后根據(jù)數(shù)字型/字母型字符串str-x和str-y中對于匹配字符集的順序是否一致計算匹配字符換位數(shù)n,若一致,則n=0;若不一致,則n為換位數(shù)目的一半。另外,匹配字符數(shù)m和匹配字符換位數(shù)n應滿足公式(5)的要求。

        (3)進一步計算閾值b-t,本文取值為0.85,可根據(jù)實際檢測結果作小幅度調整,主要是為了提高檢測準確性;所述縮放因子p,通常取值為0.1,可根據(jù)實際檢測結果做小幅度調整,主要是為了避免最終計算結果大于1的情況發(fā)生,但本方法新增編碼字符串str-x和str-y中最長距離的倒數(shù)1Max(len-x,len-y),改進此處的計算公式Min1Max(len-x,len-y),p, 所以縮放因子p的取值對最終計算結果影響并不大。

        2.2 相似匹配算法

        由算法1計算所得的商標文本X、Y之間字形/拼音相似度Sim以一個[0,1]之間的數(shù)值反映了商標文本X、Y之間字形/拼音相似程度,數(shù)值越大說明相似程度越高。設商標文本X、Y經(jīng)算法1計算后,字形相似度為Sim-zx,拼音相似度為Sim-py,兩個相似度分別從不同方面反映了商標文本X、Y的相似程度,但兩者并不是相互獨立的,如對于由形近字引起的相似重復,則Sim-zx較大而Sim-py較??;對于由同音字或近音字引起的相似重復,則Sim-zx較小而Sim-py較大;如果文本之間差異很小,那么Sim-zx和Sim-py都比較大;相反,如果文本沒有重復,Sim-zx和Sim-py才會都比較小?;诖耍疚恼J為商標文本X、Y之間,若Sim-zx和Sim-py都較大,則反映文本之間具有最高的相似程度;若Sim-zx和Sim-py之間有一個較大,另一個較小,則反映文本之間具有較高的相似程度;若Sim-zx和Sim-py都較小,則反映文本之間具有較低的相似程度。

        單獨使用字形相似或拼音相似去衡量商標文本是否近似不夠嚴謹,因為任何漢字都是由五筆構成,所以即使是兩個完全不相同的字,經(jīng)算法1計算后可能也存在一定的相似度;對于拼音相似來說,因為經(jīng)拼音編碼后的字母字符串長度相對較短(一般不超過5位),但拼音編碼由26個字母組成,所以對于有重復字母發(fā)音的其相似度會很高,沒有重復字母發(fā)音的其相似度則會很低。故本文針對字形相似度和拼音相似度,設置字形相似閾值和拼音相似閾值,進而判斷其相似程度。

        3 實驗與結果

        為了驗證基于字形編碼和拼音編碼的近似商標辨識算法,本文設計一個實驗。實驗的主要目的在于:比較近似商標辨識算法與人工評審結果之間的差異,考察該方法是否能夠真實、準確地反映商標文本的相似程度。

        3.1 實驗設計和評測方法

        實驗使用10對已知相似程度的樣本商標文本,即樣本商標文本已有人工評審結果,根據(jù)算法1計算出樣本商標文字基于字形編碼、拼音編碼的相似度,再利用算法2對樣本商標文字進行相似匹配,然后將其計算結果與人工評審結果進行比較。通過比較本文提出的算法和人工評審結果對同一樣本的相似程度,考察本方法對商標文本近似檢測反映的真實程度。

        3.2 實驗結果和分析

        實驗所用的10對樣本商標文本分屬不同的相似程度,如表2所示。

        根據(jù)算法1所述規(guī)則和步驟,計算出樣本商標文字基于字形編碼、拼音編碼的相似度,定義字形相似閾值為0.95,拼音相似閾值為0.90,再利用算法2所述步驟對樣本商標文字進行相似匹配,所得結果如表3所示。

        為了更直觀地分析表3所示數(shù)據(jù),將計算所得的字形相似度和拼音相似度以折線圖的方式畫出,如圖1所示。

        從表3和圖1看出,對于樣本編號為1、2、3的樣本商標文本,其字形相似度和拼音相似度都較大,即高于字形相似閾值和拼音相似閾值,故相似程度為非常相似;樣本編號為4、5的樣本商標文本,其字形相似度高于字形相似閾值,但拼音相似度低于拼音相似閾值,故相似程度為字形相似;樣本編號為6、7、8的樣本商標文本,其字形相似度低于字形相似閾值,但拼音相似度高于拼音相似閾值,故相似程度為拼音相似;樣本編號為9、10的樣本商標文本,其字形相似度和拼音相似度都低于字形相似閾值和拼音相似閾值,故相似程度為不相似。

        實驗結果表明,使用本文算法所得結果與人工評審結果一致,實驗結果符合常規(guī)人體視覺和邏輯判斷,能夠真實、準確地反映商標文本的相似程度。

        4 結語

        實現(xiàn)高效、快速的商標自動評審工作,是中文信息處理領域的一項重要研究。事實上,可以將近似商標等價為短字符串在字形、讀音上的相似。本文先將編碼方式為Unicode基本字符集中的20 902個漢字通過字形編碼和拼音編碼映射為數(shù)字型字符串和字母型字符串,建立Unicode漢字筆畫順序數(shù)據(jù)庫和Unicode漢字拼音數(shù)據(jù)庫;將商標文字通過數(shù)據(jù)庫調用出相應的編碼字符串,無需進行字形樣本和拼音樣本實例的學習,只依照字形和拼音描述信息,配合使用改進后的Jaro-Winkler distance算法就可以計算出商標文字的字形相似度和拼音相似度;然后根據(jù)相似匹配算法得出商標文字的相似程度;最后通過實驗證明該算法的有效性,不僅明顯降低了計算的復雜性,還能夠真實、準確地反映商標文本的相似程度。

        參考文獻:

        [1] 孫星明,殷建平,陳火旺,吳泉源,景新海.漢字的數(shù)學表達式研究[J].計算機研究與發(fā)展,2002(6):707-711.

        [2] 林民.基于結構描述的漢字字形相似度計算[C].第三屆學生計算語言學研討會論文集,2006:5.

        [3] 林民.漢字字形形式化描述方法及應用研究[D].北京:北京工業(yè)大學,2009.

        [4] 王東,熊世桓.一種新穎的漢字字形相似度計算方法[J/OL].計算機應用研究,2013,30(8):2395-2397.

        [5] 刁興春,譚明超,曹建軍.一種融合多種編輯距離的字符串相似度計算方法[J].計算機應用研究,2010,27(12):4523-4525.

        [6] 孔軍民,謝軍.一種商標文本相似性評審方法[P].北京:CN106095865A,2016-11-09.

        [7] 閻紅燦,張淑芬,谷建濤,閻少宏.基于音碼相似度的拼音模糊查詢算法[J].計算機與現(xiàn)代化,2008(8):18-20.

        [8] 曹犟,鄔曉鈞,夏云慶,鄭方.基于拼音索引的中文模糊匹配算法[J].清華大學學報:自然科學版,2009,49(S1):1328-1332.

        [9] 劉兵.基于拼音輸入法的中文字符串近似匹配技術研究[D].沈陽:東北大學,2010.

        [10] 王耀華,李舟軍,何躍鷹,巢文涵,周建設.基于文本語義離散度的自動作文評分關鍵技術研究[J].中文信息學報,2016,30(6):173-181.

        [11] 索紅光,劉玉樹,曹淑英.一種基于詞匯鏈的關鍵詞抽取方法[J].中文信息學報,2006(6):25-30.

        [12] 龍翀,莊麗,朱小燕,黃開竹,孫俊,堀田悅伸,直井聡.手寫中文地址識別后處理方法的研究[J].中文信息學報,2006(6):69-74.

        [13] 郭軍,藺志青,張洪剛.一個新的脫機手寫漢字數(shù)據(jù)庫模型及其應用[J].電子學報,2000(5):115-116.

        [14] 沈模衛(wèi),朱祖祥.獨體漢字的字形相似性研究[J].心理科學,1997(5):401-405+478-479.

        [15] 朱祖祥.獨體漢字字形的多維相似性研究[C]. 北京:全國第七屆心理學學術會議,1993.

        (責任編輯:江 艷)

        猜你喜歡
        相似度
        改進的協(xié)同過濾推薦算法
        模糊Petri網(wǎng)在油田開發(fā)設計領域的應用研究
        相似度算法在源程序比較中的應用
        基于混合信任模型的協(xié)同過濾推薦算法
        基于灰度的圖像邊緣檢測與匹配算法的研究
        句子比較相似度的算法實現(xiàn)?
        影響母線負荷預測的因素及改進措施
        科技視界(2016年10期)2016-04-26 11:40:14
        基于粗糙集的麗江房價研究
        一種基于深網(wǎng)的個性化信息爬取方法
        基于貝葉斯網(wǎng)絡的協(xié)同過濾推薦算法
        軟件導刊(2015年7期)2015-08-06 13:15:58
        亚洲av无码av制服丝袜在线| 少妇人妻精品久久888| 国产熟女露脸91麻豆| 成视频年人黄网站免费视频 | 久久精品国产网红主播| 久久99精品国产99久久| 无码成年性午夜免费网站蜜蜂| 男的和女的打扑克的视频| 久久精品人搡人妻人少妇| 鲁丝片一区二区三区免费| 国产无套护士在线观看| 亚洲AV永久无码精品一区二国 | 中文字幕亚洲无线码高清| 男女午夜视频一区二区三区| 国产精品国产三级国产专区不| 少妇精品偷拍高潮少妇在线观看| 色吧噜噜一区二区三区| 国产无吗一区二区三区在线欢| 国产a v无码专区亚洲av| 亚洲无码毛片免费视频在线观看| 日韩av一区二区蜜桃| 欧洲成人一区二区三区| 曝光无码有码视频专区| 国产在线拍偷自拍偷精品| 北岛玲亚洲一区二区三区| 中文字幕亚洲精品久久| 熟妇激情内射com| 免费毛片性天堂| 精品视频一区二区在线观看 | 精品无码一区二区三区的天堂| 国产精品熟女视频一区二区| 日本高清中文字幕一区二区三区| 国产黄色看三级三级三级| 亚洲最新国产av网站| 少妇仑乱a毛片| 国产乱色国产精品免费视频| 日本人妻系列一区二区| 桃红色精品国产亚洲av| 色 综合 欧美 亚洲 国产| 色综合久久精品中文字幕| 白色白色白色在线观看视频 |