亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        中國少數(shù)民族文字網(wǎng)絡搜索引擎關鍵技術研究

        2020-11-04 06:54:42
        無線互聯(lián)科技 2020年13期
        關鍵詞:藏文分詞搜索引擎

        馬 爽

        (中國社會科學院 民族學與人類學研究所,北京 100081)

        0 引言

        網(wǎng)絡搜索引擎一般由搜索器、分析器、索引器、檢索器、用戶接口五個關鍵部分組成(見圖1)。按照網(wǎng)絡搜索引擎結構,針對少數(shù)民族文字的特點,分別對少數(shù)民族文字網(wǎng)絡搜索引擎開發(fā)的難點問題與關鍵技術進行闡述。

        圖1 網(wǎng)絡搜索引擎結構圖

        1 搜索器

        互聯(lián)網(wǎng)上的信息是海量且動態(tài)的,這時就需要利用搜索器在互聯(lián)網(wǎng)上不停地漫游、發(fā)現(xiàn)和搜集信息,并將信息儲存到本地。由于搜索器是自動且有一定策略的程序,故稱其為Robot或Spider,為了提高工作效率,搜索器通常采用分布式、并行計算技術。雖然目前互聯(lián)網(wǎng)上的少數(shù)民族文字網(wǎng)頁數(shù)量多、更新快,但是遇到漢文、少數(shù)民族文字以及其他文字夾雜出現(xiàn),如網(wǎng)頁標題是少數(shù)民族文字,而內(nèi)容是大量的漢文等類似情況時,如果搜索引擎不對網(wǎng)頁分析判斷而全部進行搜集,將導致采集結果的不理想。因此必須首先對網(wǎng)頁文字進行識別和判定,以提高采集的準確率,需要根據(jù)少數(shù)民族文字的自身特點選擇一些關鍵特征來進行判斷。搜索器中主要涉及的關鍵技術有網(wǎng)站自動發(fā)現(xiàn)與采集技術,以及網(wǎng)頁文字識別技術。

        1.1 網(wǎng)站自動發(fā)現(xiàn)與采集技術

        網(wǎng)站的自動發(fā)現(xiàn)需要建立搜索引擎爬行器,首先將已知的少數(shù)民族文字網(wǎng)站進行統(tǒng)計建表,收集它們的種子URL地址(首頁地址)等信息。爬行器首先獲取網(wǎng)站的首頁,對頁面中所鏈接的網(wǎng)頁按照少數(shù)民族文字網(wǎng)頁識別方案進行識別,自動抓取所需網(wǎng)頁并利用正則表達式解析HTML 網(wǎng)頁完成網(wǎng)頁采集工作,最后通過選擇適當?shù)拇鎯Σ呗越⑸贁?shù)民族文字網(wǎng)頁數(shù)據(jù)庫,完成網(wǎng)頁的存儲工作。

        1.2 網(wǎng)頁文字識別技術

        在浩如煙海的網(wǎng)頁中,搜索引擎首先需要識別和判定網(wǎng)頁所使用的文字,并從眾多網(wǎng)頁中過濾掉非選定的文種,如中、英文或其他少數(shù)民族文字等。有如下幾種方法:根據(jù)HTML中的字體信息判定:檢索網(wǎng)頁源代碼的字體屬性font face,css標簽font-family中是否存在少數(shù)民族文字字體,如國內(nèi)藏文網(wǎng)站的編碼大多是班智達和同元編碼,班智達編碼藏文網(wǎng)頁常見字體類型有:BZDBT,BZDMT,BZDHT等;同元編碼藏文網(wǎng)頁常見字體類型有:TIBETBT,TIBETFG,TIBETCT,TIBETZT,TIBETHT 等;藏文編碼字符集擴充集A 的常見字體有: TibetABt,TibetAHt,TibetAYt等;國外的Sambhota 編碼常見的字體類型有 dedris-a,deris-b 等。如果存在某種少數(shù)民族文字字體中的一種,則判定該網(wǎng)頁為此種少數(shù)民族文字網(wǎng)頁。但是在實際操作中,在源代碼中規(guī)范標注字體信息的僅為少數(shù),因此可以利用少數(shù)民族文字本身的特點在源代碼中查找該種少數(shù)民族文字高頻字進行判定,如藏文可利用音節(jié)點和高頻音節(jié)是否滿足一定閾值來判定是否為藏文網(wǎng)頁。

        2 分析器

        搜索器儲存的本地信息將利用分析器進行分析以便索引,搜索引擎檢索結果的質(zhì)量一定程度上取決于檢索詞匯分詞的準確度。對于英文來說一個字就是一個詞, 而且詞與詞之間有空格作為標記, 所以計算機分析的時候不需要再做分詞。而少數(shù)民族文字情況較為復雜,如維吾爾文與英文類似,采用空格作為自然分隔符,而藏文等少數(shù)民族文字的詞匯之間沒有明顯的分割標志,詞匯的界定缺乏自然標準,因此在信息檢索時應首先解決檢索詞的切分問題。

        分析器主要涉及的關鍵技術是自動分詞技術。分詞是搜索引擎處理用戶檢索要求的第一步,分詞的準確度直接影響著搜索引擎檢索結果的質(zhì)量,自動分詞技術也是少數(shù)民族文字信息處理中一項不可缺少的基礎性工作。少數(shù)民族文字需要按照不同文字的特征分別進行分詞技術的研究,如維吾爾文是一種黏著性語言,這一類語言中,詞是最小的獨立運用的語言單位,維吾爾文句子是由單詞和單詞組成,單詞間以空格分開,從右向左書寫,所以分詞方法跟英文一樣用空格來分開;又如彝文可通過建立制定分詞詞表,采用正向最大匹配算法實現(xiàn)自動分詞技術[1];再如藏文的分詞經(jīng)歷了字典匹配、規(guī)則、深度計算等過程,研究者提出了藏文分詞的一些算法、歧義和未登錄詞的解決、一種基于格助詞和連續(xù)特征(BCCF)的書面藏文自動分詞方案、藏文自動分詞中緊縮詞的識別與還原、融合無監(jiān)督特征的藏文分詞等方法,實現(xiàn)了SegT,班智達藏文自動分詞、央金藏文分詞等系統(tǒng),并制定了《信息處理用藏文分詞規(guī)范》國家標準[2]。

        3 索引器

        由索引器將儲存的信息抽取出索引項,包括網(wǎng)頁的URL、編碼類型、頁面關鍵詞、更新時間等建立索引數(shù)據(jù)庫。我國雖然已經(jīng)發(fā)布了一系列少數(shù)民族文字信息技術的國家標準并參與制定了相關的國際標準(ISO/IEC 10646),但由于舊標準的優(yōu)勢和人們的使用習慣等原因,新標準的推行仍然是一項長期的工作,比如目前藏文在國內(nèi)流行的主要有華光編碼、班智達編碼、同元編碼等,國外有Sambhota,TIDMBA等多種編碼體系。少數(shù)民族文字網(wǎng)頁編碼的多樣性和復雜性,對網(wǎng)頁的存儲和資源數(shù)據(jù)庫的構建造成了很大的困難。與此同時,少數(shù)民族文字編碼間的相互轉換也成了阻礙民族文字網(wǎng)絡搜索引擎開發(fā)的眾多問題之一。索引器主要涉及的關鍵技術是網(wǎng)頁文字編碼識別技術和網(wǎng)頁文字編碼轉換技術。

        3.1 網(wǎng)頁文字編碼識別技術

        可按照如下幾種方法對網(wǎng)頁文字編碼進行識別與判定:

        (1)非重疊區(qū)域的編碼識別方法:一般的少數(shù)民族文字的各種編碼間通常具有交叉和重疊的區(qū)域,可利用網(wǎng)頁的編碼包含在非重疊區(qū)域中的概率是否滿足閾值來判定其字符是否屬于該編碼字符集;

        (2)高頻編碼出現(xiàn)概率的編碼識別方法:可先對每種編碼進行分析統(tǒng)計,在文本中查找某編碼的高頻編碼,如果出現(xiàn)概率滿足一定閾值,則判定為該種編碼;

        (3)基于貝葉斯分類的編碼識別方法:通過計算網(wǎng)頁中存在的特征字符串編碼概率的大小,對應概率越大,就越可能屬于某種編碼類型。

        3.2 網(wǎng)頁文字編碼轉換技術

        由于少數(shù)民族文字各種字符編碼方案之間互相不兼容,使用不同輸入系統(tǒng)輸入的文檔和網(wǎng)頁不能相互轉換共享,眾多的字符編碼方案對少數(shù)民族文字信息化進程帶來了很大的障礙,公眾迫切需要編碼轉換軟件來實現(xiàn)少數(shù)民族文字各種字符編碼方案的互相轉換,同時也需要利用編碼轉換工具將眾多的編碼轉換成標準的編碼類型,以便于最終網(wǎng)頁的統(tǒng)一存儲。如蒙古文的一種編碼轉換方案為:可先把蒙古文單詞用最小字素串表示,然后根據(jù)蒙古文正字法詞典所標注的發(fā)音把每一個單詞轉換為名義字符串表示,再根據(jù)名義字符串與國際編碼一一對應的規(guī)則,把該蒙古文單詞表示成國際標準碼字符串[3]。

        4 檢索器

        檢索器根據(jù)用戶輸入的關鍵詞在索引數(shù)據(jù)庫中查找出相關文檔,進行文檔與查詢的相關度評價,返回相關度符合某一閾值的文檔集合,并對將要輸出的結果進行排序。為了提高檢索結果的質(zhì)量,能夠更準確更快地將結果信息反饋給用戶,還應該對檢索結果進行排序工作,從索引庫中查詢出文檔后,如何進行文檔與查詢的相關度評價,針對少數(shù)民族文字的特點選擇何種排序算法也是難點之一。檢索器主要涉及的關鍵技術是查重技術和排序技術:

        (1)查重技術:在抓取和解析 HTML少數(shù)民族文字網(wǎng)頁的時候,如果只是進行網(wǎng)頁的URL查重,那么對于如網(wǎng)站轉載信息、網(wǎng)頁的URL不同,但是內(nèi)容卻相同的網(wǎng)頁大量存在,這就需要提取網(wǎng)頁特征對網(wǎng)頁的相似度進行檢測計算,用以去掉重復的網(wǎng)頁檢索結果。

        (2)排序技術:為了提高檢索結果的質(zhì)量,能夠更準確更快地將結果信息反饋給用戶,還應該對檢索結果進行排序工作,目前比較流行的網(wǎng)頁排序算法有:詞頻位置加權排序法,Direct Hit算法以及PageRank 算法等,這需要在以后的工作中通過比對和改進排序算法來優(yōu)化檢索結果。

        5 用戶接口

        用戶接口的作用是為用戶提供可視化的查詢輸入和結果輸出界面,提供用戶相關性反饋機制。在輸出界面中,綜合相關信息和網(wǎng)頁級別形成相關度數(shù)值, 然后進行排序, 相關度越高,排名越靠前,最后由頁面生成系統(tǒng)將搜索結果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。目前大多數(shù)支持多語言檢索的搜索引擎,實質(zhì)上只是多個單一語言模式檢索的融合,用戶輸入的查詢語言與返回的檢索結果語言必須一致,如果需要多語種的網(wǎng)頁檢索結果,則必須輸入多種語言,這無疑加大了用戶搜索的困難。只有實現(xiàn)輸入單一語言,檢索多語言的結果才可以保證檢索結果的全面。

        用戶接口主要涉及的關鍵技術是跨語言信息檢索技術。為了跨越語言上的障礙,消除因語言差異而導致的信息檢索困難,從而誕生了跨語言信息檢索技術的概念,跨語言信息檢索(cross-language information retrieval)是指用戶以自己熟悉的一種語言提交檢索,系統(tǒng)檢索出符合用戶需求的包含多個語種的相關檢索結果。系統(tǒng)可將用戶提交的查詢詞翻譯成系統(tǒng)支持的多種語言, 再對不同語言的信息進行查詢。如用戶需要利用中文作為查詢詞檢索出相應的藏文和英文結果,系統(tǒng)可按照詞典將用戶提交的中文檢索詞翻譯成目標語種藏文和英文,然后進行檢索,檢索的結果頁面也應按照需要翻譯為相應的語言。

        綜上,少數(shù)民族文字信息處理技術還處于發(fā)展前期,標準化的工作尚未完成,目前許多網(wǎng)站所使用的文字編碼互不相通,各網(wǎng)站之間不能兼容,網(wǎng)站開發(fā)水平參差不齊,頁面代碼不夠規(guī)范等等,都使得少數(shù)民族文字搜索引擎的開發(fā)比漢文搜索引擎的開發(fā)更為困難,開發(fā)一個檢索結果準確、全面的少數(shù)民族文字網(wǎng)絡搜索引擎對少數(shù)民族文字互聯(lián)網(wǎng)資源的檢索以及民族問題輿情分析等方面的工作都有著重大意義。少數(shù)民族文字網(wǎng)絡搜索引擎距離成為統(tǒng)一穩(wěn)定的多語種語言平臺仍需進行大量工作,如提高網(wǎng)頁文字及編碼識別的準確度,現(xiàn)有網(wǎng)頁識別以及編碼識別算法中閾值的選取都是依靠現(xiàn)有的統(tǒng)計資料在試驗中人為隨機取值,然后做對比,選取合適的值。這和網(wǎng)頁樣本數(shù)量有很大的依賴關系,可能在樣本量增多和其他變動的情況下,閾值的大小和適合度也會隨機改變。因此在后續(xù)的工作中如何改進網(wǎng)頁識別算法,使其對閾值的選取依賴性變低,對于提高網(wǎng)頁識別的準確率很重要。再如提高跨語言信息搜索的準確度:用戶查詢語句依靠字典翻譯的方式雖然直觀、簡便,但是由于用戶提交的查詢提問式通常很短,缺乏必要的語境,翻譯的準確性尚不能令人滿意,這時需要通過采取一定的策略, 在忠于用戶的查詢目的前提下,對其查詢提問式進行適當擴充。除查詢翻譯之外,還可以利用文獻翻譯,非翻譯方式(潛語義索引),以及基于本體的方法來提高查詢的準確度。

        猜你喜歡
        藏文分詞搜索引擎
        西藏大批珍貴藏文古籍實現(xiàn)“云閱讀”
        布達拉(2020年3期)2020-04-13 10:00:07
        結巴分詞在詞云中的應用
        智富時代(2019年6期)2019-07-24 10:33:16
        黑水城和額濟納出土藏文文獻簡介
        西夏學(2019年1期)2019-02-10 06:22:34
        值得重視的分詞的特殊用法
        藏文音節(jié)字的頻次統(tǒng)計
        現(xiàn)代語境下的藏文報刊
        新聞傳播(2016年17期)2016-07-19 10:12:05
        網(wǎng)絡搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        高考分詞作狀語考點歸納與疑難解析
        丰满多毛少妇做爰视频| 国产丝袜精品丝袜一区二区| 97SE亚洲国产综合自在线不卡| 中文字幕avdvd| 久久精品国产亚洲AV高清wy| 精品专区一区二区三区| 婷婷开心五月亚洲综合| 国产精品国产三级国产专播下| 无人区乱码一区二区三区| 久久久久夜夜夜精品国产| 大又大粗又爽又黄少妇毛片| 国产成人亚洲不卡在线观看| 日产精品一区二区三区免费 | 日韩毛片在线看| 国产成人精品一区二免费网站| 国产91久久精品成人看网站| 四季极品偷拍一区二区三区视频| 亚洲精品国产亚洲av| 亚洲成人中文字幕在线视频| 无码尹人久久相蕉无码| 3d动漫精品啪啪一区二区下载| 无码人妻精品一区二区三区66| 国产精品露脸视频观看| 亚洲AⅤ乱码一区二区三区| 国产一区二区三区成人av| 国产av熟女一区二区三区| 极品av麻豆国产在线观看| 日韩精品人妻系列无码专区免费| 国产精品一区二区久久乐下载| 国产中文字幕乱码在线| 久久国产A∨一二三| 亚洲中文字幕高清在线视频一区| 国产精品一区av在线| 久久国产成人精品av| 国产精品久久久久电影网| 亚洲一级无码片一区二区三区| 国产av一区二区凹凸精品| 日本最新视频一区二区| 在线观看av片永久免费| 亚洲av无码乱观看明星换脸va| 国产精品原创巨作AV女教师|