亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        蒙古文網(wǎng)站搜集方法的研究

        2014-07-02 00:26:00吳麗萍黃秋筱
        無(wú)線互聯(lián)科技 2014年1期

        吳麗萍 黃秋筱

        摘 要:隨著科技的進(jìn)步,互聯(lián)網(wǎng)已深入群眾,我國(guó)少數(shù)民族如蒙古族等也借助互聯(lián)網(wǎng)弘揚(yáng)本民族文化,致力于實(shí)現(xiàn)民族語(yǔ)言文字信息數(shù)字化處理。蒙古文網(wǎng)站數(shù)量快速增多,能夠快速、全面、準(zhǔn)確的獲取蒙古文網(wǎng)站信息,對(duì)蒙古文信息處理發(fā)揮重要作用。為實(shí)現(xiàn)快速、全面、準(zhǔn)確的獲取蒙古文網(wǎng)站信息,利用元搜索引擎獲取包含蒙古文高頻語(yǔ)素的網(wǎng)頁(yè)URL,根據(jù)網(wǎng)頁(yè)文字編碼范圍判斷其是否屬于蒙古文網(wǎng)站,再利用各網(wǎng)站之間的鏈接獲取更多的蒙古文網(wǎng)站。

        關(guān)鍵詞:蒙古文網(wǎng)站;元搜索;高頻語(yǔ)素;廣度優(yōu)先法

        1 蒙古文網(wǎng)站現(xiàn)狀

        Internet的飛速發(fā)展給整個(gè)社會(huì)帶來(lái)了一場(chǎng)意義深遠(yuǎn)的信息革命,我國(guó)的互聯(lián)網(wǎng)技術(shù)也飛速發(fā)展,并在政治、經(jīng)濟(jì)、文化中發(fā)揮重要作用。但是由于我們國(guó)家地域遼闊,民族眾多,大部分民族擁有自己的語(yǔ)言文字,在互聯(lián)網(wǎng)技術(shù)迅速發(fā)展的大環(huán)境下,少數(shù)民族的語(yǔ)言文字信息數(shù)字化處理技術(shù)尚處于起步階段。近年來(lái)我國(guó)少數(shù)民族的網(wǎng)站數(shù)量在迅速增多,網(wǎng)絡(luò)資源日益漸增,蒙古文網(wǎng)站也如雨后春筍迅速增多,但是目前到底有多少蒙古文網(wǎng)絡(luò)資源,這些蒙古文網(wǎng)絡(luò)資源為大家提供什么服務(wù),哪些蒙古文網(wǎng)絡(luò)資源是蒙古族群眾關(guān)注的熱點(diǎn),這些人們都還一無(wú)所知。欲回答這些問(wèn)題,首要任務(wù)就是要知道有多少個(gè)蒙古文網(wǎng)站。雖然現(xiàn)在已經(jīng)有蒙古文網(wǎng)站大全,但這些大全的網(wǎng)站都是通過(guò)人為手動(dòng)搜索出來(lái)的,由于工作量大、效率低,于是就不能夠及時(shí)更新網(wǎng)站數(shù)量及信息,從而導(dǎo)致出現(xiàn)搜集的蒙古文網(wǎng)站數(shù)量不全,網(wǎng)站信息錯(cuò)誤等問(wèn)題。人工搜集蒙古文網(wǎng)站的弊端百出,于是人們希望開(kāi)發(fā)蒙古文搜索引擎。

        2008年1月3日,內(nèi)蒙古首個(gè)蒙古文互聯(lián)網(wǎng)搜索引擎正式上線,這填補(bǔ)了蒙古文互聯(lián)網(wǎng)一直沒(méi)有搜索引擎的空白,但還存在許多缺陷,目前能搜集到的蒙古文網(wǎng)頁(yè)數(shù)量少之又少。獲得的蒙古文網(wǎng)站數(shù)量太少,原始資源不利于搜索引擎的發(fā)展。同時(shí)由于當(dāng)前蒙古文編碼不統(tǒng)一,對(duì)搜索引擎的技術(shù)要求變得更高,短期內(nèi)無(wú)法做到像中英文搜索引擎那樣包羅萬(wàn)象。為解決目前存在的這一系列問(wèn)題并為開(kāi)發(fā)更好的蒙古文搜索引擎做鋪墊,我們先致力于搜集到盡可能全的蒙古文網(wǎng)站。

        2 蒙古文網(wǎng)站搜集方法

        2.1 使用元搜索引擎搜索蒙古文網(wǎng)站

        搜索蒙古文網(wǎng)站可以用網(wǎng)絡(luò)爬蟲(chóng)進(jìn)行,但這種方法需要昂貴的網(wǎng)絡(luò)設(shè)備和大量的時(shí)間。鑒于蒙古文網(wǎng)站的數(shù)量還不是很多,我們將采用元搜索引擎的方法,即應(yīng)用著名搜索引擎(如GOOGLE、BAIDU等)的搜索結(jié)果搜集蒙古文網(wǎng)站,進(jìn)而達(dá)到節(jié)約成本、提高工作效率的目的。使用這種方法具體操作分為以下三部分:

        ⑴獲得可能的蒙古文網(wǎng)頁(yè)URL。因蒙古文是拼音文字,由形如 等的語(yǔ)素構(gòu)成,在GOOGLE、百度、360搜索等多個(gè)搜索引擎中輸入各種不同蒙古文編碼的高頻語(yǔ)素,各搜索引擎將返回包含該語(yǔ)素并有可能是蒙古文字的網(wǎng)頁(yè)。雖然蒙古文其各種編碼的高頻語(yǔ)素都一樣,但由于蒙古文編碼較多,一些搜索引擎只能搜到一種或幾種蒙古文編碼的蒙古文網(wǎng)頁(yè),并無(wú)法搜集到涉及全部蒙古文編碼的網(wǎng)頁(yè),例如在GOOGLE中只能搜索到unicode編碼的蒙古文網(wǎng)頁(yè),而蒙科立、賽音、明安圖等其他蒙古文編碼的網(wǎng)頁(yè)則無(wú)法搜索;在360搜索引擎中可搜索到蒙科立、unicode、賽音、布日古德、明安圖等編碼的蒙古文網(wǎng)站。因此在多個(gè)搜索引擎中輸入不同編碼的蒙古文高頻語(yǔ)素,其返回結(jié)果互補(bǔ),這樣可避免遺漏所需要搜集的蒙古文網(wǎng)站。

        獲得返回的包含蒙古文高頻語(yǔ)素的網(wǎng)頁(yè)后,獲取其URL并對(duì)這些網(wǎng)頁(yè)的URL進(jìn)行一步步拆分,將其分為域名、子域名、子目錄、頁(yè)面URL,完成這些工作后將拆分后的URL子塊以域名為鍵,其他部分為值的字典形式存儲(chǔ)在數(shù)據(jù)庫(kù)中。例如在360搜索中輸入“ ”,獲得一個(gè)網(wǎng)頁(yè)鏈接http://ijilmuren.blog.163.com/blog/static/35654254200943163320156,接著此鏈接可拆分為ijilmuren.blog.163.com/blog,ijilmuren.blog.163.com和163.com。當(dāng)然這里拆分的時(shí)候需要注意部分頂級(jí)域名并不能區(qū)別各個(gè)網(wǎng)站,如mgwhw.com和talchir.com這類(lèi)域名,如果拆分后仍以“.com”為鍵值,那么就會(huì)漏掉部分蒙古文網(wǎng)站或者有些多余的非蒙古文網(wǎng)站保存到數(shù)據(jù)庫(kù)中,導(dǎo)致結(jié)果不準(zhǔn)確。因此對(duì)于“.edu”、“.cn”、“.com”等這類(lèi)域名,域名拆分的鍵值就不應(yīng)該只保留頂級(jí)域名,而應(yīng)保留其二級(jí)域名或三級(jí)域名,如talchir.com。

        ⑵判斷獲取的URL是否為蒙古文網(wǎng)頁(yè)。在含有URL的數(shù)據(jù)庫(kù)中逐一提取已經(jīng)拆分好的域名、子域名、子目錄和頁(yè)面的URL,獲取相應(yīng)的頁(yè)面內(nèi)容,采用正則表達(dá)式的方法提取出頁(yè)面文本并判斷網(wǎng)頁(yè)文字是否為蒙古文,若是蒙古文則保留并存儲(chǔ)其對(duì)應(yīng)的URL,若不是則放棄該URL。

        判斷頁(yè)面文本是否為蒙古文有兩種方法,第一種是判斷網(wǎng)頁(yè)文字編碼所屬范圍是否在蒙古文編碼范圍內(nèi),從而判斷其是否為蒙古文網(wǎng)頁(yè)。具體操作為:先判斷頁(yè)面中蒙古文范圍內(nèi)的編碼數(shù)與文本總編碼數(shù)的比值m,當(dāng)m大于某個(gè)預(yù)先設(shè)定好的閾值A(chǔ)時(shí),可認(rèn)為該頁(yè)面文字屬于蒙古文,此時(shí)m值可作為判斷該頁(yè)面是蒙古文的可信度值。第二種是利用蒙古文高頻語(yǔ)素在蒙古文文本中出現(xiàn)的統(tǒng)計(jì)概率作為閾值,當(dāng)頁(yè)面中該語(yǔ)素出現(xiàn)的概率大于等于其統(tǒng)計(jì)平均值后,可認(rèn)為該頁(yè)面文字為蒙古文。但使用此方法時(shí)由于單個(gè)高頻語(yǔ)素的出現(xiàn)概率太小,把這個(gè)小概率當(dāng)做閾值,實(shí)驗(yàn)時(shí)可搜到的網(wǎng)頁(yè)很少,而且單個(gè)語(yǔ)素的編碼值還有可能是其他文字的編碼值,如漢字、英文的符號(hào),這樣得出的蒙古文網(wǎng)站數(shù)量少且可信度不高,所以采用第一種方法更有效。

        ⑶獲取已得到的蒙古文網(wǎng)站的基本信息(如備案號(hào)、服務(wù)器所在地、可信度、在中文網(wǎng)頁(yè)中的排名等等)。

        ⑷完成蒙古文網(wǎng)站搜集,最后要做的是實(shí)現(xiàn)搜索機(jī)制與用戶(hù)的接口。用戶(hù)接口的作用是輸入用戶(hù)查詢(xún)、顯示查詢(xún)結(jié)果、提供用戶(hù)相關(guān)性反饋機(jī)制。主要的目的是方便用戶(hù)使用搜索軟件,高效率、多方式地從搜索軟件中得到有效、及時(shí)的信息。用戶(hù)接口的設(shè)計(jì)和實(shí)現(xiàn)使用人機(jī)交互的理論和方法,以充分適應(yīng)人類(lèi)的思維習(xí)慣。

        2 利用蒙古文網(wǎng)站之間的鏈接搜集并確定其他蒙古文網(wǎng)站地址(廣度優(yōu)先法)

        廣度優(yōu)先搜集法(又稱(chēng)寬度優(yōu)先搜索)是最簡(jiǎn)便最常用的搜索算法之一,這個(gè)算法也是很多重要的圖的算法的Dijkstra單源最短路徑算法和prim最小生成樹(shù)算法都采用了和寬度優(yōu)先搜索類(lèi)似的思想。廣度優(yōu)先搜索基本算法為:⑴從某個(gè)頂點(diǎn)出發(fā)開(kāi)始訪問(wèn),被訪問(wèn)的頂點(diǎn)作相應(yīng)的標(biāo)記,并輸出訪問(wèn)頂點(diǎn)號(hào);⑵從被訪問(wèn)的頂點(diǎn)出發(fā),依次搜索與該頂點(diǎn)有邊的關(guān)聯(lián)的所有未被訪問(wèn)的鄰接點(diǎn),并做相應(yīng)的標(biāo)記;⑶再依次根據(jù)⑵中所有被訪問(wèn)的鄰接點(diǎn),訪問(wèn)與這些鄰接點(diǎn)相關(guān)的所有未被訪問(wèn)的鄰接點(diǎn),直到所有頂點(diǎn)被訪問(wèn)為止。

        廣度優(yōu)先法是沿著樹(shù)的寬度遍歷樹(shù)的節(jié)點(diǎn),如果發(fā)現(xiàn)目標(biāo),則算法中止。該算法的設(shè)計(jì)和實(shí)現(xiàn)相對(duì)簡(jiǎn)單,屬于盲目搜索。在目前為覆蓋盡可能多的網(wǎng)站,一般使用廣度優(yōu)先搜索方法,也有很多研究將廣度優(yōu)先搜索策略應(yīng)用與垂直搜索中,其基本思想是認(rèn)為與初始URL在一定鏈接距離內(nèi)的網(wǎng)站具有主題相關(guān)的概率很大。

        3 結(jié)束語(yǔ)

        以前由于蒙古文編碼不統(tǒng)一,使得蒙古文搜索引擎只能搜到很少的蒙古文網(wǎng)頁(yè),存在很大缺陷,對(duì)人們利用網(wǎng)絡(luò)獲取蒙古文資料造成極大的不便。雖然有蒙古文網(wǎng)站大全,但由于這些是人為手動(dòng)搜集的蒙古文網(wǎng)站,也存在蒙古文網(wǎng)站基本信息更新速度慢,獲得蒙古文網(wǎng)站不全的問(wèn)題。而搜集蒙古文網(wǎng)站的程序可以快速準(zhǔn)確獲得蒙古文網(wǎng)站及其基本信息,如備案號(hào)、服務(wù)器所在地、中文排名、世界排名、是否可訪問(wèn)等,解決了獲取蒙古文網(wǎng)站數(shù)量不全、網(wǎng)站信息更新慢的問(wèn)題。

        此外,快速獲得齊全的蒙古文網(wǎng)站,利于人們更好的了解蒙古文網(wǎng)站和及其相關(guān)內(nèi)容,便于國(guó)家相關(guān)部門(mén)有效合理地管理和發(fā)展少數(shù)民族網(wǎng)站,進(jìn)行少數(shù)民族語(yǔ)言信息處理,也為開(kāi)發(fā)更好的蒙古文搜索引擎做好鋪墊。所以搜集蒙古文網(wǎng)站于國(guó)家,于蒙古人民都是很有必要的一項(xiàng)工作。

        [參考文獻(xiàn)]

        [1]確精扎布.關(guān)于蒙古文編碼的若干問(wèn)題——與王升亮、嘎日迪、敖其爾先生商榷[J].內(nèi)蒙古大學(xué)學(xué)報(bào)(哲學(xué)社會(huì)科學(xué)版),2008,40(4):27-33.

        [2]郭琰.元搜索引擎的關(guān)鍵技術(shù)研究及系統(tǒng)實(shí)現(xiàn)[D].南京理工大學(xué):南京理工大學(xué),2002.

        [3]范道爾吉.蒙古文信息處理系統(tǒng)基礎(chǔ)研究[D].內(nèi)蒙古大學(xué),2006.

        [4]張芳.基于專(zhuān)業(yè)搜索引擎的元搜索引擎的研究與實(shí)現(xiàn)[D].華中科技大學(xué):華中科技大學(xué),2009.

        [5]白云莉.蒙古文信息處理平臺(tái)-蒙古文、錫伯文和滿文的文字輸入法的研究[D].內(nèi)蒙古大學(xué),2003.

        亚洲av高清在线一区二区三区 | 美女丝袜诱惑在线播放蜜桃| 亚洲av高清一区二区三| 国语对白做受xxxxx在线| 国产啪精品视频网给免丝袜| 激情五月婷婷六月俺也去| 白白色发布会在线观看免费| 午夜男女很黄的视频| 久久久久久av无码免费看大片| 好爽~又到高潮了毛片视频| 久久久精品国产亚洲av网麻豆| 日本真人做爰免费视频120秒 | 免费看一级a女人自慰免费| 邻居少妇张开腿让我爽视频| 不卡的av网站在线观看| 国产综合久久久久| 亚洲另在线日韩综合色| 97中文乱码字幕在线| 久久无码人妻丰满熟妇区毛片| 制服丝袜人妻中文字幕在线| 无码高清视频在线播放十区| 最新69国产精品视频| 亚洲一区二区三区熟妇| 人妻体内射精一区二区三区 | 精品国产品欧美日产在线| 日韩一区二区av伦理| 欧美激情肉欲高潮视频| 免费无码成人av在线播放不卡| 亚洲色欲色欲欲www在线| 国产无套一区二区三区久久| 48久久国产精品性色aⅴ人妻 | 国产精品女同久久免费观看 | 亚洲精品一区二区三区播放| 久久精品国产亚洲av性瑜伽| 无码中文字幕免费一区二区三区| 久久噜噜噜| 国产午夜精品综合久久久| 综合五月激情二区视频| 少妇内射视频播放舔大片| 国产在线精品亚洲视频在线| 免费亚洲一区二区三区av|