趙曉麗
臨沂大學(xué)費(fèi)縣分校,山東臨沂 273400
搜索引擎是因特網(wǎng)上最常見(jiàn)的一種信息檢索工具。它分為定期搜索和提交網(wǎng)站搜索兩類。定期搜索就是每隔一段固定的時(shí)間,搜索引擎就自動(dòng)開(kāi)啟搜索的專門程序。這種程序通過(guò)執(zhí)行語(yǔ)句來(lái)對(duì)固定的局域網(wǎng)的網(wǎng)絡(luò)地址進(jìn)行掃描,從而發(fā)現(xiàn)新的網(wǎng)絡(luò)地址,進(jìn)而對(duì)新網(wǎng)址對(duì)應(yīng)的網(wǎng)站的信息進(jìn)行吞吐,最終加入到自己的數(shù)據(jù)庫(kù)中。提交網(wǎng)站搜索是指網(wǎng)站自動(dòng)的將自己擁有的信息發(fā)送給搜索引擎,搜索引擎每隔一段固定的時(shí)間就利用編寫好的程序?qū)W(wǎng)站上的信息進(jìn)行掃描,發(fā)現(xiàn)有新的信息就自動(dòng)將其儲(chǔ)存在備用的數(shù)據(jù)庫(kù)空間中。
從語(yǔ)言學(xué)的角度看,語(yǔ)義分析就是對(duì)句子中用到的詞匯、動(dòng)詞搭配、形容詞的運(yùn)用、語(yǔ)法進(jìn)行分析。語(yǔ)義學(xué)就是在對(duì)語(yǔ)言進(jìn)行研究時(shí)形成的學(xué)科。語(yǔ)言學(xué)的語(yǔ)義研究主要是找出語(yǔ)義表達(dá)的規(guī)律、內(nèi)在含義、內(nèi)在解釋、不同語(yǔ)言的寓意表達(dá)方面的個(gè)性及其共性。邏輯學(xué)的予以研究就是找到對(duì)邏輯關(guān)系的解釋,憑借真值條件進(jìn)行判斷。如何分析網(wǎng)頁(yè)中信息的語(yǔ)義呢,下面我們將從實(shí)際的例子中得到答案。我們知道大多數(shù)的文字都是通過(guò)文本的形式被存儲(chǔ)起來(lái)的,但是對(duì)于不同地方的文本要表示的意義是不一樣的。例如我們通常會(huì)將比較重要的文本文件設(shè)置在標(biāo)題處,網(wǎng)頁(yè)上的文本根據(jù)不同的標(biāo)簽分為了主標(biāo)題-一級(jí)標(biāo)題-二級(jí)標(biāo)題-三級(jí)標(biāo)題-四級(jí)標(biāo)題-五級(jí)標(biāo)題等等。網(wǎng)頁(yè)信息的檢索就是通過(guò)這些一級(jí)一級(jí)的標(biāo)簽進(jìn)行語(yǔ)法的分析的。利用這些標(biāo)簽就能很快的準(zhǔn)確的找到自己要尋找的文本及其段落,由于這項(xiàng)分析要求檢索系統(tǒng)能自動(dòng)完成,準(zhǔn)確的算法是設(shè)計(jì)檢索程序的基礎(chǔ)。我們?cè)趯?duì)網(wǎng)頁(yè)上文本進(jìn)行分析時(shí),程序就對(duì)有關(guān)的主標(biāo)題進(jìn)行搜索,這項(xiàng)搜索主要是對(duì)網(wǎng)頁(yè)中重復(fù)出現(xiàn)該關(guān)鍵字的標(biāo)題進(jìn)行一個(gè)一個(gè)的檢索,對(duì)于頻數(shù)比較大的標(biāo)題就根據(jù)算法進(jìn)行排列,然后根據(jù)優(yōu)先級(jí)的大小進(jìn)行下一層檢索,在分析出每個(gè)句子的模式,根據(jù)它所在的文本特征區(qū)域,首先計(jì)算出該語(yǔ)義模式的加權(quán)相關(guān)度,然后再對(duì)所有的語(yǔ)義模式的加權(quán)相關(guān)度求和,計(jì)算出全文語(yǔ)義相關(guān)度。
對(duì)于有固定鏈接的網(wǎng)頁(yè)信息的檢索分析可以直接通過(guò)網(wǎng)站來(lái)訪問(wèn)網(wǎng)頁(yè)。使用該方法就要求搜索人必須知道信息所在網(wǎng)頁(yè)的地址或是網(wǎng)絡(luò)實(shí)名,該方法很快的就能找到自己想要的信息,但是我們?cè)谄綍r(shí)的搜索中很少知道自己要搜索信息的網(wǎng)絡(luò)地址,這就要求我們先運(yùn)用搜索引擎進(jìn)行關(guān)鍵字的搜索,等到快要接近自己尋找的信息時(shí)在轉(zhuǎn)到具體的網(wǎng)頁(yè)的搜索。例如我們經(jīng)常要到網(wǎng)頁(yè)上看新聞,我們可以直接進(jìn)入搜狐網(wǎng);要在網(wǎng)上買東西可以直接進(jìn)入淘寶網(wǎng)進(jìn)行shopping.
對(duì)于就像中國(guó)知網(wǎng)這樣的數(shù)據(jù)庫(kù)就可以直接在數(shù)據(jù)庫(kù)中進(jìn)行在線查詢。在我們的網(wǎng)絡(luò)上有許多數(shù)據(jù)庫(kù),里面收錄的大量的數(shù)據(jù)信息。如果我們想要了解中國(guó)目前大學(xué)生就業(yè)問(wèn)題,我們就可以直接進(jìn)入中國(guó)科學(xué)院科學(xué)數(shù)據(jù)庫(kù):http://www.sdb.ac.cn來(lái)進(jìn)行搜索。目前在我國(guó)各大高校圖書館都有自己的數(shù)據(jù)庫(kù),學(xué)生可以經(jīng)過(guò)直接就如數(shù)據(jù)庫(kù)搜索自己所需的文獻(xiàn)和資料。
我們通過(guò)具體的實(shí)例來(lái)分析一下在網(wǎng)頁(yè)視頻中語(yǔ)義的分析和校對(duì)。我們知道對(duì)于網(wǎng)頁(yè)上的視頻主要是通過(guò)ASR來(lái)識(shí)別視頻腳本進(jìn)而進(jìn)行詞語(yǔ)的處理和檢測(cè),這里以動(dòng)畫片視頻為例子。首先我們是將視頻分成不同的語(yǔ)種,我們要子視頻中找到漢語(yǔ)版的《喜羊羊與灰太狼》,對(duì)于不同的語(yǔ)種我們有專門的是識(shí)別程序,它是根據(jù)不同的語(yǔ)言組織形式、不同的語(yǔ)法、不同的發(fā)音等等進(jìn)行搜索等的。例如對(duì)于漢語(yǔ)我們的語(yǔ)法就規(guī)定動(dòng)詞放在主語(yǔ)的后面、形容詞放在名詞的前面、讀的時(shí)候從左向右依次進(jìn)行等等,而對(duì)于英語(yǔ)就是從后向前進(jìn)行讀,根據(jù)這點(diǎn)的不同程序就可以利用語(yǔ)法的不同進(jìn)行很好的邏輯判斷。當(dāng)然語(yǔ)言的判斷還只是簡(jiǎn)單的起步,我們還要編寫腳本程序來(lái)對(duì)具有同樣作者的視頻進(jìn)行檢索和歸類,例如我們可以利用邏輯電路來(lái)進(jìn)行仿真模擬,當(dāng)我們將簡(jiǎn)單的燈亮的小程序拷到芯片里的時(shí)候我們看到了預(yù)期的現(xiàn)象,接著我們對(duì)每個(gè)腳本進(jìn)行設(shè)置使得產(chǎn)生不同的現(xiàn)象,這樣就很好的區(qū)分了作者。由于目前信息量快速地增加,每一時(shí)刻大量的信息進(jìn)進(jìn)入到網(wǎng)站,傳統(tǒng)的提交網(wǎng)站搜索法已經(jīng)不能滿足信息的快速增加,這就要求新的方法來(lái)解決出現(xiàn)的問(wèn)題,這時(shí)候外鏈接就應(yīng)運(yùn)而生。外鏈接主要是將原來(lái)一個(gè)頁(yè)面出現(xiàn)的信息分成了幾個(gè)頁(yè)面,這樣一來(lái)搜索引擎就有足夠的時(shí)間將數(shù)據(jù)收錄到自己的數(shù)據(jù)庫(kù)中。我們?cè)谶M(jìn)行信息檢索時(shí)通常是使用關(guān)鍵字來(lái)進(jìn)行檢索的,當(dāng)你輸入關(guān)鍵字進(jìn)行搜索時(shí)搜索引擎就會(huì)在數(shù)據(jù)中進(jìn)行掃描,對(duì)于出現(xiàn)頻率較高的相關(guān)鏈接就出現(xiàn)在網(wǎng)頁(yè)的最上方,按照頻度依次向下排列。
網(wǎng)絡(luò)信息組織是將具有共同關(guān)鍵字、共同語(yǔ)法、共同研究對(duì)象等等的雜亂信息進(jìn)行分類整理,使其形成以一套完整的系統(tǒng)的過(guò)程。網(wǎng)頁(yè)信息檢索就是人們對(duì)整理好的信息的搜索過(guò)程,語(yǔ)義分析就是我們用到的一種關(guān)鍵的獲取信息的方法。該方法快速的檢索分類算法,使得我們的網(wǎng)頁(yè)信息整理有章可循。
[1]袁穎,趙捧未.基于語(yǔ)義網(wǎng)的數(shù)字圖書館信息檢索模型研究[J].科技情報(bào)開(kāi)發(fā)與經(jīng)濟(jì),2010(7):1-3.
[2]張愛(ài)文,樊紅蓮.半離散矩陣分解改進(jìn)算法在網(wǎng)頁(yè)信息檢索中的應(yīng)用研究[J].黑龍江工程學(xué)院學(xué)報(bào),2007,21(2):55-57.
[3]陳星光.基于語(yǔ)義Web的信息檢索系統(tǒng)的研究[D].鎮(zhèn)江:江蘇科技大學(xué)碩士學(xué)位論文,2010.
[4]張鐵虎,朱嘉鋼.基于本體語(yǔ)義教務(wù)信息檢索系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)[J].淮海工學(xué)院學(xué)報(bào),2011,20(2):3.