亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于教育信息資源的智能搜索引擎設計與實現(xiàn)

        2007-07-05 01:40:06傅素英
        智能計算機與應用 2007年3期
        關鍵詞:搜索引擎頁面排序

        宇 盟 傅素英

        摘要:首先對智能搜索引擎做了簡要概述.接著提出了一種新的搜索引擎的設計思路.并針對獨立搜索引擎的不足。獨立搜索引擎與元搜索引擎結合起來。提高了搜索引擎的精度和效率。

        關鍵詞:智能搜索引擎元搜索引擎

        中圖分類號TP311.11文獻標識碼B文章編號:1002-2422(2007)03-0037-03

        1教育搜索引擎組成與原理

        本搜索引擎將傳統(tǒng)專業(yè)搜索引擎和元搜索引擎結合起來,不僅提高了搜索引擎的覆蓋率,而且采用一種綜合評價算法,優(yōu)化了搜索結果的排列次序,同時根據(jù)各返回頁面的主題內容進行聚類顯示,方便用戶檢索。該搜索引擎主要包括4個模塊:信息采集模塊、信息挖掘模塊、元搜索引擎模塊和結果排序、聚類模塊。

        1.1信息挖掘模塊

        該模塊對搜索器所采集的信息進行單漢字標引(即全文索引),主題概念標引,摘要自動生成及對網頁重要程度進行評價。單漢字標引法將概念詞拆成單漢字,以單漢字為處理單位,利用漢字索引文件實現(xiàn)自動標引和邏輯檢索。由于這種方法把對“詞”的處理改為對“字”的處理,因此就繞過了漢語分詞的難題。主題概念標引模塊對采集來的信息進行內容特征分析,并抽取出能表達該信息主題的關鍵詞、關鍵句,為用戶提供主題概念檢索入口。

        1.2元搜索引擎模塊

        該模塊將用戶提交的檢索請求到多個獨立的搜索引擎上去搜索,并將各個檢索結果與本地檢索相互印證,互相比較,可以進一步提高查全率和查準率。

        1.3結果合并、排序、聚類顯示模塊

        搜索引擎對檢索結果的組織性是提高系統(tǒng)運行和性能評價的關鍵技術。近年來一直是國際上搜索引擎界的研究熱點。該模塊完成獨立搜索引擎與元搜索引擎返回結果的合并、排序。并對信息進行主題概念聚類。搜索結果以聚類樹和權重順序兩種形式顯示。

        2智能搜索引擎系統(tǒng)中關鍵技術的實現(xiàn)

        系統(tǒng)的關鍵技術包括資源采集控制、其他獨立搜索引擎的調用接口及返回結果的排序算法。

        2.1信息采集控制

        信息采集是從一個初始URL集合開始,順著這些URL中的超鏈接,循環(huán)往復地在互聯(lián)網中發(fā)現(xiàn)信息。我們這個系統(tǒng)是針對教育資源領域的一個專業(yè)搜索引擎,如果任意選擇初始URL集合,則很可能使Robot(采集程序)偏離教育資源這一領域。我們發(fā)現(xiàn),Google、百度等大型綜合搜索引擎可以為我們指引初始方向:以“教育資源”、“教學資源”,“教學課件”等關鍵詞組進行搜索,就可以得到大量超鏈接。這些超鏈接組織成一個質量較高的初始URL集合。

        網站中不是所有的URL鏈接都是與教育、教學相關。如果Robot沿著這些無用鏈接去采集信息,不僅降低了采集效率,而且會收集到大量垃圾信息,如廣告超鏈接。因此,對信息采集進行控制。

        信息挖掘模塊首先對采集到頁面進行主題分析,如果頁面主題與教育相關,則通過反饋,允許Robot沿著該頁面的URL繼續(xù)采集信息:否則終止在該頁面的采集活動。

        2.2其他獨立搜索引擎的調用

        元搜索引擎要通過程序接口調用其他多個獨立搜索引擎,就必須要獲取到這些獨立搜索引擎的程序接口。要獲得這些程序接口很容易,觀察每個獨立搜索引擎的地址欄的變化就可以總結出它們的接口。如用http://www.baidu.com/s?lm=0&si=&m=10&ie=gb2312&ct=0&wd=電子商務%Fl&pn=l&cl=3,就可以得到百度有關“電子商務”的搜索結果,其中“pn=l”表示從第一條返回結果開始顯示。

        2.3搜索結果的排序算法

        最終的搜索結果包括兩部分:本地數(shù)據(jù)的檢索結果和元搜索引擎模塊獲得的搜索結果。結果排序模塊將這兩部分搜索結果合并到一起,并按每個搜索結果與用戶提問表達式的符合程度進行排序,最后顯示給用戶。搜索結果與用戶提問表達式的復合程度可以通過計算它們之間的相似度來衡量。

        首先,提取提問表達式中的主題概念,把抽取出的主題概念表示成向量形式,代表提問式,如,q=(q1,w1;q2,w2;…qi;…,qn,wn),qi表示從提問式抽出的主題概念,wi表示qi的權值,這里默認為1;然后,抽取每一個搜索結果的主題概念,并用這些主題概念形成的向量代表搜索結果,如di=(c1,w1;c2,w2;…ci,wi:…cn,wn):ci表示從搜索結果中抽出的主題概念,wi表示ci的權值,可以用TF-IDF計算得到;最后,用公式1計算搜索結果向量與提問式向量之間的相似度,輸出模塊最終以相似度的大小排序輸出公式如下:

        猜你喜歡
        搜索引擎頁面排序
        大狗熊在睡覺
        刷新生活的頁面
        排序不等式
        恐怖排序
        節(jié)日排序
        刻舟求劍
        兒童繪本(2018年5期)2018-04-12 16:45:32
        網絡搜索引擎亟待規(guī)范
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        同一Word文檔 縱橫頁面并存
        国产亚洲av手机在线观看| 青青草在线免费播放视频| 国模91九色精品二三四| 欧美乱妇高清无乱码免费| 国产盗摄xxxx视频xxxx| 波多野结衣av手机在线观看 | 久久国产精品超级碰碰热| 国产日产免费在线视频| 日本在线综合一区二区| 日本少妇高潮喷水视频| 亚洲sm另类一区二区三区| 亚洲 自拍 另类小说综合图区| 国产一区二区三区在线观看精品| 人妻少妇av中文字幕乱码免费| 亚洲视频专区一区二区三区| av网站免费线看精品| 欧美真人性野外做爰| 夜夜嗨av一区二区三区| 日本一本久道| 狼色在线精品影视免费播放| av网站免费在线不卡| 亚洲高清国产成人精品久久| 日本边添边摸边做边爱| 国产69精品久久久久999小说| 精品国产a∨无码一区二区三区| 欧美成人免费看片一区| 亚洲av网一区天堂福利| 成人一区二区人妻少妇| 欧美性猛交xxxx富婆| 久久se精品一区精品二区国产| 91国产视频自拍在线观看| 亚洲中文字幕剧情类别| 精品久久香蕉国产线看观看亚洲| 国产乱妇乱子视频在播放| 国产精品亚洲A∨天堂不卡| 日本岛国视频在线观看一区二区| 亚洲国产精品久久久av| 玩中年熟妇让你爽视频| 免费夜色污私人影院在线观看| 国产亚洲日韩AV在线播放不卡| 亚洲av无吗国产精品|