摘 要:隨著Internet/Intranet的快速發(fā)展和普及,豐富的Web資源構(gòu)成一個(gè)巨大的全球信息倉(cāng)庫(kù)。在海量數(shù)據(jù)空間中快速、準(zhǔn)確地獲取用戶所需成為Web檢索系統(tǒng)研究的焦點(diǎn)。將一種全新的網(wǎng)頁(yè)自動(dòng)分類技術(shù)引入WWW信息抽取領(lǐng)域,解決網(wǎng)上信息有效獲取的問(wèn)題。獲取網(wǎng)站分類體系,設(shè)計(jì)的Web信息自動(dòng)歸類算法,可通過(guò)Web數(shù)據(jù)抽取機(jī)制以及Web信息分類技術(shù)實(shí)現(xiàn)檢索結(jié)果的分類和層次化展示,使用戶快捷準(zhǔn)確地從WWW上獲取所需信息。
關(guān)鍵詞:信息檢索;信息歸類;分類體系;層次化展示
中圖分類號(hào):TP393.092 文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1004-373X(2008)10-076-03
Research of Information Classification in Web Information Retrieval
MA Jiying,ZHU Lijun,ZHANG Yan
(Shenyang Institute of Chemical Technology,Shenyang,110142,China)
Abstract:As Internet/Intranet developing quickly and being popular,affluent Web resources have composed a huge global information warehouse.It becomes more and more important in information retrieval research that how to obtain the Web information what users need among magnanimity data space fast and accurately.In order to improve the performance of search engine,this paper applies a new technology of Web page classification to the existing search engine.We obtain Website classification system and design arithmetic of Web information classification.Result can be classified into groups and displayed hierarchically by Web information extraction mechanism and users obtain what they need on WWW fast.
Keywords:information retrieval;information classification;classification system;hierarchical display
1 引 言
目前,搜索引擎提供的信息往往遠(yuǎn)多于用戶所需的信息,原因是基于關(guān)鍵詞的搜索會(huì)返回包含該關(guān)鍵詞的所有網(wǎng)頁(yè),而這些網(wǎng)頁(yè)往往跨越多個(gè)領(lǐng)域,其中會(huì)有許多內(nèi)容屬于用戶根本不感興趣的范圍。為使因特網(wǎng)用戶快速查詢出感興趣的信息,有必要將分類技術(shù)運(yùn)用到搜索引擎當(dāng)中。網(wǎng)頁(yè)間的超鏈接提供了網(wǎng)頁(yè)間內(nèi)在關(guān)系的信息[1],很明顯,如果網(wǎng)頁(yè)A指向網(wǎng)頁(yè)B,那么網(wǎng)頁(yè)A的作者會(huì)認(rèn)為網(wǎng)頁(yè)B包含有價(jià)值的信息或者他們之間存在某些關(guān)系。已經(jīng)有一些分類工作涉及用超鏈接及HTML結(jié)構(gòu)來(lái)提高網(wǎng)頁(yè)分類的精確率[2-4]。
與傳統(tǒng)數(shù)據(jù)相比,Web數(shù)據(jù)有如下特點(diǎn)[5,6]:數(shù)據(jù)不由任何組織和個(gè)人控制,沒(méi)有固定的數(shù)據(jù)模型;數(shù)據(jù)的組織是任意的,只要能在Web上展現(xiàn)即可;數(shù)據(jù)的內(nèi)容和表現(xiàn)方式是動(dòng)態(tài)變化的;數(shù)據(jù)量巨大并且增長(zhǎng)迅速。雖然搜索引擎已經(jīng)成為成熟的商業(yè)應(yīng)用,極大地方便Web信息的查找和獲取,但他還存在著以下問(wèn)題[7,8]:大量非專業(yè)用戶,難以使用簡(jiǎn)單查詢串準(zhǔn)確表達(dá)自己的信息需求,從而造成大量查詢結(jié)果并不是用戶需要的信息;信息搜索過(guò)程和結(jié)果集排序?qū)λ杏脩羰褂猛粯?biāo)準(zhǔn),難以使不同知識(shí)、工作背景的用戶都滿意;新近提出的自動(dòng)分類的搜索引擎服務(wù)[9]是一種新型的、自動(dòng)語(yǔ)義匹配、自動(dòng)抽取主要欄目,二級(jí)欄目,模塊化的Web應(yīng)用,并能通過(guò)Web被發(fā)布、定位和調(diào)用。他著眼于網(wǎng)頁(yè)之前間的超連接關(guān)系,通過(guò)蜘蛛程序獲得網(wǎng)站拓?fù)浣Y(jié)構(gòu)和分類體系進(jìn)而完成Web信息的自動(dòng)歸類,從根本上不同于基于特征向量法的網(wǎng)頁(yè)自動(dòng)分類技術(shù)。自動(dòng)分類的搜索引擎服務(wù)能幫助簡(jiǎn)化信息搜索,減少用戶自己分類的時(shí)間,使合作更容易。
基于這種新型自動(dòng)分類思想,從底層蜘蛛程序獲得相關(guān)分類信息和網(wǎng)站拓?fù)浣Y(jié)構(gòu),抽取了網(wǎng)站分類體系,設(shè)計(jì)了Web信息歸類算法,并將多項(xiàng)信息分類展示,為用戶有效地在WWW上搜索信息提供方便高效的支持。
2 網(wǎng)站分類體系抽取
2.1 研究思路
基于這樣一個(gè)基本原則:尊重信息發(fā)布者對(duì)信息的理解。Web信息通常以Web站點(diǎn)的形式聚集,這是WWW信息空間中信息組織的重要特點(diǎn)。Web站點(diǎn)通常都是遵循網(wǎng)站設(shè)計(jì)者(信息發(fā)布者)的意圖,按照一定的原則對(duì)站點(diǎn)層次、欄目進(jìn)行組織、規(guī)劃,而Web信息發(fā)布者對(duì)Web內(nèi)容的理解直接體現(xiàn)于Web頁(yè)面所歸屬的欄目分類。通過(guò)抽取網(wǎng)站本身的欄目層次信息、網(wǎng)頁(yè)信息以及其拓?fù)浣Y(jié)構(gòu),就能夠?qū)崿F(xiàn)分類體系的確立及Web信息的自動(dòng)歸類。當(dāng)用戶檢索信息時(shí),可以對(duì)檢索結(jié)果分類組織和展示,使用戶能夠根據(jù)信息類別快速定位感興趣的信息。
網(wǎng)站采用的分類體系通過(guò)網(wǎng)站導(dǎo)航體系展現(xiàn)。通過(guò)網(wǎng)頁(yè)分塊、塊導(dǎo)航置信度分析獲取導(dǎo)航欄,進(jìn)而獲取網(wǎng)站導(dǎo)航體系,在導(dǎo)航體系分類語(yǔ)義分析的基礎(chǔ)上,獲取網(wǎng)站的分類體系。
2.2 獲取網(wǎng)站分類體系
為了方便用戶瀏覽信息,網(wǎng)站通常設(shè)有自己的分類體系。網(wǎng)站結(jié)構(gòu)按該體系進(jìn)行信息的分類組織:在顯要位置給出各類別信息的入口,不同類別的信息處于網(wǎng)站結(jié)構(gòu)中不同位置,同類信息出現(xiàn)在相近的位置,信息發(fā)布時(shí)根據(jù)其類別選擇位置。同時(shí),網(wǎng)站結(jié)構(gòu)的組織,總是從網(wǎng)站首頁(yè)開始,通過(guò)索引頁(yè)面,鏈接到最終信息頁(yè)面。
2.2.1 基于網(wǎng)頁(yè)分塊的導(dǎo)航欄提取
按照網(wǎng)頁(yè)頁(yè)面版式,內(nèi)容相關(guān)度等特征,可以將頁(yè)面按區(qū)域進(jìn)行分割,這個(gè)過(guò)程稱為網(wǎng)頁(yè)分塊。網(wǎng)頁(yè)分塊后,頁(yè)面上各個(gè)分離的區(qū)域稱為塊。同一塊內(nèi)的內(nèi)容,聯(lián)系比較緊密;而不同塊之間的內(nèi)容關(guān)系則比較松散,在語(yǔ)義上也不連貫。按照作用與功能,塊可以分為導(dǎo)航塊、正文塊和輔助塊。導(dǎo)航塊是指主要完成網(wǎng)頁(yè)間導(dǎo)航功能,他所包含的主要內(nèi)容為超鏈接;正文塊主要功能為表現(xiàn)網(wǎng)頁(yè)主體內(nèi)容,索引頁(yè)面的正文塊通常為指向其他頁(yè)面的超鏈;輔助塊是指諸如網(wǎng)站版權(quán)信息說(shuō)明等,是對(duì)本網(wǎng)頁(yè)起到輔助作用的塊。
(1) 網(wǎng)頁(yè)分塊:HTML提供了多種控制格式的標(biāo)簽,其中一些有空間上和邏輯的分隔作用。如,<p>,<br>,<tr>等,他們表現(xiàn)為較大的空行,能夠起分隔段落的作用;<hr>,他表現(xiàn)為水平線,人們習(xí)慣用他分隔關(guān)系松散的章節(jié);還有一些標(biāo)記在空間上表現(xiàn)為分隔,同時(shí)也被用來(lái)表達(dá)在意義上比較獨(dú)立的文字段,例如:<blockquote>,<form>,<table>等。研究及試驗(yàn)表明,網(wǎng)頁(yè)HTML文件中連續(xù)出現(xiàn)多個(gè)有空間或邏輯分隔作用標(biāo)簽是前后內(nèi)容不相關(guān)的標(biāo)志。
HTML文件中連續(xù)出現(xiàn)的,有空間或邏輯分隔作用標(biāo)簽集合稱為間隔,記為I。其中連續(xù)的含義是指在標(biāo)簽和標(biāo)簽之間不出現(xiàn)可在網(wǎng)頁(yè)上顯示的文本,包括超鏈接文本和普通文本。對(duì)于有分隔作用的標(biāo)簽Ti,按照其分隔內(nèi)容的程度,賦予權(quán)重WTi。間隔I內(nèi)標(biāo)簽權(quán)重的累加值WI,即WI=∑[DD(]i=n[]i=1[DD)]WTi,稱為間隔權(quán)重,Ti,i=1,2,…,n,為I中的有分隔作用的標(biāo)簽。設(shè)定間隔權(quán)重閾值為某一常數(shù)C,權(quán)重大于C的間隔稱為分割,記為D。分割把頁(yè)面HTML源文件分成多個(gè)段,每段HTML對(duì)應(yīng)了顯示頁(yè)面的一個(gè)區(qū)域,從而網(wǎng)頁(yè)頁(yè)面被分成若干區(qū)域,這樣就實(shí)現(xiàn)了網(wǎng)頁(yè)分塊,由網(wǎng)頁(yè)得到了塊。
分塊過(guò)程中,有兩種方式實(shí)現(xiàn)分塊的靈活性調(diào)控:調(diào)整有分隔作用的標(biāo)簽的權(quán)重,可以適應(yīng)不同的頁(yè)面設(shè)計(jì)風(fēng)格;通過(guò)間隔構(gòu)成分割閾值大小的設(shè)定,可以控制分塊的粒度,滿足不同應(yīng)用對(duì)分塊的需求。
(2) 網(wǎng)頁(yè)塊導(dǎo)航置信度分析:完成頁(yè)面分塊后,需要從塊中確定哪些是導(dǎo)航塊。研究大量網(wǎng)站發(fā)現(xiàn):導(dǎo)航塊通常位于頁(yè)面的上部或左部,對(duì)應(yīng)HTML源文件中前面的部分,所以導(dǎo)航塊必定在前面的塊中;導(dǎo)航塊中的主要內(nèi)容為超鏈;導(dǎo)航塊中各超鏈的顯示文字比較整齊,簡(jiǎn)短;導(dǎo)航塊中各超鏈的URL比較整齊,一般不含query。
2.2.2 導(dǎo)航項(xiàng)分類語(yǔ)義判斷
在得到頁(yè)面導(dǎo)航塊后,解析導(dǎo)航塊的HTML代碼,提取各導(dǎo)航項(xiàng)的顯示文字,鏈接地址。分析顯示文字的分類語(yǔ)義:如果有足夠的分類語(yǔ)義,則為分類類別;如果明顯缺乏分類語(yǔ)義,則丟棄;對(duì)無(wú)法做出明確判斷的,則根據(jù)試驗(yàn)效果做選擇。每個(gè)類別都與其對(duì)應(yīng)原導(dǎo)航項(xiàng)的超鏈關(guān)聯(lián),這樣每個(gè)類別都有對(duì)應(yīng)的類別位置,這是后續(xù)Web信息歸類的基礎(chǔ);類別關(guān)聯(lián)的超鏈還指明查找下一層類別的頁(yè)面。從導(dǎo)航塊中抽取欄目信息的流程如圖1所示。
從分塊程序給出頁(yè)面塊集合中的第一個(gè)塊開始,逐塊檢查內(nèi)部各鏈接項(xiàng)的文本、URL特征等,并進(jìn)行總體分析,直到確定出一個(gè)導(dǎo)航塊,返回。
3 Web信息自動(dòng)分類
Web信息都通過(guò)其所在頁(yè)面關(guān)聯(lián)到網(wǎng)站結(jié)構(gòu)中的位置,在獲取網(wǎng)站的分類體系后,通過(guò)信息位置和類別位置的對(duì)應(yīng),可以實(shí)現(xiàn)Web信息的歸類[10]。下面先給出幾個(gè)基本定義:
[HTH]定義1:信息位置,Web信息所在頁(yè)面對(duì)應(yīng)的節(jié)點(diǎn)在網(wǎng)站的結(jié)構(gòu)圖中所處位置稱為信息位置。
[HTH]定義2:類別位置,類別都關(guān)聯(lián)了超鏈,這個(gè)超鏈指向頁(yè)面對(duì)應(yīng)的節(jié)點(diǎn)在網(wǎng)站的網(wǎng)站結(jié)構(gòu)圖中所處位置稱為類別位置。
[HTH]定義3:信息和類別對(duì)應(yīng)關(guān)系,如果從某一類別的類別位置出發(fā),沿著網(wǎng)站結(jié)構(gòu)圖,能夠到達(dá)某Web信息所在信息位置,則說(shuō)這個(gè)類別和這條信息有對(duì)應(yīng)關(guān)系。
[HTH]定義4:信息-類別距離,如果某信息和某類別對(duì)應(yīng),在網(wǎng)站結(jié)構(gòu)圖中,信息的信息位置到類別的類別位置的最短路徑的長(zhǎng)度,稱為該信息到與該類別的信息-類別距離。
網(wǎng)站的組織中,總是從網(wǎng)站首頁(yè)開始,通過(guò)索引頁(yè)面,鏈接到最終信息頁(yè)面。網(wǎng)站組織信息有如下特點(diǎn):不同類別信息處在網(wǎng)站結(jié)構(gòu)中不同位置,同類信息處在相近位置,首頁(yè)導(dǎo)航欄給出各大類信息的入口,大類對(duì)應(yīng)的索引頁(yè)面指向小類對(duì)應(yīng)的索引頁(yè)面,小類對(duì)應(yīng)的索引頁(yè)面指向本類其他索引頁(yè)面和最終信息頁(yè)面??紤]到類別的層次性,與子類對(duì)應(yīng)的信息必然與父類對(duì)應(yīng)。
圖1 頁(yè)面導(dǎo)航欄分析流程圖
采用如下策略確定信息歸屬類別:在所有與某一信息對(duì)應(yīng)的類別中,信息類別距離最短的類別,作為信息的歸屬類別;如果有多個(gè)與該信息對(duì)應(yīng)的,有相同信息-類別距離的類別,則其中層次最深的類別作為信息歸屬類別;如果有多個(gè)信息-類別距離相等,且層次相同的類別與該信息對(duì)應(yīng),則取其中分類語(yǔ)義最大的類別作為信息的類別。
這種分類的依據(jù)是信息發(fā)布者對(duì)信息類別的判斷,更加準(zhǔn)確和權(quán)威;分類體系保持了層次性,便于知識(shí)學(xué)習(xí)和表示;分類過(guò)程不需要自然語(yǔ)言理解和統(tǒng)計(jì)分析,效率更高。設(shè)計(jì)的算法為:
(1) 根據(jù)網(wǎng)站結(jié)構(gòu)圖,找出所有指向信息所在頁(yè)面對(duì)應(yīng)節(jié)點(diǎn)的頁(yè)面,放入集合F;
(2) 判斷F集合中是否包含對(duì)應(yīng)分類體系中某類別得節(jié)點(diǎn);如果有,則找出其中層次最深,包含分類語(yǔ)義最大的類別,將信息歸入該類,程序結(jié)束,否則到(3);
(3) 在網(wǎng)站結(jié)構(gòu)圖中,找出所有指向F集中節(jié)點(diǎn)的節(jié)點(diǎn),并將這些節(jié)點(diǎn)的集合作為新的F集,返回(2)。
4 檢索結(jié)果的分類和層次化展示
采用Java以及動(dòng)態(tài)Web技術(shù)實(shí)現(xiàn),以Tomcat 5作為JSP/Serlvet容器,Oracle 9為數(shù)據(jù)庫(kù)服務(wù)器。以sohu,sina等網(wǎng)站的具體欄目題材實(shí)現(xiàn)檢索結(jié)果的分類和層次化展示示例如圖2所示。
圖2 檢索“喬丹”得到的分類結(jié)果
5 結(jié) 語(yǔ)
充分挖掘信息發(fā)布者的思想,重點(diǎn)考慮網(wǎng)站內(nèi)部通過(guò)鏈接表現(xiàn)的組織結(jié)構(gòu);根據(jù)網(wǎng)站組織結(jié)構(gòu)提取網(wǎng)站分類體系,通過(guò)設(shè)計(jì)的Web信息歸類算法,完成信息的自動(dòng)歸類;實(shí)現(xiàn)檢索結(jié)果的分類和層次化展示。提高查到準(zhǔn)確信息的效率,為終端用戶提供更為方便的服務(wù)和應(yīng)用。
參 考 文 獻(xiàn)
[1]Jennifer Farkas.Document Classification and Recurrent Neural Networks [C].Proceedings of the 1995 Conference of the Centre for Advanced Studies on Collaborative Research,1995:21-27.
[2]David Gibson,Jon M Kleinberg,Prabhakar Raghavan.Inferring Web Communities from Link Topology [C].UK Conference on Hypertext,1998:225-234.
[3]Michael B Cline.Using HTML Structure and Linked Pages to Improve Learning for Text Categorization [D].Department of Computer Sciences,University of Texas at Austin,1999.
[4]Yin-Hung Kuo,Man Hon Wong.Web Document Classification Based on Hyperlinks and Document Semantics.PRICAI Workshop on Text and Web Mining,2000:41-44.
[5]Bing Liu,Kevin Chen-Chuan Chang.Editorial:Special Issue on Web Content Mining [J].ACM SIGKDD Explorations Newsletter,2004,6(2):1-4.
[6]Devanshu Dhyani,Wee Keong Ng,Sourav S Bhowmick.A Survey of Web Metrics [J].ACM Comput Survey,2002,34(4):469-503.
[7]Chia-Hui Chang,Ching-Chi Hsu.Integrating Query Expansion and Conceptual Relevance Feedback for Personalized Web Information Retrieval [J].Computer Networks and ISDN Systems,1998,30(7):621-623.
[8]Liu F,Yu C,Meng W.Personalized Web search by mapping user queries to categories [C].Proceedings of the Eleventh International Conference on Information and Knowledge Management,McLean,2002:558-565.
[9]彭彤,張斌,鄭懷遠(yuǎn).WWW上的基于信元模型的信息集成[J].小型微型計(jì)算機(jī)系統(tǒng),2002(7):23-27.
[10]Gao Kening,Yang Leiming,Zhang Bin.Automatic Classification of Web information Based on Site Structure [A].CW2005,2005:350-357.
作者簡(jiǎn)介
馬紀(jì)穎 女,1975年出生,遼寧遼中人,碩士研究生,講師。研究方向?yàn)閃eb信息檢索和集成。
朱力軍 男,1972年出生,碩士,講師。研究方向?yàn)檐浖こ獭*?/p>
張 顏 女,1979年出生,碩士研究生,講師。
注:本文中所涉及到的圖表、注解、公式等內(nèi)容請(qǐng)以PDF格式閱讀原文。