〔摘 要〕嘗試將粗糙集理論應(yīng)用于網(wǎng)站信息的知識發(fā)現(xiàn)。以廣西17所本科院校的網(wǎng)站鏈接信息作為研究對象,構(gòu)建影響網(wǎng)站流量排名的指標(biāo)體系,數(shù)據(jù)處理采用粗糙集理論,經(jīng)計(jì)算得到約簡后的條件屬性,并自動(dòng)推導(dǎo)出12條決策規(guī)則。實(shí)證結(jié)果表明,構(gòu)建的指標(biāo)體系是合理及正確的,研究結(jié)果可為高校網(wǎng)站建設(shè)提供定量參考。
〔關(guān)鍵詞〕粗糙集理論;鏈接分析理論;高校網(wǎng)站評價(jià)
DOI:10.3969/j.issn.1008-0821.2010.11.005
〔中圖分類號〕G250.73 〔文獻(xiàn)標(biāo)識碼〕A 〔文章編號〕1008-0821(2010)11-0019-06
Knowledge Discovery of University Website
Information Based on Rough Set TheoryLiang Zongjing1 Kuang Yun2 Lei Yingxi3
(1.College of Computer Science and Information Technology,Guangxi Normal University,Guilin 541004,China;
2.Department of Mathematics and Computer Science Guilin Normal College,Guilin 541001,China;
3.Department of Computer Science Guilin Science of Technology,Nanning 530001,China)
〔Abstract〕This paper attempted to study Web information by applied rough set theory.The web link information of Guangxi 17 colleges was studied in this paper.To build adversely affect site traffic ranking index system,and rough set theory as a data processing tool,it was calculated that the conditions obtained after reduction properties,and automatically derived 12 decision rules.The empirical results showed that the construction of the index system was reasonable and correct results could provide quantitative information of university website.
〔Keywords〕rough set theory;link analysis theory;university website evaluation
隨著計(jì)算機(jī)網(wǎng)絡(luò)應(yīng)用的擴(kuò)大,計(jì)算機(jī)網(wǎng)絡(luò)近年來獲得了越來越廣泛的應(yīng)用。據(jù)中國互聯(lián)網(wǎng)信息中心2010年公布的《第26次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》中所述:截止2010年6月,我國網(wǎng)民數(shù)已達(dá)4.2億,網(wǎng)站數(shù)達(dá)279萬[1]。互聯(lián)網(wǎng)作為一種新的信息傳播媒介,以其發(fā)布免費(fèi)、傳播快速的特點(diǎn),已成為各行業(yè)發(fā)布信息的主要方式之一。高校網(wǎng)站作為高校信息發(fā)布的重要平臺,發(fā)揮著傳播學(xué)校信息、推廣科研成果、促進(jìn)教學(xué)資源共享等功能。因?yàn)榫W(wǎng)站性能的優(yōu)劣,直接關(guān)系信息傳達(dá)效率、學(xué)校影響力的擴(kuò)大,所以研究高校網(wǎng)站性能、探索網(wǎng)站影響力的主要因素具有十分重要的現(xiàn)實(shí)意義。
根據(jù)網(wǎng)絡(luò)信息計(jì)量學(xué)理論的劃分,網(wǎng)站性能指標(biāo)包括二大類:其一是網(wǎng)站鏈接指標(biāo);其二是流量指標(biāo),其中鏈接指標(biāo)包括網(wǎng)站總網(wǎng)頁數(shù)、入鏈數(shù)、出鏈數(shù)等,流量指標(biāo)則包括網(wǎng)站流量排名、網(wǎng)站訪問量、人均訪問量等[2]。為了評價(jià)高校網(wǎng)站的性能,已有研究主要是集中于分析大學(xué)綜合實(shí)力排名與網(wǎng)站性能指標(biāo)間的相關(guān)性[3-5],普遍采用的數(shù)學(xué)分析工具是統(tǒng)計(jì)學(xué)理論。應(yīng)用統(tǒng)計(jì)學(xué)理論進(jìn)行數(shù)據(jù)的前提是目標(biāo)數(shù)據(jù)必須滿足一定的條件,比如必須滿足正態(tài)分布,并且所研究數(shù)據(jù)必須是數(shù)值類型,不能是其它類型的數(shù)據(jù)格式,并且在進(jìn)行數(shù)據(jù)推理時(shí),還必須要以先驗(yàn)知識作為基礎(chǔ)[6]。正因?yàn)檫\(yùn)用統(tǒng)計(jì)學(xué)進(jìn)行數(shù)據(jù)分析存在諸多的前提條件,影響了該理論的應(yīng)用范圍。為了克服上述問題,本文應(yīng)用粗糙集理論進(jìn)行數(shù)據(jù)分析,探討大學(xué)網(wǎng)站流量世界排名與網(wǎng)站性能指標(biāo)間的相關(guān)性。粗糙集理論是一種新型數(shù)據(jù)處理理論,其最大特點(diǎn)是進(jìn)行數(shù)據(jù)推理時(shí)無需先驗(yàn)知識,并具有自動(dòng)約簡屬性的功能,所以該理論自誕生以來,已廣泛應(yīng)用于人工智能領(lǐng)域,在數(shù)據(jù)庫知識挖掘、網(wǎng)絡(luò)信息提取等方面得到了廣泛的應(yīng)用,應(yīng)用領(lǐng)域涉及計(jì)算機(jī)、經(jīng)濟(jì)、金融等。
網(wǎng)站性能研究屬于網(wǎng)絡(luò)信息計(jì)量理論的主要內(nèi)容之一,粗糙集理論與網(wǎng)絡(luò)信息計(jì)量理論的結(jié)合研究至今未見有研究成果報(bào)導(dǎo),本文擬將兩者進(jìn)行結(jié)合研究,探討影響網(wǎng)站流量排名與網(wǎng)站性能指標(biāo)之間的關(guān)系,實(shí)現(xiàn)網(wǎng)站信息的自動(dòng)知識發(fā)現(xiàn)。
1 粗糙集理論
知識發(fā)現(xiàn)過程即是從數(shù)據(jù)中尋找出有用信息的過程,知識發(fā)現(xiàn)所采用的傳統(tǒng)工具主要是應(yīng)用統(tǒng)計(jì)學(xué)理論,但應(yīng)用統(tǒng)計(jì)學(xué)方法進(jìn)行數(shù)據(jù)處理時(shí)存在著許多不足,比如它所處理的數(shù)據(jù)必須符合一定的分布規(guī)律,并需要事先進(jìn)行假設(shè),這就使其應(yīng)用范圍受到了限制。隨著數(shù)據(jù)復(fù)雜性的增加,傳統(tǒng)的數(shù)據(jù)處理方法已不能適應(yīng)經(jīng)濟(jì)發(fā)展的需要,為了更有效地處理復(fù)雜的經(jīng)濟(jì)、金融、網(wǎng)絡(luò)數(shù)據(jù),越來越多的新型數(shù)據(jù)處理理論應(yīng)用到數(shù)據(jù)挖掘,粗糙集理論就是其中一種,該理論的最大特點(diǎn)是進(jìn)行數(shù)據(jù)推理時(shí),無須先驗(yàn)知識,只需依靠原始數(shù)據(jù)就可進(jìn)行數(shù)據(jù)挖掘。該理論是由波蘭科學(xué)家Z.Pawlk于1982年提出,粗糙集相對其它數(shù)據(jù)處理工具而言具有以下優(yōu)點(diǎn)(Z.Pawlk,1982):
(1)數(shù)據(jù)處理具有智能化,能從數(shù)據(jù)中自動(dòng)提取隱含其中的有用信息,實(shí)現(xiàn)知識發(fā)現(xiàn);
(2)數(shù)據(jù)處理具有廣泛性,能處理多種格式的數(shù)據(jù)類型,比如連續(xù)型數(shù)據(jù)類型、離散型數(shù)據(jù)類型等不同結(jié)構(gòu)的數(shù)據(jù)格式,并且不需要進(jìn)行數(shù)據(jù)檢驗(yàn)及相關(guān)假設(shè);
(3)具備決策規(guī)則的自動(dòng)處理功能,能自動(dòng)去除條件屬性、決策屬性中的冗余成分;
(4)具有良好的人機(jī)對話功能,能產(chǎn)生易于理解的處理結(jié)果。
粗糙集理論的主要理論基礎(chǔ)是將不完備數(shù)據(jù)經(jīng)過集合分類的方式,將數(shù)據(jù)進(jìn)行有效分類,其數(shù)學(xué)基礎(chǔ)為不可分辨關(guān)系,不可分辨關(guān)系是指在數(shù)據(jù)分類中,有些元素的劃分是不明確的,存在著模糊性。有關(guān)粗糙集的基本概念綜述如下:
2010年11月第30卷第11期基于粗糙集理論的高校網(wǎng)站信息知識發(fā)現(xiàn)Nov.,2010Vol.30 No.111.1 信息表
粗糙集理論是把考察對象看作是信息,信息的組合構(gòu)成信息表,信息表可表示為集合S,S=(U,Q,V,f),其中U為有限目標(biāo)集,Q為有限屬性集,V為屬性的鄰域,f表示函數(shù)關(guān)系。信息表中的Q還可認(rèn)為是子集C和子集D的并集,而C、D分別稱為條件屬性和決策屬性,并且子集C和D的交集為零(程玉勝,2005)。
1.2 基本概念
上、下近似集:粗糙集理論與其它軟計(jì)算理論的根本區(qū)別在于粗糙集理論提出了上、下近似集的概念。不確定數(shù)據(jù)的一個(gè)顯著特征是部分?jǐn)?shù)據(jù)不能確切地劃分于特定種類,存在著模糊性,對于以往的處理方法,即是像模糊數(shù)學(xué)一樣引入隸屬函數(shù)的方法,通過隸屬函數(shù)將模糊數(shù)據(jù)進(jìn)行分析,但隸屬函數(shù)的定義需要人為設(shè)定,并不能由數(shù)據(jù)自動(dòng)生成,而粗糙集的一大特點(diǎn)則是實(shí)現(xiàn)了完全基于數(shù)據(jù)的自動(dòng)分類功能(Goh,C.,2003),其理論創(chuàng)新之處則是引入上、下近似集的概念,其定義為(曾黃麟,1996,Z.Pawlak,2003):假設(shè)集合X為研究對象,集合X的下近似集定義為:R-=U{R(X):R(X)X},集合X的上近似集為:R-=U{R(X):R(X)∩X≠},集合X的邊界集為:RNR(X)=R-(X)-R-(X),其中上近似集表示集合元素中一定歸納入集合X的元素,而下近似集則是表示一定能或可能歸入集合X的元素,邊界集元素表示既不能確定歸納入集合X、與不能確定可歸納入非X集合的元素。
核與約簡:如果把條件屬性與決策屬性看作一個(gè)關(guān)系R,則R中所有不可約去的關(guān)系稱為核,而可以約去的關(guān)系則可看作為冗余關(guān)系。具體的使用方法是在決策表中進(jìn)行屬性約簡,約簡可分為屬性約簡(即去除部分屬性)和屬性值約簡(去除不重要的屬性值)(Z.Pawlak,1991,劉清,2001),而這些約簡不影響條件屬性與決策屬性間的推理關(guān)系。
1.3 評價(jià)指標(biāo)
為檢驗(yàn)粗糙集分類結(jié)果的正確性及有效性,粗糙集理論提出了相應(yīng)的評價(jià)指標(biāo),評價(jià)指標(biāo)主要有可信度、覆蓋率、支持度(黃沛,2002):可信度(即Accuracy)=R-/R-,其值越趨于1,則準(zhǔn)確性越高,說明由條件屬性C推導(dǎo)出決策屬性D的可能性越大。覆蓋率(即Coverage)表示該規(guī)則的支持?jǐn)?shù)在相應(yīng)的決策類中的比重,支持?jǐn)?shù)(即Support)則是表示在論域中支持該規(guī)則的元素的個(gè)數(shù)。支持度(即support),所有具有條件屬性C和決策屬性D的規(guī)則總數(shù)稱為規(guī)則的支持度。
2 構(gòu)建大學(xué)網(wǎng)站性能評價(jià)指標(biāo)體系
研究網(wǎng)站性能的學(xué)科為網(wǎng)絡(luò)信息計(jì)量學(xué),網(wǎng)絡(luò)信息計(jì)量學(xué)是隨著互聯(lián)網(wǎng)的發(fā)展而誕生的一門新興學(xué)科,其產(chǎn)生于1997年,提出該理論的科學(xué)家名為T.C.Almind。該理論一經(jīng)產(chǎn)生,便在圖書館學(xué)、情報(bào)學(xué)等領(lǐng)域得到了廣泛的應(yīng)用,現(xiàn)在國外主要是將之應(yīng)用于高校網(wǎng)站的評價(jià)、商業(yè)網(wǎng)站的性能比較、網(wǎng)絡(luò)搜索引擎優(yōu)化、網(wǎng)站資源優(yōu)化等領(lǐng)域。國內(nèi)研究主要集中于高校網(wǎng)站評價(jià),研究對象集中于學(xué)術(shù)機(jī)構(gòu)網(wǎng)站,研究手段主要是使用統(tǒng)計(jì)學(xué)理論。為了研究網(wǎng)站的性能,實(shí)現(xiàn)網(wǎng)站信息的自動(dòng)提取,首先要構(gòu)建評價(jià)指標(biāo)體系,根據(jù)文獻(xiàn)[2]和[7]的介紹,本文擬構(gòu)建網(wǎng)站性能指標(biāo)體系,該指標(biāo)體系包括總網(wǎng)頁數(shù)、總鏈接數(shù)、外部鏈接數(shù)、內(nèi)部鏈接數(shù)、用戶量、頁面訪問量、人均頁面訪問量、網(wǎng)站流量世界排名。
根據(jù)粗糙集理論應(yīng)用的要求,必須要事先確定條件屬性和決策屬性指標(biāo),定義條件屬性為總網(wǎng)頁數(shù)、總鏈接數(shù)、外部鏈接數(shù)、內(nèi)部鏈接數(shù)、用戶量、頁面訪問量、人均頁面訪問量,決策屬性為網(wǎng)站流量世界排名。
3 數(shù)據(jù)采集及處理
3.1 數(shù)據(jù)采集
本文所研究對象為廣西的17所本科高等院校網(wǎng)站,名稱及網(wǎng)址分別為:廣西大學(xué)(www.gxu.edu.cn)、廣西師范大學(xué)(www.gxnu.edu.cn)、廣西民族大學(xué)(www.gxun.edu.cn)、桂林電子工業(yè)大學(xué)(www.gliet.edu.cn)、廣西醫(yī)科大學(xué)(www.gxmu.edu.cn)、廣西師范學(xué)院(www.gxtc.edu.cn)、桂林理工大學(xué)(www.glite.edu.cn)、廣西工學(xué)院(www.gxut.edu.cn)、廣西中醫(yī)學(xué)院(www.gxtcmu.edu.cn)、桂林醫(yī)學(xué)院(www.glmc.edu.cn)、玉林師范學(xué)院(www.ylu.edu.cn)、右江民族醫(yī)學(xué)院(www.ymcn.gx.cn)、梧州學(xué)院(www.gxuwz.edu.cn)、百色學(xué)院(www.bsuc.cn)、河池學(xué)院(www.hcnu.edu.cn)、欽州學(xué)院(www.qzu.net.cn)和賀州學(xué)院(www.hzu.gx.cn),使用數(shù)據(jù)網(wǎng)站鏈接數(shù)據(jù)和網(wǎng)站流量數(shù)據(jù)。提取的鏈接數(shù)據(jù)分別為:總網(wǎng)頁數(shù)、總鏈接數(shù)、外部鏈接數(shù)、內(nèi)部鏈接數(shù),流量數(shù)據(jù)為用戶量、頁面訪問量、人均頁面訪問量和網(wǎng)站流量世界排名。
鏈接指標(biāo)數(shù)值的提取采用網(wǎng)絡(luò)搜索引擎Altavisa,運(yùn)用Altavisa進(jìn)行數(shù)據(jù)采集,檢索式參考孫建軍(2009)的介紹,檢索式(以網(wǎng)址www.gxnu.edu.cn為例)為:網(wǎng)頁總數(shù)(檢索式為:Site:www.gxnu.edu.cn),總鏈接數(shù)(檢索式為:Link:www.gxnu.edu.cn),外部鏈接數(shù)(檢索式為:Link:www.gxnu.edu.cn-domain:www.gxnu.edu.cn),內(nèi)部鏈接數(shù)(檢索式為:Link:www.gxnu.edu.cn(+)domain:www.gxnu.edu.cn)。
流量數(shù)據(jù)使用Alexa軟件采集,采集的數(shù)據(jù)包括用戶量、頁面訪問量、人均頁面訪問量和網(wǎng)站流量世界排名。相對鏈接數(shù)據(jù)的采集而言,流量數(shù)據(jù)的采集要簡單一些,使用的方法是首先下載Alexa軟件,然后進(jìn)行安裝。安裝完畢并運(yùn)行后即可使用,具體的使用方法是在Alexa的輸入窗口中輸入相應(yīng)網(wǎng)站的網(wǎng)址,確定后即可得到相應(yīng)網(wǎng)站的流量指標(biāo)值。
3.2 數(shù)據(jù)預(yù)處理
3.2.1 數(shù)據(jù)標(biāo)準(zhǔn)化
根據(jù)采用搜索軟件Altavisa采集到的鏈接數(shù)據(jù)和采用軟件Alexa采集到的流量數(shù)據(jù),因各指標(biāo)的計(jì)量單位不同,各指標(biāo)的數(shù)值范圍相關(guān)很大,比如,網(wǎng)站流量世界排名,該指標(biāo)的數(shù)值范圍為[117622,4260941],而頁面訪問量的量綱為百分比,其數(shù)值范圍為[0.00000024,0.000014],根據(jù)粗糙集應(yīng)用的要求,各條件變量與決策變量都必須為離散值,所以,為統(tǒng)一各變量量綱,將各變量數(shù)值先進(jìn)行標(biāo)準(zhǔn)化處理,標(biāo)準(zhǔn)化公式如下式所示:
yi=xi-xminxmax-xmin
其中xi表示任一變量值,xmin為任一變量的最小值,xmax為最大值,yi為標(biāo)準(zhǔn)化值,yi=[0,1]。
變量值經(jīng)過標(biāo)準(zhǔn)化處理后,所有變量值就轉(zhuǎn)化為最小值為0、最大值為1的連續(xù)數(shù)據(jù)值。
3.2.2 數(shù)據(jù)離散化
根據(jù)粗糙集理論的要求,必須將處理數(shù)據(jù)轉(zhuǎn)化為離散值,而數(shù)值的離散化處理類似于數(shù)字信息處理中的編碼處理,在實(shí)際應(yīng)用中,通常有多種離散化方法,本文使用粗糙集處理軟件Rosetta進(jìn)行離散化處理,軟件Rosetta提供了多種離散化算法,本文采用等頻率劃分算法進(jìn)行離散化,每一變量值的劃分區(qū)間為3個(gè),分別以1、2和3表示,各變量的劃分?jǐn)?shù)據(jù)區(qū)間如表1所示:
表1 變量離散化數(shù)值劃分表
變量名稱變量屬性變量符號離散值對應(yīng)數(shù)值區(qū)間總網(wǎng)頁數(shù)條件屬性a1[0.28992,) 2[0.09193,0.28992)3[,0.09193)總鏈接數(shù)條件屬性b1[0.25422,)2[0.08777,0.25422)3[,0.08777) 續(xù)表1
變量名稱變量屬性變量符號離散值對應(yīng)數(shù)值區(qū)間外部鏈接數(shù)條件屬性c1[0.28643,)2[0.05165,0.28643)3[,0.05165)內(nèi)部鏈接數(shù)條件屬性d1[0.33286,)2[0.01972,0.33286)3[,0.01972)用戶量條件屬性e1[0.48038,)2[0.06613,0.48038)3[,0.06613)頁面訪問量條件屬性f1[0.48276,)2[0.05173,0.48276)3[,0.05173)人均頁面訪問量條件屬性g1[0.33334,)2[0.10417,0.33334)3[,0.10417)網(wǎng)站流量世界排名決策屬性H1[,0.03586)2[0.03586,0.36199)3[0.36199,)
對于條件屬性,表1中的1、2、3分別表示數(shù)值較大,中等,較小,決策屬性中的1、2、3分別表示網(wǎng)站流量世界排名靠前、中等、靠后。
3.3 支持度計(jì)算
根據(jù)3.2步驟的計(jì)算,就可以將原始數(shù)據(jù)化簡為離散數(shù)值為1、2或3的決策表,該決策表為17行8列,其中每行表示17所高校的相應(yīng)離散指標(biāo)值,1~7列分別表示指標(biāo):總網(wǎng)頁數(shù)、總鏈接數(shù)、外部鏈接數(shù)、內(nèi)部鏈接數(shù)、用戶量、頁面訪問量、人均頁面訪問量,該7列指標(biāo)為決策表的條件屬性,而第8列為網(wǎng)站流量世界排名指標(biāo)值,該值為決策屬性。
為了檢驗(yàn)所選網(wǎng)站評價(jià)指標(biāo)的正確性,在進(jìn)行屬性約簡、規(guī)則約簡之前須進(jìn)行條件屬性與決策屬性之間的可信度檢驗(yàn)。檢驗(yàn)方法是應(yīng)用粗糙集處理軟件進(jìn)行可信度計(jì)算。將離散化后的數(shù)據(jù)輸入軟件后,經(jīng)計(jì)算得出條件屬性與決策屬性之間的可信度為1??尚哦葹?,即說明條件屬性C對決策屬性D的支持度是1,支持度為1說明決策表中7個(gè)條件屬性能夠正確反映決策屬性的狀況,從而說明指標(biāo)選取的正確性。
3.4 屬性約簡
粗糙集理論的優(yōu)點(diǎn)之一就是能夠自動(dòng)去除決策表中的冗余屬性。常用的屬性約簡算法有遺傳算法約簡和Johnsons算法約簡,本文采用Johnsons算法,得到表2所示的約簡結(jié)果:表2 屬性約簡表
Reductsupportlengthb,d,e1003數(shù)據(jù)來源:經(jīng)過粗糙集處理軟件Rosetta計(jì)算后的結(jié)果屬性約簡結(jié)果從初始狀態(tài)的7個(gè)條件變量化簡為3個(gè):b,d,e,根據(jù)表1的對應(yīng)關(guān)系,決策表中的核心變量為總鏈接數(shù)、內(nèi)部鏈接數(shù)、用戶量,說明此3個(gè)變量能夠很好解釋決策屬性網(wǎng)站流量世界排名,即是說該3個(gè)條件屬性決定了網(wǎng)站流量排名的前后。
3.5 規(guī)則提取
實(shí)現(xiàn)條件屬性的約簡后即可進(jìn)行規(guī)則的提取。經(jīng)計(jì)算后得出的規(guī)則如表3所示:
表3 決策規(guī)則表
決策規(guī)則支持度可信度左覆蓋率右覆蓋率b(1) AND d(3) AND e(1) => h(1)110.0588240.166667b(1) AND d(1) AND e(1) => h(1)110.0588240.166667b(1) AND d(2) AND e(1) => h(1)210.1176470.333333b(2) AND d(3) AND e(1) => h(1)110.0588240.166667b(1) AND d(1) AND e(2) => h(1)110.0588240.166667 續(xù)表3
決策規(guī)則支持度可信度左覆蓋率右覆蓋率b(2) AND d(3) AND e(2) => h(2)310.1764710.5b(2) AND d(1) AND e(2) => h(2)110.0588240.166667b(3) AND d(1) AND e(2) => h(2)110.0588240.166667b(3) AND d(3) AND e(3) => h(2)110.0588240.166667b(2) AND d(2) AND e(3) => h(3)110.0588240.2b(3) AND d(2) AND e(3) => h(3)310.1764710.6b(3) AND d(1) AND e(3) => h(3)110.0588240.2數(shù)據(jù)來源:經(jīng)過粗糙集處理軟件Rosetta計(jì)算后的結(jié)果經(jīng)過Rosetta計(jì)算,最后得出決策表如表3所示,從表3中可看出總規(guī)則數(shù)從原始表的17條規(guī)劃約簡為12條,表3中顯示了每條規(guī)則的支持度、可信度、左右覆蓋率。以第一條件規(guī)則為例說明其含義,第一條規(guī)則為:b(1) AND d(3) AND e(1) => H(1),支持度、可信度、左覆蓋率、右覆蓋率分別為1、1、0.058824和0.166667,當(dāng)條件屬性b值為1、條件屬性d值為3、條件屬性e值為1時(shí),可以推導(dǎo)出決策屬性H值為1,與表1對應(yīng)分析,可理解為:當(dāng)總鏈接數(shù)的標(biāo)準(zhǔn)化數(shù)據(jù)范圍為[0.25422,)、內(nèi)部鏈接數(shù)數(shù)值范圍為[,0.01972)、用戶量數(shù)值范圍為[0.48038,),則該網(wǎng)站流量世界排名范圍[,0.03586),表示排名靠前,該條規(guī)則的支持度、可信度均為1,證明該規(guī)則可靠性高。依此類推,可以解釋其它規(guī)則的含義。
4 結(jié)論分析
經(jīng)過粗糙集理論的實(shí)證推導(dǎo),屬性約簡后得出影響網(wǎng)站排名的主要因素為總鏈接數(shù)、內(nèi)部鏈接數(shù)和用戶量3個(gè)指標(biāo),決策約簡后得到12條有效規(guī)則,下面就此有關(guān)結(jié)論進(jìn)行進(jìn)一步解釋。
4.1 評價(jià)指標(biāo)的理論正確性檢驗(yàn)
指標(biāo)體系含有7個(gè)條件屬性C指標(biāo)和1個(gè)決策屬性D指標(biāo),為證明條件屬性與決策屬性在理論上存在相關(guān)關(guān)系,在數(shù)據(jù)處理上首先進(jìn)行了可信度計(jì)算,經(jīng)計(jì)算可信度為1(或100%),即是說明由條件屬性C推導(dǎo)出決策屬性D的可信度高,證明指標(biāo)體系能較好地說明二個(gè)屬性間的相關(guān)關(guān)系。這也為下一步的粗糙集應(yīng)用提供了理論基礎(chǔ)。
4.2 3個(gè)主要影響指標(biāo)及決策指標(biāo)的說明
經(jīng)過約簡得出的核心指標(biāo)為總鏈接數(shù)、內(nèi)部鏈接數(shù)和用戶量,其中二個(gè)為鏈接指標(biāo),一個(gè)為流量指標(biāo)。總鏈接數(shù)即是指網(wǎng)站間的鏈接數(shù),也稱超級鏈接數(shù),總鏈接數(shù)包含了入鏈數(shù)和出鏈數(shù),總鏈接數(shù)越多,說明網(wǎng)站間的聯(lián)系越緊密,鏈接具有雙向特征,產(chǎn)生鏈接的網(wǎng)站間可以產(chǎn)生互鏈關(guān)系。內(nèi)部鏈接是網(wǎng)頁的導(dǎo)出鏈接,內(nèi)部鏈接對于網(wǎng)站而言是一個(gè)關(guān)鍵指標(biāo),因?yàn)榫哂辛己玫膬?nèi)部鏈接是提高網(wǎng)站流量排名的前提之一,這一結(jié)論已為實(shí)踐所證實(shí),所以說,本文研究得出的關(guān)鍵影響因素中包括內(nèi)部鏈接指標(biāo)是正確的。至于流量指標(biāo):用戶量,根據(jù)Alexa軟件的介紹:Alexa搜索出來的用戶量指特定時(shí)間內(nèi)用戶的數(shù)量,其是以百分比形式出現(xiàn),單位基數(shù)為百萬人,而流量排名即是指特定時(shí)間內(nèi)對用戶量與頁面訪問量的綜合評價(jià),該指標(biāo)一般是以3個(gè)月為單位進(jìn)行流量的比較,并得出當(dāng)前時(shí)間網(wǎng)站的國內(nèi)排名或國際排名。本文的研究結(jié)論,以流量世界排名作為決策屬性得出其主要影響因素是總鏈接數(shù)、內(nèi)部鏈接數(shù)和用戶量,根據(jù)相關(guān)指標(biāo)的內(nèi)涵分析及對照已有研究成果的比較,說明結(jié)論是可信的。
4.3 決策規(guī)則的實(shí)踐指導(dǎo)意義
經(jīng)過上述研究分析表明,經(jīng)過粗糙集理論的應(yīng)用,不僅實(shí)現(xiàn)了條件屬性的約簡,而且實(shí)現(xiàn)了決策規(guī)劃的約簡,并實(shí)現(xiàn)對每一條規(guī)則的評價(jià)。在每一決策規(guī)則中,決策屬性值為1,2,3三個(gè)結(jié)論,其分別表示網(wǎng)站排名是排名位于前列,或是中等,或是排名落后。經(jīng)過觀察可以發(fā)現(xiàn),在決策規(guī)則表中的前5條規(guī)則,決策屬性均是排名靠前,即相對而言,排名是位于前列,而對應(yīng)的條件屬性,用戶量均為1,即表示相應(yīng)的用戶量較大,而條件屬性b,d則有多種組合形式,這說明了只要網(wǎng)站用戶量大,不管其總鏈接數(shù)、內(nèi)部鏈接數(shù)的高低,網(wǎng)站的排名均是靠前的。該結(jié)論為網(wǎng)站的框架設(shè)計(jì)、內(nèi)部優(yōu)化提供了參考,為提高網(wǎng)站流量排名,則必須要千方百計(jì)提高用戶量。決策規(guī)則表中的第6至第9條件規(guī)則,決策屬性為排名為中等,第10至第12條規(guī)則決策規(guī)則為排名靠后,3個(gè)決策屬性均與用戶量指標(biāo)密切相關(guān),而不管前面的二個(gè)屬性值如何變化,研究結(jié)果充分說明了用戶量指標(biāo)對于流量排名的重要性,這個(gè)結(jié)論間接也說明了網(wǎng)站內(nèi)容的重要性,網(wǎng)站內(nèi)容越豐富、內(nèi)容更新周期越短,則越能吸引用戶瀏覽,從而提高網(wǎng)站的用戶量,提高網(wǎng)站的流量,提升流量排名,雖然網(wǎng)站的構(gòu)建結(jié)構(gòu)、站點(diǎn)優(yōu)化等方式都很重要,但從定量計(jì)算結(jié)果來看,網(wǎng)站用戶量仍是首要影響指標(biāo)。
5 結(jié)束語
本文以網(wǎng)站信息作為研究對象,以粗糙集理論作為理論基礎(chǔ),以Rosetta軟件作為數(shù)據(jù)處理工具,得出影響網(wǎng)站世界排名的主要影響因素,并且自動(dòng)提取了12條有效規(guī)則,實(shí)現(xiàn)了網(wǎng)站世界排名的智能決策規(guī)則。
因本文是首次將粗糙集理論應(yīng)用于網(wǎng)站排名的規(guī)則提取研究,還存在著許多局限,有待今后繼續(xù)研究,主要集中在以下幾個(gè)方面:第一,因高校網(wǎng)站內(nèi)容為一動(dòng)態(tài)系統(tǒng),網(wǎng)站內(nèi)容時(shí)刻均在變動(dòng),因此所采集的數(shù)據(jù)具有動(dòng)態(tài)性,并不能十分準(zhǔn)確地表達(dá)每一網(wǎng)站的當(dāng)前所有屬性,所采集的數(shù)據(jù)只能是一種近似;此外,運(yùn)用Alavisa軟件進(jìn)行網(wǎng)站的鏈接數(shù)據(jù)采集,因?yàn)樗阉饕鍭lavisa軟件本身設(shè)計(jì)原理的限制,它不能實(shí)現(xiàn)對所有網(wǎng)站的所有鏈接實(shí)現(xiàn)搜索,這也影響了數(shù)據(jù)的完整性,同樣的原因,采集流量數(shù)據(jù)的Alexa軟件也存在著同樣的問題。因此,為更準(zhǔn)確、更客觀地評價(jià)影響網(wǎng)站排名的影響因素,深一步進(jìn)行數(shù)據(jù)采集工具的研究十分必要。第二,進(jìn)一步完善構(gòu)建影響網(wǎng)站排名指標(biāo)體系。本文所構(gòu)建的指標(biāo)體系,只是一種初步的探索,指標(biāo)體系還不是十分完善,因?yàn)榛ヂ?lián)網(wǎng)是一個(gè)龐大的復(fù)雜巨系統(tǒng),影響排名的因素非常多,眾多的影響因素中,是否還有哪些因素會對排名有影響,這些問題都還有待今后的深入研究。
盡管本文的研究因理論的限制存在著一些有待深入研究的內(nèi)容,但是通過本文的研究,得出了影響網(wǎng)站排名的關(guān)鍵因素,并實(shí)現(xiàn)了定量分析,研究結(jié)果可為高校網(wǎng)站建設(shè)提供有益的參考。
參考文獻(xiàn)
[1]中國互聯(lián)網(wǎng)信息中心.第26次中國互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告[EB].http:∥research.cnnic.cn/html/1279173730d23501.html
[2]孫建軍,李江.網(wǎng)絡(luò)信息計(jì)量理論、工具與應(yīng)用[M].北京:科學(xué)出版社,2009.
[3]邱均平,陳敬全,段宇鋒.中國大學(xué)網(wǎng)站鏈接分析及網(wǎng)絡(luò)影響因子探討[J].中國軟科學(xué),2003,(6):151-155.
[4]謝奇,張晗.中國大學(xué)網(wǎng)站的網(wǎng)絡(luò)計(jì)量學(xué)研究[J].現(xiàn)代圖書情報(bào)技術(shù),2005,(7):74-77.
[5]朱自強(qiáng).網(wǎng)絡(luò)信息計(jì)量學(xué)理論與方法:大學(xué)網(wǎng)站網(wǎng)絡(luò)流量及頁面鏈接分析研究[D].南京:南京理工大學(xué)碩士學(xué)位論文,2005.
[6]Goh,C.,Law,R.Incorporating the rough set travel demand analysis[J].Tourism Management,2003,(24):511-517.
[7]Thelwall M.Link analysis:an information science approach.New York:Elsevier,2004.
[8]黃沛,李劍.基于粗糙集的保險(xiǎn)風(fēng)險(xiǎn)規(guī)則挖掘模型[J].系統(tǒng)工程,2002,20(5):34-39.
[9](英)邁克·塞沃爾.鏈接分析:信息科學(xué)的研究方法[M].孫建軍,李江,張煦,等譯.南京:東南大學(xué)出版社,2009.
[10]Pawlak,Zdzisaw.Rough sets.International Journal of Parallel Programming,1982,11(5):341-356.doi:10.1007/BF01001956.