亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于屬性相關(guān)度的Web數(shù)據(jù)庫大小估算方法

        2014-04-29 00:00:00雷琳
        計算機光盤軟件與應(yīng)用 2014年18期

        摘 要:互聯(lián)網(wǎng)技術(shù)的普及應(yīng)用使得網(wǎng)絡(luò)經(jīng)濟成為國民經(jīng)濟中新興經(jīng)濟增長點,同時現(xiàn)有WEB數(shù)據(jù)庫中超過75%的WEB數(shù)據(jù)庫存儲了結(jié)構(gòu)優(yōu)化信息。因此,WEB數(shù)據(jù)庫逐漸成為時下人們獲取結(jié)構(gòu)優(yōu)化信息的重要途徑。為了能夠提高WEB數(shù)據(jù)庫利用效率,本文針對WEB數(shù)據(jù)庫結(jié)構(gòu)優(yōu)化信息特點,采用基于屬性相關(guān)度的方法來對數(shù)據(jù)庫大小進行估算,以明確該數(shù)據(jù)庫中記錄信息總數(shù),更好地服務(wù)于社會。

        關(guān)鍵詞:屬性相關(guān)度;WEB數(shù)據(jù)庫;估算方法;結(jié)構(gòu)優(yōu)化信息;互聯(lián)網(wǎng)技術(shù)

        中圖分類號:TP311.13

        WEB數(shù)據(jù)庫是日常訪問互聯(lián)網(wǎng)最常應(yīng)用的形式之一,大量在線訪問的WEB數(shù)據(jù)庫構(gòu)成了Deep Web(或者Hidden Web)。Deep Web數(shù)據(jù)庫越大,則其包含的需求信息越多,就能夠更好的滿足訪問者需求,實現(xiàn)社會資源的合理配置。因此,Deep Web數(shù)據(jù)庫大小估算成為分辨網(wǎng)絡(luò)優(yōu)化結(jié)構(gòu)信息資源豐富程度的重要依據(jù)。

        1 Web數(shù)據(jù)庫大小估算意義分析

        1.1 有利于開展Deep Web規(guī)模宏觀統(tǒng)計工作

        互聯(lián)網(wǎng)技術(shù)的普及應(yīng)用成為網(wǎng)絡(luò)經(jīng)濟的重要基礎(chǔ),據(jù)統(tǒng)計當下世界經(jīng)濟發(fā)展過程中Deep Web中Web數(shù)據(jù)庫已經(jīng)超過了45萬,所包含的信息更是千差萬別,用戶在訪問互聯(lián)網(wǎng)過程中需要不斷輸入搜索關(guān)鍵詞來查找有用信息,降低了互聯(lián)網(wǎng)的運營效率,產(chǎn)生的社會影響較為深遠。因此,開展Web數(shù)據(jù)庫大小估算研究能夠有效區(qū)分Web數(shù)據(jù)庫中有效信息含量,不僅節(jié)約了訪問用戶大量寶貴時間,也為今后互聯(lián)網(wǎng)發(fā)展提供了較為明顯的推動作用。

        1.2 滿足用戶查詢需求

        眾所周知,互聯(lián)網(wǎng)中每個Deep Web數(shù)據(jù)源只能涵蓋Web中有限的、局部信息,為了加強信息完整性,Deep Web致力于擴大本身的內(nèi)容覆蓋性,即:用戶的每個特定查詢都會被Deep Web所收錄,同時對其查詢內(nèi)容進行更廣泛的鏈接匹配,將與該查詢內(nèi)容相關(guān)的信息整合在一個Deep Web中,以此來豐富用戶訪問內(nèi)容,更好的服務(wù)用戶。然而,無論是從經(jīng)濟角度還是從效率角度來考慮,用戶更加青睞于信息更為豐富的Web數(shù)據(jù)庫進行查詢,而如何為訪問用戶提供可供匹配的Deep Web則成為了問題的關(guān)鍵。因此,對Deep Web中Web數(shù)據(jù)庫大小估算方法展開研究成為解決現(xiàn)存問題的重要途徑與方式。

        2 基于屬性相關(guān)度的Web數(shù)據(jù)庫大小估算方法分析

        2.1 屬性分類

        Web數(shù)據(jù)庫中屬性差異不僅會導致其所包含的語義出現(xiàn)顯著差別,同時其估算方法也會出現(xiàn)嚴重偏差,影響最終估算結(jié)果。因此,在對Web數(shù)據(jù)庫大小估算過程中首先就需要對其屬性進行分類,以得出更加符合規(guī)則的結(jié)果。

        (1)分類屬性。Web數(shù)據(jù)庫中分類屬性的屬性值并不是一個特定值,而是一個有限的集合,在Web數(shù)據(jù)庫查詢接口中通常以下拉列表的形式存在,用戶可以通過選取相對應(yīng)的分類屬性來實現(xiàn)快速查找的目的[1]。當然,在Web數(shù)據(jù)庫中還存在著一類較為特殊的分類屬性,即:隱藏屬性。該分類屬性并能通過Web數(shù)據(jù)庫查詢接口下拉列表找出,而是通過查詢?nèi)菀撰@取的離散值集合的方式所找出的,比如:航班查詢中較為常用的“國家”、“城市”等。

        (2)數(shù)值屬性。數(shù)值屬性顧名思義就是其屬性值是由不同類型的數(shù)值所組成,這些數(shù)值形成了一個較為容易估算的數(shù)值集合,其主要包含了以下幾方面數(shù)值內(nèi)容:時間、價格、普通數(shù)字等。

        (3)文本屬性。文本屬性是目前Web數(shù)據(jù)庫中應(yīng)用范圍最廣、處理過程最為復(fù)雜的一類屬性,其取值范圍介乎于-∞—+∞之間,同時往往也是以文本框的形式出現(xiàn)在用戶訪問端口界面。目前絕大多數(shù)的Web數(shù)據(jù)庫在用戶提交查詢申請時都會要求用戶至少滿足1個文本屬性具有有效值。

        2.2 基于相關(guān)性分析的詞頻獲取研究

        如果Web數(shù)據(jù)庫大小估算無法通過用戶訪問界面的查詢接口分類屬性或數(shù)值屬性進行Deep Web規(guī)模估算時,可以通過選取某個合適的文本屬性來作為估算對象,按照若干頻繁出現(xiàn)的詞匯在文本屬性中出現(xiàn)頻率即可以進行Web數(shù)據(jù)庫大小估算。首先,假設(shè)A1和A2分別代表Deep Web中的兩個不同文本屬性,向A1中提交 個預(yù)定義的查詢q1,q2,…qt。同時設(shè)置每一個查詢所得到的結(jié)果qi(1≤i≤t),均能夠在A2中得到體現(xiàn)。其相應(yīng)的取值集合為Ri,如果不同查詢值qi所得到的結(jié)果結(jié)合Ri中構(gòu)成文本屬性值的查詢詞分布情況具有明顯的差異性,那么即可認定A1和A2兩個屬性具有一定的關(guān)聯(lián)性征。如果A1和A2詞匯分布情況差異性越大,那么A1和A2之間的關(guān)聯(lián)性也就越大,A1取值對A2決定性也隨之增強,反之亦然[2]。于是,就需要一種具體量化的手段來衡量不同文本屬性之間的相關(guān)聯(lián)程度,即:屬性相關(guān)度。其計算公式如下:

        由上述公式可知,向量之間的方公式能夠評估A1和A2之間的差異性,即:t個A1在查詢后得到了t個A2屬性值詞頻分布差異,方差值如果越小,則t個詞頻分布差異性就越小,那么屬性值A(chǔ)1對A2的相關(guān)度就越大。其中1/n只是一個用于對方差值進行規(guī)范化的因子。

        在確定了不同關(guān)聯(lián)性因素相關(guān)度之后,為待估算大小的Web數(shù)據(jù)庫建立與之相匹配的相關(guān)度矩陣是估算工作最重要的環(huán)節(jié),也是計算的基礎(chǔ)[3]。憑借著該矩陣,Web數(shù)據(jù)庫大小估算工作需要做到如下幾點:

        (1)選取與Ai關(guān)聯(lián)度最小,或者不具有關(guān)聯(lián)性的Al屬性上提交一系列查詢目標來獲取相對應(yīng)的屬性Al上的隨機樣本并分別對該屬性上特有的頻繁詞以及詞頻進行統(tǒng)計。

        (2)利用和AiAl屬性相關(guān)度來對Web數(shù)據(jù)庫估算規(guī)模進行修正,將因樣本自身因素造成的誤差性影響降到最低,以更準確的估算出Web數(shù)據(jù)庫大小,為客戶服務(wù)。

        設(shè)定向量V(p1,p2,…pn)代表隨機樣本U中頻繁詞及相應(yīng)詞匯出現(xiàn)的概率,其中隨機樣本U中必須包含n個不同的詞。并且每個元素pi(1≤i≤n)代表了隨機樣本U中第i的詞的詞頻,為了能夠更為準確的估算出Web數(shù)據(jù)庫大小,本次研究中選取詞頻之前m位的頻繁詞作為相對性的查詢關(guān)鍵詞來在其對應(yīng)屬性Al上進行提交查詢,去掉估算值中最大樣本值以及最小樣本值之后,將所有得到的值域進行平均化處理來作為Web數(shù)據(jù)庫最終估算值Nest:

        =

        其中,pi代表本次研究中所提交的第i個頻繁詞在屬性Al上的詞頻、ni代表作為關(guān)鍵詞的詞頻提交查詢之后返回所得到的結(jié)果。由于本次研究已經(jīng)去掉估算值中最大樣本值以及最小樣本值,故而在公式樣本數(shù)量選擇中只是對m-2個樣本值進行平均計算。

        2.3 基于相關(guān)度的估算值矯正分析

        實際應(yīng)用中并不存在完全獨立的兩個相對屬性值,只是由于二者之間的關(guān)聯(lián)性非常小,可以近似的看成是相對獨立。計算所得出的估算值或多或少存在著由于分布差異所導致的偏差,為了能夠有效降低相關(guān)度之間的偏差對Web數(shù)據(jù)庫大小估算的影響,就需要對得出的Nest值做出相應(yīng)的矯正。本文運用了回歸分析來考察屬性相關(guān)度與估算誤差之間的關(guān)系,繼而通過六次多項式函數(shù)來無限逼近真實誤差值,就可以估算出Web數(shù)據(jù)庫大小及規(guī)模,最終得到合理的估算值。

        3 結(jié)束語

        綜上所述,基于屬性相關(guān)度的Web數(shù)據(jù)庫大小估算方法可以為客戶提供更加準確的查詢結(jié)果,同時也在一定程度上提高了Web數(shù)據(jù)庫使用效率,成為當前乃至今后一段時期內(nèi)互聯(lián)網(wǎng)技術(shù)發(fā)展與應(yīng)用的重要形式,對科研及網(wǎng)絡(luò)經(jīng)濟發(fā)展具有重要的推動作用。因此,對Web數(shù)據(jù)庫大小估算方法進行研究在當前發(fā)展背景下顯得尤為重要。希望通過本文的研究能夠為其他學者科研工作開展提供借鑒參考。

        參考文獻:

        [1]金庫,聶培堯,林培光.一種Web數(shù)據(jù)庫大小估算新方法[J].信息技術(shù)與信息化,2010(12):63-66.

        [2]姜芳艽.基于Zipf分布與屬性相關(guān)性的選擇性估計[J].計算機科學,2010(11):184-189.

        [3]陳克坦.基于屬性相關(guān)度的WEB數(shù)據(jù)庫估算方法[J].硅谷,2011(12):32.

        作者單位:武漢船舶職業(yè)技術(shù)學院,武漢 430050

        国产一区内射最近更新| 性一交一乱一乱一视频亚洲熟妇| 中文字幕精品无码一区二区| 亚洲欧美另类精品久久久| 国内成人精品亚洲日本语音| 日韩精品中文字幕人妻系列| 中文字幕人妻精品一区| 日韩精品 在线 国产 丝袜| 岳毛多又紧做起爽| 国产欧美日韩视频一区二区三区| 国产精品欧美成人片| 国产伦奸在线播放免费| 91九色老熟女免费资源| 国产女人水真多18毛片18精品| 国产精品久久久久久麻豆一区| 人妻少妇精品一区二区三区| 人妻在线有码中文字幕| 人妻丝袜中文无码av影音先锋专区| 任你躁国产自任一区二区三区| 久久半精品国产99精品国产 | 中文字幕无线码中文字幕| 亚洲图片第二页| 色婷婷亚洲一区二区三区在线| 久久婷婷五月综合色奶水99啪| 欧美a级情欲片在线观看免费| 久久亚洲AV成人一二三区| 在线日韩中文字幕乱码视频| 亚洲国产av一区二区三区精品| 丰满少妇高潮惨叫久久久一| 色先锋资源久久综合5566| 中文字幕乱码中文乱码毛片| av一区二区在线网站| 日本一二三区视频在线| 免费人成视频x8x8| 亚洲最大av免费观看| 亚洲男人的天堂av一区| 国产av无码国产av毛片| 色噜噜狠狠色综合成人网| 国产精品人成在线观看| 美丽小蜜桃1一3在线观看| 青青青爽在线视频观看|