曾光輝 何 波
(廣州工程技術(shù)職業(yè)學院 信息工程學院,廣東 廣州510900)
RANSAC 算法,其全稱是RANdom SAmple Consensus,指的是隨機抽樣一致性,是模型參數(shù)估計算法的一種[1]。通常情況下,可以在一組數(shù)據(jù)中通過數(shù)學模型的計算,提出異常數(shù)據(jù),獲得有效樣本數(shù)據(jù)。在應用RANSAC 算法的過程中,準確來說是一個迭代的、不斷尋求更優(yōu)的模型參數(shù)的過程[2]。計算過程中主要包含三個參數(shù),分別是誤差容忍度、迭代次數(shù)和一致集大小。這個過程中,決定著模型參數(shù)的精度是迭代的次數(shù),而樣本一致集大小,也代表著模型參數(shù)精確程度。
大數(shù)據(jù)包含了各種類型的原始信息,例如文本信息、圖像信息等[3]。但是,隨著信息的快速發(fā)展。面對著浩瀚無際的信息海,人們?nèi)绾慰焖佾@取所需信息成為一個難題。隨著信息迷航、負載的不斷發(fā)生,網(wǎng)頁關(guān)鍵信息智能篩選,開始成為一項受到關(guān)注的技術(shù)。本文通過對RANSAC 算法為核心的研究,將其應用于網(wǎng)頁關(guān)鍵信息智能篩選中,有利于信息智能篩選的更快發(fā)展。
想要實現(xiàn)基于RANSAC 算法的,網(wǎng)頁關(guān)鍵信息智能篩選。那么前期需要完成一個工作,就是對網(wǎng)站信息的采集與處理,以此作為接下來信息篩選的基礎(chǔ)。首先,對網(wǎng)站數(shù)據(jù)進行采集抓取。
對于網(wǎng)站中包含數(shù)據(jù),利用初始隊列中的URL 地址,取得網(wǎng)頁內(nèi)容信息后,將其返回給爬蟲。通過獲取爬蟲分析,將需要進一步抓取的數(shù)據(jù)放回鏈接。將需要保存的進行數(shù)據(jù)清洗。將網(wǎng)頁解析過后,將網(wǎng)頁信息提取出來,保存至數(shù)據(jù)庫。數(shù)據(jù)的存儲采用MySQL 數(shù)據(jù)庫,將處理后的數(shù)據(jù)實現(xiàn)結(jié)構(gòu)化存儲。在信息存儲過程中,可以采用文章標題、發(fā)布時間、關(guān)鍵字等等作為定義存儲的文章。使得收集的信息,每一條可以進行關(guān)鍵詞的自動辨認。
此外,利用機器學習算法,將收集存儲的信息,轉(zhuǎn)換為數(shù)值數(shù)據(jù)集。對于文本利用中文分詞技術(shù),將文本內(nèi)容向字符串列表轉(zhuǎn)換。輔助之后的信息智能篩選工作。
完成網(wǎng)站信息的前期采集與處理后,就可以應用RANSAC算法,進行網(wǎng)頁關(guān)鍵信息智能篩選的設(shè)計。網(wǎng)頁的關(guān)鍵信息智能篩選,需要在數(shù)據(jù)庫中提取與用戶輸入的關(guān)鍵信息相匹配的網(wǎng)頁信息。獲取相關(guān)內(nèi)容后,對信息的特征點進行匹配,所提取的特征點和用戶所需信息特征點匹配與否,需要通過兩個特征點之間的歐氏距離進行判斷。將兩個特征點表示為A={x1,x2,…,xn},B={y1,y2,…,yn},因此,兩個特征點之間的歐氏距離,可以采用以下公式計算。
公式中,n 表示特征描述子維度,d 代表特征點之間歐氏距離。當兩條信息進行匹配時,在用戶輸入信息中進行特征描述子選擇,以此為依據(jù),計算第二條信息特征描述子,與第一條特征描述子之間的歐氏距離。并分析最小歐氏距離與次小歐氏距離之間的比值,當比值小于閾值時,表示兩者之間匹配。一般情況下,閾值為0.6-0.8 之間。RANSAC 算法主要采用最小子樣本集,對網(wǎng)頁關(guān)鍵信息進行估計的迭代算法,其具體計算流程如下:第一步,面向包含無數(shù)信息樣本的數(shù)據(jù)集U,在進行信息篩選之前,以計算模型中,未知量的個數(shù)作為依據(jù),確定算法計算過程中所需的最小數(shù)據(jù)個數(shù),獲取樣本集。并且要保證樣本集中數(shù)據(jù)總量,大于采樣所需最小數(shù)據(jù)個數(shù)。第二步,最小樣本數(shù)確定后,將其從數(shù)據(jù)集中提取出來,使用該數(shù)據(jù)對模型進行估計。第三步,面向其他未被提取樣本,計算其與模型之間的誤差,根據(jù)誤差與閾值之間的比較,確定其為內(nèi)點還是外點。第四步,計算數(shù)據(jù)元素的總個數(shù)。若模型正確,為了保證準確性采用去除一部分外點后的更準確的集合,否則,循環(huán)一到三步,直到選取合適的最小樣本集合。上述迭代流程中,RANSAC 算法的取樣次數(shù),取決于隨機選取的數(shù)據(jù)點是否為內(nèi)點。
為了快速篩選網(wǎng)頁關(guān)鍵信息,內(nèi)點比例少于30%的情況很少出現(xiàn)。大于30%后,迭代次數(shù)與內(nèi)點比例呈現(xiàn)反比例增長。最后,通過RANSAC 算法的迭代,將提取的網(wǎng)頁關(guān)鍵信息與用戶所需信息進行匹配,實現(xiàn)網(wǎng)頁關(guān)鍵信息篩選。
網(wǎng)頁的關(guān)鍵信息篩選,定然會有一小部分的誤差存在。因此,在完成信息篩選后,可以再對RANSAC 算法進行改進,完成篩選信息的再檢測。文中關(guān)于篩選信息的檢測過程,同樣需要進行M 次樣本選取,經(jīng)過檢測沒有被剔除的是正確對應信息,這種信息所占的百分比,可以用通過率來表示。倘若將Pf設(shè)為樣本的通過率。則通過該算法獲取的關(guān)鍵信息篩選正確概率可以用(1-ε)mPf來表示。這個過程中,一部分篩選信息被過濾掉,所以產(chǎn)生的結(jié)果數(shù)量稍有降低,準確度卻大幅提升。篩選信息在檢測中是否通過,需要進行方法設(shè)計。首先選擇d 個正確數(shù)據(jù)作為固定,然后對篩選信息進行對比,當有c 個及以上數(shù)據(jù)通過,證明該信息無誤。
以RANSAC 算法為基礎(chǔ),完成網(wǎng)頁關(guān)鍵信息的篩選,并且確定篩選信息無誤后,需要對這些信息進行分類顯示,完成整體的網(wǎng)頁關(guān)鍵信息智能篩選流程。根據(jù)一些算法構(gòu)建分類器,對篩選出來的信息實現(xiàn)精確歸類。分類器對訓練樣本集進行訓練,調(diào)整樣本權(quán)重。隨著懸鏈次數(shù)的增加,分類錯誤樣本權(quán)重逐漸升高,根據(jù)設(shè)定的權(quán)重值,進行分類器分類錯誤率的計算。以權(quán)重值為依據(jù),對權(quán)重向量進行更改,降低正確分類的樣本權(quán)重,提高錯分樣本的權(quán)重。權(quán)值公式如下所示。
公式(2)中,a 表示權(quán)重值,D 表示向量,xi表示x 中第i 個元素,yi表示y 中第i 個元素。將計算結(jié)果重新代入,直至訓練錯誤率為0。篩選后的信息作為訓練函數(shù),進行輸入。經(jīng)過訓練,最終得到篩選器模型。之后,可以利用此篩選器模型,對篩選信息進行分類。在這個過程中,為了最大程度保證模型分類結(jié)果準確,可以通過設(shè)置不同數(shù)量的分類器,進行分類精度的測試。
通過測試,發(fā)現(xiàn)該模型中最佳分類器數(shù)量為8 個,此時分類精度保持在98.5%左右。通過對網(wǎng)頁關(guān)鍵信息篩選結(jié)果的準確分類,將最終信息篩選結(jié)果向用戶進行展示,實現(xiàn)網(wǎng)頁關(guān)鍵信息智能篩選。
為了保證本文提出信息智能篩選方法,在實際應用中具有良好的效果,特進行實驗,并對實驗結(jié)果進行分析。根據(jù)統(tǒng)計數(shù)據(jù)顯示,網(wǎng)民訪問頻率最高的是新浪、搜狐、人民網(wǎng)、新華網(wǎng)四大網(wǎng)站,實驗選取四大網(wǎng)站中的800 篇文章。這些文章對應四種分類,分別是娛樂、教育、財經(jīng)、體育,每種分類選擇200 篇文章,將其綜合整理。以體育、財經(jīng)兩種分類,作為網(wǎng)頁關(guān)鍵信息進行搜索,分析智能篩選結(jié)果。由于在信息檢索領(lǐng)域,面對信息智能篩選性能時,常用查準率與查全率進行判斷。其中查準率指的是篩選的信息中心,正確信息所占比例。而查全率代表篩選結(jié)果中的正確信息,占實際所有滿足要求信息的比例。以本文提出方法為實驗組,選取兩種傳統(tǒng)的信息智能篩選方法,作為對照組進行實驗。實驗結(jié)果如圖1 所示。
根據(jù)圖1 我們可以發(fā)現(xiàn),在三種網(wǎng)頁關(guān)鍵信息智能篩選方法中,文中所提出的應用RANSAC 算法的智能篩選方法性能明顯更優(yōu)。在圖中,我們將[0,1]這個區(qū)間劃分為10 個等份。選擇每個邊界點值的查全率作為固定條件,計算相同查全率下,不同方法的信息查準率對比。通過圖1,對體育與財經(jīng)兩個關(guān)鍵詞進行信息篩選,三種方法的篩選結(jié)果顯示,查準率都在隨著查全率的上升而下降。以體育為例,本文方法的查準率從一開始的0.95,下降到了最后的0.76。兩種傳統(tǒng)方法也分別降到了0.64、0.50。顯而易見,本文方法相比傳統(tǒng)方法查準率有所上升,財經(jīng)方面也與之相似。綜上所述,在網(wǎng)頁關(guān)鍵信息智能篩選中,RANSAC 算法的應用,提升了信息智能篩選的查準率。
圖1 實驗論證結(jié)果曲線
本文以網(wǎng)頁關(guān)鍵信息智能篩選為重點,分析RANSAC 算法在信息篩選中的應用。通過本文研究,明確了RANSAC 算法,在網(wǎng)頁關(guān)鍵信息智能篩選中,以此為基礎(chǔ),設(shè)計信息智能篩選方法擁有較高的查準率,可以加快網(wǎng)絡(luò)信息的發(fā)展,提升人們對于關(guān)鍵信息查找的速度。