朱育頡 浙江工商大學
前言:將Web中商業(yè)信息加以挖掘并提取分析可以利用Web信息技術引導企業(yè)和商業(yè)高效率的運行;將最新式的web信息服務引入管理部門以及政府,實現(xiàn)高質量的監(jiān)管。因此,可以結合Web信息挖掘技術,利用非結構化的特征和網上信息的發(fā)布,結合信息塊多主題的分割技術,構建基于Web信息挖掘的商業(yè)分析系統(tǒng)。
雖然Web具有豐富的信息資源,但是這些信息一般使用在用戶的瀏覽過程。其中包含著許多HTML標記,此標記不可以代表網頁信息的實際含義,只可以用作瀏覽器的顯示解釋。同時,網頁格式也與以往的文本文檔具有較大的不同,其中也許包含圖片、框架、表格各種形式的內容,將機器理解復雜化。若想實現(xiàn)非結構化的存在信息,需要對這些內容進行提取。關于Web的信息提取方案主要有三種:全自動方法、半自動方法、人工方法。具體內容如下:包裝器的歸納方式提取、基于HTML結構信息的提取、基于ontology的提取、依據(jù)自然語言進行信息的提取、基于Web信息查詢的提取[1]。例如,其中最常見的應用技術是利用Wrapper包裝器針對HTML等形式的網頁信息進行提取。其中,Wrapper(包裝器)實際上是軟件構件。一個包裝器對應單一數(shù)據(jù)源的一種頁面,主要負責將查詢請求與數(shù)據(jù)從一種形式轉變?yōu)榱硪环N形式。在Web開發(fā)環(huán)境下,包裝器的工作主要是提取隱含在HTML中的信息,將其轉化成可以進行下一步處理的數(shù)據(jù)結構存儲數(shù)據(jù)。
在提取信息時主要有兩個步驟:其一,篩掉網頁上沒有的信息數(shù)據(jù)。因為網頁的框架格式是固定的,因此其中的文本信息是孤立的。DOM(文檔對象模型)會與網頁信息之間形成對應的頁面模板信息。其二,詞頻統(tǒng)計工作。在數(shù)據(jù)表單工作中,表單格式可以標識專業(yè)域名的詞典業(yè)務信息記錄。其中,具體的信息分離工作有如下步驟:循環(huán)反復讀取頁面信息、讀取表格和標題、提取圖片與段落信息、建立新式提取模板[2]。通過一系列的信息塊分離,可以幫助系統(tǒng)構建HTML信息塊樹,實現(xiàn)信息分離的效果。
提取的信息塊目前是分離的狀態(tài),需要將商業(yè)信息本身的混合性與復雜性融合在內。一般同一個信息塊中富含著多種主題的信息。例如,在測試五種攝像手機時,信息中包含著五種手機的詳細信息。本課題可以引入主題分割的信息提取算法獲得網頁中各種信息塊的商業(yè)含義。具體的操作內容如下:其一,需要利用通用切分詞表對文本信息塊中的中文進行分詞操作。其二,通過商業(yè)范圍中實體名字典的引導,詳細統(tǒng)計各個信息塊中關鍵詞條的頻率。公式為:Wf=Wst+∑Waf,其中,Wst是詞條在信息塊中的出現(xiàn)頻率;Waf是商業(yè)實體名的字典中該詞條的同義詞出現(xiàn)頻率。其三,按照詞條頻率統(tǒng)計句子的權重,公式為:S=∑Wf。其四,依據(jù)權重求出最大的主題句子,用字母S表示。其中,S>N/5,N是句子的總量。將信息塊可以分為S個主題,在將S主題相關的信息進行合并。其五,對分離之后再進行合并的各個主題信息塊按照實體名字典中例如商品、類別、廠商的一些詞條,得到相應的商業(yè)信息,如商品名、價格、型號、所屬企業(yè)等。接著提取出信息塊中的商業(yè)信息,將其存到的信息庫中。其六,未出現(xiàn)在商業(yè)實體名詞字典中的高頻詞條,需要分析其與同信息塊的實體名之間的關聯(lián),最后加入到商業(yè)實體名的字典中。其七,判定塊內的URL地址的具體信息是否為之前分析的Web內容。如果是,需要將其添加到URL的地址列表中。
可以采取評價機制進一步保障提交結果的真實性與可靠性。此系統(tǒng)通過使用信息反饋以及先驗知識對信息進行評估,科學分析出獲取商業(yè)信息的正確方式??梢栽趯<一蛘呒夹g人員的支持下構建評價機制,評價系統(tǒng)的重點是圍繞信息的準確性和權威性。此外,還需要對信息的準確性與權威性進一步分級和評價,需要實現(xiàn)以下幾方面:其一,信息加權,經過篩選之后的信息可以按照信用評級進行加權。比如信息倉庫中具有關鍵詞時但是表述內容不全面時,可以利用信息的加權大小判斷可靠性。其二,信息篩選過程需要去掉與領域需求不相關的信息。
系統(tǒng)需要提取的信息面很大。不過對于特殊用戶,只需要查看小范圍的視圖即可??梢允褂肂/S形式,這樣一來用戶就可以輕松的訪問系統(tǒng)中利用Java編程語言系統(tǒng)提供的服務,后臺數(shù)據(jù)庫可以選擇SQL Serve。通過Jsp系統(tǒng)可以進行用戶的調度,在系統(tǒng)中可以留置企業(yè)接口B也就是智能/業(yè)務信息系統(tǒng),方便將系統(tǒng)的結果通過接口傳遞到企業(yè)的BI系統(tǒng)內部,可以將CABWIM系統(tǒng)內部的實際結果利用接口調用的形式傳遞到企業(yè)的BI系統(tǒng)中。
結論:因此,在建立Web信息挖掘商業(yè)信息系統(tǒng)時,需要結合數(shù)據(jù)的異構信息塊分割特性,通過商業(yè)實體名稱代碼分類提取商業(yè)信息。通過潛在的信息商業(yè)價值,達到實用性的應用效果,可以對企業(yè)的科學管理起到高效的指導作用。不過,系統(tǒng)需要結合需求進行進一步的改進,例如信息源和命名系統(tǒng)均是研究的重點。