譚龍江
基于信息抽取的電子商務(wù)聯(lián)盟系統(tǒng)
譚龍江
為解決同類電子商務(wù)中的信息異構(gòu)等問題,研究并實現(xiàn)了一種基于信息抽取的電子商務(wù)信息共享聯(lián)盟系統(tǒng)。給出了該系統(tǒng)的系統(tǒng)組織模型,各個功能模塊,信息抽取關(guān)鍵算法以及運行流程。該系統(tǒng)通過異構(gòu)網(wǎng)頁挖掘進行信息整合,采用貝葉斯算法進行按需信息抽取。仿真證明該系統(tǒng)具有較高的信息自動處理性能和較好的客戶需求匹配度。
信息共享聯(lián)盟;電子商務(wù);信息抽??;信息整合
目前,電子商務(wù)領(lǐng)域已經(jīng)形成了龐大的、廣泛的、分布式的異構(gòu)數(shù)據(jù)庫和應(yīng)用計算平臺。它給人們提供了一個非常廣闊的商務(wù)活動空間,幫助人們獲取所需要的各種商業(yè)信息、資源。然而由于信息形式的多樣性和信息存儲的異構(gòu)性,網(wǎng)絡(luò)資源的有效利用率總是很低[1]。以福建泉州地區(qū)為例,就服裝電子商務(wù)信息資源而言,整個行業(yè)擁有數(shù)十個相關(guān)數(shù)據(jù)庫,各企業(yè)的小型公開數(shù)據(jù)庫數(shù)量更多,運行的相關(guān)網(wǎng)站多達700多個。這些數(shù)據(jù)庫與網(wǎng)站中有相當一大部分數(shù)據(jù)的信息相同,而存儲結(jié)構(gòu)和表現(xiàn)形式卻是相異的,具有分散、異構(gòu)的特征,不利于客戶的集中查詢。因此如何更加有效地組織、整合各類分散信息,使客戶能高效地搜索到所需資源并從中獲取所需知識已經(jīng)成為當今電子商務(wù)技術(shù)發(fā)展的一個研究熱點。目前,電子商務(wù)領(lǐng)域中大部分的有效資源都保存在數(shù)據(jù)庫之中,而體現(xiàn)于Web頁面之上。人們最常用到的Web搜索引擎也大都是基于靜態(tài)或動態(tài)Web頁面的關(guān)鍵字搜索,無法直接面向數(shù)據(jù)庫;此外,數(shù)據(jù)庫中的數(shù)據(jù)量通常遠超Web頁面的信息承載能力。因此,通過搜索引擎等普通工具進行搜索具有相當?shù)耐ㄓ眯?卻缺乏必要的針對性和專業(yè)性,及時性也較差(搜索引擎遍歷網(wǎng)頁的周期較長)。特別是當客戶搜索某些專業(yè)領(lǐng)域資源(如電子商務(wù)中的供需信息)時,搜索到的結(jié)果中往往會存在著諸多完全不相關(guān)的信息。如果能夠?qū)⑦@些分散的、異構(gòu)的數(shù)據(jù)庫數(shù)據(jù)按照某種統(tǒng)一格式進行標準整合與共享,會極大限度地提高資源利用率。
為解決上述問題,本文提出了基于信息抽取的電子商務(wù)信息共享聯(lián)盟模型,該系統(tǒng)將信息搜索源(數(shù)據(jù)源)定位為電子商務(wù)客商的Web服務(wù)器與數(shù)據(jù)庫數(shù)據(jù),因此可以從宏觀上把握所共享信息的類別等相關(guān)輔助搜索的信息(即能實現(xiàn)基于內(nèi)容的搜索);同時在信息共享的過程中不會修改聯(lián)盟成員(即資源提供者)數(shù)據(jù)庫的數(shù)據(jù)信息及數(shù)據(jù)庫結(jié)構(gòu)。其本質(zhì)特點是在邏輯上將各個信息資源的異構(gòu)數(shù)據(jù)連接在一起,在物理上則對加盟數(shù)據(jù)按照元數(shù)據(jù)規(guī)范標準進行整合并備份上傳至聯(lián)盟。
如圖1所示,本系統(tǒng)的系統(tǒng)結(jié)構(gòu)與核心功能子模塊包括:
(1)客戶信息接口:該模塊負責本系統(tǒng)面向客戶(包括B2B和B2G電子商務(wù)各方)的通信。該模塊除具有傳統(tǒng)的客戶注冊等功能外,還負責客戶需求初始化采集、信息封裝打包等任務(wù)。
(2)客戶信息管理模塊:該模塊與傳統(tǒng)的客戶管理模塊不同,它不但管理注冊信息等客戶元數(shù)據(jù)(客戶的自身描述信息),而且存儲和管理客戶的個性化需求信息,不斷從更新的客戶元數(shù)據(jù)、客戶反饋信息與檢索關(guān)鍵詞等資料中抽取和挖掘客戶的需求,作為信息抽取的依據(jù)。
圖1 電子商務(wù)聯(lián)盟系統(tǒng)結(jié)構(gòu)
(3)信息采集模塊:該模塊自動采集、分類、管理相關(guān)電子商務(wù)系統(tǒng)中各類資料的元數(shù)據(jù)(文件名、地址、關(guān)鍵詞、受關(guān)注的熱度等);采集到的數(shù)據(jù)將進行分類處理,實時數(shù)據(jù)(例如:特定網(wǎng)站更新后的標題)等注入“信息VS需求”匹配數(shù)據(jù)庫;歷史數(shù)據(jù)歸一化處理后,存入中心信息庫;按客戶需求采集所需的信息(從信息聯(lián)盟接口和中央信息目錄庫)可以直接提交給客戶。
(4)“信息VS需求”匹配數(shù)據(jù)庫管理模塊:為向客戶提供高效準確的信息服務(wù),該模塊在系統(tǒng)的存儲空間中建立一個實時庫(內(nèi)存庫,以倒排表形式存儲數(shù)據(jù)可達2G以上);該模塊在接收到客戶既往需求以及電子商務(wù)信息注入后,首先將這些信息作同構(gòu)化向量處理,當有新信息進入庫中時,該模塊自動從數(shù)據(jù)庫中檢索匹配程度較高的信息,在它們之間建立關(guān)聯(lián),以便在進一步的信息發(fā)布過程中實現(xiàn)信息抽取的聯(lián)動;例如:客戶給出“襪子”關(guān)鍵詞時,舊系統(tǒng)很難從中檢索出跟“襪”相關(guān)的表項;而該模塊能夠自動根據(jù)客戶的歷史檢索喜好,根據(jù)分詞與匹配相關(guān)原則,提供相關(guān)的分類明細目錄“長筒襪類、短襪類、特種襪類”等。
(5)電子商務(wù)聯(lián)盟互聯(lián)接口:針對電子商務(wù)客商分布的廣泛性和使用接入網(wǎng)的異構(gòu)性,該模塊一方面實現(xiàn)服務(wù)器中的各個數(shù)據(jù)庫服務(wù)器與文件文檔服務(wù)器的互聯(lián),使得服務(wù)器間可以獲取彼此公開發(fā)布的內(nèi)容;同時,為實現(xiàn)不同數(shù)據(jù)庫平臺的互聯(lián),該模塊采用JDBC數(shù)據(jù)庫接口,但該模塊并不把所有數(shù)據(jù)全都提取出來,而是通過對各個數(shù)據(jù)庫元素的遍歷,抽取高頻詞與主題詞,從而建立各服務(wù)器的元數(shù)據(jù)目錄,以便客戶檢索。例如:系統(tǒng)客戶登錄特定服務(wù)器后,提出檢索生僻詞,如本地服務(wù)器沒有此類信息,則由該模塊向聯(lián)盟互聯(lián)接口模塊提出檢索請求,該模塊即檢索服務(wù)器元數(shù)據(jù)列表,確定生僻詞可能存在的服務(wù)器,并代替客戶發(fā)出檢索請求,異地服務(wù)器獲取相關(guān)檢索結(jié)果后,提交給客戶。這種信息聯(lián)盟模式不但避免了客戶直接進入數(shù)據(jù)庫檢索的繁瑣操作,而且保證了檢索的高效性和安全性。
異構(gòu)電子商務(wù)網(wǎng)站系統(tǒng)中的網(wǎng)頁結(jié)構(gòu)繁復,層次不清,而且網(wǎng)頁內(nèi)的嵌入的文件類型復雜;因此,網(wǎng)頁優(yōu)化系統(tǒng)在處理這類數(shù)據(jù)時,很難兼顧實時性和處理效果。此外,異構(gòu)網(wǎng)站系統(tǒng)的信息還存在來源不同、排版格式不通、訪問頻率不同等差異,導致信息同構(gòu)化具有相當難度。本系統(tǒng)為解決上述問題,采用了貝葉斯網(wǎng)絡(luò)進行信息按需抽取。貝葉斯網(wǎng)絡(luò)是一種特殊的因果推理網(wǎng);該網(wǎng)絡(luò)是由節(jié)點和有向邊組成的有向無環(huán)圖;其中,每個節(jié)點代表一個檢測信號構(gòu)成的隨機變量,其概率分布說明該變量處于該變量狀態(tài)集合中每個狀態(tài)的概率值,每條有向邊代表兩節(jié)點之間聯(lián)合或推論的依賴關(guān)系,由與連接相關(guān)的條件概率矩陣定量描述。
基于貝葉斯網(wǎng)絡(luò)的聯(lián)盟同構(gòu)信息抽取如圖2所示。網(wǎng)絡(luò)節(jié)點分為兩類:假想(Hypothesis)節(jié)點(H 節(jié)點)和事件(Event)節(jié)點(E 節(jié)點)。假想節(jié)點表示客戶對某種商務(wù)的需求評估取值;而事件節(jié)點表示在一定的微觀檢測范圍內(nèi)發(fā)生的需求事件。通常的需求事件可分為兩類,一類是可直接觀測的(例如:短期內(nèi)頻繁出現(xiàn)的檢索詞),稱為事件線索或事件征兆(Event Cue),另一類是不可直接觀測的(例如:不同網(wǎng)站之間網(wǎng)頁之間的關(guān)系)。貝葉斯網(wǎng)絡(luò)設(shè)定節(jié)點之間的有向邊表示假想之間、假想和事件之間以及事件之間的因果關(guān)系;本系統(tǒng)中采用了存儲在文件中的條件概率矩陣描述兩者之間的關(guān)聯(lián)程度。設(shè)定一個有向聯(lián)結(jié)為: X→Y,則其條件概率矩陣定義為:
圖2 貝葉斯在電子商務(wù)聯(lián)盟中的應(yīng)用
貝葉斯模型采用網(wǎng)絡(luò)來描述事件和假想之間的相互關(guān)系,采用條件概率矩陣描述各個節(jié)點之間的關(guān)聯(lián)程度。電子商務(wù)聯(lián)盟系統(tǒng)應(yīng)用該模型從觀測到的事件出發(fā),逐層推理,最終得到假想的狀態(tài)或發(fā)生過的既有事件。當
多個電子商務(wù)服務(wù)器發(fā)現(xiàn)需求事件發(fā)生時,將同時發(fā)送需求信息給聯(lián)盟中心,以執(zhí)行需求分類的推理過程:所有服務(wù)器中的事件狀態(tài)概率都運用貝葉斯方法,聯(lián)盟系統(tǒng)一方面通過Web內(nèi)容歸一化處理,使得所有數(shù)據(jù)進入統(tǒng)一的數(shù)據(jù)表中待用,另一方面根據(jù)客戶需求等信息隨時對數(shù)據(jù)庫中保存的先驗概率和條件概率進行調(diào)整,使得貝葉斯模型中得到每次更新的結(jié)果。由此可見,貝葉斯網(wǎng)絡(luò)中的假想狀態(tài)不但與現(xiàn)在最新獲得的事件相關(guān),而且與以前一段時間內(nèi)事件累積的經(jīng)驗相關(guān);因此,本系統(tǒng)在抽取過程中具有信息的時間經(jīng)驗累計能力,這種記憶能力是傳統(tǒng)的基于產(chǎn)生式硬性對照規(guī)則的舊系統(tǒng)無法達到的。
電子商務(wù)聯(lián)盟系統(tǒng)已經(jīng)在泉州地區(qū)服裝行業(yè)進行了實地仿真。實驗中,通過2個月的實地應(yīng)用,系統(tǒng)管理員向網(wǎng)站用戶發(fā)放調(diào)查問卷,就采用本系統(tǒng)前后的客戶滿意度在線對比(與通用搜索引擎等方法)調(diào)查;用戶調(diào)研共進行200人次,最終收到有效調(diào)查表172份。表1列出了主要的調(diào)查內(nèi)容及數(shù)據(jù);從7個子調(diào)查指標和總體滿意度中可以看出,電子商務(wù)聯(lián)盟系統(tǒng)不但提高了客戶使用的方便性,并且提高了客戶的滿意程度。
表1 電子商務(wù)聯(lián)盟系統(tǒng)應(yīng)用效果
解決同類電子商務(wù)中的信息異構(gòu)等問題,研究并實現(xiàn)了一種基于信息抽取的電子商務(wù)信息共享聯(lián)盟系統(tǒng)。該系統(tǒng)通過異構(gòu)網(wǎng)頁挖掘進行信息整合,采用貝葉斯算法進行按需信息抽取。仿真證明該系統(tǒng)具有較高的信息自動處理性能和較好的客戶需求匹配度。該系統(tǒng)未來的研究重點將集中在多領(lǐng)域的電子商務(wù)信息融合上。
[1]黃煒,張李義.基于語義爬蟲的商品信息主題采集研究[J].現(xiàn)代圖書情報技術(shù),2010(1).
[2]鄭宇飛,劉磊等.農(nóng)村科技信息共享服務(wù)系統(tǒng)的設(shè)計和實現(xiàn)[J].計算機科學,2005(8).
[3]傅魁,聶規(guī)劃.面向電子交易的商品供應(yīng)信息抽取模型[J].武漢理工大學學報(信息與管理工程版),2007(7).
[4]肖建鵬,張來順,任星.直推式支持向量機在Web 信息抽取中的應(yīng)用研究[J].計算機工程與應(yīng)用,2009(2).
[5]于魯波,陳超.互聯(lián)網(wǎng)商品信息抽取技術(shù)[J].計算機工程,2008(5).
[6]周法國,王映龍等.非結(jié)構(gòu)化信息抽取關(guān)鍵技術(shù)研究探討[J].計算機工程與應(yīng)用,2009 (14).
ClassNo.:TP393DocumentMark:A
(責任編輯:包貴鑫 鄭英玲)
E-commerceUnionSystemBasedonInformationExtraction
Tan Longjiang
In order to deal with the series problems of information heterologies in E-commerce sites, a novel union system is proposed and researched based on information fusion and extraction. The system model, some function modules, key algorithms and work flows are presented in this paper . And the system utilizes web mining to deal with information island problems and uses Bayes algorithm to extract web information to match the clients’ requests. Simulation results show that the system has better performance in the information processing and the client's satisfaction than the traditional one .
information sharing union; E-commerce; information diffusion; information retrieval
譚龍江,博士,西南財經(jīng)大學;講師,華僑大學經(jīng)濟與金融學院,福建·泉州。研究方向:電子商務(wù)等。郵政編碼:362021
本文受福建省社科基金資助項目(編號:2010B064)資助
1672-6758(2011)02-0049-2
TP393
A