[摘要]嘗試在構(gòu)建中國女性人物專題數(shù)據(jù)庫的實踐過程中運用數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù),幫助學術(shù)研究者對這些人物在社會發(fā)展廈其自身發(fā)展的某個具體層面中所呈現(xiàn)的典型現(xiàn)象進行分析。力圖改善以往專題數(shù)據(jù)庫建設在這方面局限性。為研究學者搭建更加深層次信息分析的研究平臺。
[關(guān)鍵詞]中國女性人物;專題數(shù)據(jù)庫;數(shù)據(jù)挖掘研究
DOl:10.3969/i.issn.1008-0821.2010.06.013
[中圖分類號]G258.5
[文獻標識碼]B
[文章編號]1008—0821(2010)06—0049—05
1 國內(nèi)外有關(guān)人物專題數(shù)據(jù)庫開發(fā)的現(xiàn)狀及研究的發(fā)展前景
1.1 國內(nèi)外相關(guān)研究狀況
國內(nèi)外對于綜合研究和記錄中國女性人物研究方面的專題數(shù)據(jù)庫有:Early modern women database、明清婦女著作數(shù)據(jù)庫、網(wǎng)上政壇女性數(shù)據(jù)庫、中國高校女性學學科教學科研網(wǎng)絡與數(shù)據(jù)庫建設及中國婦女民間藝術(shù)研究與展示等,通過科技文獻查新檢索,均未見正式相關(guān)文獻成果發(fā)表。經(jīng)過對上述這些數(shù)據(jù)庫的介紹和內(nèi)容分析,發(fā)現(xiàn)這些數(shù)據(jù)庫的內(nèi)容大都是關(guān)于女性生活需要及生活環(huán)境等方面,與本課題相似或相同的專題數(shù)庫尚未見文獻報道。在專題數(shù)據(jù)庫建設方面,與人物數(shù)據(jù)庫相類似的專題數(shù)據(jù)庫有:暨南大學的“華人華僑人物專題數(shù)據(jù)庫”與本課題“中國女性人物專題數(shù)據(jù)庫”有某些相關(guān)之處。但這些數(shù)據(jù)庫都為傳統(tǒng)的信息檢索用途,沒有涉及對專題數(shù)據(jù)庫進行深層次的知識發(fā)現(xiàn),即采用數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)建立分析模型,進行關(guān)聯(lián)分析、聚類分析等,得出潛在有用知識。
1.2 人物數(shù)據(jù)庫構(gòu)建中進行數(shù)據(jù)挖掘研究的意義
本研究中的人物數(shù)據(jù)庫構(gòu)建采用的數(shù)據(jù)挖掘技術(shù)是目前國內(nèi)外比較成熟的信息分析技術(shù),目前在購物籃數(shù)據(jù)(basketdata)分析、保險業(yè)務、金融風險預測、產(chǎn)品產(chǎn)量和質(zhì)量分析、等許多領域得到了成功的應用,而在相關(guān)女性人物專題數(shù)據(jù)庫的數(shù)據(jù)分析應用中未見有文獻報道。因此本數(shù)據(jù)庫具有一定的先進性和創(chuàng)新性。其內(nèi)容還有遠大的發(fā)展前景,尤其對于女性及性別研究具有較大的實用價值和深遠的壓史意義。
2 中國女性人物專題數(shù)據(jù)庫的資源表現(xiàn)形式的搭建
(1)本數(shù)據(jù)庫內(nèi)容組織通過兩條主線來表現(xiàn):
①由中國古代、近代、現(xiàn)代3個不同時代的女性人物數(shù)據(jù)庫組成,各個不同時代的女性人物數(shù)據(jù)庫能從政治、經(jīng)濟、科技、文化、教育、藝術(shù)、體育、法律(維權(quán))等
②開發(fā)了動態(tài)電子地圖的直觀搜索方式,讀者能很方便的點擊各個不同的地域來查找、瀏覽各領域的女性人物數(shù)據(jù)。
(2)檢索方式:首頁設計為能通過年代、電子地圖、以及檢索等多種方式來方便讀者查找進入數(shù)據(jù)庫。電子地圖可以直接點擊地區(qū)進入該地區(qū)人物目錄。在數(shù)據(jù)列表顯示頁面,能提供簡單的目錄樹瀏覽的方式和專業(yè)的檢索功能,其中檢索功能能夠?qū)崿F(xiàn)簡單檢索、全字段檢索、全文檢索、跨庫檢索、二次檢索、關(guān)聯(lián)檢索等多種專業(yè)的檢索不同活動領域展示并查找這3個年代的知名女性人物的相關(guān)數(shù)據(jù)(見圖1)。方式。
(3)本數(shù)據(jù)庫還專門為每一個女性人物形成一個單獨的個人專題數(shù)據(jù)庫模板,通過數(shù)據(jù)庫挖掘和數(shù)據(jù)庫關(guān)聯(lián)技術(shù)能夠從每個單獨的數(shù)據(jù)庫中把個人的生平概覽;個人成就與作品;后人的評論與研究;相關(guān)的圖片資源;相關(guān)的人物多媒體資源;相關(guān)網(wǎng)絡資訊等全部抽取出來,形成個人的專題數(shù)據(jù)庫。各類型資源元數(shù)據(jù)元素與結(jié)構(gòu)體系都有各自的方案,元數(shù)據(jù)體系結(jié)構(gòu)圖見圖2。中國女性人物網(wǎng)絡資訊庫與人物數(shù)據(jù)庫元數(shù)據(jù)方案如表1和表2。
(4)本數(shù)據(jù)庫根據(jù)館藏資源以及現(xiàn)有能收集的數(shù)據(jù),根據(jù)資源的類型劃分為如下幾個子庫,各子庫通過元數(shù)據(jù)體系結(jié)構(gòu)進行關(guān)聯(lián)。
①女性人物書目數(shù)據(jù)庫:收集本館館藏及國內(nèi)外有關(guān)中國女性方面的評論,中國女性的著作,中國女性方面的研究等圖書書目信息。
②女性人物全文數(shù)據(jù)庫:收集具有全文對象的女性人物相關(guān)的數(shù)據(jù)(如:期刊論文,會議論文,學位論文,館藏珍貴的掃描文獻資源等)
③女性人物專題資源數(shù)據(jù)庫:收集中國女性的個人基本資料,如:姓名,國籍,生卒年,照片,個人簡介等。
④網(wǎng)絡資源全文數(shù)據(jù)庫:收集大量網(wǎng)絡上關(guān)于中國女性人物的評論,研究,相關(guān)活動等資料。
⑤女性人物多媒體數(shù)據(jù)庫:收集中國女性的相關(guān)作品、比賽錄像、訪談、訪問及活動錄像等大量的音視頻資料。
⑥女性人物圖片數(shù)據(jù)庫:收集中國女性個人的活動照片、寫真、珍貴的書畫作品等各方面的圖片資料。
3 人物專題數(shù)據(jù)庫的知識發(fā)現(xiàn)與數(shù)據(jù)挖掘思考與研究
女性人物專題數(shù)據(jù)庫包括關(guān)系數(shù)數(shù)據(jù)庫、文本和多媒體數(shù)據(jù)以及網(wǎng)絡資源等數(shù)據(jù)庫。采用數(shù)據(jù)挖掘技術(shù)對中國女性人物數(shù)據(jù)進行建模并研究分析,開發(fā)分析模型,分析和預測具體問題的發(fā)生原因與預測發(fā)展方向。數(shù)據(jù)挖掘是利用一種或多種計算機學習技術(shù),從數(shù)據(jù)倉庫的數(shù)據(jù)中自動分析并提取知識。在已有的大量數(shù)據(jù)中尋找有用的維度層次數(shù)據(jù)和事實數(shù)據(jù)進行分析的為決策支持的過程,它從理論和技術(shù)上繼承了知識發(fā)現(xiàn)領域的成果,同時又借鑒了許多其他領域的理論和算法。因此,基于數(shù)據(jù)挖掘的人物專題庫把人們對人物數(shù)據(jù)的應用從低層次的簡單查詢,提升到從數(shù)據(jù)中挖掘知識,從而提供人物專題研究決策參考。
3.1 人物專題數(shù)據(jù)庫具體數(shù)據(jù)挖掘的數(shù)據(jù)源
(1)關(guān)系數(shù)據(jù)庫的查詢語言主要有SQL,SQL,查詢被轉(zhuǎn)換成一系列操作。
(2)女性人物的文本數(shù)據(jù)庫,文本數(shù)據(jù)庫所記載的內(nèi)容均為文字,這些文字并不是簡單的關(guān)鍵詞,文本數(shù)據(jù)庫多為非結(jié)構(gòu)化的,也有些是半結(jié)構(gòu)化的(如,題錄數(shù)據(jù)加全文、超文本HTML、PDF格式文本等等)。文本的主題特征提取;文本分類;文本聚類;文本自動摘要等。
(3)女性人物的時序數(shù)據(jù)庫,用于存放與時間相關(guān)的數(shù)據(jù),用來反映隨時間變化的即時數(shù)據(jù)或不同時間發(fā)生的不同事件。
(4)女性人物的地序數(shù)據(jù)庫與空間數(shù)據(jù)庫,指存儲地理或者空間信息的數(shù)據(jù)庫,其中數(shù)據(jù)可能以光柵格式提供,也可能以矢量圖形(地圖等)數(shù)據(jù),例如有關(guān)的地理信息數(shù)據(jù)庫等。用于對空間數(shù)據(jù)的理解,空間關(guān)系和空間與非空間數(shù)據(jù)間關(guān)系的發(fā)現(xiàn),空間知識庫的構(gòu)造,空間數(shù)據(jù)庫的重組和空問數(shù)據(jù)查詢優(yōu)化。
(5)女性人物的多媒體數(shù)據(jù)庫,存放圖像、聲音、視頻信息的數(shù)據(jù)庫。多媒體數(shù)據(jù)挖掘包括:圖像數(shù)據(jù)挖掘,音頻數(shù)據(jù)挖掘,視頻數(shù)據(jù)挖掘等處理,這部分相對較難。
3.2 女性人物專題數(shù)據(jù)挖掘與數(shù)據(jù)倉庫建立過程
3.2.1 數(shù)據(jù)倉庫構(gòu)建
與傳統(tǒng)面向操作型業(yè)務的數(shù)據(jù)庫不同,數(shù)據(jù)倉庫是一個面向主題的、集成的、相對穩(wěn)定的、反映歷史變化的數(shù)據(jù)集合,用于支持管理決策。數(shù)據(jù)倉庫要用到ElL技術(shù),ETL(Extraction—Transformation—Loading)是數(shù)抽取轉(zhuǎn)換裝載系統(tǒng),一般簡稱“數(shù)據(jù)抽取系統(tǒng)”。ETL包括3個方面:首先是抽取,將數(shù)據(jù)從各種原始的業(yè)務系統(tǒng)中提取出來,這是所有工作的前提;其次是轉(zhuǎn)換,按照預先設汁好的規(guī)則對抽取的數(shù)據(jù)進行轉(zhuǎn)換,使得本來異構(gòu)的數(shù)據(jù)格式能夠統(tǒng)一起來;最后就是加載,將轉(zhuǎn)換好的數(shù)據(jù)按計劃增量或者全部導人到數(shù)據(jù)倉庫中。
(1)數(shù)據(jù)倉庫的建立與用戶的需求密切相關(guān)
ETL技術(shù)是指從源系統(tǒng)中提取數(shù)據(jù),轉(zhuǎn)換數(shù)據(jù)為一個標準的格式,并且加載數(shù)據(jù)到目標數(shù)據(jù)存儲區(qū),即數(shù)據(jù)倉庫。維、維的層次和度量是數(shù)據(jù)倉庫多維模型的主要元素。維是人們觀察數(shù)據(jù)的特定角度,如果對數(shù)據(jù)進行挖掘而不去關(guān)心用戶或研究者的研究方向與需求活動,這部分的工作是很難展開的,因此在這方面需要對用戶進行調(diào)研,通過與女性研究專家訪談,我們了解到女性研究通常比較關(guān)心女性不同年齡在不同時間和不同地區(qū)的就業(yè)或教育變化情況,那么時間就是一個維,地區(qū)也是一個維。每個維都包含有一定的層次。維的層次是指觀察數(shù)據(jù)的特定角度的一個描述方面,比如時間可以從年份、季度、月份、天等不同層次來描述。度量描述了需要分析的數(shù)值,例如收人或者年齡。OLAP按多維模型組織數(shù)據(jù),以便進行多角度、多層次的分析,并發(fā)現(xiàn)趨勢。ETL在數(shù)據(jù)倉庫構(gòu)建過程中涉及到大量的業(yè)務邏輯和異構(gòu)環(huán)境,因此在女性人物專題庫的數(shù)據(jù)倉庫建設項目中ETL部分占70%~80%的精力。已有的有用元數(shù)據(jù)集和數(shù)據(jù)庫也需要通過ed技術(shù)進行對數(shù)據(jù)進行抽取。清洗和加載進數(shù)據(jù)倉庫(見圖3)。
(2)建立數(shù)據(jù)倉庫需要注意以下3個方面:
①通過對女性人物數(shù)據(jù)及其存儲格式進行分析,實現(xiàn)專題數(shù)據(jù)倉庫的設計,包括數(shù)據(jù)倉庫的概念設計、邏輯設計和物理設計。
②針對人物數(shù)據(jù)庫內(nèi)部的數(shù)據(jù)源和設計完成的數(shù)據(jù)倉庫,實現(xiàn)女性人物相關(guān)信息數(shù)據(jù)倉庫的ElL系統(tǒng)的設計,對系統(tǒng)的整體框架和系統(tǒng)中各模塊的功能及實現(xiàn)進行詳細的分析。
③女性人物數(shù)據(jù)源是一些關(guān)系型數(shù)據(jù)庫、文本文件、XML文檔或音頻等類型的文件,一個完善的ETL系統(tǒng)應該支持多數(shù)據(jù)源的抽取、轉(zhuǎn)換和加載。目前由于技術(shù)難度,我們在研究中只取了部分類型進行抽取。此外,數(shù)據(jù)增量加載是未來工作的另一重點,可以利用時間戳和Oracle的數(shù)據(jù)更新捕獲機制(cDC)來進一步研究數(shù)據(jù)的增量加載。
(3)建立分析模型與測試、驗證分析模型
首先將選擇和應用多種不同的建模技術(shù)(數(shù)據(jù)挖掘技術(shù)),校準它們的參數(shù),使其達到最優(yōu)值。由于數(shù)據(jù)挖掘技術(shù)對數(shù)據(jù)格式要求不同,因此,在建模過程中經(jīng)常要返回到數(shù)據(jù)準備階段,多次往復進行,其次在建模過程中要多次測試和驗證所建立模型的質(zhì)量和有效性,最后在準備好的數(shù)據(jù)集上運行建模工具,以建立一個或多個模型,同時注意對建模工具參數(shù)的設定,記錄和描述所生成的模型。
用戶在需求時有不同的研究方向,數(shù)據(jù)倉庫在原數(shù)據(jù)庫的基礎上,抽取一些有用的數(shù)值數(shù)據(jù),例如,文獻的下載量、受教育程度、年齡、民族等等,構(gòu)建數(shù)據(jù)倉庫,數(shù)據(jù)倉庫建好之后的建模分析,例如相擬統(tǒng)計、地區(qū)統(tǒng)計等分析。
(4)實施和應用
實施和應用階段是指利用數(shù)據(jù)挖掘技術(shù)所建立模型在實際項目中的應用,包括知識發(fā)現(xiàn),個性化用戶服務、決策支持等等。這個階段是在實踐中與用戶的研究細節(jié)不斷溝通來完善和修正整個項目。
4 結(jié)束語
本數(shù)據(jù)庫最初的數(shù)據(jù)加工與網(wǎng)頁發(fā)布都采用DIPS系統(tǒng)來進行,具體過程不再表述,力圖實現(xiàn)在傳統(tǒng)的人物專題庫構(gòu)建過程中,也能運用數(shù)據(jù)倉庫技術(shù)和數(shù)據(jù)挖掘技術(shù),探索幫助學術(shù)研究者對人物在社會發(fā)展和自身發(fā)現(xiàn)的某個具體層面中所呈現(xiàn)的典型現(xiàn)象進行分析的一種個性化服務模型。以改善以往專題數(shù)據(jù)庫建設在這方面局限性,為研究學者搭建更加深層次信息分析的研究平臺。