田 偉 韓海濤 陳 靜
(天津工業(yè)大學(xué)檔案館,天津,300387)
大數(shù)據(jù)技術(shù)之所以迅速得到各行業(yè)的青睞和熱捧,就是因其能夠利用“用戶行為大數(shù)據(jù)分析”的技術(shù)手段,為互聯(lián)網(wǎng)“數(shù)據(jù)廢氣”變廢為寶提供機(jī)遇與途徑[1]。而對(duì)于檔案館未來(lái)的發(fā)展而言,具備和提升對(duì)用戶數(shù)據(jù)分析能力是大數(shù)據(jù)時(shí)代的要求,是建設(shè)智慧檔案館的一項(xiàng)重要內(nèi)容。具體來(lái)說(shuō),大數(shù)據(jù)時(shí)代的檔案館,必須要能夠有效地收集用戶數(shù)據(jù),并從中提取出寶貴的使用價(jià)值,感知檔案用戶的現(xiàn)實(shí)需求特點(diǎn),預(yù)測(cè)檔案用戶下一步的行動(dòng)與需求。只有實(shí)現(xiàn)了這一系列的功能,才能真正使檔案館在用戶視角中成為一個(gè)智慧化的實(shí)體。
因此,從分析用戶數(shù)據(jù)來(lái)提升檔案服務(wù)的目的出發(fā),當(dāng)前檔案館應(yīng)立足于自身實(shí)踐需求和實(shí)際數(shù)據(jù)建設(shè)能力,提出對(duì)檔案用戶數(shù)據(jù)分析引擎架構(gòu)及其配套的技術(shù)實(shí)現(xiàn)方案。通過(guò)建立檔案館對(duì)用戶數(shù)據(jù)的分析機(jī)制,指導(dǎo)和促進(jìn)自身服務(wù)的提升,應(yīng)對(duì)大數(shù)據(jù)時(shí)代的要求。
本文所稱(chēng)的檔案用戶數(shù)據(jù),是指檔案用戶在利用檔案過(guò)程中所形成的反映檔案利用行為、利用主體以及客體特征的數(shù)據(jù),主要包括對(duì)檔案利用行為的數(shù)據(jù)、檔案用戶自身屬性的數(shù)據(jù)、所利用檔案具有屬性的數(shù)據(jù)等。這就是我們要變廢為寶的“數(shù)據(jù)廢氣”。要實(shí)現(xiàn)通過(guò)關(guān)注檔案用戶數(shù)據(jù)促進(jìn)檔案服務(wù)的提升,就要建立對(duì)于檔案用戶數(shù)據(jù)進(jìn)行分析判斷、知識(shí)抽取以及據(jù)此采取相應(yīng)行動(dòng)的機(jī)制,這就是檔案用戶數(shù)據(jù)分析引擎。
該分析引擎應(yīng)具備用戶數(shù)據(jù)收集、提取知識(shí)、保護(hù)隱私與安全、檔案館策略提示幾項(xiàng)主要的功能。其中檔案用戶數(shù)據(jù)收集模塊應(yīng)負(fù)責(zé)對(duì)檔案用戶特征、檔案利用行為、用戶對(duì)檔案評(píng)價(jià)等數(shù)據(jù)的收集,然后通過(guò)數(shù)據(jù)整理清洗規(guī)整收集到的數(shù)據(jù)、消除數(shù)據(jù)噪聲等。并應(yīng)具有隱私保護(hù)和密級(jí)保護(hù)規(guī)則模塊,負(fù)責(zé)防止數(shù)據(jù)調(diào)用時(shí)違反隱私和保密規(guī)則。
知識(shí)提取模塊,應(yīng)根據(jù)收集存儲(chǔ)的用戶利用數(shù)據(jù),運(yùn)用數(shù)據(jù)挖掘工具提取出有用知識(shí)。主要可以包括以下的幾個(gè)功能單元:1.分類(lèi)模型。對(duì)檔案用戶和所利用檔案數(shù)據(jù)資源進(jìn)行分類(lèi)和聚類(lèi),按照用戶以及利用檔案資源之間的相似度判定其各自的所屬類(lèi)別,對(duì)用戶評(píng)價(jià)的原因進(jìn)行分類(lèi);2.推薦引擎。主要根據(jù)檔案用戶的利用行為、身份屬性或檔案資源所獲得的評(píng)價(jià),為用戶推薦檔案數(shù)據(jù)資源,提供檔案數(shù)據(jù)個(gè)性化推薦的系統(tǒng)服務(wù);3.評(píng)價(jià)分析。對(duì)檔案數(shù)據(jù)資源所獲得的評(píng)價(jià)進(jìn)行整理和統(tǒng)計(jì)分析,得出用戶對(duì)所利用的檔案資源、服務(wù)情況等方面的信息;4.關(guān)聯(lián)分析。對(duì)檔案用戶數(shù)據(jù)中所體現(xiàn)的規(guī)律和聯(lián)系進(jìn)行分析,如用戶利用目的與利用檔案類(lèi)型的關(guān)系,檔案數(shù)據(jù)信息之間在利用中的聯(lián)系,檔案利用行為與特定時(shí)間之間的關(guān)系等等。5.異常檢測(cè)。識(shí)別檔案用戶數(shù)據(jù)中不常見(jiàn)的、反常的實(shí)例,包括異常的評(píng)價(jià)、利用行為、用戶屬性信息等,判定這是新的檔案利用趨勢(shì),還是需要特殊服務(wù)的用戶,或是對(duì)檔案利用數(shù)據(jù)的惡意干擾等。
策略提示模塊,是根據(jù)分析引擎根據(jù)所表示的知識(shí)規(guī)則,提示檔案館應(yīng)采取策略的功能層次。主要可包括:1.服務(wù)提升。檔案資源個(gè)性化推薦、檔案數(shù)據(jù)智能檢索、檔案用戶間交流群建設(shè)及相應(yīng)好友推薦等內(nèi)容;2.資源建設(shè)。根據(jù)分析引擎提供的知識(shí)來(lái)改進(jìn)檔案數(shù)據(jù)資源的收集與構(gòu)成,如進(jìn)行以下工作:檔案資源評(píng)價(jià)分類(lèi)、用戶差評(píng)分析、檔案數(shù)據(jù)資源利用關(guān)聯(lián)分析、用戶未能檢索到的檔案資源分析等;3.支持決策。應(yīng)用分析引擎提取的知識(shí)支持檔案館的管理決策,實(shí)現(xiàn)循數(shù)管理[2]的思想。如通過(guò)對(duì)檔案用戶進(jìn)行分類(lèi)與聚類(lèi)、實(shí)現(xiàn)小眾化服務(wù);通過(guò)對(duì)檔案用戶數(shù)據(jù)中異常實(shí)例的感知和分析,確定檔案館應(yīng)采取的相應(yīng)措施;通過(guò)檔案項(xiàng)目所獲評(píng)價(jià)的趨勢(shì)分析,實(shí)施檔案開(kāi)放以及利用工作的前瞻性安排等。
以上我們所提出的分析引擎,從概念模型的角度闡釋了引擎總體架構(gòu)和所包含的功能。要實(shí)現(xiàn)和實(shí)際部署這樣的引擎,從總體上講檔案館需要從兩個(gè)方面開(kāi)展工作:技術(shù)進(jìn)步和制度建設(shè)。具體來(lái)講,當(dāng)前檔案館可分別開(kāi)展以下幾個(gè)方面的工作:
目前在開(kāi)展了檔案信息化的檔案部門(mén),一般均采用了基于數(shù)據(jù)庫(kù)系統(tǒng)加管理軟件的檔案信息系統(tǒng),多數(shù)檔案部門(mén)所用到這類(lèi)系統(tǒng)的主要功能是存儲(chǔ)和檢索檔案數(shù)據(jù)文件,而較少關(guān)注和利用這些信息系統(tǒng)所具有的用戶數(shù)據(jù)采集功能。而且,在一些型號(hào)的檔案信息系統(tǒng)中,對(duì)檔案用戶數(shù)據(jù)的采集功能支持度也很不完善。所以,檔案部門(mén)應(yīng)當(dāng)從現(xiàn)在起,除了重視檔案數(shù)據(jù)本身,還要重視對(duì)檔案用戶數(shù)據(jù)的采集與存儲(chǔ)工作。要充分將自身已有的檔案信息系統(tǒng)用戶數(shù)據(jù)采集功能利用起來(lái),或是依托相關(guān)技術(shù)力量來(lái)開(kāi)發(fā)與完善此部分?jǐn)?shù)據(jù)的采集功能,為部署分析引擎提供必要的數(shù)據(jù)基礎(chǔ)。
從目前的實(shí)際情況來(lái)看,各級(jí)各類(lèi)檔案館在IT 技術(shù)方面的能力水平相差較大。而構(gòu)建檔案用戶數(shù)據(jù)分析引擎實(shí)質(zhì)上是一項(xiàng)信息系統(tǒng)開(kāi)發(fā)工作,所以檔案館要充分考慮到自身的現(xiàn)實(shí)數(shù)據(jù)分析需求、技術(shù)力量和館藏資源特點(diǎn),選擇恰當(dāng)?shù)男畔⑾到y(tǒng)開(kāi)發(fā)方式,實(shí)現(xiàn)分析引擎的建設(shè)。這主要包括兩個(gè)方面:一是建設(shè)方式是由檔案館自主完成還是外包建設(shè)工作;二是選擇適用于檔案館自身的分析引擎實(shí)現(xiàn)技術(shù)。
實(shí)際上,在整個(gè)檔案用戶數(shù)據(jù)分析引擎建設(shè)的過(guò)程中,檔案館方面要始終居于主導(dǎo)地位。即使是外包建設(shè)工作方式,檔案館也要在系統(tǒng)需求、技術(shù)選擇、使用界面等方面提出適合自身特點(diǎn)的方案,并與信息系統(tǒng)建設(shè)方密切溝通,確保其正確實(shí)施。而在實(shí)現(xiàn)技術(shù)選擇方面,所選擇的具體數(shù)據(jù)分析技術(shù)應(yīng)當(dāng)是對(duì)于分析引擎建設(shè)工程易于實(shí)現(xiàn)、功能較強(qiáng)、易于理解與應(yīng)用,既符合檔案部門(mén)實(shí)際應(yīng)用需求又不超越自身的技術(shù)力量。這樣,使分析引擎既發(fā)揮積極作用,又不使檔案部門(mén)陷入“技術(shù)泥潭”。
檔案用戶數(shù)據(jù)分析引擎所具有的實(shí)際功能可以包含很多種,每種功能面對(duì)檔案部門(mén)的實(shí)際環(huán)境也會(huì)具有不同的表現(xiàn)形式。因此,檔案部門(mén)可根據(jù)自身所面對(duì)的用戶群體與檔案資源狀況,應(yīng)用自身所選擇的引擎實(shí)現(xiàn)技術(shù),實(shí)現(xiàn)符合自身服務(wù)需要的分析引擎功能。例如可以根據(jù)自身所面對(duì)用戶的身份特征信息,開(kāi)展對(duì)檔案數(shù)據(jù)資源的個(gè)性化推薦;建立對(duì)檔案用戶屬性的多維分析資源庫(kù);開(kāi)發(fā)對(duì)檔案數(shù)據(jù)資源的輔助檢索系統(tǒng),應(yīng)對(duì)用戶檢索多樣化的應(yīng)用環(huán)境;為了防止檔案資源流失,通過(guò)異常檢測(cè)分析潛在的不守信用用戶并進(jìn)行預(yù)警;通過(guò)趨勢(shì)變動(dòng)及預(yù)估來(lái)感知用戶對(duì)檔案需求或反饋意見(jiàn)的變化趨勢(shì)等。從總體講,這些具體功能的根本目的,就是為了將用戶數(shù)據(jù)驅(qū)動(dòng)服務(wù)提升與管理進(jìn)步的宗旨落到實(shí)處。
對(duì)于檔案部門(mén)來(lái)說(shuō),信息技術(shù)要與配套制度相結(jié)合,才能實(shí)現(xiàn)檔案服務(wù)與管理的真正進(jìn)步。用戶數(shù)據(jù)分析引擎在檔案館部署運(yùn)行的過(guò)程中,檔案部門(mén)要制定有效的管理制度和使用規(guī)范,確保其發(fā)揮良好的作用。例如,應(yīng)研究建立用戶數(shù)據(jù)收集實(shí)施辦法、用戶數(shù)據(jù)安全性責(zé)任規(guī)范、用戶數(shù)據(jù)使用及安全責(zé)任追究實(shí)施辦法、檔案數(shù)據(jù)個(gè)性化推薦服務(wù)規(guī)則等。通過(guò)這一系列的工作制度和紀(jì)律規(guī)范,明確用戶數(shù)據(jù)分析引擎運(yùn)行過(guò)程中檔案工作人員的任務(wù)職責(zé),以制度的形式確保分析引擎的良好運(yùn)行,確保分析引擎對(duì)檔案部門(mén)進(jìn)步的促進(jìn)作用。
以下我們根據(jù)自身的項(xiàng)目研究,以實(shí)例的形式為大家展現(xiàn)檔案用戶數(shù)據(jù)分析引擎具體的建設(shè):
關(guān)聯(lián)規(guī)則(Association Rule)、協(xié)同過(guò)濾(Collaborative Filter)、項(xiàng)目的向量建模是與我們所提出的分析引擎相關(guān)的幾項(xiàng)技術(shù)。其中協(xié)同過(guò)濾的基本原理是基于最近鄰居的評(píng)分?jǐn)?shù)據(jù)對(duì)目標(biāo)用戶產(chǎn)生推薦。該技術(shù)的核心是用戶—評(píng)分矩陣,用來(lái)表示用戶對(duì)每個(gè)項(xiàng)目的評(píng)價(jià)?;镜耐扑]步驟是用戶評(píng)價(jià)、最近鄰查找、推薦結(jié)果生成。
項(xiàng)目的向量建模技術(shù)主要思想是,將目標(biāo)項(xiàng)目提取為特征向量,用于匹配計(jì)算等場(chǎng)景。這項(xiàng)技術(shù)的個(gè)性化程度較高,但其難點(diǎn)在于對(duì)推薦項(xiàng)目(如文檔)特征的提取,如文獻(xiàn)[3]介紹了對(duì)于文本的特征提取公式等,而對(duì)于那些難以提取特征、準(zhǔn)確表達(dá)成向量形式的推薦項(xiàng)目(如音像檔案等)則較難應(yīng)用。
考慮到檔案館現(xiàn)實(shí)的數(shù)據(jù)分析需求、技術(shù)力量和館藏資源特點(diǎn),在此主要選擇協(xié)同過(guò)濾技術(shù)作為分析引擎的實(shí)現(xiàn)技術(shù),并輔以向量建模技術(shù)以提高分析效果。正如選擇軟件的一種原則一樣:功能強(qiáng)大的傻瓜軟件才是最好的。協(xié)同過(guò)濾技術(shù)對(duì)于我們分析引擎的需要而言,其功能即強(qiáng)大又很“傻瓜”。
4.2.1 檔案資源個(gè)性化推薦
與電影、商品、新聞等領(lǐng)域的推薦系統(tǒng)不同,當(dāng)前檔案數(shù)據(jù)推薦的特點(diǎn)是推薦結(jié)果主要基于用戶因辦理某事務(wù)而對(duì)檔案的剛性需求,且需求往往是先映射到類(lèi)再尋求具體數(shù)據(jù)文件。即用戶的檔案需求在類(lèi)別上有共性、在具體文件上有個(gè)性。為此我們提出如下的推薦方案:
①首先對(duì)檔案用戶建模,采用向量形式描述用戶屬性,并確定待推薦檔案文件的類(lèi)別粒度;②再根據(jù)檔案業(yè)務(wù)利用數(shù)據(jù),建立“用戶屬性-檔案文件類(lèi)別”二值觀測(cè)值矩陣,矩陣以0、1 數(shù)值的形式記錄具有某屬性的用戶利用過(guò)某類(lèi)檔案文件的情況;③當(dāng)目標(biāo)用戶檔案利用中輸入自身的屬性信息,推薦引擎即根據(jù)屬性信息在用戶模型空間中查找最相似用戶,然后檢索這些最相似用戶在用戶屬性-檔案文件類(lèi)別矩陣中利用過(guò)什么類(lèi)別的檔案文件;④將檢索到的文件類(lèi)別(并集)與目標(biāo)用戶自身屬性相結(jié)合,在檔案數(shù)據(jù)庫(kù)中檢索到具體的檔案數(shù)據(jù)文件推薦給用戶。
4.2.2 檔案資源智能檢索
在實(shí)踐中,用戶往往需要在檔案信息系統(tǒng)中費(fèi)力嘗試多種檢索詞,以確定檔案文件的存在性。一個(gè)用戶若以關(guān)鍵詞檢索方式未找到某檔案文件,他可想到的辦法就是換其他關(guān)鍵詞另行檢索。而其他同樣需要這個(gè)文件的用戶,在其各自的檢索過(guò)程中也會(huì)遇到這樣的問(wèn)題并采用此種策略,有些用戶在一遍遍嘗試后就會(huì)檢索到所需文件。所以我們可以將這些找到文件的用戶所嘗試過(guò)的檢索關(guān)鍵詞和他們所命中的文件都記錄下來(lái),以后遇到使用這些關(guān)鍵詞檢索但又暫未找到該文件的用戶,就將其映射過(guò)來(lái),將該文件作為推薦結(jié)果呈獻(xiàn)給該用戶。
我們提出檢索策略如下:①根據(jù)用戶以往的檢索記錄與其所命中文件結(jié)果,建立“用戶命中文件-檢索關(guān)鍵詞”二值觀測(cè)值矩陣,該矩陣每行代表用戶命中的一個(gè)檔案文件,矩陣的列是用戶為命中該文件所嘗試過(guò)的檢索關(guān)鍵詞(1 表示該文件用到過(guò)該檢索詞),這里每個(gè)檢索關(guān)鍵詞可以是單詞也可以是詞組或短句;②用戶在檔案系統(tǒng)中輸入關(guān)鍵字檢索文件,若未找到滿意結(jié)果則啟動(dòng)推薦引擎,根據(jù)用戶所輸入的關(guān)鍵詞檢索矩陣列,若發(fā)現(xiàn)矩陣中存在此檢索關(guān)鍵詞,則將此詞所對(duì)應(yīng)的文件作為推薦結(jié)果呈獻(xiàn)給用戶,若矩陣無(wú)此關(guān)鍵詞則用戶再輸入新嘗試關(guān)鍵詞;③若用戶認(rèn)定推薦結(jié)果中某個(gè)或某些文件是檢索目標(biāo),則向系統(tǒng)表示已命中結(jié)果、結(jié)束推薦,系統(tǒng)據(jù)此向矩陣添加、調(diào)整新的規(guī)則,即將嘗試過(guò)程所用到的新檢索詞添加到矩陣列并將其在命中文件處設(shè)為1,同時(shí)在該文件行中將命中此文件檢索過(guò)程中用到的所有矩陣已有檢索詞處設(shè)為1;④若用戶在檔案系統(tǒng)中經(jīng)過(guò)一系列檢索嘗試,命中的是一個(gè)推薦系統(tǒng)矩陣中沒(méi)有的新文件,則將此文件及其嘗試關(guān)鍵詞作為新規(guī)則添加到矩陣中。
4.2.3 檔案差評(píng)分析
如果用戶做出了好評(píng),則表示其對(duì)檔案資源、檔案服務(wù)等方面均滿意,而如果在利用后檔案用戶對(duì)某檔案文件做出的是差評(píng)(用戶-項(xiàng)目矩陣中的低值評(píng)分),原因則可能是多方面的,包括檢索到的檔案資源不是自身所需、檔案記錄不完整、本次服務(wù)質(zhì)量不佳等等。差評(píng)分析就是要呈現(xiàn)導(dǎo)致差評(píng)可能的原因。這在實(shí)質(zhì)上是一個(gè)分類(lèi)模型(classification model)問(wèn)題,即通過(guò)分析評(píng)分矩陣中出現(xiàn)差評(píng)的實(shí)例,根據(jù)其用戶屬性、項(xiàng)目特征以及作出差評(píng)的時(shí)間場(chǎng)景等,將差評(píng)原因歸結(jié)到正確的類(lèi)別中。
建立分類(lèi)模型需要訓(xùn)練集(training set)與檢驗(yàn)集(test set)。對(duì)此可以通過(guò)檔案館人員人工分析得出差評(píng)原因(如用戶回訪等方式),建立差評(píng)原因統(tǒng)計(jì)數(shù)據(jù)集,以其中的一部分?jǐn)?shù)據(jù)建立反映輸入與差評(píng)類(lèi)關(guān)系的決策樹(shù),另一部分進(jìn)行模型的驗(yàn)證和完善。這個(gè)過(guò)程在實(shí)踐中可以定期進(jìn)行,以完善和優(yōu)化分類(lèi)模型。在分類(lèi)模型建立后,一方面可實(shí)現(xiàn)對(duì)用戶差評(píng)原因的自動(dòng)映射,提供了統(tǒng)計(jì)分析的智能工具;另一方面,更為重要的是,這個(gè)分類(lèi)模型實(shí)際上是對(duì)于檔案館工作的“警示模型”,其描述了在哪些情況下檔案用戶會(huì)對(duì)檔案資源或服務(wù)做出差評(píng),因此列明了檔案館在資源建設(shè)等工作中應(yīng)避免的情況,這為檔案館提升服務(wù)、改進(jìn)資源等提供了決策依據(jù)。
圖1 檔案用戶差評(píng)原因分類(lèi)模型
4.2.4 檔案利用關(guān)聯(lián)分析
檔案利用關(guān)聯(lián)分析的目的是要揭示用戶屬性(如身份信息、利用目的等)與所利用檔案類(lèi)別之間的關(guān)系。這種分析得出的結(jié)果主要有兩個(gè)方面的重要用途:一是為檔案館識(shí)別用戶、安排與優(yōu)化檔案資源提供依據(jù);二是為實(shí)現(xiàn)檔案數(shù)據(jù)資源的個(gè)性化提供建模支持。
基于4.2.1節(jié)的內(nèi)容,建立利用分析模型。重點(diǎn)是根據(jù)檔案館實(shí)際情況分別建立檔案用戶模型與檔案資源類(lèi)別模型。其中用戶模型的建模目的是將檔案用戶映射為不同的特征向量。例如在檔案資源個(gè)性化推薦中,使得目標(biāo)用戶能通過(guò)模型映射找到與其特征相同的唯一近鄰用戶;而對(duì)于檔案項(xiàng)目的建模,目標(biāo)是使資源模型可以準(zhǔn)確刻畫(huà)檔案數(shù)據(jù)文件從屬于何種類(lèi)別,該類(lèi)別的劃分有助于揭示此類(lèi)文件的共性,且有助于其與用戶屬性結(jié)合后準(zhǔn)確地直接檢索到用戶所需的具體文件。
4.2.5 未命中檢索詞分析
用戶對(duì)檔案數(shù)據(jù)檢索所使用的關(guān)鍵詞,體現(xiàn)用戶對(duì)檔案資源的實(shí)際需求和自身表達(dá)特點(diǎn)。在4.2.2節(jié)中所提出的智能檢索模型,主要著眼于用戶找到所需文件場(chǎng)景的分析。若是用戶經(jīng)過(guò)一系列嘗試后未命中所需的文件,檔案館應(yīng)對(duì)這些嘗試檢索關(guān)鍵詞進(jìn)行分析,找出檢索未命中的原因。該原因一般可歸結(jié)為三類(lèi):資源不存在、檢索詞筆誤、資源命名不匹配。在確定原因后,分別采取如下的處理措施:對(duì)于資源不存在,應(yīng)在對(duì)檢索詞統(tǒng)計(jì)匯總后,研究加強(qiáng)所需要的檔案資源建設(shè),調(diào)整檔案收集的項(xiàng)目,以使檔案資源的擴(kuò)充向用戶需求方向發(fā)展;對(duì)于檢索詞筆誤,可將用戶輸入有誤的檢索詞作為規(guī)則加入4.2.2 節(jié)的協(xié)同過(guò)濾矩陣中(加入其應(yīng)該命中的文件行),今后當(dāng)用戶再有輸入此種錯(cuò)誤檢索詞時(shí),推薦系統(tǒng)可將正確的文件作為推薦結(jié)果返回給用戶,增強(qiáng)檔案檢索系統(tǒng)的容錯(cuò)性;對(duì)于資源命名不匹配,換句話說(shuō)也就是用戶嘗試的檢索關(guān)鍵詞不充足或此前未出現(xiàn)過(guò),導(dǎo)致了檢索的“半途而廢”,所以應(yīng)將這些未命中檢索詞作為規(guī)則,加入4.2.2節(jié)的協(xié)同過(guò)濾矩陣中應(yīng)命中文件行中,擴(kuò)充文件的可命中檢索關(guān)鍵詞。
相關(guān)研究表明[5],未能查找到所需的檔案資源是檔案用戶不滿意的最主要原因。因此,檔案館應(yīng)重點(diǎn)關(guān)注這些未命中檢索詞所透露出來(lái)的用戶需求,研究完善自身館藏資源和制度建設(shè),針對(duì)性地解決諸如館藏資源結(jié)構(gòu)缺陷、開(kāi)放鑒定工作滯后等方面的問(wèn)題。
4.2.6 檔案用戶聚類(lèi)
識(shí)別檔案用戶類(lèi)別是檔案館實(shí)現(xiàn)“小眾化”服務(wù)的重要前提。因此,根據(jù)某種標(biāo)準(zhǔn)將檔案用戶劃分為有意義的組是支持決策必要的環(huán)節(jié),這就是檔案用戶聚類(lèi)分析。與只根據(jù)用戶自身屬性(如年齡、性別等)進(jìn)行建模劃分不同,此處對(duì)檔案用戶的聚類(lèi)分析著重強(qiáng)調(diào)將用戶對(duì)檔案的評(píng)價(jià)反饋?zhàn)鳛榫垲?lèi)依據(jù)。建立檔案用戶-項(xiàng)目協(xié)同過(guò)濾矩陣,其中項(xiàng)目的粒度可以是一個(gè)檔案文件。將矩陣中每個(gè)用戶視為一個(gè)評(píng)分向量進(jìn)行聚類(lèi),用以總體上反映用戶對(duì)檔案館資源不同的評(píng)價(jià)狀況。
聚類(lèi)的方法主要包括基于劃分的方法、基于層次的方法、基于密度的方法等,相關(guān)研究中多將K均值(K-Means)聚類(lèi)方法[4]應(yīng)用于協(xié)同過(guò)濾技術(shù)場(chǎng)景,該聚類(lèi)方法的優(yōu)點(diǎn)在于簡(jiǎn)單有效,且比較適用于檔案館實(shí)際的技術(shù)條件和應(yīng)用環(huán)境。因此我們?cè)诖颂岢龌谟脩?項(xiàng)目矩陣,對(duì)于用戶進(jìn)行聚類(lèi)的算法:
①根據(jù)檔案館自身情況,選擇K個(gè)用戶作為初始質(zhì)心;
②repeat
③將矩陣中每個(gè)用戶指派到與其最相似的質(zhì)心(以式1 計(jì)算相似度);
④重新計(jì)算每個(gè)簇的質(zhì)心;
⑤until 每個(gè)簇的質(zhì)心不發(fā)生變化;
計(jì)算得出的若干用戶簇,可作為檔案館提供分類(lèi)資源服務(wù)、評(píng)估當(dāng)前服務(wù)質(zhì)量的統(tǒng)計(jì)數(shù)據(jù)依據(jù)。對(duì)于初始K 的選取,可經(jīng)過(guò)對(duì)自身用戶數(shù)據(jù)的反復(fù)試驗(yàn)確定。如對(duì)用戶聚類(lèi)的質(zhì)量可以總凝聚度[6]衡量,因此可在實(shí)踐中依據(jù)該項(xiàng)指標(biāo)選擇最優(yōu)K 值及聚類(lèi)方案,對(duì)檔案館聚類(lèi)分析方案進(jìn)行調(diào)優(yōu)。
3.2.7 檔案評(píng)價(jià)異常檢測(cè)
對(duì)于檔案用戶-項(xiàng)目矩陣中用戶評(píng)分信息可能存在的異常情況,檔案館應(yīng)具備一定的檢測(cè)探知能力。所謂異常主要用戶對(duì)檔案資源的評(píng)價(jià)偏離了普遍的情況,主要包括用戶個(gè)性化程度強(qiáng)、資源項(xiàng)目爭(zhēng)議性大、數(shù)據(jù)錯(cuò)誤與噪音、對(duì)評(píng)價(jià)反饋系統(tǒng)的攻擊等。
異常檢測(cè)本質(zhì)上是一個(gè)分類(lèi)問(wèn)題,且可以根據(jù)不同的原因采用不同的檢測(cè)方法。對(duì)于出現(xiàn)用戶個(gè)性化程度強(qiáng)的情況,可基于用戶-項(xiàng)目協(xié)同過(guò)濾矩陣,計(jì)算全部用戶之間的相似度,對(duì)于共有m 個(gè)用戶的矩陣,共需計(jì)算個(gè)相似度數(shù)值,然后可找出與其他用戶相似度數(shù)值均比較低的若干用戶,分析這些用戶“與眾不同”的原因,采取相應(yīng)的行動(dòng):或是針對(duì)性地推進(jìn)個(gè)性化服務(wù),或是判定其為數(shù)據(jù)錯(cuò)誤噪聲,予以糾正或清除。
對(duì)于資源項(xiàng)目爭(zhēng)議性大的情況,可采用計(jì)算項(xiàng)目所獲評(píng)分的方差以及極差的方式,從而衡量評(píng)分與中心的偏差程度,找出飽受爭(zhēng)議的檔案資源項(xiàng)目(其方差或極差值較高),分析其具體原因。而對(duì)于檔案評(píng)價(jià)反饋系統(tǒng)的惡意攻擊問(wèn)題,可借鑒推薦系統(tǒng)攻擊檢測(cè)的相關(guān)研究[7],識(shí)別出對(duì)于系統(tǒng)有攻擊意圖的用戶,及時(shí)采取措施,保障分析引擎的基礎(chǔ)數(shù)據(jù)質(zhì)量。
“一名檔案工作者應(yīng)是首先想到未來(lái)的人”[8]。對(duì)于未來(lái)的大數(shù)據(jù)時(shí)代檔案館建設(shè),我們現(xiàn)在應(yīng)加快研究如何使檔案館具備強(qiáng)大的數(shù)據(jù)分析能力。這主要包括兩個(gè)方面:對(duì)館藏檔案數(shù)據(jù)的分析和對(duì)檔案用戶數(shù)據(jù)的分析。本文重點(diǎn)關(guān)注的是后者,即如何通過(guò)對(duì)用戶數(shù)據(jù)的分析來(lái)驅(qū)動(dòng)檔案服務(wù)提升的問(wèn)題。為此,本文提出了檔案用戶數(shù)據(jù)分析引擎的架構(gòu),并基于協(xié)同過(guò)濾和向量建模等技術(shù)提出了若干具體功能的實(shí)現(xiàn)策略。各檔案館在開(kāi)展用戶數(shù)據(jù)分析工作過(guò)程中,可將本文提出的策略作為設(shè)計(jì)要求和實(shí)現(xiàn)說(shuō)明,將對(duì)用戶數(shù)據(jù)的感知及分析功能融入檔案系統(tǒng)中加以實(shí)現(xiàn),從而實(shí)現(xiàn)檔案館服務(wù)由“供給導(dǎo)向”向“需求導(dǎo)向”的現(xiàn)實(shí)轉(zhuǎn)變。
[1]張倩.高校檔案用戶行為大數(shù)據(jù)分析技術(shù)應(yīng)用研究[J].檔案與建設(shè),2014(08):16-21.
[2]周楓. 資源.技術(shù).思維——大數(shù)據(jù)時(shí)代檔案館的三維詮釋?zhuān)跩]. 檔案學(xué)研究.2013(06):61-64.
[3]林鴻飛,姚天順.基于示例的中文文本過(guò)濾模型[J].大連理工大學(xué)學(xué)報(bào),2000,40(03):375-378.
[4]王鑫等.網(wǎng)絡(luò)資源中基于K-Means 聚類(lèi)的個(gè)性化推薦[J].北京郵電大學(xué)學(xué)報(bào),2014,37(04):120-124.
[5]劉金霞.檔案館用戶滿意度定量分析_兼論兩個(gè)體系的建設(shè)[J].檔案學(xué)研究,2010,(01):52-56.
[6]Pang-Ning Tan等著.數(shù)據(jù)挖掘?qū)д摚跰],北京:人民郵電出版社,2006:312.
[7]余力等.電子商務(wù)推薦攻擊研究[J].計(jì)算機(jī)科學(xué),2010,34(05):134-137.
[8]馬丁·博倫斯.一名檔案工作者應(yīng)是首先想到未來(lái)的人[N].李文棟,節(jié)譯.中國(guó)檔案報(bào),2010-12-16(03).