陳靜 胡祥科 彭煦 彭登輝
摘要:論文結(jié)合實(shí)時(shí)推薦技術(shù)的特性,針對(duì)現(xiàn)有電子檔案管理系統(tǒng)中的檢索推薦方法,進(jìn)一步提出實(shí)時(shí)推薦的優(yōu)化方式,即通過應(yīng)用基于內(nèi)容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略進(jìn)行電子檔案的實(shí)時(shí)推薦。此種方式將打破傳統(tǒng)依賴關(guān)鍵詞的正向檢索局限,提升電子檔案的利用效率,為電子檔案管理提供一定的參考與借鑒。
關(guān)鍵詞:電子檔案 實(shí)時(shí)推薦 計(jì)算機(jī)應(yīng)用
隨著電子檔案呈海量增長的趨勢加強(qiáng),如何高效、精準(zhǔn)地滿足電子檔案利用者的需求,提升檢索效能,充分發(fā)揮電子檔案的價(jià)值,成為亟待解決的問題。本文提出了應(yīng)用基于內(nèi)容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略,打破了傳統(tǒng)依賴關(guān)鍵詞檢索推薦的局限,有效縮短了檔案查詢時(shí)間,提升了電子檔案的檢索效率。
電子檔案具有類型復(fù)雜多樣、數(shù)量大等特點(diǎn)?,F(xiàn)有推薦系統(tǒng)大多是通過獲取所檢索的關(guān)鍵詞,與后臺(tái)數(shù)據(jù)庫存儲(chǔ)的電子檔案進(jìn)行匹配,篩選符合條件的電子檔案,最終反饋匹配成功的檢索結(jié)果。由于此種方式要將關(guān)鍵詞與存儲(chǔ)的電子檔案逐一匹配,若存儲(chǔ)的電子檔案數(shù)量不大,需要比對(duì)的數(shù)據(jù)量相對(duì)較少,尚可滿足利用需求。但針對(duì)海量電子文檔的檢索,由于數(shù)據(jù)量過大,此種查詢方式會(huì)帶來查詢延時(shí),在一定程度上無法滿足實(shí)時(shí)反饋檢索結(jié)果的需求。
另外,在查詢用戶無法提供關(guān)鍵詞或者提供的關(guān)鍵詞相關(guān)性不大的應(yīng)用場景下,系統(tǒng)無法精準(zhǔn)獲取用戶需求,進(jìn)而無法提供給用戶真正所需的電子檔案,從而減弱電子檔案的利用效率,影響用戶體驗(yàn)。而且當(dāng)前大部分推薦系統(tǒng)缺乏用戶喜好的相關(guān)數(shù)據(jù),無法建立用戶和用戶之間的關(guān)聯(lián)度分析,進(jìn)而尚未實(shí)現(xiàn)相似用戶感興趣的電子檔案的互相推薦。
針對(duì)上述問題,本文提出電子檔案實(shí)時(shí)推薦系統(tǒng)的優(yōu)化模型,以解決推薦效率低下等問題。該優(yōu)化模型是在不同階段分別應(yīng)用基于內(nèi)容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略,通過用戶畫像生成和倒排索引構(gòu)建、混合推薦和推薦結(jié)果的實(shí)時(shí)反饋等步驟,最終達(dá)到電子檔案實(shí)時(shí)推薦的目標(biāo)。具體實(shí)施步驟如下所述。
(一)基礎(chǔ)數(shù)據(jù)生成與構(gòu)建
1.用戶畫像生成。不同于傳統(tǒng)基于關(guān)鍵詞的檢索方式,該推薦系統(tǒng)主要基于用戶的喜好和意圖進(jìn)行自動(dòng)化的推薦。為了獲取用戶的喜好,推薦系統(tǒng)需要獲取用戶對(duì)不同電子檔案的行為數(shù)據(jù),包括點(diǎn)擊、閱讀等操作,然后基于此生成用戶畫像。同時(shí),該系統(tǒng)逐一對(duì)電子檔案生成電子檔案畫像,主要涉及文章分類、主題詞提取等。
2.電子檔案標(biāo)簽編碼。為了高效完成自動(dòng)推薦,該系統(tǒng)還需要逐一對(duì)電子檔案和用戶進(jìn)行標(biāo)簽編碼。為便于理解,這里假設(shè)每一份電子檔案使用64位整數(shù)作為標(biāo)簽進(jìn)行編碼,將64位整數(shù)分為兩部分,高12位用來表示電子檔案的相關(guān)類型參數(shù),低52位用來表示該類型參數(shù)對(duì)應(yīng)的編碼標(biāo)識(shí)。例如,某電子檔案的標(biāo)簽是{“所屬領(lǐng)域:新能源”,“發(fā)布單位:集團(tuán)某科研院所”,“文檔類型:制度”,“主題詞:海上風(fēng)電”},這里的標(biāo)簽和對(duì)應(yīng)的值可根據(jù)業(yè)務(wù)需要?jiǎng)討B(tài)進(jìn)行調(diào)整。
3.用戶標(biāo)簽編碼。與上述電子檔案的標(biāo)簽編碼類似,這里也采用64位整數(shù)來標(biāo)識(shí)用戶,將64位整數(shù)分為兩部分,高12位用來表示用戶的相關(guān)類型參數(shù),低52位用來表示該類型參數(shù)對(duì)應(yīng)的編碼標(biāo)識(shí)。例如,某用戶的標(biāo)簽是“{關(guān)注領(lǐng)域:新能源”,“所在單位:集團(tuán)某科研院所”,“喜好文檔類型:制度”,“喜好主題:海上風(fēng)電”},這里的標(biāo)簽和對(duì)應(yīng)的值可根據(jù)業(yè)務(wù)需要?jiǎng)討B(tài)調(diào)整。
4.倒排索引構(gòu)建。傳統(tǒng)正向索引技術(shù)主要是建立電子檔案與關(guān)鍵詞的映射關(guān)系,將檔案ID或者標(biāo)題作為文檔唯一標(biāo)識(shí)。例如“檔案A”“檔案B”“檔案C”中包含“新能源”這個(gè)關(guān)鍵詞,其對(duì)應(yīng)的正向索引為:{“檔案A”:“新能源”、“檔案B”:“新能源”、“檔案C”:“新能源”},通過此種方式建立的映射關(guān)系,在對(duì)“新能源”這個(gè)關(guān)鍵詞進(jìn)行檢索查詢時(shí),需逐一從每份檔案中進(jìn)行全文檢索,在一定程度上影響了檢索效率。而倒排索引是記錄每個(gè)關(guān)鍵詞和對(duì)應(yīng)的電子檔案信息的列表,采用倒排索引建立的映射關(guān)系為:{“新能源”:“檔案A”,“檔案B”,“檔案C”}。后期通過“新能源”關(guān)鍵詞檢索時(shí),只需要查詢一次就可以得到所有包含該關(guān)鍵詞的檔案信息,可有效提升檢索效率。
這里將電子檔案和用戶的標(biāo)簽作為關(guān)鍵詞來構(gòu)建倒排索引,在倒排索引列表中記錄對(duì)應(yīng)的電子檔案的存放列表。以上述電子檔案和用戶標(biāo)簽編碼為例,構(gòu)建的電子檔案倒排索引列表為:{“所屬領(lǐng)域”:“海上風(fēng)電,新能源,水電”},{“文檔類型”:“制度,通知,紀(jì)要”};用戶倒排索引列表為:{“關(guān)注領(lǐng)域-新能源”:“用戶A,用戶B,用戶C”},{“感興趣類型-制度”:“用戶B,用戶C,用戶D”}。
(二)基于內(nèi)容的召回推薦策略
基于內(nèi)容的召回是指根據(jù)電子檔案的內(nèi)容,來判斷該檔案是否符合用戶喜好。其主要應(yīng)用在推薦系統(tǒng)的冷啟動(dòng)環(huán)節(jié)(即系統(tǒng)上線運(yùn)行的初期),處于這個(gè)時(shí)期的推薦系統(tǒng)由于缺乏用戶的瀏覽、點(diǎn)擊等行為數(shù)據(jù),無法通過用戶的喜好進(jìn)行推薦?;趦?nèi)容的召回推薦策略可以通過分析電子檔案的內(nèi)容,從而提煉出電子檔案標(biāo)簽,推薦給能匹配該標(biāo)簽的用戶。
具體來說,如果用戶畫像和電子檔案畫像中的標(biāo)簽或關(guān)鍵詞相同,說明該電子檔案的內(nèi)容符合用戶喜好,可推送該電子檔案。從計(jì)算的角度來說,即將用戶標(biāo)簽和電子檔案標(biāo)簽進(jìn)行邏輯“與”運(yùn)算(標(biāo)簽里存放的都是0或者1這樣的64位正整數(shù)),若運(yùn)算結(jié)果完全一致,可將電子檔案倒排索引列表中的電子檔案依次取出并推送給該用戶,也可通過設(shè)定結(jié)果相似度的閾值來判斷是否需要推送。
(三)基于用戶的協(xié)同過濾推薦策略
在系統(tǒng)運(yùn)行上述基于內(nèi)容的召回推薦算法一段時(shí)間后,此時(shí)后臺(tái)系統(tǒng)已存儲(chǔ)大量的用戶行為數(shù)據(jù)。在此背景下可使用基于用戶的協(xié)同過濾推薦策略,該策略與基于內(nèi)容的召回推薦策略的不同之處在于,其不依賴電子檔案的內(nèi)容進(jìn)行推薦,而基于用戶與電子檔案的互動(dòng)關(guān)系來進(jìn)行推薦。從本質(zhì)上說,就是將和某用戶相似的用戶找出來,然后將相似用戶所瀏覽過的電子檔案推薦給該用戶。
具體操作分為兩步:第一步,找到與該用戶最相似的一批用戶;第二步,將相似用戶瀏覽過但該用戶沒有瀏覽的電子檔案進(jìn)行推薦。例如,用戶1瀏覽過檔案1和檔案2,而用戶3和用戶4也瀏覽過檔案1和檔案2,那么用戶1和用戶3、用戶4就是相似用戶。如果用戶3和用戶4還分別瀏覽過檔案3和檔案4,就可以將檔案3和檔案4都推薦給用戶1。具體如圖1所示。
這里以一個(gè)實(shí)際例子來進(jìn)一步說明,假定有四個(gè)用戶、四篇電子檔案,用戶對(duì)四篇電子檔案的興趣程度(可通過用戶的點(diǎn)擊次數(shù)、收藏和轉(zhuǎn)發(fā)等行為計(jì)算)如表1所示。
為了便于理解,表格里的每個(gè)電子檔案列下的數(shù)字表示每個(gè)用戶對(duì)該電子檔案的喜好度(可通過用戶的點(diǎn)擊次數(shù)、收藏和轉(zhuǎn)發(fā)等行為計(jì)算),表中“-”表示用戶和檔案尚未建立相關(guān)的喜好度。
基于表1,若要找出和用戶1相似的用戶,可以將用戶對(duì)電子檔案的喜好度看作一個(gè)n維空間,每個(gè)用戶都可以表示為n維空間中的一個(gè)向量,同時(shí)將n維空間中各個(gè)向量維度中的值設(shè)置為用戶對(duì)電子檔案的喜好度。據(jù)此,找到與用戶1最相似的用戶的問題,就變成在n維向量空間中,找到和用戶1這個(gè)點(diǎn)最接近的點(diǎn)的問題。而在n維向量空間中找到與某點(diǎn)最接近的點(diǎn)可以通過計(jì)算余弦距離來對(duì)比獲得。這里采用余弦距離所得的結(jié)果如表2所示。
根據(jù)表2,用戶2、用戶3、用戶4和用戶1的相似度排序?yàn)橛脩?>用戶4>用戶2,根據(jù)相似度的排序可取出若干相似用戶,然后將相似用戶感興趣的電子檔案取出進(jìn)行推薦。從排序得出,用戶3和用戶4為用戶1的相似用戶,然后將用戶4和用戶3感興趣的電子檔案3和電子檔案4進(jìn)行排序推薦。針對(duì)優(yōu)先推薦檔案3還是檔案4的問題,可對(duì)電子檔案的喜好進(jìn)行加權(quán)打分(用戶喜好度×與待推薦用戶的相似度)累加,優(yōu)先推薦分?jǐn)?shù)最高的電子檔案。
基于上述數(shù)據(jù),分別計(jì)算電子檔案3和電子檔案4的推薦得分,檔案3的推薦得分是:1×0.73=0.73(用戶3的喜好度×用戶3和用戶1的相似度),檔案4的推薦得分是:2×0.54 = 1.08(用戶4的喜好度×用戶4和用戶1的相似度)。因此,根據(jù)計(jì)算得到的結(jié)果,系統(tǒng)會(huì)優(yōu)先推薦檔案4,再推薦檔案3。
(四)推薦結(jié)果的實(shí)時(shí)反饋
最后根據(jù)上述算法選取符合條件的且排序最靠前的若干個(gè)電子檔案返回,得到最終推薦結(jié)果,也就是說從全部符合條件的電子檔案中選擇排名前K個(gè)結(jié)果即可。為提高排序選擇效率,可采用常規(guī)排序的Top-K排序(又叫堆排序)算法來獲取。該算法是在特定的數(shù)據(jù)區(qū)域中找出排名前K個(gè)符合條件的數(shù)據(jù)的檢索方法。采用該方法將大幅減少排序的時(shí)間,有效提升檢索性能,同時(shí)避免不必要的系統(tǒng)資源消耗,減少計(jì)算資源,提升系統(tǒng)運(yùn)行效率。
本文圍繞電子檔案實(shí)時(shí)推薦的應(yīng)用方式,通過引入基于內(nèi)容的召回推薦策略和基于用戶的協(xié)同過濾推薦策略,將兩種類型的推薦模式進(jìn)行互補(bǔ)融合。在用戶行為數(shù)據(jù)較少、相似用戶不具規(guī)模的情況下,采用基于內(nèi)容的召回推薦策略進(jìn)行電子檔案推薦,解決系統(tǒng)冷啟動(dòng)問題。當(dāng)系統(tǒng)運(yùn)行一段時(shí)間,用戶和電子檔案積累到一定數(shù)量時(shí),采用基于用戶的協(xié)同過濾推薦策略,可以進(jìn)一步提高電子檔案推薦的科學(xué)性和準(zhǔn)確率。下一階段,對(duì)電子檔案檢索的研究還可關(guān)注基于AI的實(shí)時(shí)推薦模型,即通過AI自動(dòng)化與推薦搜索算法進(jìn)一步融合,以達(dá)到更好的實(shí)時(shí)推薦效果。
*本文系2020年國家檔案局科技項(xiàng)目“基于重大工程項(xiàng)目施工現(xiàn)場的電子文件‘單套制歸檔和電子檔案管理研究”(項(xiàng)目批準(zhǔn)號(hào):2020-X-22)的階段性研究成果。
參考文獻(xiàn):
[1]劉青文.基于協(xié)同過濾的推薦算法研究[D].合肥:中國科學(xué)技術(shù)大學(xué),2013.
[2]王哲.新時(shí)期建設(shè)工程電子檔案的移交與接收工作探析[J].北京檔案,2023(1):30-32.
[3]楊茜雅.中國聯(lián)通電子檔案數(shù)據(jù)挖掘與智能利用的研究[J].檔案學(xué)研究,2018(6):105-109.
[4]楊俊杰.數(shù)字化轉(zhuǎn)型背景下的檔案信息安全問題研究[D].鄭州:鄭州航空工業(yè)管理學(xué)院,2022.
[5]柯賢斌.基于用戶的協(xié)同過濾算法在圖書推薦系統(tǒng)中的應(yīng)用研究[D].荊州:長江大學(xué),2019.
[6]張新,王瑋.探索電子文件歸檔和電子檔案管理新模式[J].中國檔案,2018(5):70-71.
[7]秦楊.我國智慧檔案館建設(shè)的現(xiàn)狀分析與對(duì)策研究[D].保定:河北大學(xué),2020.
作者單位:1.中國長江三峽集團(tuán)有限公司科學(xué)技術(shù)研究院
2.中國長江三峽集團(tuán)有限公司檔案中心