李 欣,于亞秀,程 靜
眾包是基于互聯(lián)網(wǎng)的新型社會化協(xié)作機(jī)制,直接將問題發(fā)布到互聯(lián)網(wǎng)上,利用網(wǎng)絡(luò)大眾的群體智慧來產(chǎn)生超越個(gè)體智慧的成果,在許多領(lǐng)域中得到應(yīng)用[1]。很多計(jì)算機(jī)不擅長的、難以有效解決的問題,如復(fù)雜的圖片標(biāo)注、文字識別、軟件開發(fā)、語言翻譯、工業(yè)設(shè)計(jì)等都可以通過眾包得以解決。這些任務(wù)都是簡單且相對獨(dú)立的小型任務(wù),甚至是決策任務(wù),通??梢元?dú)立完成。
隨著Web2.0參與、互動與分享理念深入人心,很多圖書館OPAC系統(tǒng)嵌入為館藏添加標(biāo)簽和評論的功能,這是典型的利用網(wǎng)絡(luò)大眾群體智慧來提升資源發(fā)現(xiàn)能力的例子。用戶所添加的標(biāo)簽和評論通常由圖書館員來確定是否采用,帶有主觀色彩。有學(xué)者[2-4]在圖書館特藏資源建設(shè)、參考咨詢問答服務(wù)以及資源采購與讀者薦購等方面探討了應(yīng)用眾包的可行性;也有學(xué)者探討了建立眾包激勵機(jī)制以提高用戶參與意愿的方法[5-6]。近年圖書館對眾包的關(guān)注度越來越高。本文在分析方志數(shù)據(jù)特點(diǎn)的基礎(chǔ)上,從眾包功能實(shí)現(xiàn)方式、特點(diǎn)及如何通過整合眾包結(jié)果得到問題最優(yōu)答案的方面,探討眾包技術(shù)在圖書館的應(yīng)用。
眾包概念由美國《連線》雜志記者杰夫·豪(Jeff Howe)2006年6月提出[7]。杰夫·豪對眾包的定義是:一個(gè)公司或機(jī)構(gòu)把過去由員工執(zhí)行的工作任務(wù),以自由自愿的形式外包給非特定的(而且通常是大型的)大眾網(wǎng)絡(luò)的做法[8]。眾包的基礎(chǔ)模型由任務(wù)發(fā)布方、任務(wù)完成方、眾包任務(wù)和眾包平臺組成,如圖1所示。眾包的核心思想為充分利用公眾的力量,收集群眾的智慧來解決大問題。眾包的優(yōu)勢在于,它能聚集眾多不同背景的人,能聚集眾多的算法,這些人或者算法在巨大的空間里相對均勻地從不同的點(diǎn)開始搜索、開始研究,這樣的話效率會變得很高[9]。之所以稱為基礎(chǔ)模型,是因?yàn)橹会槍μ峁┍姲蝿?wù)解決方案的“任務(wù)完成方”而言。對于“任務(wù)發(fā)布方”,收到眾多解決方案,并不意味著任務(wù)完成,采納解決方案的過程相當(dāng)復(fù)雜,它直接決定眾包的效果。
圖1 眾包基礎(chǔ)模型
眾包應(yīng)用主要集中在創(chuàng)作和服務(wù)領(lǐng)域??▋?nèi)基梅隆大學(xué)LuisVonAhn教授研發(fā)的reCAPTCHA系統(tǒng)[10]是一個(gè)成功的眾包案例。reCAPTCHA主要針對年代久遠(yuǎn)、字跡模糊、褪色、污損且OCR無法識別的文獻(xiàn)內(nèi)容,這些內(nèi)容由人工辨認(rèn)。reCAPTCHA系統(tǒng)中,驗(yàn)證碼由兩個(gè)單詞組成,一是系統(tǒng)設(shè)定并有明確答案的“control word”(對照詞),二是來源于 OCR無法識別的“unknow word”(未知詞)。前一個(gè)用于驗(yàn)證用戶是否有能力識別這些文字,如果答案正確,就認(rèn)為用戶對“unknown word”部分的回答也是可信的。為增強(qiáng)可信度,同一個(gè)“unknown word”會被分配給多個(gè)用戶,然后綜合這些用戶的回答來判定這個(gè)疑難字符是否被正確識別。reCAPTCHA系統(tǒng)以免費(fèi)服務(wù)的形式提供給各網(wǎng)站,以加快文獻(xiàn)數(shù)字化進(jìn)度[11]。該系統(tǒng)巧妙地采用網(wǎng)絡(luò)驗(yàn)證碼的形式匯聚億萬網(wǎng)民的智慧,對計(jì)算機(jī)無法識別的文字進(jìn)行辨識,在不知不覺中完成了1300萬份《紐約時(shí)報(bào)》檔案資料的數(shù)字化[12]。
1.3.1 平臺/系統(tǒng)
(1)公共眾包平臺。AmazonMechanicalTurks(AMT)、CrowdFlower、豬八戒網(wǎng)、大學(xué)士等公共眾包平臺利用成熟的商業(yè)眾包形式發(fā)布眾包任務(wù)。公共眾包平臺適合發(fā)布可分解成微任務(wù)的復(fù)雜任務(wù)。該類平臺的優(yōu)點(diǎn)是用戶不用開發(fā)平臺,只要組織好任務(wù)即可通過公共眾包平臺進(jìn)行發(fā)布,實(shí)現(xiàn)速度快;缺點(diǎn)是針對性弱,專業(yè)性差。公共眾包平臺一般都是商業(yè)化的,需要收取費(fèi)用。
(2)專業(yè)眾包平臺。由發(fā)布眾包任務(wù)的主體開發(fā)專門的眾包平臺。例如,上海圖書館歷史文獻(xiàn)眾包平臺,專門針對上海圖書館收藏的大量手寫資料中的人、地、時(shí)、事等內(nèi)容特征進(jìn)行深度標(biāo)引,同時(shí)對無法采用OCR處理的全文進(jìn)行抄錄。該平臺只發(fā)布上海圖書館的特定眾包任務(wù),并不向普通大眾開放。專業(yè)眾包平臺專業(yè)性強(qiáng)、管理簡單,隨著時(shí)間的推移能逐漸聚集相對專業(yè)的任務(wù)完成方群體,但需要開發(fā)系統(tǒng),人員和資金投入較大。
(3)社交網(wǎng)絡(luò)平臺。部分社交網(wǎng)絡(luò)平臺也提供眾包功能,如Facebook、Twitter、微博、微信。任務(wù)請求方在社交平臺上嵌入自己的應(yīng)用來實(shí)現(xiàn)眾包任務(wù)的發(fā)布,并利用社交網(wǎng)絡(luò)平臺用戶關(guān)注度高的特點(diǎn)來完成眾包任務(wù)。此方式優(yōu)點(diǎn)在于能利用社交網(wǎng)絡(luò)用戶隨時(shí)隨地在線的特點(diǎn)以及碎片化時(shí)間來取得眾包任務(wù)的及時(shí)反饋;缺點(diǎn)是持久性差,發(fā)布的任務(wù)很快會淹沒在海量的信息中。
(4)嵌入應(yīng)用系統(tǒng)。比如,圖書館及亞馬遜書店的圖書評分。這種方式能聚集專業(yè)/使用人員在系統(tǒng)使用的過程中完成數(shù)據(jù)優(yōu)化。由于應(yīng)用面窄,一般選取與眾包任務(wù)性質(zhì)相近的系統(tǒng)進(jìn)行任務(wù)嵌入。此方式優(yōu)點(diǎn)在于針對性強(qiáng),因?yàn)橄到y(tǒng)訪問者也就是眾包工人,可以很好地聚類工人;缺點(diǎn)是需要在應(yīng)用系統(tǒng)開發(fā)以及運(yùn)行過程中考慮眾包任務(wù)接口嵌入,同時(shí)應(yīng)用系統(tǒng)需具有一定的開放性以滿足接口嵌入。
1.3.2 活動方式
活動方式指依賴組織活動實(shí)現(xiàn)眾包。上海圖書館2016年首次主辦面向家譜開放數(shù)據(jù)的數(shù)據(jù)應(yīng)用開發(fā)競賽,激發(fā)數(shù)據(jù)創(chuàng)新活力和潛在價(jià)值。2017年圍繞名人手稿和檔案開放數(shù)據(jù),上海圖書館通過移動應(yīng)用及服務(wù)創(chuàng)意進(jìn)一步釋放開放數(shù)據(jù)的價(jià)值,挖掘數(shù)據(jù)背后的應(yīng)用潛力。2017年北京大學(xué)舉辦基于開放研究數(shù)據(jù)平臺的“首屆全國高校數(shù)據(jù)驅(qū)動創(chuàng)新研究大賽”,基于給定的數(shù)據(jù)集和數(shù)據(jù)空間,挖掘創(chuàng)新應(yīng)用案例?;顒油ǔ0▓?bào)名、特定應(yīng)用場景培訓(xùn)、提交作品、組織評審、結(jié)果發(fā)布及頒獎等環(huán)節(jié),基于特定場景,以數(shù)據(jù)眾包居多。此類活動優(yōu)點(diǎn)在于參賽者范圍廣、多樣化,有不同的技巧和視野[9],通過較少投入獲得較大的收益。
1.4.1 數(shù)據(jù)庫管理功能
在數(shù)據(jù)庫應(yīng)用領(lǐng)域,眾包工人管理功能并非指簡單的人員注冊管理。該功能不僅通過注冊信息劃分地區(qū)、專業(yè)與領(lǐng)域,更通過眾包行為的歷史記錄,包括登錄次數(shù)、物理位置、完成任務(wù)數(shù)量、任務(wù)類別、任務(wù)被采納情況等,自動實(shí)現(xiàn)聚類與交叉智能管理,為眾包任務(wù)的合理分配與任務(wù)智能推送提供科學(xué)的量化分析數(shù)據(jù)。
1.4.2 人機(jī)交互功能
(1)任務(wù)列表功能。這是最簡單、最常用的任務(wù)發(fā)布方式,一般以時(shí)間順序顯示任務(wù),特別適合在任務(wù)量較少或任務(wù)發(fā)布周期較長的系統(tǒng)中應(yīng)用。工人只能通過瀏覽任務(wù)頁面來獲取感興趣的信息。當(dāng)任務(wù)量逐漸增多或發(fā)布周期較短時(shí),隨著任務(wù)列表的快速更新,舊任務(wù)很快被新任務(wù)覆蓋。工人往往只關(guān)注前幾頁任務(wù)列表,使得早期的眾包任務(wù)不能被發(fā)現(xiàn)。
(2)任務(wù)搜索功能。一般系統(tǒng)的搜索功能基本建立在任務(wù)描述的主要元數(shù)據(jù)基礎(chǔ)上。但要精準(zhǔn)定位任務(wù),僅僅依靠任務(wù)的元數(shù)據(jù)檢索功能是不夠的,需要從發(fā)布時(shí)間、地域特征、類別以及任務(wù)摘要關(guān)鍵詞提取等方面綜合考慮,設(shè)計(jì)任務(wù)搜索功能,幫助工人便捷地查找感興趣的任務(wù)。任務(wù)搜索功能需要豐富的眾包任務(wù)描述元數(shù)據(jù)以及摘要的文本關(guān)鍵詞拆分處理配合實(shí)現(xiàn)。
(3)任務(wù)推送功能。根據(jù)興趣愛好把相關(guān)任務(wù)發(fā)送給相關(guān)工人,不需要工人主動搜索。任務(wù)推送要與眾包工人管理相結(jié)合,根據(jù)管理平臺上的工人歷史信息構(gòu)建工人偏好模型,進(jìn)行任務(wù)推薦。針對方志數(shù)據(jù),從地理位置特征考慮,任務(wù)推送目標(biāo)群體的地理位置是需要考慮的因素。
圖形化界面設(shè)計(jì)是眾包平臺人機(jī)交互功能的重要方面。比如,標(biāo)簽云檢索功能在形象化聚類眾包任務(wù)的同時(shí),可以在有限界面內(nèi)承載更多的任務(wù)類別,讓工人在眾多任務(wù)中方便地找到自己感興趣的任務(wù)。特別是那些往往不能第一時(shí)間被認(rèn)領(lǐng)的小眾任務(wù),在按時(shí)間排列的普通眾包任務(wù)列表中會排在后面,關(guān)鍵詞/類別標(biāo)簽云功能可以較好地解決任務(wù)列表功能的不足。
從時(shí)間順序來描述,眾包工作流程主要包括任務(wù)準(zhǔn)備、任務(wù)執(zhí)行、結(jié)果整合三部分,并通過平臺來管理任務(wù)的全過程(見圖2)。
1.5.1 任務(wù)準(zhǔn)備
將復(fù)雜任務(wù)分解成較小的子任務(wù),每個(gè)子任務(wù)要具有相對獨(dú)立性且適應(yīng)特殊需求或具備某種特點(diǎn),以方便將其分配給合適的工人群體。對工人群體需要進(jìn)行適當(dāng)?shù)募睢⑦x擇和組織,從而使任務(wù)分配更具針對性,包括確定任務(wù)的合理價(jià)格,設(shè)計(jì)任務(wù)發(fā)布界面等。
圖2 眾包工作流程[13]
1.5.2 任務(wù)執(zhí)行
眾包任務(wù)通常以達(dá)到某種優(yōu)化為目的。因此,任務(wù)的自然認(rèn)領(lǐng)與有效結(jié)合工人因素的針對性任務(wù)推送需要關(guān)聯(lián)起來,平衡任務(wù)自然選擇與針對性推送的數(shù)量。選擇什么樣的工人來承擔(dān)任務(wù)對結(jié)果非常重要,任務(wù)在執(zhí)行過程中需要不斷調(diào)整,如得到正確結(jié)果后及時(shí)終止任務(wù)以節(jié)省費(fèi)用,在有效時(shí)間內(nèi)收不到正確結(jié)果則需要重新組織與發(fā)布任務(wù)。
1.5.3 結(jié)果整合
任務(wù)結(jié)果整合是眾包工作流程的重要步驟,大部分眾包應(yīng)用都要通過整合來獲取任務(wù)的最終結(jié)果。因此,任務(wù)答案整合是眾包質(zhì)量控制的核心內(nèi)容。對于眾包任務(wù),由于任務(wù)量小,而工人文化層次多樣、能力參差不齊,一般以冗余的方式發(fā)放。當(dāng)所有的任務(wù)均收到答案,再進(jìn)行結(jié)果的比較分析、推理整合,剔除眾多結(jié)果中的無用信息和錯(cuò)誤信息,匯聚出最合適的答案[14-15]。眾包結(jié)果整合主要采用投票、數(shù)學(xué)模型推斷和二次眾包結(jié)果協(xié)同等方式進(jìn)行[14]。
(1)投票方式。在工人提交答案后,可通過各種算法來保證結(jié)果的質(zhì)量。最簡單的辦法是把一個(gè)任務(wù)分配給多個(gè)(奇數(shù))工人來完成,然后通過多數(shù)投票原則(少數(shù)服從多數(shù))來獲取最終結(jié)果[16-19]。多數(shù)投票原則假定每個(gè)工人的答案準(zhǔn)確率是一致的,沒有考慮工人的多樣性。但是,不同工人的答案準(zhǔn)確率通常差異較大,因此采用這種方法得到的最終結(jié)果往往不夠準(zhǔn)確[8]。投票方式的變種——加權(quán)投票方式的核心思想是,給每個(gè)工人標(biāo)注一定的投票權(quán)重。以方志數(shù)據(jù)眾包為例,鑒于方志數(shù)據(jù)的時(shí)間、空間特性,眾包結(jié)果匯聚時(shí),空間服務(wù)范圍對匯聚結(jié)果的影響是需要重點(diǎn)考慮的,應(yīng)提高其權(quán)重。比如,來自任務(wù)發(fā)布地的工人結(jié)果,其可信度權(quán)重應(yīng)高于其他地理位置的工人結(jié)果。
(2)基于數(shù)學(xué)模型的方式。構(gòu)建數(shù)學(xué)模型來推斷眾包結(jié)果是常用的整合方式。有學(xué)者[20-24]將工人答題質(zhì)量、結(jié)果推理過程構(gòu)建成數(shù)學(xué)模型來實(shí)現(xiàn)眾包結(jié)果推斷,其中經(jīng)常使用基于概率模型的推斷方法[20-22]。假設(shè)眾包任務(wù)是判斷“ibm”與“big blue”是否等價(jià),如果三個(gè)工人w1、w2、w3的答案分別為yes、yes和no,且三個(gè)工人回答的準(zhǔn)確率分別為0.2、0.6和0.9(該準(zhǔn)確率根據(jù)工人答題的歷史數(shù)據(jù)給出);那么通過貝葉斯公式[25]來計(jì)算答案(ans)yes的概率為:P(ans=yes|w1=yes,w2=yes,w3=no)∝(正 比于)P(w1=yes|ans=yes)*P(w2=yes|ans=yes)*P(w3=no|ans=yes)*P(ans=yes)。其中,P(w1=yes|ans=yes)表示正確結(jié)果是yes,而w1給出回答為yes的概率,即為工人w1的準(zhǔn)確率,等于0.2。假定在沒有任何回答的前提下,答案為yes或no的先驗(yàn)概率相同,即P(ans=yes)=P(ans=no)=0.5;那么結(jié)果P(ans=yes|w1=yes,w2=yes,w3=no)∝0.2*0.6*(1-0.9)=0.012。類似地,結(jié)果為no的概率P(ans=no|w1=yes,w2=yes,w3=no)∝(1-0.2)*(1-0.6)*0.9=0.288。歸一化后得到答案為yes或者no是真實(shí)結(jié)果的概率分布為=(4%,96%),也就是說no是真實(shí)結(jié)果的概率較高,因此根據(jù)概率推斷將返回no作為結(jié)果。Ipeirotis,Dawid,Venanzi[22-23]等將工人質(zhì)量及推斷過程表征為更復(fù)雜的數(shù)學(xué)模型,通過將結(jié)果融入到某一優(yōu)化目標(biāo),再最優(yōu)化這一目標(biāo)公式來推斷求解結(jié)果。構(gòu)建數(shù)學(xué)模型來進(jìn)行結(jié)果整合,其應(yīng)用一般建立在工人數(shù)據(jù)精準(zhǔn)管理的基礎(chǔ)上。比如,根據(jù)工人過往完成任務(wù)情況,得出工人完成某類任務(wù)的正確性概率。
(3)基于二次眾包的結(jié)果協(xié)同。大部分眾包結(jié)果可通過算法和數(shù)據(jù)模型進(jìn)行推斷,但有時(shí)因任務(wù)的主觀性強(qiáng),結(jié)果的判斷相對復(fù)雜,如手寫體識別、創(chuàng)意設(shè)計(jì)。當(dāng)結(jié)果的優(yōu)劣很難通過算法加以判斷時(shí),可通過第二次眾包來判斷先前得到的眾包結(jié)果的優(yōu)劣,即通過眾包過程去驗(yàn)證眾包結(jié)果的判斷,以此完成眾包結(jié)果的協(xié)同。
數(shù)字方志特藏資源建設(shè)引入眾包模式,主要從稀缺資源收集和數(shù)據(jù)優(yōu)化兩方面開展。方志資源作為相對專業(yè)的資源類型,在眾包設(shè)計(jì)時(shí)需考慮其與常規(guī)眾包不同的特征。筆者認(rèn)為在眾包設(shè)計(jì)流程上依然要遵循眾包基本流程,但在技術(shù)特征上對眾包結(jié)果整合環(huán)節(jié)要求更高,實(shí)現(xiàn)方式應(yīng)以專業(yè)平臺為主。
方志特藏資源作為人文研究的重要數(shù)據(jù)來源,具有資料性、真實(shí)性、區(qū)域性、時(shí)限性和傳承性的特征[26]。面對形式復(fù)雜多樣的圖像、語音、視頻和文本等非結(jié)構(gòu)化數(shù)據(jù),方志特藏資源數(shù)字化從簡單的紙質(zhì)文獻(xiàn)全文掃描與描述性元數(shù)據(jù)加工,向紙質(zhì)文獻(xiàn)的OCR識別、多媒體資源的文本數(shù)據(jù)抽取與描述、全文標(biāo)注以及相應(yīng)的元數(shù)據(jù)加工、拆分、關(guān)聯(lián)、存儲等方向轉(zhuǎn)變。這種資源的深度挖掘主要用以產(chǎn)生量化和關(guān)聯(lián)關(guān)系等輔助研究結(jié)果,是隨著人文研究方式的不斷拓展和深入而產(chǎn)生的新需求。
2.1.1 非結(jié)構(gòu)化內(nèi)容數(shù)據(jù)
(1)音視頻數(shù)據(jù)處理。音視頻數(shù)據(jù)可以拆分成視頻和音頻數(shù)據(jù),然后通過自動語音識別系統(tǒng)“提取”語音中所包含的文字信息,將音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù),從而使大量音頻以文本數(shù)據(jù)方式存儲,這樣通過文本數(shù)據(jù)最終實(shí)現(xiàn)音視頻的檢索。在音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù)方面,科大訊飛開放平臺、百度語音識別、云知聲、IBM WATSON等系統(tǒng)有廣泛應(yīng)用。近年音頻識別技術(shù)發(fā)展迅速,應(yīng)用場景走向大型會議。講演者的音頻數(shù)據(jù)通過轉(zhuǎn)換軟件系統(tǒng)處理,可在大屏幕上同步顯示所轉(zhuǎn)換的文本。新技術(shù)為多媒體資源的文本化提供了可行性。
(2)文本數(shù)據(jù)處理。文本數(shù)據(jù)的細(xì)粒度化主要通過全文、題名、自然語言關(guān)鍵詞、摘要等描述性元數(shù)據(jù)的分詞以及規(guī)范主題詞處理,形成標(biāo)簽數(shù)據(jù),用于文本深度分析和可視化,進(jìn)而結(jié)合特定屬性(時(shí)間、地點(diǎn)、人物等)的全文標(biāo)注來實(shí)現(xiàn)知識關(guān)聯(lián)。實(shí)現(xiàn)上述文本數(shù)據(jù)的細(xì)粒度化,涉及自動分詞/自然語言處理(Natural Language Processing,NLP)技術(shù)、標(biāo)注技術(shù)。自動分詞和屬性標(biāo)注應(yīng)用于專有名詞和特有需求甚多的垂直領(lǐng)域時(shí),要提升文本數(shù)據(jù)細(xì)粒度化處理的精準(zhǔn)度,往往需要大型語料庫的支撐。然而,在中文垂直領(lǐng)域語料庫很少,很難將比較通用的(如在Wikipedia上訓(xùn)練的)模型直接拿過來使用[19]。
(3)圖像/圖形化數(shù)據(jù)處理。一方面,通過OCR識別圖像中的文字,實(shí)現(xiàn)對圖像的描述。另一方面,從特藏資源的數(shù)據(jù)形式角度,本文的圖像/圖形化數(shù)據(jù)通常指文獻(xiàn)資源的一種存在形式,處理方式依賴于對其進(jìn)行不同角度的標(biāo)注,以更精細(xì)化地描述圖像/圖形化數(shù)據(jù)的內(nèi)容。比如,對一本書的數(shù)據(jù)化,其中的圖片不僅單獨(dú)以圖形化數(shù)據(jù)方式存儲,還要對其進(jìn)行多角度、全方位描述,通過時(shí)間、地點(diǎn)、人物、事件等元數(shù)據(jù)實(shí)現(xiàn)圖形化數(shù)據(jù)的精準(zhǔn)描述。
依據(jù)上述非結(jié)構(gòu)化方志數(shù)據(jù)的特點(diǎn)及其轉(zhuǎn)換的實(shí)現(xiàn)技術(shù)分析可知,信息技術(shù)只能進(jìn)行有規(guī)律性的數(shù)據(jù)處理,如多媒體資源數(shù)據(jù)提取、文本細(xì)粒度加工、OCR圖像識別以及相關(guān)的行業(yè)語料庫建設(shè)等。隨著人工智能和機(jī)器學(xué)習(xí)技術(shù)的不斷發(fā)展,相關(guān)的技術(shù)方法會不斷成熟,數(shù)據(jù)處理精度會越來越高。但是,依然有無法處理部分,眾包成為數(shù)據(jù)優(yōu)化必不可少的手段。
2.1.2 領(lǐng)域規(guī)范數(shù)據(jù)
非結(jié)構(gòu)化數(shù)據(jù)經(jīng)細(xì)粒度加工、結(jié)構(gòu)化處理后,還要通過融合來解決數(shù)據(jù)孤島問題,以激活數(shù)據(jù)的關(guān)聯(lián)價(jià)值。一方面,方志數(shù)據(jù)的歷史、地理特征決定,在數(shù)字方志建設(shè)過程中,方志歷史、地理信息與當(dāng)今年代與地名的對照、人名規(guī)范等數(shù)據(jù)處理,都需要相關(guān)規(guī)范數(shù)據(jù)庫的支撐;另一方面,文本數(shù)據(jù)細(xì)粒度加工所需的相關(guān)行業(yè)語料庫等,也為數(shù)字方志特藏資源建設(shè)的可視化應(yīng)用奠定基礎(chǔ)。圖書館擁有的豐富資源,為規(guī)范數(shù)據(jù)庫和行業(yè)語料庫建設(shè)提供了得天獨(dú)厚的條件,有很多成功案例,如上海圖書館的人名規(guī)范庫建設(shè)等。但規(guī)范數(shù)據(jù)庫和行業(yè)語料庫建設(shè)是一個(gè)長期、不斷積累和多方佐證的過程,依靠單個(gè)圖書館或少數(shù)人很難完成。
2.1.3 數(shù)據(jù)保存民間特性
從方志資源傳承性特點(diǎn)考慮,很多資源散落在民間,這些資源往往具有極強(qiáng)的地域特征,包含地域生態(tài)、地域經(jīng)濟(jì)、地域文化等內(nèi)容。這部分資源的收集能夠更準(zhǔn)確地體現(xiàn)方志資源建設(shè)的特色,但僅依靠圖書館采購和館員的力量,很難實(shí)現(xiàn)全面收集。
2.2.1 專業(yè)性
從方志數(shù)據(jù)特點(diǎn)考慮,數(shù)據(jù)眾包應(yīng)建立在專業(yè)平臺基礎(chǔ)上。方志資源數(shù)據(jù)以及方志語料庫數(shù)據(jù)均不屬于大眾化范疇,若將其在公共眾包平臺發(fā)布,針對性較差。依托圖書館、方志館構(gòu)建眾包平臺,一方面可以有效提升方志數(shù)據(jù)眾包的準(zhǔn)確性;另一方面能夠更有效地聚集專業(yè)人員。而組織開展基于專業(yè)方志數(shù)據(jù)集的活動或競賽,更可讓數(shù)據(jù)在應(yīng)用層面發(fā)揮更大作用。從上海圖書館和北京大學(xué)組織的基于數(shù)據(jù)集的競賽活動效果可知,這種方式在提升數(shù)據(jù)可用性和拓展基于數(shù)據(jù)的系統(tǒng)功能方面,收到超乎想象的效果。
2.2.2 結(jié)果整合
方志數(shù)據(jù)眾包與目前圖書館書目系統(tǒng)的關(guān)鍵詞眾包有很大區(qū)別。關(guān)鍵詞用于描述資源,起到豐富資源元數(shù)據(jù)的作用,主要用于資源的多角度發(fā)現(xiàn),其準(zhǔn)確性要求并不特別高。而方志數(shù)據(jù)的眾包不僅用于收集奇缺資源,更重要的是,通過眾包解決數(shù)據(jù)中的不確定性問題,如圖片識別、文本數(shù)據(jù)深度挖掘、多媒體文本處理等,因此對眾包結(jié)果整合要求較高。眾包結(jié)果整合雖然有多種方式,但筆者認(rèn)為基于數(shù)學(xué)模型的結(jié)果整合方法更科學(xué)。這種結(jié)果整合方法對眾包工人的管理有更高要求。為此,方志數(shù)據(jù)的眾包系統(tǒng)建設(shè),無論在資金投入還是技術(shù)性能方面,都會有更高的要求。
2.2.3 資源收集與整理
與通常意義上的眾包任務(wù)不同,這一功能設(shè)計(jì)主要針對方志數(shù)據(jù)的民間保存特性。因此,系統(tǒng)應(yīng)具有提交完整方志數(shù)字資源以及接受印刷型資源的功能,并通過數(shù)字化與實(shí)體資源構(gòu)成相互制約的矯正機(jī)制。大英圖書館、牛津大學(xué)等機(jī)構(gòu)參與建設(shè)的“歐洲1914-1918”數(shù)字館藏建設(shè)項(xiàng)目,就是一個(gè)典型代表。該項(xiàng)目的特點(diǎn)在于允許公眾自行進(jìn)行數(shù)字化處理并提交結(jié)果,也提供提交非數(shù)字化版本的通道[27]。
數(shù)字方志資源建設(shè)引入眾包模式是圖書館資源建設(shè)的新嘗試,目前在圖書館界還不多見,上海圖書館的“歷史文獻(xiàn)眾包平臺”也才剛剛上線。與成熟的商業(yè)眾包平臺相比,方志資源眾包在功能、管理以及發(fā)布內(nèi)容等方面都有待優(yōu)化。眾包這種成熟的基于互聯(lián)網(wǎng)的新型社會化協(xié)作機(jī)制,在圖書館行業(yè)內(nèi)還沒有成為一種新的資源建設(shè)模式。隨著圖書館特藏資源建設(shè)的深入,眾包需求隨之會增多。本文只從技術(shù)層面對眾包在數(shù)據(jù)優(yōu)化方面進(jìn)行了一些嘗試性探討,希望對眾包的應(yīng)用有所借鑒。圖書館轉(zhuǎn)型發(fā)展不僅需要在服務(wù)模式上以用戶為中心,在資源建設(shè)上也要引入互聯(lián)網(wǎng)的開放、共享和用戶參與機(jī)制。因此,如何在圖書館引入眾包,使眾包成為資源建設(shè)的輔助和拓展模式,還有很多因素需要考慮。
(1)數(shù)據(jù)安全與隱私保護(hù)。眾包多應(yīng)用于一個(gè)復(fù)雜任務(wù)被分解成多個(gè)相對獨(dú)立、較小的子任務(wù)的情況之上,其數(shù)據(jù)安全和隱私保護(hù)并沒有引起業(yè)界重視。以信息識別眾包任務(wù)為例,分解后的子任務(wù)雖然僅為完整任務(wù)的一部分,但依然存在信息泄露的數(shù)據(jù)安全風(fēng)險(xiǎn)。眾包任務(wù)內(nèi)容以及個(gè)人信息的數(shù)據(jù)安全問題都會制約著眾包的可用性。出于數(shù)據(jù)安全的考慮,相關(guān)機(jī)構(gòu)有可能會拒絕使用眾包來完成任務(wù)[8]。
(2)用戶激勵和利益分配。眾包不意味著免費(fèi),觀念必須轉(zhuǎn)變。科學(xué)的用戶激勵和利益分配是保證眾包任務(wù)順利完成的關(guān)鍵。如何實(shí)現(xiàn)用戶參與最大化與利益分配合理化之間的平衡關(guān)系到眾包能否持久開展。
(3)正確利用社交網(wǎng)絡(luò)。利用社交網(wǎng)絡(luò)平臺的廣泛關(guān)注度和人氣,充分發(fā)揮社交網(wǎng)絡(luò)發(fā)布、交流、傳播信息的特性,是眾包聚集工人的有效手段。但通過社交網(wǎng)絡(luò)發(fā)布眾包信息時(shí),如何減少對用戶使用社交網(wǎng)絡(luò)基本功能的影響,特別是如何避免讓用戶產(chǎn)生被廣告的效應(yīng),仍有待深入研究。