徐璐瑤 陳建
(山東大學歷史文化學院 濟南 250100)
在數(shù)字時代,“數(shù)字人文”是信息技術(shù)和人文學科之間的一個跨學科領(lǐng)域,作為一門新興學科,可以追溯到20世紀中期出現(xiàn)的人文學科計算[1]。而檔案眾包指的是教育或文化遺產(chǎn)機構(gòu)(主要是檔案機構(gòu))依托館藏豐富檔案資源,借助互聯(lián)網(wǎng)平臺,將原本屬于自身開展的部分數(shù)字檔案資源開發(fā)利用工作通過任務細分給大量非特定網(wǎng)絡大眾,依托公眾力量和智慧共同開展的行為。檔案眾包在數(shù)字人文研究中發(fā)揮著重要作用并具有特殊地位。從兩者的具體關(guān)系來看,首先,檔案眾包有助于建立豐富而優(yōu)質(zhì)的檔案資源,是數(shù)字人文項目知識挖掘、生產(chǎn)和傳播的基礎和依據(jù)。其次,檔案眾包項目中,用戶的作用是根據(jù)項目的需要提供和轉(zhuǎn)化資源,而數(shù)字人文的跨國性和包容性,在客觀上推動了眾包活動更開放的共享與合作。
目前我國學者對于數(shù)字人文與檔案眾包的研究關(guān)注較多,研究內(nèi)容主要涵蓋了數(shù)字人文與檔案記憶功能[2],數(shù)字人文眾包任務的績效管理[3],用戶參與數(shù)字人文眾包的意愿和影響因素[4],眾包任務的發(fā)布與實施[5]等方面,研究不足在于對于數(shù)字人文與檔案眾包的融合研究不夠,對于檔案眾包項目中的數(shù)字人文特征闡述不足,對項目實際開展中的細節(jié)性問題的關(guān)注仍然有所欠缺。在檔案眾包實踐領(lǐng)域,我國目前已開展的檔案眾包(或有眾包色彩的)項目主要有上海圖書館:盛宣懷檔案抄錄項目[6]、中國人民大學:“我的北京記憶”互動網(wǎng)站項目[7]、沈陽市檔案局(館):家庭檔案網(wǎng)站項目[8]、遼寧省檔案館:社會檔案人欄目[9]等,國內(nèi)項目任務主要集中于檔案著錄、抄錄、征集等方面,但在檔案開放性、眾包管理機制、數(shù)字人文特征、數(shù)字技術(shù)參與、社會媒體激勵等方面存在不足,對于個人、社會、數(shù)字人文三者相互融合的體現(xiàn)有所欠缺,對于信息時代數(shù)據(jù)廣泛性和人文融合性的適應程度還需進一步加強。
調(diào)研發(fā)現(xiàn),目前在數(shù)字人文與檔案眾包進行深度融合方面做的較為成功的案例是德國阿羅爾森檔案館(Arolsen Archives)(以下簡稱阿羅爾森檔案館)的檔案眾包項目,它擁有高度開放和共享的檔案資源、便捷高效的智能與數(shù)字技術(shù)、周詳完備的數(shù)據(jù)安全與隱私規(guī)范、多維多元的眾包管理機制以及廣延外展的矩陣傳播模式,適應了數(shù)字人文時代的信息管理需求。作為交叉學科的數(shù)字人文積極參與阿羅爾森檔案館的眾包實踐,為檔案眾包提供理論與技術(shù)支撐,二者相互促進,相互推動。因此,本文以開展新興眾包項目的阿羅爾森檔案館作為案例對象,分析其如何與時俱進地將檔案資源的歷史性與數(shù)字人文的先進性巧妙融合,同時結(jié)合我國的眾包實踐現(xiàn)狀,探討該項目對于我國數(shù)字人文視閾下開展檔案眾包實踐的啟示。
阿羅爾森檔案館是納粹受迫害者檔案的國際保管中心和國際尋人服務組織(the International Tracing Service,以下簡稱ITS),擁有世界上最全面的納粹受害者和幸存者檔案,已被聯(lián)合國教科文組織列入“世界記憶工程”名錄。它收藏了各種納粹政權(quán)受害者群體的文件,其中包含5000萬張索引卡,保管了約1750萬人的命運信息。
1998年,工作人員開始將阿羅爾森的檔案數(shù)字化。在數(shù)字化過程中,需要細致掃描各種格式的問卷、索引卡和裝訂書籍。阿羅爾森檔案館為此設有專門的掃描站。在數(shù)字檔案館的建設中,阿羅爾森檔案館編制了適應于瀏覽的電子指南。電子指南用五個關(guān)鍵問題描述了誰在何時、為什么以及如何使用檔案中的卡片和表格。指南中的交互式元素解釋了各部分的縮寫和符號。還提供了指向各種其他背景信息的鏈接,賦予其數(shù)字性特征。
該眾包項目的開展有其特定的原因。從阿羅爾森檔案館在追蹤和記錄方面進行的工作來看,受害者姓名仍然是館藏的關(guān)鍵。每一份單獨的文件都經(jīng)過適當?shù)脑u估,這種評估為研究人員的工作提供了重要的視角。但是,追溯記錄這些信息是一項耗時且艱巨的任務。為了支持和補充檔案管理人員在現(xiàn)場進行的工作,阿羅爾森檔案館與Zooniverse眾包平臺和家譜門戶網(wǎng)站 Ancestry 等私營公司開展合作項目,有助于快速便捷地搜索盡可能多的文檔。在2020年,眾包項目計劃啟動,讓志愿者有機會幫助檔案館捕獲數(shù)據(jù),其中包括大量受害者名單以及迫害者的盟軍文件。這對阿羅爾森檔案館有重要意義,同時學校和其他機構(gòu)有機會參與,以一種對整個社會有意義的方式紀念納粹迫害受害者的命運,借此來了解那段沉痛的歷史。眾包計劃“everynamecounts”以其創(chuàng)新的技術(shù)方法獲得了“數(shù)字參與創(chuàng)新”提名下的智能英雄獎,得到了世界各地的肯定。
2020年,阿羅爾森檔案館在Zooniverse眾包平臺上發(fā)布了名為“everynamecounts”的檔案眾包項目,旨在創(chuàng)建包含名稱和所有者信息的數(shù)字記錄數(shù)據(jù)庫。
該項目的目標是為受納粹迫害的人們建造一座數(shù)字紀念碑,使其后代能夠記住受害者的名字和身份,以此來幫助受害者澄清過去的命運,幫助受害者的子孫研究自己的家族史。眾包項目預計到2025年完成對所有數(shù)據(jù)的轉(zhuǎn)錄。“有了‘everynamecounts’,任何人都可以支持尊重、多樣性和民主”。到2022年,該項目的目標有了新高度。下一階段,除了呼吁公眾直接參與并創(chuàng)建檔案數(shù)字記錄外,還呼吁人們采取鮮明的個人立場,同時檔案信息可以進一步用于記錄、研究或教育等社會目的。
該項目以個人記憶為主要研究視角,利用數(shù)字人文的方法,以個人記憶參與構(gòu)建社會整體的戰(zhàn)爭記憶史,以受害者姓名和具體信息反證其受迫害的史實,以個人檔案重筑集體和社會檔案。該項目既是“眾包性”的,又是“個人性”的,是檔案記憶與人本情懷交織的產(chǎn)物,也是數(shù)字時代“人文性”的體現(xiàn)。項目致力于保存納粹受害者檔案并在全球范圍內(nèi)提供這些檔案,以期幫助因大屠殺和種族主義而失散的家庭團聚。
“everynamecounts”項目的眾包倡議也提供了一種新的、直接的、動態(tài)的聯(lián)系歷史的形式,提供了一個紀念納粹迫害受害者并捍衛(wèi)和平與團結(jié)的機會。同時,在該項目下,阿羅爾森檔案館的“東歐外展”部門將檔案管理方式及其服務進行外延,帶到中歐和東歐國家,并與當?shù)毓竞献鏖_發(fā)新的教育和信息服務。
(1)前期準備階段——以眾包平臺為主導
在前期準備階段,以眾包平臺為主導。作為第一步,Zooniverse提供獨特的眾包項目生成工具,項目開發(fā)人員可以使用區(qū)域標記和繪圖工具等來免費創(chuàng)建自己的Zooniverse項目。阿羅爾森檔案館與Zooniverse平臺合作,檔案館負責提供原始檔案,這些檔案將被掃描并以專題的形式上傳至Zooniverse,供志愿者查看和選擇。Zooniverse是一個世界各地的志愿者可以免費注冊的平臺。志愿者們根據(jù)項目分配的任務執(zhí)行,他們提交的數(shù)據(jù)會被分類存儲在Zooniverse的安全在線數(shù)據(jù)庫中。審查員負責檢查任務完成的準確性,平臺也允許用戶在線搜索資源。以平臺為主導的前期準備階段,為后續(xù)的項目實施奠定了良好的物質(zhì)基礎和保障。
(2)項目運行階段——以志愿者參與為主導
在項目運行階段,以志愿者參與為主導。志愿者的招募和選擇是眾包成功的關(guān)鍵。志愿者主導進行著文字和圖片數(shù)據(jù)的轉(zhuǎn)錄工作及部分分析工作,該項目為志愿者提供了各種有利于開展工作的工具,例如在錄入地理信息數(shù)據(jù)時,志愿者可以使用維基數(shù)據(jù)Q-Item和GeoNames ID來輔助輸入正確位置的標識符。在Zooniverse網(wǎng)站上,還設立了一個專門的志愿者社區(qū),社區(qū)由三部分組成:志愿者,志愿者論壇和采訪調(diào)研。同時給予志愿者自我研究的空間,如果志愿者了解最新的街道地址或GPS坐標,可以在“研究信息”中分享。在志愿者的幫助下,研究人員可以更快更準確地分析既得信息,由此節(jié)省時間和資源,提高信息獲取和分析的效率。
(3)成果保留階段——以實體和數(shù)字檔案館為主導
在成果保留階段,以實體和數(shù)字檔案館為主導。截至目前,該項目已經(jīng)擁有22422名注冊志愿者,510萬份文件,同時在眾包平臺上處理了200153條信息數(shù)據(jù)。在Zooniverse平臺上,現(xiàn)有26556個志愿者參與,886701個分類,共365632個科目,已經(jīng)完成251956個科目。在眾包項目后期階段,實體和數(shù)字檔案館發(fā)揮作用,眾包的大量成果會以數(shù)據(jù)形式存入阿羅爾森的實體和數(shù)字檔案館,供公眾瀏覽和利用。實體和數(shù)字檔案館的建立為成果保留提供了重要基礎。
眾包的過程是將工作外包給互聯(lián)網(wǎng)上不確定的群體,參與者可以自主行動,然而眾包結(jié)果的質(zhì)量難以標準化[10]。對于眾包在數(shù)字人文領(lǐng)域的應用,一個關(guān)鍵問題是如何有效地消除虛假和劣質(zhì)內(nèi)容,提高結(jié)果的整體質(zhì)量。阿羅爾森檔案館的眾包項目通過監(jiān)測和管理全過程,減輕識別偏差造成的質(zhì)量不均情況,來控制項目風險,提高項目質(zhì)量。
監(jiān)測和管理過程主要由國際尋人服務國際委員會(ICITS)負責,ICITS由來自11個成員國的政府代表組成,負責監(jiān)督阿羅爾森檔案館的全過程工作。自1955年《波恩條約》以來,國際委員會成員國每年輪流擔任主席——在2022-2023年度,由法國尼古拉斯·奇巴夫擔任主席。
風險在很多方面與收益相同。數(shù)以百萬計的納粹迫害受害者檔案是否應該在互聯(lián)網(wǎng)上免費提供,這是在線數(shù)據(jù)庫投入開發(fā)后阿羅爾森檔案館激烈討論的問題,問題主要集中在以在線方式發(fā)布文件是否會侵犯人格權(quán)和版權(quán)方面。阿羅爾森檔案館仔細考慮了這些問題:大多數(shù)專家和受害者的親屬都認為在線檔案館提供的效益遠大于其風險。
在質(zhì)量控制上,總體來看,對內(nèi)容質(zhì)量的審核方式分為人工審核與系統(tǒng)自動審核兩類?!癳verynamecounts”項目設有檢查員檢查程序。檢查員通常在項目開始時設置,僅選用具有相關(guān)經(jīng)驗的項目負責人或志愿者擔任。質(zhì)量控制的及時性和事后調(diào)節(jié)性并存,具體而言,每份文件至少轉(zhuǎn)錄三次,任何錯誤都將在質(zhì)量控制階段得到糾正。如果三次輸入的結(jié)果不同,項目工作人員會檢查并進行更正。如果遇到無法糾正的錯誤,可以隨時使用“Doubts”標簽在論壇中告訴項目負責人。另外檢查員在最終檢查時可通過“Report”標簽向項目經(jīng)理反饋志愿者的錯誤,以此規(guī)范志愿者的參與行為。
首先是公眾參與策略?!癳verynamecounts”項目最突出的公眾參與策略是利用社交媒體建立傳播矩陣進行宣傳,分為幾個層級,即從個人社交媒體平臺到公眾新聞媒體平臺,從傳統(tǒng)紙質(zhì)媒體形式到新興數(shù)字媒體形式,從線上數(shù)字網(wǎng)站宣傳到線下實體海報宣傳,多維度多層面利用公眾與社交媒體參與激勵,由此構(gòu)建公眾參與策略上的傳播矩陣。例如,利用Twitter和Facebook平臺發(fā)布個人參與感受,在公眾新聞媒體例如《紐約時報》上公開報道,上傳新興數(shù)字媒體如“Hadassa Magazine”網(wǎng)站,利用視頻社交平臺Youtube上傳項目視頻介紹,在法國駐柏林大使館外墻上顯示“everynamecounts”受害者名字的光投影等。媒體不再是單一的傳播渠道,而是一種“矩陣”形式。新舊媒體的融合使得覆蓋面更大,強調(diào)了通過矩陣傳播的優(yōu)越性。檔案信息根據(jù)不同信息傳播平臺的特點進行編碼,從而提高媒體的影響力和知名度,并根據(jù)傳播矩陣的不同渠道改善媒體的聚合[11]?!癳verynamecounts”項目的公眾參與方式很好地利用了媒體傳播矩陣,使公眾參與覆蓋面更廣,傳播性更高,宣傳力更強,適應了數(shù)字人文時代的要求。
其次是制定有效的志愿者激勵策略,吸引和激勵大量的一次性志愿者,減少或避免志愿者流失,保持或增加志愿者的貢獻度和專業(yè)度,是眾包成功的關(guān)鍵措施[12]。參與項目的志愿者們在項目前期和后期都會收到一份調(diào)查問卷,來探討他們參與項目時遇到的問題和得到的感悟。志愿者們也可以在志愿者社區(qū)的“Talk”討論區(qū)進行交流,收集和共享數(shù)據(jù),分享參與項目的心得體會。同時在“Bookshelf”討論區(qū)志愿者們可以自我發(fā)現(xiàn)、建議和鏈接,上傳自己在參與項目過程中聯(lián)想到的相關(guān)書籍和知識,同時可以利用平臺內(nèi)的相關(guān)信息撰寫論文和出版物,達到雙向共贏,項目給予志愿者充分的自由度以激勵他們積極參與。
2011年的《柏林條約》為阿羅爾森檔案館的眾包項目提供了法律基礎,它取代了1955年的《波恩條約》,規(guī)范了聯(lián)邦政府文化和媒體專員對阿羅爾森檔案館的管理。阿羅爾森檔案館不受國家數(shù)據(jù)保護指令的約束,但受特定國際規(guī)定的約束:國際尋人服務國際委員會(ICITS)負責監(jiān)督該機構(gòu)的工作,由ICITS所有成員國批準的國際條約第11條規(guī)定,“ICITS應獨立頒布從阿羅爾森檔案館館藏中公布個人數(shù)據(jù)的指令”。2017年,德國文化局決定在線出版期限為25年,這意味著檔案中的所有保管期限在25 年之內(nèi)的文檔都可以訪問和查詢。
與此同時,在線存檔需要嚴格遵守法律要求和隱私政策。阿羅爾森檔案館遵守《歐盟通用數(shù)據(jù)保護條例》(GDPR)中有關(guān)數(shù)據(jù)保護的規(guī)定。條例規(guī)定保護個人數(shù)據(jù)的權(quán)利必須從其社會功能中進行審查,并且必須根據(jù)相稱性原則與其他基本權(quán)利進行權(quán)衡。在某些情況下,允許出于存檔和發(fā)布目的處理個人數(shù)據(jù)。阿羅爾森檔案館根據(jù)GDPR條例在Zooniverse上詳細列出了眾包項目的免責聲明、審核政策、版權(quán)及隱私政策、使用條款等法律規(guī)范。
多年來,由于法律的限制,特別是隱私法和版權(quán)法,檔案館中的材料無法訪問。但隨著信息時代到來,人們已經(jīng)認識到,保護尊嚴的隱私法和保護財產(chǎn)的版權(quán)法不應該阻礙重要歷史檔案的公開。阿羅爾森檔案館通過公開歷史檔案,為人權(quán)事業(yè)和納粹受害者的利益服務,通過眾包項目支持反戰(zhàn)爭和反侵略意識教育,由此促進正義和真相。與大屠殺和種族滅絕有關(guān)的數(shù)據(jù)具有特殊的社會相關(guān)性,它們的公開有利于尋找真相和銘記受害者。根據(jù)以上法規(guī)和條例,阿羅爾森檔案館的眾包項目已經(jīng)獲得授權(quán),能夠在在線數(shù)據(jù)庫中提供包含個人數(shù)據(jù)的檔案。
阿羅爾森檔案館檔案眾包項目數(shù)字人文特征顯著。主要體現(xiàn)在眾包的數(shù)據(jù)類型與特征、數(shù)據(jù)眾包任務特征、數(shù)字技術(shù)特征三個方面。數(shù)字技術(shù)參與阿羅爾森檔案館的眾包項目,體現(xiàn)了數(shù)字人文時代對于檔案眾包的新要求,反映了一些適應信息社會發(fā)展的新特征。
3.1.1 文字數(shù)據(jù)的離散性
該眾包項目需要轉(zhuǎn)錄數(shù)以萬計的文字數(shù)據(jù),文字數(shù)據(jù)是各種數(shù)據(jù)類型中最主要也是最重要的部分。文字的離散性意味著從語流或文字中極易析出,即具有可分析性。此外,離散的特點意味著文本數(shù)據(jù)非常獨立,具有很高的自由度。文本數(shù)據(jù)作為意義單位被獨立編碼,但同時又總是可以作為結(jié)構(gòu)單位進行重組。人們注意到文本數(shù)據(jù)的離散性,因為它可以以排列組合、替換、分割、插入及其組合的形式進行重組。在阿羅爾森檔案眾包項目的大量文本數(shù)據(jù)中,文本的語義和連續(xù)完整性是不確定的,可重組的,同時通過文本識別和轉(zhuǎn)錄技術(shù),可以確定相關(guān)受害者文本信息的最佳組配。
3.1.2 圖像數(shù)據(jù)的歸一化
由于阿羅爾森檔案館眾包項目包含了大量真實的納粹受害者檔案文件,且這些文件都是由圖片的形式予以呈現(xiàn)的,因此需要對大量的圖像進行歸一化,分類并建立起統(tǒng)一的標準形式,以便于識別和轉(zhuǎn)錄。圖像數(shù)據(jù)的歸一化是指通過一系列的變換將待處理的原始圖像轉(zhuǎn)化為單一的對應標準格式,目標是找到一組參數(shù),利用圖像的不變矩,消除平移、旋轉(zhuǎn)和縮放等微調(diào)變換對圖像的影響。在后續(xù)志愿者參與的轉(zhuǎn)錄環(huán)節(jié),也提供了對圖像的翻轉(zhuǎn)、縮放、染色等功能,依據(jù)不同信息將圖像數(shù)據(jù)進行初步的模塊化區(qū)分,便于志愿者使用。
3.1.3 信息數(shù)據(jù)的個人性與公共性
阿羅爾森檔案館眾包項目擁有眾多有關(guān)于納粹受害者的個人信息和經(jīng)歷數(shù)據(jù)。這些數(shù)據(jù)天然具有私權(quán)屬性和排他性。而在數(shù)字人文視閾下,信息成為重要的公共資源。首先,個人信息具有識別他人的工具性,這種工具性決定了個人信息的社會性和公共性。其次,關(guān)于個人數(shù)據(jù)的信息不僅是私有財產(chǎn)。個人信息往往是由他人的服務和管理系統(tǒng)產(chǎn)生的,在產(chǎn)生時已經(jīng)處于與他人共享的狀態(tài)。最后,個人信息是數(shù)字人文時代社會發(fā)展的重要資源,觸及到廣泛的公共利益。大量關(guān)于受害者的信息數(shù)據(jù),既是受害者本人及其家族記憶的體現(xiàn),具有個人性,更是廣泛的社會記憶承載者,具有公共性,與公共利益密切相關(guān)。在這點上,要積極討論個人信息的保護與知識產(chǎn)權(quán)的合規(guī)性問題。
3.2.1 文本識別任務
對于內(nèi)容易于索引的中小型館藏,阿羅爾森檔案館通過“everynamecounts”眾包項目取得了良好的效果。通過在線平臺,志愿者可以識別信息并將其傳輸?shù)皆诰€數(shù)據(jù)庫。在相關(guān)檔案的轉(zhuǎn)錄工作流程中,眾包平臺要求志愿者輸入囚犯及其親屬的個人數(shù)據(jù)。某些情況下,數(shù)據(jù)庫中已經(jīng)輸入了文檔中主要人物的姓名。但是親屬的姓名和地址并未登記過,輸入他們的名字很有必要,因為囚犯的父母、兄弟姐妹和配偶也經(jīng)常受到迫害,有關(guān)他們遭遇的信息有時只能在這些個人檔案上找到。
3.2.2 數(shù)據(jù)轉(zhuǎn)錄任務
轉(zhuǎn)錄任務主要包括文檔所有者的序號、名字、年齡、出生日期、出生地、國籍、囚犯類別等內(nèi)容。在編制文字索引時,對于數(shù)據(jù)轉(zhuǎn)錄的任務格式也有特定的要求。如果沒有關(guān)于特定條目的信息,需要輸入連字符。如果信息難以辨認,需要輸入“不清楚”。如果信息已被劃掉,需要輸入原始和更正版本,并用分號分隔。
受害者清單中記錄了受害者進入集中營前后的“變化”,包括進入營地、轉(zhuǎn)移、“釋放”和死亡。囚犯在集中營中被分配到的拘留地和囚犯類別反映了不同的納粹意識形態(tài),因此需要志愿者在檔案中找到所有帶有“變化”性質(zhì)的信息并進行數(shù)據(jù)轉(zhuǎn)錄。
在對轉(zhuǎn)錄文本的理解上,也有一定的任務要求。名單上的類別反映了特定的納粹意識形態(tài),志愿者不應只從字面上理解。例如,術(shù)語“ASO”代表“Asozial”(反社會),用于描述各種不同類型的人,包括失業(yè)或無家可歸的個人、福利領(lǐng)取者、辛提人和羅姆人。如果根據(jù)納粹種族主義和反猶太主義意識形態(tài),囚犯則被視為猶太人,在轉(zhuǎn)錄任務過程中,諸如上述的情況也被要求加以注意。
3.2.3 標引分類任務
該眾包項目要求志愿者對檔案信息進行分類和標記,在基本信息欄中給每個檔案標引上元數(shù)據(jù)和文件編號。標引任務要求志愿者使用描述數(shù)字信息資源屬性的元數(shù)據(jù),添加標簽和評論來評估和跟蹤資源,并支持高效的數(shù)據(jù)檢索。大多數(shù)標引任務不需要志愿者具備廣泛的知識,標引分類也不需要花費很多時間。
3.3.1 數(shù)據(jù)采集技術(shù)
因為文本的識別和轉(zhuǎn)錄主要依靠圖片識別,所以在數(shù)據(jù)采集上,眾包項目提供了一些利于采集的方法。可以放大或反轉(zhuǎn)圖像,提高圖像的對比度和像素,利用縮放和反轉(zhuǎn)顏色工具可以加強數(shù)據(jù)收集與閱讀的便利性(見圖1)。如果遇到無法閱讀的文檔,可以利用刷新鍵來獲取新的頁面和文檔并進行數(shù)據(jù)采集。
圖1:反轉(zhuǎn)圖片顏色[13]
3.3.2 數(shù)據(jù)識別技術(shù)
(1)OCR識別技術(shù)
阿羅爾森檔案館的眾包項目十分龐大,因此用于文本識別和分類的技術(shù)非常重要。OCR(光學字符識別)是成功文本識別的關(guān)鍵之一。從狹義上講,OCR可以識別字符,但極易出錯。從廣義上講,OCR是將圖形信息轉(zhuǎn)換為文本信息(即元數(shù)據(jù))。但OCR只是工作流程的一個方面,阿羅爾森檔案館眾包項目中的大多數(shù)檔案都非常多樣化,OCR只能在標準化程度很高的文檔上產(chǎn)生良好效果。
(2)文檔聚類技術(shù)
阿羅爾森檔案館對于需要進行識別的文檔集合使用OCR的“特殊類型”。從根本上說,成功識別文本需要材料分析、方法的選擇和定義、表單識別(聚類或分類)、圖像準備、光學字符識別、數(shù)據(jù)檢查傳輸?shù)榷喾N不同方法的組合。光學字符識別只是整個過程中的一部分。
阿羅爾森檔案館眾包項目收集的一個特殊方面是利用文檔聚類技術(shù)將不同類型文件的統(tǒng)一歸檔。聚類技術(shù)是將不同類型的表單分類為組,過濾掉特定的文檔類型,包括了與囚犯有關(guān)的各種類型的索引卡、問卷和表格。檔案工作人員使用純文本識別來確定如何讀取材料,以確保在OCR期間正確識別信息元素。文檔聚類是布局和表單類型的一種OCR(見圖2)。
圖2:OCR識別與文檔聚類[14]
對于大約50%的館藏,OCR和聚類都發(fā)揮了作用。眾包項目已經(jīng)使用OCR 處理和數(shù)字化了約50萬份文檔,并且已經(jīng)對超過800萬份文檔進行了聚類。
3.3.3 數(shù)據(jù)分析技術(shù)
在轉(zhuǎn)錄時,對于不同信息,“everynamecounts”項目采用不同的數(shù)據(jù)分析策略供志愿者使用。
在日期方面,如果文檔包含多個或已更正的數(shù)據(jù),需要志愿者分析并假定正確的日期同時在字段中進行更正。在出生地的轉(zhuǎn)錄上的要求有所不同,志愿者需要在字段中輸入與文檔中與檔案完全相同的地址,且不能進行任何更正。對于不同信息的真實性要求采取不同的數(shù)據(jù)分析策略,能保證轉(zhuǎn)錄分析任務的原始真實性。
當遇到需要進行討論或者輸入錯誤的情況時。項目也提供了相應的數(shù)據(jù)分析技術(shù)。每張登記卡的數(shù)據(jù)可以輸入三次。如果三次輸入的結(jié)果不同,項目工作人員會檢查輸入并進行更正。輸入完成后,志愿者可以使用線上“Talk”功能向阿羅爾森檔案館發(fā)送特定文檔的信息或問題。志愿者還可以使用討論板留下對項目的評論和想法,與其他志愿者進行討論。
3.3.4 數(shù)據(jù)呈現(xiàn)技術(shù)
在數(shù)據(jù)呈現(xiàn)技術(shù)上,該眾包項目將每份檔案進行模塊化區(qū)分,不同信息在圖片上用不同區(qū)域進行標注,列出該份文檔的名稱、規(guī)格與檔號進行存檔。同時附有每份文檔的詳細介紹,利于志愿者進行轉(zhuǎn)錄(見圖3)。
圖3:數(shù)據(jù)模塊化轉(zhuǎn)錄[15]
每份檔案都提供數(shù)據(jù)庫條目,有其特定的編號ID以供查詢,在數(shù)據(jù)庫中編號分配采用單次分配制,具有唯一性和專指性。利用字段呈現(xiàn)文檔的元數(shù)據(jù),包括收藏者的名稱和文檔 ID。
在對納粹受害者的信息轉(zhuǎn)錄中,文件的每一頁都包含有關(guān)30-40名迫害者的信息。為了便于志愿者工作,項目進行前端控制,將每個頁面分為幾個部分。每個志愿者僅轉(zhuǎn)錄文檔中未被藍色和灰色陰影覆蓋的名稱。同時陰影區(qū)域中的名稱可見,以便志愿者可以看到所有相關(guān)信息,每個志愿者被分配到頁面的不同部分,這樣就不會丟失任何名稱或信息。
我國數(shù)字人文參與檔案眾包實踐還處于初步發(fā)展階段。現(xiàn)存的上海圖書館盛宣懷檔案抄錄項目和中國人民大學:“我的北京記憶”互動網(wǎng)站項目等檔案眾包項目在“選題與內(nèi)容、平臺與設計、管理與合作、法規(guī)和技術(shù)方面”存在一定特色和創(chuàng)新性[16]。但在諸如眾包平臺選擇、項目管理系統(tǒng)建設、媒體宣傳激勵策略、數(shù)據(jù)開放共享程度、監(jiān)督機制建立等方面還存在亟待解決的問題。特別是在數(shù)字人文時代,信息數(shù)據(jù)的廣泛共享性對于檔案眾包項目提出了更高層次的要求,如何適應信息社會的要求,將歷史檔案資源、眾包項目平臺以及電子信息技術(shù)有機結(jié)合起來,從阿羅爾森檔案館的檔案眾包實踐中我們能得到一些啟示。
在數(shù)據(jù)庫建設上,通過與Yad Vashem世界大屠殺紀念館合作,阿羅爾森檔案館建立了開放型在線數(shù)據(jù)庫,并將“everynamecounts”的數(shù)據(jù)信息錄入其中,世界各地的任何訪問者都可以通過在線數(shù)據(jù)庫研究相關(guān)檔案,借此了解受迫害者的苦難經(jīng)歷。開放型數(shù)據(jù)庫提高了數(shù)據(jù)的可訪問性,同時提高了信息文件的透明度。對比來看,我國上圖盛檔抄錄項目平臺僅開放全部盛檔的0.3%,檔案開放程度嚴重不足,信息文件不易于訪問和利用,眾包項目的效率因此得不到很好提高。效仿阿羅爾森檔案館的眾包項目,我國的檔案眾包實踐也應積極促進館際互聯(lián),在項目前期建立開放型數(shù)據(jù)庫,項目中期充分利用數(shù)據(jù)庫處理信息數(shù)據(jù),項目后期也要利用數(shù)據(jù)庫保留眾包成果。數(shù)字人文參與檔案眾包,開放型數(shù)據(jù)庫的建設是基礎和保障。
在眾包平臺選擇上,阿羅爾森檔案館選擇“Zooniverse”第三方眾包平臺發(fā)布任務和收集數(shù)據(jù),沒有選擇利用自建平臺,這是因為任務中需要處理的檔案數(shù)據(jù)類別豐富、數(shù)據(jù)間相似性高。利用數(shù)字人文科學數(shù)據(jù)的眾包平臺可以分為三大類[17]:一是自建平臺,二是非營利平臺,三是商業(yè)性平臺。就我國目前的檔案眾包實踐而言,應該根據(jù)所要處理的檔案數(shù)據(jù)類型合理選擇眾包平臺,當眾包項目對數(shù)據(jù)的專業(yè)性和完整性有特殊要求時,可以開發(fā)自建平臺,借此保證數(shù)據(jù)的完整性和安全性;而在大多數(shù)情況下,數(shù)據(jù)要求不那么嚴格或者眾包數(shù)據(jù)量很大,就可以選擇第三方數(shù)據(jù)眾包平臺開展合作,合理分配資源來開展項目。
我國現(xiàn)存的檔案眾包項目較少,沒有建立完善智慧的檔案眾包管理機制,更多地是依托助捐平臺或高校開展,存在管理不完善、技術(shù)不健全、任務層次性不明顯和與公眾聯(lián)系不緊密等問題。阿羅爾森檔案館的眾包項目依托平臺建立了一個智慧的檔案眾包管理機制,這得益于檔案機構(gòu)、在線平臺和公眾用戶三個關(guān)鍵因素的共同參與。
同時,檔案眾包項目的實施是一個完整的過程,從檔案館作為發(fā)起者開始到平臺項目運行再到最終檔案項目的驗收。在未來我國的檔案眾包實踐中,可以借鑒阿羅爾森檔案館眾包項目,確保發(fā)包方在全過程進行有效管理,其中的關(guān)鍵是建立一個智慧管理機制,完善項目運行、質(zhì)量控制、公眾激勵、風險排查等管理機制。全過程的智慧化控制,既能監(jiān)控眾包項目的實施進度,也能及時保留眾包成果,將成果以數(shù)字化形式保留下來。
阿羅爾森檔案館的眾包項目利用社交媒體建立傳播矩陣,對我國檔案眾包項目的宣傳也有著借鑒意義。
新的媒體時代,新的信息革命,給檔案工作者的思維、業(yè)務和管理方式以及檔案信息的傳輸方式帶來了新的變化。社交媒體不僅可以為檔案部門提供數(shù)量龐大、年齡結(jié)構(gòu)合理、平臺使用率高的潛在用戶資源,還能夠憑借其自身的交互性、分享性、參與性實現(xiàn)檔案知識的快速廣泛傳遞,又能讓公眾在獲取檔案知識的同時參與檔案管理。數(shù)字人文視閾下,我國的眾包項目宣傳應該變革傳播觀念,打破片面的思維壁壘,要將受眾置于傳播的主要地位。利用去中心化的傳播格局,使廣大公眾既成為信息接受者同時也成為信息傳播者,適應受眾群體的個體化、特色化、差異化、分眾化發(fā)展。
阿羅爾森檔案館的工作人員說:“這不是工作,而是使命。我們的工作與人類歷史上最黑暗的時刻之一有關(guān)?!边@是一種強大的社會激勵與公眾呼吁——即利用身份認同與民族意識參與檔案眾包活動。
我國的眾多歷史檔案資源,有些是個人家族史,有些是歷史變遷記錄,但歸結(jié)起來,都是中華民族的集體記憶,其受眾面是廣大人民。與此同時,眾包項目也充分強調(diào)“個人性”與“公眾性結(jié)合”,它首先是一項基于個人參與的公眾合作活動,因此有必要將個人的身份認同、公眾的民族意識與與眾包項目有機結(jié)合起來,煥發(fā)公眾內(nèi)心的共鳴,利用認同來喚起公眾參與的積極性,因為這不僅是個人的參與行為,更是發(fā)揮個人力量創(chuàng)建民族記憶的過程,這是廣大參與者最基本的共性因素。
同時,數(shù)字人文眾包項目也需要靈活地在不同階段提供不同的激勵措施。例如初期問卷調(diào)查,中期的自由討論與后期的研究出版,這些措施能夠幫助參與者更好地認識到任務的效益性和目的性,并激勵更多的用戶參與到數(shù)據(jù)眾包項目中。
在項目設計方面,也需要提高項目的參與趣味性,加強數(shù)據(jù)可用性和易用性,由此增強公眾參與意識。
檔案作為承載記憶的載體,可以見證個人的生平經(jīng)歷和家族的興衰存亡,也能反映國家的發(fā)展史和民族的抗爭史。在信息時代,數(shù)字人文為檔案學研究提供了新視角和新方法。在數(shù)字人文視閾下,阿羅爾森檔案館的檔案眾包實踐發(fā)展成熟,同時我國的眾包實踐還有著很大的發(fā)展空間,我國應該積極與眾包平臺合作,構(gòu)建智慧眾包管理機制,同時利用媒體矩陣進行宣傳,加強身份認同和民族意識,呼喚更廣泛的公眾參與,以數(shù)字人文參與檔案眾包,以檔案眾包適應數(shù)字人文,為現(xiàn)階段和未來的檔案眾包提供新的發(fā)展路徑。