本文在中國氣象局和南京信息工程大學合作項目“中國氣象臺站史研究”的支持下,收集中國第二歷史檔案館(以下簡稱二檔館)對外開放的民國時期氣象類檔案400余份,挑選出與氣象臺站直接相關的檔案共109條加以分析。二檔館的檔案史料目前只開放部分檔案以供查閱,沒有建立數字化的全文檢索方式。面對大量的條目和文字量,研究者如何快速、有效尋找目標資料信息是一個難題。本文對這部分資料的題錄進行分析,對其涉及內容進行總結,并探討檔案題錄分析的可能性。
目前在二檔館收集到有關“氣象”的檔案資料集中為全宗號“三九三”的檔案,少部分檔案全宗號為“三九三(2)”“五”“五(2)”(本文所涉及的檔案史料均為二檔館館藏檔案,具體案卷號文中表格已有標明。因數量較多,所以如未提及,以下均不再做注釋,同時也不在參考文獻中一一列出)。檢索方法是在二檔館內部查檔系統(tǒng)中以“氣象”“氣候”等為主要檢索詞,并將所得檢索結果加以篩選和整理,最終得到有效檔案目錄清單,共包含446條信息,涉及檔案資料約14307頁。
(一)錄入題錄信息。將檢索所得有效檔案資料的題錄信息錄入制成Excel表格,包含的信息條目與示例如下所示:
表1 民國時期氣象臺站檔案史料題錄示例表
(二)標簽定義。數據庫的建立過程實際上是信息的存儲過程,包括對在一定專業(yè)范圍內的信息選擇基礎上進行信息特征描述、加工并使其有序化[1]。經典的信息檢索模型使用一組具有代表性的關鍵詞(索引詞)來描述數據庫中的每一篇文檔。本文所研究的“標簽詞”即是一組具有代表性的關鍵詞或索引詞,由文檔中的一些簡單的能反映主題的單詞構成,通過它們可以與數據庫中的文檔相聯系[2]。
大部分標簽詞為名詞,因為名詞語義易識別。但是并非所有名詞都能用來描述檔案內容,因為用作標簽詞的詞語必須恰當、穩(wěn)定、可辨別,且標簽詞的使用應遵從“名詞優(yōu)先”“統(tǒng)一用詞”“全而不冗”三個原則。
基于檔案內容定義的標簽詞應提煉五大主體:時間、地點、人物、單位、事件。二檔館因資料具有保密性,故不完全對外開放,所以目前收集到的446份檔案只有題錄信息,而不具備全部檔案資料的具體內容。很多檔案資料的題名能夠給查檔者提供檔案信息的大體內容,因此檔案標題是目前進行標簽詞定義的主要參考信息,尤其是能夠清晰描述檔案內容的標題,如《中央研究院呈請政府資助氣象所建設西南測候網及籌設中央氣象局計劃預算書統(tǒng)一全國氣象行政機構意見書等有關文書》。但是有部分檔案的標題并不能夠完全反映出檔案資料的信息,如《氣象法規(guī)》,這部分檔案在定義標簽時就無法僅參照標題,而是需要對檔案信息進行閱讀,提取主要內容后加以凝練,再賦予標簽。
1.對時間定義標簽的方法。民國時期氣象檔案中對于時間的表示可能會出現公元紀年與民國紀年兩種方式。如,有可能會出現民國紀年“民國二十九年九月”的表達,也有可能直接省略“民國”,只出現“三十年”,需要根據上下文推算出這樣的表述是否為“民國三十年”的意思。同時,檔案中也會出現部分公元紀年的表示,這種情況在檔案首頁尤其常見。所以,在對時間進行標簽定義的時候需要注意的問題主要有兩點:民國紀年與公元紀年的轉換;數字的表現形式。檔案中以文字形式展現的時間,在定義標簽的時候,這兩種表達方式都應具備,因為更詳細的標簽定義有利于用戶在搜索的時候更加精確地檢索到所需信息。
2.對地點定義標簽的方法。地點信息提取時主要難點在于文中可能使用該地名的簡稱或者舊稱。如《1891中央研究院氣象研究所各測候所隸屬機關》出現《肅州測候所概況》一文,其中的“肅州”為“酒泉”的舊稱,所定義標簽如下:肅州;酒泉。地名的簡稱在檔案中使用也很常見,民國時期省市簡稱與現行中國各省市的簡稱并不完全相同。
3.對人物定義標簽的方法。檔案資料涉及的人名甚多,會有簡稱、字號以及別稱的出現,標簽定義需要將簡稱補充完整,并將字號以及別稱等與人物姓名相對應。比如,對于竺可楨先生,檔案中提及的稱謂可能有“竺可楨”“竺先生”“竺所長”“竺兄”“藕舫”等,在標簽定義的時候統(tǒng)一為“竺可楨”。
4.對單位定義標簽的方法。館藏氣象檔案多以函件或公文形式出現,其中會涉及多方組織或機構,在對這部分機構組織名稱進行標簽定義時,主要注意的問題在于全稱與簡稱的問題,比如,“國立中央研究院”很多時候都簡寫為“中央研究院”或“中研院”,“氣象研究所”通常簡稱為“氣象所”,在定義標簽時應統(tǒng)一定義為全稱。
5.對事件定義標簽的方法。事件的描述通常為句子,而標簽詞通常為詞語或詞組形式,所以對于事件的標簽定義實際為對于事件中關鍵名詞以及事件類別的定義。比如,事件“內設天文歷數氣象及磁力地震四科”在標簽定義時根據事件類別定義為“機構設置”。經統(tǒng)計整理,民國時期氣象檔案在氣象臺站方面的事件類別主要有以下幾個方面:歷史沿革,包括建立臺站、撤銷臺站、遷移站址、臺站更名;管理體制;氣象業(yè)務;氣象服務;機構設置;人員狀況;儀器設備;臺站建設;經費預算;人員薪資等。
(三)對已經檢索出的446條信息進行二次檢索。為方便說明,本文以“氣象臺站”和“氣象教育”兩個主題的檔案檢索為例。“氣象臺站”方向的檔案主要通過“氣象臺”“氣象站”“測候所”“氣象局”等幾個關鍵詞進行檢索,共整理出109條,部分示例如下:
表2 民國時期“氣象臺站”相關檔案檢索結果示例表
“氣象教育”方向的檔案主要通過“培訓班”“學?!薄敖逃薄熬毩暟唷钡汝P鍵詞進行檢索,共整理出40條,實例如下表所示:
表3 民國時期“氣象教育”相關檔案檢索結果示例表
根據不同的分類標準,對現有檔案可以進行不同的分類。
最基礎的分類是基于檔案全宗號,上文已經提及,目前收集到的二檔館館藏有關氣象的檔案的全宗號主要有四類,為“三九三(2)”“五”“五(2)”。
第二種分類方法就是在定義標簽詞以及對題錄信息二次檢索的基礎上基于內容對檔案資料進行分類,這也是對課題研究最為有益的分類方法。經整理匯編,現將446份檔案資料分為以下幾類:
(一)與氣象臺站建設密切相關。這部分上文已經提及,詳見第二部分第3點。
(二)與氣象教育密切相關。這部分上文已經提及,詳見第二部分第3點。
(三)與中央研究院或氣象研究所密切相關。由于全部446份檔案中,絕大多數來自全宗號三九三的檔案,所以標題中出現“中央研究院”或者“氣象研究所”的檔案在數量比例上占有明顯優(yōu)勢。其中,出現“中央研究院”的檢索結果有308條,“氣象研究所”的檢索結果有214條,這兩部分檔案有很大程度上是重合的。部分示例如下:
表4 民國時期“中央研究院”與(或)“氣象研究所”相關檔案檢索結果示例表
(四)涉及經費、預算等事宜。該部分檔案共48條,部分示例如下:
表5 民國時期氣象臺站檔案中“經費”或“預算”相關檔案檢索結果示例表
(五)與竺可楨先生密切相關。該部分檔案共32條,部分示例如下:
表6 民國時期氣象臺站檔案中“竺可楨”相關檔案檢索結果示例表
(六)涉及氣象觀測業(yè)務事宜。該部分檔案共28條,部分示例如下:
表7 民國時期“氣象觀測業(yè)務”相關檔案檢索結果示例表
(七)與籌建測候所相關。該部分檔案有17條,部分示例如下:
表8 民國時期“籌建臺站”相關檔案檢索結果示例表
(八)氣象法律法規(guī)或觀測規(guī)范相關。該部分檔案有13條,部分示例如下:
表9 民國時期“氣象法律法規(guī)”或“氣象觀測規(guī)范”相關檔案檢索結果示例表
圖1 二檔館各類檢索結果數量表
根據第二、三部分二次檢索時所用分類對檔案條目檢索,結果數量表如圖1所示。各類數量對比揭示出民國時期大量氣象臺站相關的檔案史料都與“中央研究院”或“氣象研究所”密切相關,在筆者看來其中原因有二:一方面,本文所選取的檔案史料本就是多來源于全宗號三九三的檔案卷宗,“中央研究院”或“氣象研究所”的檢索結果遠超其他檢索詞是必然的;另一方面,在竺可楨所長的帶領下,中央研究院氣象研究所與民國時期氣象臺站的建設關系密切,所以在氣象臺站檔案中出現頻次頗高。
本文提出針對民國氣象臺站檔案題錄定義標簽詞的方法,通過選取特定標簽詞對檔案資料進行檢索與分類,可迅速定位和提取有效檔案。這套標簽定義的方法變通性強,適用于各主題的檔案資料。此外,對于民國時期氣象臺站檔案史料的檢索和分析并不局限于上文所提及的類別,根據具體研究課題,研究者可選取自己所需的關鍵詞以及類別進行檢索或重新分類。
注釋與參考文獻:
[1]朱麗君主編.信息資源檢索與應用[M].北京:化學工業(yè)出版社.2004.
[2]符紹宏主編.信息檢索[M].北京:高等教育出版社.2004.