亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        論互聯(lián)網(wǎng)新媒體檔案信息資源的建設與服務*

        2014-12-28 02:45:24王蘭成劉曉亮黃永勤
        檔案與建設 2014年1期
        關鍵詞:檔案文件檔案館語義

        王蘭成 劉曉亮 黃永勤

        (中國人民解放軍南京政治學院上海校區(qū)信息管理系,上海,200433)

        1.引言

        當前,全球邁入大數(shù)據(jù)時代,數(shù)據(jù)的重要性已引起整個社會的極大關注,成為應用服務創(chuàng)新的重要源泉[1,2]。其主要原因是可以廣泛挖掘利用的數(shù)據(jù)量巨大,并迫切需要將這些數(shù)據(jù)轉換為可用的信息與知識。與以往相比,大數(shù)據(jù)背景下要求從數(shù)量更為巨大、結構繁多的數(shù)據(jù)中挖掘出隱藏在背后的規(guī)律,揭示數(shù)據(jù)的真實價值,發(fā)揮數(shù)據(jù)的最大化價值。以互聯(lián)網(wǎng)為代表新媒體中的網(wǎng)站、論壇、博客、微博等提供的海量數(shù)據(jù),同樣受到廣泛關注,成為檔案開發(fā)與利用的新型資源。

        檔案信息化初期,檔案館主要通過檔案網(wǎng)站發(fā)布數(shù)字化加工的檔案信息實現(xiàn)信息服務,這種方式存在信息資源匱乏,服務方式單一,資源利用效率不高,編研工作缺乏成效的缺點[3,4]。僅利用檔案網(wǎng)站發(fā)布原生信息的工作服務模式已難以有效滿足用戶的信息需求。同時,Web信息激增,搜索引擎應運而生并快速發(fā)展,雖然在一定程度上緩解了查閱檔案信息不便的矛盾。然而,從檔案利用的角度,大多搜索引擎的信息組織與標引缺乏控制,冗余重復信息過多,各類信息容易混雜無序;信息涉及面過廣,缺乏信息深度挖掘;分類標準缺乏系統(tǒng)性與規(guī)律性,都會造成用戶使用不便,并不能有效滿足檔案用戶與工作者的需求,特別是檔案研究者的需求。所以,大數(shù)據(jù)背景下開發(fā)利用互聯(lián)網(wǎng)信息資源既是檔案信息化建設中的戰(zhàn)略性步驟,也是新媒體環(huán)境下有效建設與利用檔案信息資源的必然選擇,亟需對互聯(lián)網(wǎng)檔案信息資源的開發(fā)利用進行理論研究與應用探索。文章面向新媒體檔案資源建設,對互聯(lián)網(wǎng)檔案信息資源整合與利用過程中的方法技術等相關問題進行研究與分析,為有效開發(fā)利用互聯(lián)網(wǎng)檔案資源,改進與完善現(xiàn)有檔案信息化工作的方法模式提供參考與啟示。

        2.新媒體環(huán)境的數(shù)字檔案館建設

        傳統(tǒng)檔案服務工作通過對檔案進行收集、整理、編研等過程,將檔案及檔案相關產(chǎn)品提供給用戶,實現(xiàn)檔案信息共享。檔案館作為檔案事業(yè)的主體,在檔案文獻(紙質或是電子)的組織與服務方面積累了豐富的經(jīng)驗,為社會服務、科研活動和學術交流提供了有力支持。隨著信息交流方式的不斷演進,以互聯(lián)網(wǎng)為代表的新興媒體涌現(xiàn)出海量的網(wǎng)站、論壇、微博等數(shù)據(jù)資源。這就要求檔案館構建新型的、分布式的和整合式的具有新媒體信息資源開發(fā)與應用功能的數(shù)字檔案館。新媒體下的數(shù)字檔案館既包括傳統(tǒng)數(shù)字檔案館的各類處理、管理、檢索等服務功能,又包括數(shù)據(jù)采集、數(shù)據(jù)可視化、數(shù)據(jù)抽取、數(shù)據(jù)集成、信息標引、文本分類聚類等數(shù)據(jù)分析挖掘服務功能,其基本結構如圖1所示。一定程度上,新媒體數(shù)字檔案館表現(xiàn)為互聯(lián)網(wǎng)檔案信息資源開發(fā)系統(tǒng)及服務平臺,并不斷向著數(shù)據(jù)密集型服務范式轉換發(fā)展,數(shù)據(jù)的服務支撐作用始終作用于整個檔案信息服務。

        圖1 數(shù)字檔案館系統(tǒng)結構

        互聯(lián)網(wǎng)檔案信息資源開發(fā)系統(tǒng)及服務平臺,一般由檔案信息采集工具、檔案信息分析工具、檔案信息發(fā)布平臺和檔案信息服務引擎 AIS(Archive Information Server)、檔案信息集成接口等五部分組成。其系統(tǒng)架構如圖2所示。整個系統(tǒng)的工作流程是:(1)信息采集器從互聯(lián)網(wǎng)大型(檔案)網(wǎng)站、論壇、博客等信息源采集信息,并存儲到AIS;(2)檔案信息分析工具對AIS中的檔案信息進行智能分析和加工;(3)檔案信息發(fā)布平臺將經(jīng)過加工處理的檔案信息發(fā)布至Web界面;(4)信息集成接口提供AIS與已有檔案信息網(wǎng)信息資源間的訪問、整合與交互。

        3.新媒體檔案資源數(shù)據(jù)中心的構建

        數(shù)據(jù)是檔案服務的核心資源,數(shù)字檔案館必然是以數(shù)據(jù)為基礎的數(shù)據(jù)服務系統(tǒng)。檔案館的核心競爭力不僅僅是對檔案文件信息的競爭,多種類型數(shù)據(jù)的擁有、融合、挖掘與利用水平也是檔案行業(yè)內部以及與其他行業(yè)之間競爭的關鍵因素。新媒體創(chuàng)造了前所未有的數(shù)據(jù)資源,加強新媒體數(shù)據(jù)資源的采集與擁有必然是檔案館資源建設的重要工作內容。新媒體的信息數(shù)量是海量的,信息類型、來源渠道和獲取方式是多元的。面向檔案館信息資源開發(fā)利用,這些數(shù)據(jù)資源主要可分為業(yè)務數(shù)據(jù)、用戶數(shù)據(jù)和語義數(shù)據(jù)等三種類型。

        3.1 業(yè)務數(shù)據(jù)

        檔案形成的根本目的是為了對已經(jīng)發(fā)生的事物進行記錄,其根本屬性體現(xiàn)為歷史記錄性,是歷史的憑證。不僅檔案本身包含著一定特征信息,而且與形成檔案文件所描述的活動、事件等歷史活動一樣,它是與其他檔案文件密切聯(lián)系在一起的。單靠一個檔案館的人力、物力、財力,難以形成具有完備性、系統(tǒng)化的資源體系。比如,上海檔案信息網(wǎng)的檔案政務中,上海地方政府的檔案文件相對較多,但不包含制訂這些政策法規(guī)依據(jù)的各類國家級文件,并且這些文件也只是包含上海地區(qū)的部分公開政務文件。檔案館需要借助互聯(lián)網(wǎng)不斷豐富與自身業(yè)務服務目標相關的各類信息資源,擴展各類檔案業(yè)務數(shù)據(jù)。這些信息資源可以來自國家、軍隊、地方政府的官方網(wǎng)站,也可以是大型的知名商業(yè)網(wǎng)站、新聞網(wǎng)站、論壇與博客等。

        3.2 用戶數(shù)據(jù)

        圖2 新媒體檔案信息服務平臺系統(tǒng)結構

        通過對用戶使用、行為數(shù)據(jù)的分析不僅可以了解用戶行為、意愿、業(yè)務需求、知識應用能力,更可以對用戶的信息需求與行為過程進行分析和預測,從而獲得檔案館所需的決策參考,幫助檔案館應對當前所面臨的用戶流失、服務方式匱乏等實際問題。用戶數(shù)據(jù)主要是指用戶的身份標識、查詢關鍵詞以及各種輸入流與點擊流。這些數(shù)據(jù)是檔案利用者的個人信息與使用記錄,體現(xiàn)著用戶的信息需求與使用習慣。通過分析這些數(shù)據(jù)能夠發(fā)現(xiàn)檔案利用者的訪問模式,有針對性地進行用戶推薦,構建與優(yōu)化檔案資源及各種服務功能。新媒體的不斷應用與普及,使得用戶數(shù)據(jù)的來源不單是調查問卷、檔案網(wǎng)站,而且包含各類可訪問的搜索引擎、微博等社會化媒體中提供的直接與間接用戶數(shù)據(jù)。比如,谷歌全球熱門搜索關鍵字排行榜、百度風云榜等發(fā)布的用戶搜索關鍵詞與用戶行為記錄,微博用戶關注的信息類別、社群關系等等,都可用于檔案信息資源建設中的主題信息決策,查詢優(yōu)化、用戶推薦服務的優(yōu)化與改進等等。

        圖3 新媒體檔案信息的開發(fā)處理流程

        3.3 語義數(shù)據(jù)

        任何一個計算機系統(tǒng),如果希望能夠理解人類自然語言,就必須與人一樣具備語義知識。利用語義知識提高計算機的語義理解能力,就顯得非常必要[4]?,F(xiàn)有的檔案信息化研究與實踐工具中,語義支持的缺失是一個普遍問題,應用語義資源存在廣泛需求。當前著名的有本體知識庫有WordNet、FrameNet等,面向中文的知網(wǎng)HowNet。雖然這些語義知識準確程度較高,但存在構建成本高、數(shù)量有限、更新慢的問題?;ヂ?lián)網(wǎng)時代,信息的來源、數(shù)量和形式發(fā)生了根本性變化,完全人工方式獲取語義知識已經(jīng)不能滿足實際應用的要求。

        維基百科、百度百科、互動百科等免費的新媒體資源由于覆蓋面廣、準確度高、結構化信息豐富、獲取成本低、動態(tài)更新等特點,已經(jīng)成為知識挖掘、自然語言處理研究以及各種信息處理任務中可替代傳統(tǒng)語義知識庫的語義知識來源。從百科知識中,能夠自動抽取同義詞、近義詞、相關詞、上下位以及屬分關系,可廣泛運用于信息檢索、詞義消歧、文本聚類與文本分類等諸多信息處理任務,有效增強信息分析處理的智能化程度,提高用戶獲取知識的效率。

        4.檔案信息資源開發(fā)處理中的關鍵技術

        數(shù)據(jù)資源中心的建立為檔案信息資源的開發(fā)利用提供基礎。新媒體數(shù)據(jù)中蘊含的檔案價值需要利用一定的技術進行分析、處理與重組,才能從中獲取數(shù)據(jù)再利用與創(chuàng)新的價值。新媒體數(shù)據(jù)來源廣泛,應用需求和數(shù)據(jù)類型也都不盡相同,但是最基本的數(shù)據(jù)處理流程基本一致。檔案信息資源的開發(fā)利用處理主要包括以下部分,如圖3所示。

        圖4 新媒體檔案信息加工分析中的主要技術

        首先,從廣泛異構的數(shù)據(jù)源進行清洗、抽取和集成,按照一定標準存儲數(shù)據(jù),構成可用于數(shù)據(jù)分析的原始數(shù)據(jù);接著,組織和提取數(shù)據(jù)及其屬性特征,轉換數(shù)據(jù)為易于分析的形式并載入文件系統(tǒng)、數(shù)據(jù)倉庫或分布式存儲與處理模型;接著,對數(shù)據(jù)進行挖掘分析,從中提取有益的模式或知識。同時,結合語義知識庫實現(xiàn)數(shù)據(jù)的語義處理,提高分析質量;最后,在系統(tǒng)與用戶之間進行交互評估,并以不同的形式對挖掘結果進行可視化,為終端用戶服務。

        這一處理流程需要綜合多種信息技術,利用各種分析挖掘技術處理各類信息,將各種加工分析結果存入檔案信息服務引擎,為用戶提供信息瀏覽檢索服務以及各類分析挖掘結果,其中的主要技術如圖4所示。

        4.1 數(shù)據(jù)集成

        數(shù)據(jù)集成把不同來源、格式、特點性質的數(shù)據(jù)在邏輯上或物理上有機地集中,從中提取出關系和實體,并經(jīng)過關聯(lián)和聚合之后采用指定的標準來存儲數(shù)據(jù),從而為應對數(shù)據(jù)來源廣泛、類型繁雜而給數(shù)據(jù)處理帶來的挑戰(zhàn)[3]。為保證數(shù)據(jù)質量,同時需要對數(shù)據(jù)進行清洗。檔案信息資源集成的現(xiàn)實目標主要是,將采集開發(fā)建設的互聯(lián)網(wǎng)檔案信息與現(xiàn)有在線的檔案信息網(wǎng)進行對接,整合和規(guī)劃互聯(lián)網(wǎng)采集的檔案信息資源與現(xiàn)有檔案信息網(wǎng)中的數(shù)據(jù),使其成為內容集中準確、查詢快速簡捷、利用方便系統(tǒng)的檔案信息資源整體,提高檔案工作者研究交流的水平和實現(xiàn)檔案網(wǎng)站信息的增值服務。目前較成熟的數(shù)據(jù)集成方案有:聯(lián)邦數(shù)據(jù)庫、基于中間件模型和數(shù)據(jù)倉庫等方法[5]。數(shù)據(jù)集成技術不是一項全新的技術,已有較多且成熟的解決方案,這里不作贅述。

        4.2 數(shù)據(jù)存儲

        傳統(tǒng)的數(shù)據(jù)庫比較適合結構化數(shù)據(jù)的存儲,融合新媒體的檔案信息資源會遠超單機容納的數(shù)據(jù)量。并且,在實際的存儲處理中幾乎不可能“One size fits one”,即一種統(tǒng)一的數(shù)據(jù)存儲方式能夠適應所有應用。因此,必須在傳統(tǒng)數(shù)據(jù)庫的基礎上融合分布式存儲方式。比如,典型的Hadoop和NoSQL(Not Only SQL)都屬于分布式存儲技術的范疇。與傳統(tǒng)數(shù)據(jù)庫相互補充,能夠更好地適用于不同應用場景[6,7]。在存儲格式上,根據(jù)檔案文件特點,盡量采用檔案界通用的EAD(檔案編碼著錄,Electronic Archival Description)著錄標準。按照EAD對檔案的各種特征進行記錄,將題名、形成時間、文種、載體、秘級、主題詞、正文等描述特征以元數(shù)據(jù)格式存儲,對于照片、聲像檔案盡量描述其記錄的內容。

        4.3 信息分析

        圍繞檔案信息資源開發(fā)利用的信息分析挖掘任務主要有:

        1.檔案信息聚類。文本聚類是在未知分類的情況下,使文本自動組成有意義分組的數(shù)據(jù)挖掘技術。通過聚類算法,以檔案不同的屬性作為聚類特征,使檔案文件形成多個不同類別的檔案。通過統(tǒng)計檔案文件的共性特征、分布模式和頻度,幫助用戶快速發(fā)現(xiàn)檔案信息中有價值的信息,提高對檔案記載內容的客觀認識程度。比如,根據(jù)時間、人物、地點、事件、活動、學科等檔案特征及其組合聚集為不同的文件集合,對檔案知識間的邏輯聯(lián)系進行重組,有助于發(fā)掘隱藏在檔案文件間的邏輯聯(lián)系與隱性價值。

        2.檔案信息分類。按照已有分類標準,比如《中國檔案分類法》、《中圖法》等,利用分類算法使采集到的互聯(lián)網(wǎng)檔案信息自動劃分入不同類別,自動建立檔案資源分類體系;以用戶指定關鍵詞組合或者自動抽取的檔案信息中的關鍵要素作為類別標簽,標引采集的檔案信息。同時,在檔案聚類分類時,充分利用語義知識減少語義特征稀疏對聚分類所帶來的影響。

        3.關聯(lián)分析。檔案文件之間存在緊密的關聯(lián)關系(泛指各種邏輯關系),利用關聯(lián)分析挖掘檔案文件中的大量相關聯(lián)系,發(fā)現(xiàn)檔案中記錄事物間的相互關聯(lián)性或相互依賴性。自動將檔案的相關文件關聯(lián)在一起,幫助用戶多方位、多角度地掌握檔案記錄的各種信息。這些關聯(lián)分析主要包括:文件注解,按記錄事物的發(fā)生順序、因果關系、引用關系、人物關系等有序組織檔案文件,從不同角度展現(xiàn)檔案文件的內在聯(lián)系。比如,將某項地方政策法規(guī)的形成依據(jù)、變化發(fā)展相關文件關聯(lián)起來,為用戶提供檔案內容上的系統(tǒng)化知識。為檔案文件內容中的事件、引用的法規(guī)條例進行注解,并與相應概念描述文件進行關聯(lián);文件內容關聯(lián),按照內容相關程度顯示關聯(lián)文件;要素關聯(lián),主要處理與顯示檔案文件記錄的地點、人物、機構等要素間的關聯(lián)關系。

        4.專報處理。綜合以上功能形成經(jīng)過分析、篩選過的各種檔案專題或主題信息,為檔案研究工作提供強有力的數(shù)據(jù)支持。

        數(shù)據(jù)分析挖掘是檔案信息資源開發(fā)處理中的核心業(yè)務。然而,數(shù)據(jù)的超高維問題對現(xiàn)有的數(shù)據(jù)分析挖掘技術造成很大的挑戰(zhàn)。MapReduce是Google最早采用的應用于批處理大數(shù)據(jù)的計算模型,實際中可以將一些經(jīng)典算法,如決策樹、K-Means等移植在MapReduce框架,提高處理海量數(shù)據(jù)與高維計算的效率[9]。同時,新媒體環(huán)境下的檔案數(shù)據(jù)體量大、類型復雜且混雜噪音,容易增加分類等計算結果的不穩(wěn)定性。組合方法對于不穩(wěn)定的分類器是一個較好的解決方法。比如,聚集多個分類器的裝袋和提升方法的計算結果優(yōu)于單個分類器的性能。同時,這種組合方法易于并行處理,為處理海量數(shù)據(jù)時提高訓練和測試速度提供了一定便利。

        4.4 查詢處理

        信息檢索是檔案信息化服務的最基本功能。檔案信息檢索需要滿足精確性和便捷性的目標需求。比如,提供多種檢索入口,能夠按照屬性字段檢索、關鍵詞檢索、布爾邏輯組合檢索、二次檢索(漸進檢索)等等。同時,實踐中需要充分利用查詢轉換與語義資源提高檢索性能與用戶體驗。

        查詢轉換包括一系列技術,這些技術用于在生成排序文檔之前和之后改善初始查詢結果,主要包括拼寫檢查、查詢推薦、查詢擴展等等。拼寫檢查、查詢推薦主要是生成與用戶初始查詢相似的輸出,提供一些候選查詢詞,這些候選查詢是糾正錯誤或者是對用戶信息需求的更規(guī)范描述。這些詞語的來源可以是查詢日志、語義知識庫中的同義詞等等。查詢擴展是在用戶查詢詞中增加一些額外的詞匯的技術。語義知識是查詢擴展的有效智力資源。解決同義詞、近義詞問題的一個有效方法就是利用語義知識。利用查詢詞的同義詞、近義詞,能夠提高查詢結果的召回率;同時,添加查詢的強相關詞以限定查詢主題范圍,并指定擴展查詢詞各項的權重系數(shù),能夠提高查詢準確率。這些都是對語義知識的典型應用。另外,相關反饋也是一種常用的擴展方法,利用用戶點擊的相關文件中出現(xiàn)的詞語對查詢進行擴展[10]。

        4.5 分布式索引

        超大規(guī)模文檔集的索引,需要考慮分布式處理框架。比如,MPI、OpenMP等計算平臺,其中最典型的計算平臺MapReduce為并行計算提供了簡單、高效的計算模型和運行環(huán)境,實際中也較為易用[11,12]。大規(guī)模數(shù)據(jù)的分布式計算可能需要將一些單機應用的串行算法進行并行化改造,使其能夠并行地運行于計算機集群中,加快查詢文檔結果相關性排序方面的速度,提升對大規(guī)模數(shù)據(jù)的處理能力。另外,文件索引與內存索引的分布也是影響查詢速度的重要原因。分布式索引包含文檔式分布與詞項分布式,前者每臺索引服務器只索引部分文檔集,但共享一些詞項的全局信息。比如,共享詞項在整個文檔集合出現(xiàn)的頻率信息;后者則在整個集群建立單一索引,每臺服務器包含整個文檔的部分詞項索引信息。詞項分布式較為復雜,并且一些研究已經(jīng)證實詞項分布式對于提高檢索效率的貢獻不大。同時,分布式的存儲與索引也符合檔案災備體系的構建要求[10,13]。

        4.6 交互式數(shù)據(jù)可視化

        數(shù)據(jù)分析與處理機制對用戶來講是一個黑匣,用戶無法了解分析方法、分析結果的局限性或者有效性。而用戶往往更關心數(shù)據(jù)分析的結果,如果沒有采用適當解釋方法或形式,處理的結果可能讓用戶難以理解。這類情況會影響檔案信息的使用效能,甚至誤導用戶對各種結果的理解。數(shù)據(jù)可視化是以圖形或表格的形式顯示信息,有助于用戶直觀理解各類數(shù)據(jù)分析結果。然而,海量數(shù)據(jù)處理時,分析結果中的關聯(lián)關系可能會極其復雜,數(shù)據(jù)可視化的功效會受到一些制約。比如,文件關聯(lián)網(wǎng)絡太大,并且包含復雜和稠密的鏈接,用戶僅僅利用可視化的網(wǎng)絡結構圖從中發(fā)現(xiàn)感興趣特征并不是一件容易的事情。

        交互式數(shù)據(jù)可視化是進行知識發(fā)現(xiàn)的一種方法,包括數(shù)據(jù)可視化、挖掘結果與過程可視化和人機交互功能。在一定程度上,讓用戶了解和參與具體的數(shù)據(jù)分析過程,利用交互式的數(shù)據(jù)分析過程來引導用戶逐步開展檔案查詢與分析任務。通過數(shù)據(jù)立方體、趨勢圖、標簽云等圖形、圖標等可視化方式使分析過程和結果與用戶交互,便于用戶定制處理任務,理解挖掘結果。比如,限制文檔網(wǎng)絡圖中節(jié)點的數(shù)量,顯示用戶指定的高權重節(jié)點,使可視化圖形簡化趨于用戶要求并幫助用戶理解。

        5.結語

        本文圍繞互聯(lián)網(wǎng)新媒體檔案信息資源建設與服務,介紹了新媒體數(shù)字檔案館的主要特征,闡述了新媒體檔案信息資源建設的來源構成與特點,分析探討了新媒體網(wǎng)上檔案信息資源開發(fā)建設中的信息采集、信息處理和信息服務等相關方法、技術及其研究重點,有助于推進檔案信息化理論與應用創(chuàng)新發(fā)展,為檔案信息化建設中應用新媒體數(shù)據(jù)資源與相關服務提供借鑒與指導。

        *本文系國家檔案局2013年科研項目“基于大數(shù)據(jù)分析平臺的檔案資源整合與模式研究”(項目編號:2013-X-38)的研究成果之一。

        [1]Viktor Mayer-Sch?nberger,Kenneth Cukier.大數(shù)據(jù)時代:生活、工作與思維的大變革[M].浙江:人民出版社,2012.

        [2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術與挑戰(zhàn)[J].計算機研究與發(fā)展,2013,50(1):146-169.

        [3]王運彬,王小云,陳燕.檔案信息資源配置的目標定位研究[J].檔案學研究,2012(6):36-38.

        [4]戴中秋,趙寧燕.檔案信息化建設中的數(shù)據(jù)管理[J].檔案與管理,2012(3):23-25.

        [5]王蘭成,劉曉亮.維基百科知網(wǎng)的構建研究與應用進展[J].情報資料工作,2012(5):56-60.

        [6]王珊,王會舉,覃雄派,等.架構大數(shù)據(jù):挑戰(zhàn)、現(xiàn)狀與展望[J].計算機學報,2011,34(10):1741-1752.

        [7] Hadoop[EB/OL].http://hadoop.apache.org/index.html,2012-10-02.

        [8]黃哲學,曹付元,李俊杰,等.面向大數(shù)據(jù)的海云數(shù)據(jù)系統(tǒng)關鍵技術研究[J].網(wǎng)絡新媒體技術,2012(6):20-26.

        [9]陳康,向勇,喻超.大數(shù)據(jù)時代機器學習的新趨勢[J].電信科學,2012(12):88-95.

        [10]劉兵.Web數(shù)據(jù)挖掘[M].北京:清華大學出版社,2010.

        [11]Yasin N.Silva,Jason M.Reed:Exploiting MapReduce-based similarity joins[C].Proc of SIGMOD 2012.New York:ACM,2012:693-696.

        [12]He Yongqiang,Lee Rubao,Huai Yin,et al.RCFile:A Fast and Space-efficient Data Placement Structure in MapReduce-based Warehouse Systems[C].Proceeding of the 24th International Conference on Data Engineering.In Hannover,Germany.2011:1199-1208.

        [13]唐躍進,萬麗娟.數(shù)字檔案信息存儲與災難恢復研究[J].檔案學通訊,2011(2):16-19

        猜你喜歡
        檔案文件檔案館語義
        檔案文件的數(shù)字化管理在企業(yè)中的相對重要性
        消費導刊(2020年35期)2021-01-28 08:49:31
        探析檔案文件資料收集工作面臨的問題及對策
        卷宗(2020年25期)2020-12-15 06:58:15
        語言與語義
        檔案信息化建設在醫(yī)院檔案文件管理中的積極影響
        關于縣級檔案館館藏檔案開發(fā)利用的思考
        蘭臺內外(2017年6期)2017-05-30 06:46:41
        全省部分檔案館新館掠影
        浙江檔案(2017年10期)2017-03-31 06:27:31
        “上”與“下”語義的不對稱性及其認知闡釋
        when與while檔案館
        認知范疇模糊與語義模糊
        語義分析與漢俄副名組合
        外語學刊(2011年1期)2011-01-22 03:38:33
        久久综合给合综合久久| 极品粉嫩嫩模大尺度无码视频| 四虎永久在线精品免费一区二区 | 男女车车的车车网站w98免费| 在线播放无码高潮的视频| 亚洲精品成人专区在线观看| 亚洲国产成人精品无码区在线秒播| 欧美人与禽zozzo性伦交| 老师粉嫩小泬喷水视频90| 蜜臀aⅴ国产精品久久久国产老师 国产精品久久婷婷六月丁香 | av网站不卡的av在线| 男女激情视频网站在线| 丰满精品人妻一区二区| 国产精品区一区二区三在线播放| 国产精品久久久国产盗摄| 福利视频一二三在线观看| 欧洲色综合| 在线亚洲AV成人无码一区小说| 日本成人免费一区二区三区| 网址视频在线成人亚洲| 自拍视频在线观看首页国产| 色综合久久久久综合体桃花网| 国产又爽又大又黄a片| 国产午夜影视大全免费观看| 中文字幕亚洲精品第1页| 日韩精品免费在线视频| 亚洲中文字幕第一页免费| 国产亚洲人成在线观看| 乱码1乱码2美美哒| 国产高清一区二区三区视频 | 鲁丝一区鲁丝二区鲁丝三区| 亚洲一区久久久狠婷婷| av在线播放亚洲天堂| 男人的天堂av高清在线| 国精产品推荐视频| 妇女性内射冈站hdwwwooo| 日韩熟妇精品视频一区二区| 精品蜜桃一区二区三区| 日韩精品一区二区三区在线视频| 少妇扒开毛茸茸的b自慰| 女人扒开下面无遮挡|