亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于數(shù)據(jù)化和文本檢索技術的檔案資源智能聚類研究

        2023-09-24 01:06:42葉亞芬上海泰宇信息技術股份有限公司原德巍溫州市檔案館
        浙江檔案 2023年8期
        關鍵詞:信息

        葉亞芬/上海泰宇信息技術股份有限公司 原德巍/溫州市檔案館

        如何將海量檔案數(shù)據(jù)資源進行有效的開發(fā)利用,是檔案工作實現(xiàn)整體智治和轉(zhuǎn)型發(fā)展的重要舉措之一。為進一步縱深推進檔案工作數(shù)字化改革,充分發(fā)揮檔案存史資政育人的功能,溫州市檔案館開拓“深度融合、多維立體、創(chuàng)新賦能”的思路,錨定“激活館藏檔案”的目標導向,以服務大局、服務社會、服務于民為根本途徑,開展基于數(shù)據(jù)化和文本檢索技術的檔案資源智能聚類研究,主要以檔案資源數(shù)據(jù)化和標簽化為基礎,以需求為導向,提供個性化、精準化的數(shù)據(jù)檢索、數(shù)據(jù)聚類、數(shù)據(jù)挖掘、成果輸出等服務,最大程度上激活館藏檔案,面向不同用戶提供利用服務,建設智慧檔案管理平臺,積極打造全域智慧檔案管理生態(tài)圈。

        1 主要研究內(nèi)容

        項目研究以“數(shù)字賦能、改革破題、創(chuàng)新驅(qū)動”為總基調(diào),以館藏檔案信息資源建設為基礎,充分“盤活”館藏檔案,實現(xiàn)國家綜合檔案館主動面向各類用戶,響應各類跨行業(yè)、目標模糊的系統(tǒng)性復雜檔案利用需求,快速精準提供針對性強、內(nèi)容豐富充實、利用價值高的檔案信息資源,服務數(shù)字化改革和各項中心工作。具體研究內(nèi)容有:以館藏檔案數(shù)據(jù)化為基礎,構(gòu)建檔案數(shù)據(jù)標簽信息體系;以激活館藏檔案為根本,建立多維檔案數(shù)據(jù)聚類模型;以建立數(shù)據(jù)集合為引擎,開發(fā)館藏系統(tǒng)檔案智能聚類功能;以提供精準檔案服務為目標,建立檔案數(shù)據(jù)開發(fā)利用協(xié)作工作機制。

        2 主要研究成果

        本項目研究基于數(shù)據(jù)化和文本檢索技術的檔案資源智能聚類研究,以檔案資源數(shù)據(jù)化和標簽化為基礎,在溫州市檔案館現(xiàn)有數(shù)字檔案館系統(tǒng)功能基礎上,引入OCR、文本挖掘、文本檢索等技術,針對各類跨行業(yè)、目標模糊的系統(tǒng)性復雜檔案利用需求,突破傳統(tǒng)“線性檢索”方式,對館藏檔案資源進行“條目信息”和“標簽信息”多維度檢索,實現(xiàn)“網(wǎng)狀檢索結(jié)構(gòu)”,深入挖掘檔案信息,智能聚類檢索結(jié)果,參考“全宗+主題”模式對檢索結(jié)果進行整理,編輯摘要說明,最大化回應利用需求,并通過積累利用實例,逐步建立健全檔案多維數(shù)據(jù)集合,在檔案服務新戰(zhàn)略新跨越上求突破,發(fā)揮檔案價值,為經(jīng)濟社會發(fā)展提供優(yōu)質(zhì)高效的檔案服務。

        2.1 完成館藏檔案結(jié)構(gòu)化處理,形成檔案數(shù)據(jù)標簽信息

        2.1.1 奠定檔案數(shù)據(jù)基礎?;跍刂菔袡n案館館藏檔案資源,將檔案數(shù)字化全文轉(zhuǎn)換成通用的利用格式,并通過OCR技術進行全文識別提取,分析檔案數(shù)據(jù)內(nèi)容,進行檔案數(shù)據(jù)結(jié)構(gòu)化處理,為檔案多維度智能檢索奠定基礎。

        2.1.2 構(gòu)建三大標簽體系。即構(gòu)建“靜態(tài)標簽”“動態(tài)標簽”“關系型標簽”三大標簽數(shù)據(jù)分析處理應用體系。其中“靜態(tài)標簽”設立1.2億個,每個靜態(tài)標簽都可根據(jù)檔案數(shù)據(jù)自身的一些特色來定義,如題名、責任制和來源等條目信息。靜態(tài)標簽主要用于滿足常規(guī)數(shù)據(jù)分析的需求;“動態(tài)標簽”主要是關聯(lián)數(shù)據(jù)信息,是檔案形成之后隨著時間波動、傳播影響等因素產(chǎn)生的多種數(shù)據(jù)標簽,如涉及的人物、時間、事件主題等;“關系型標簽”則通過技術手段深入挖掘數(shù)據(jù)內(nèi)在關系,促進檔案數(shù)據(jù)與利用需求深度融合,滿足利用者多元化的需求。

        2.1.3 形成自動分類模型。結(jié)合三大標簽體系屬性,運用分詞庫和規(guī)則庫,綜合使用統(tǒng)計學、大數(shù)據(jù)算法形成自動分類模型。第一步利用自動分類技術對檔案數(shù)據(jù)做預處理,將數(shù)據(jù)傳送至ETL節(jié)點,第二步經(jīng)過多輪ETL處理服務體系完成檔案特征抽取,第三步智能提取摘要,組建檔案標簽信息。

        2.2 開發(fā)館藏系統(tǒng)檔案智能聚類功能

        對館藏檔案資源“條目信息”“標簽信息”和全文進行多維度檢索,深入挖掘檔案信息,形成智能聚類檢索結(jié)果,同時參考全宗模式對檢索結(jié)果進行分類整理,建立多維檔案數(shù)據(jù)集合。

        館藏系統(tǒng)檔案智能聚類主要功能如下:

        2.2.1 數(shù)據(jù)處理與標簽

        通過ETL數(shù)據(jù)清洗功能,實現(xiàn)檔案數(shù)據(jù)純凈化的同時進行結(jié)構(gòu)化處理。與此同時經(jīng)過結(jié)構(gòu)化的數(shù)據(jù),擁有“靜態(tài)標簽”“動態(tài)標簽”“關系標簽”等多類標簽,系統(tǒng)可通過數(shù)據(jù)標簽快速進行同維度數(shù)據(jù)組合篩選。

        2.2.2 詞庫建設與完善

        一是詞庫的建設。通過知識圖譜技術,對現(xiàn)有館藏檔案內(nèi)容按“主題+維度”模式進行數(shù)據(jù)分析,經(jīng)過人工梳理、篩選,在基礎詞庫內(nèi)進行“增、刪、改”操作,進一步優(yōu)化館藏基礎檢索詞庫。

        二是詞庫的完善。通過人工智能技術,快速繪制全網(wǎng)知識圖譜,將與新詞中相關的詞匯進行智能推薦,形成新詞庫。同時對生成的新詞庫加持到現(xiàn)有館藏詞庫中,進一步鞏固詞庫建設。

        2.2.3 智能檢索與聚類

        通過分布式檢索引擎及詞關系引擎、實體關系引擎,支持基于高效索引的多維度智能檢索,如通過“人物”“事件”“專題”“地點”等規(guī)則,支持用戶對數(shù)據(jù)聚類規(guī)則進行相應配置,檢索結(jié)果可按相關度、時間等分類排序。在此基礎上,系統(tǒng)根據(jù)檢索規(guī)則將關聯(lián)性極高的檔案數(shù)據(jù)進行自動類聚,同時自動保存、輸出數(shù)據(jù)集合。

        2.2.4 成果審核與補充

        對最終形成的檔案數(shù)據(jù)集合進行人工審核,支持對檔案數(shù)據(jù)集合的補充、刪除等操作,從而確保成果聚類數(shù)據(jù)的有效性、全面性、完整性。

        2.2.5成果輸出與利用

        通過“主題+維度”檢索模式,結(jié)合利用需求,輸出多維數(shù)據(jù)集合,并以知識圖譜展示所相關聯(lián)數(shù)據(jù)。檔案數(shù)據(jù)集合利用實現(xiàn)檔案數(shù)據(jù)集合的分類查看、在線閱覽、打印、下載、整體打包導出功能。

        2.3產(chǎn)出多維、有序的檔案數(shù)據(jù)集合

        本項目覆蓋溫州市檔案館館藏檔案信息資源375余萬件,通過3輪人工審核、分析、清洗,形成詞庫“黑白名單”,進一步精簡維度及檢索詞。“數(shù)字化改革”“碳達峰碳中和”“共同富?!薄肮袢芷凇?個專題,經(jīng)過3次聚類模型優(yōu)化,維度精簡優(yōu)化過程分別為:52個、35個、26個,檢索詞精簡優(yōu)化過程分別為1126個、472個、169個。經(jīng)過滾動式優(yōu)化后,聚類數(shù)據(jù)集合從第一輪的100多萬件,到第二輪為5.4萬件,第三輪為1000余件檔案數(shù)據(jù)。同時形成涵蓋專題、維度、檢索詞、檔號、題名、全宗號、年度、責任者、文件編號、開放審核標志、密級及摘要等條目信息及全文信息的多維、有序的檔案數(shù)據(jù)集合。

        在本項目研究的基礎上,溫州市檔案館“先行先試”,以建立健全檔案信息聚類為引擎,擴面建設全域檔案信息聚類成果庫,實現(xiàn)檔案館主動面向各類用戶,響應各類跨行業(yè)、目標模糊的系統(tǒng)性復雜檔案利用需求,快速精準提供針對性強、內(nèi)容豐富、利用價值高的檔案信息資源,從而更高效地服務數(shù)字化改革和各項中心工作。

        檔案資源智能聚類整體架構(gòu)

        3 研究創(chuàng)新點

        3.1 建立檔案數(shù)據(jù)開發(fā)利用協(xié)作工作機制

        3.1.1 融合全市檔案系統(tǒng)“115”人才、檔案信息化專家、檔案業(yè)務骨干等“工匠”型人才,同時積極吸納其他相關系統(tǒng)的專家,組建溫州市檔案信息資源開發(fā)利用專家組。專家組成員主要參與課題研究、項目評審、開發(fā)利用等工作,并在學術引領、智囊參謀等方面發(fā)揮積極作用,為全市檔案事業(yè)轉(zhuǎn)型升級和高質(zhì)量發(fā)展提供智力支持。

        3.1.2 以點擴面提升服務效能。以溫州市檔案館為中心,輻射市域各級檔案館(室),以“一盤棋”“一條鏈”“一張網(wǎng)”布局,建立檔案數(shù)據(jù)開發(fā)利用協(xié)作工作機制,充分開發(fā)利用檔案信息資源。同時結(jié)合多類型聚類成果,持續(xù)建立并完善專屬“數(shù)據(jù)集市”,通過檔案一體化信息平臺、檔案編研成果等多種平臺(渠道),為黨委政府和社會各界提供檔案信息資源“大餐”,大幅度提升數(shù)字檔案館主動服務能力,提升黨政機關、社會公眾對數(shù)字檔案的滿意度。

        3.2 構(gòu)建“1+N+X”檔案數(shù)據(jù)聚類模型

        3.2.1 以黨委政府和社會各界對檔案數(shù)據(jù)利用提出的需求為導向,以“數(shù)字化改革”“碳達峰碳中和”“共同富?!薄肮袢芷凇?個專題為例,構(gòu)建“1+N+X”數(shù)據(jù)聚類模型(即1個主題,N個維度,X個檢索詞)。通過檔案數(shù)據(jù)開發(fā)利用協(xié)作工作機制,遞進式開展聚類維度、檢索關鍵詞的梳理和確立等相關工作,其中“公民全生命周期”專題聚類模型從“1+52+386”精簡到“1+11+79”,實現(xiàn)從粗放型向精細型轉(zhuǎn)變,為其他專題數(shù)據(jù)聚類模型奠定扎實基礎。

        3.2.2 基于“1+N+X”數(shù)據(jù)聚類模型,研究并編制檔案數(shù)據(jù)聚類工作方案,多層次確立數(shù)據(jù)聚類主題,完善相應聚類維度及檢索詞。其中數(shù)據(jù)聚類主題的建立,主要有兩個方面:主動建,即結(jié)合館藏檔案內(nèi)容按政治、經(jīng)濟、文化、教育、民生等維度建立基礎類、專題類、記憶類等主題,深度挖掘檔案信息資源,讓館藏檔案“活”起來。按需建,即區(qū)分不同利用對象,采用“按需選題”的檔案數(shù)據(jù)聚類模型,關注利用者的個性化需求,逐步實現(xiàn)檔案數(shù)據(jù)聚類“圍繞中心”與“適應個性”兼容并重。

        3.2.3 結(jié)合聚類維度詞庫形成的分類模型,對館藏檔案數(shù)據(jù)進行自動標注,即為檔案建立數(shù)據(jù)標簽,激活檔案屬性,實現(xiàn)“物以類聚”,從而進一步提升檔案數(shù)據(jù)利用和分析效果。與此同時,數(shù)據(jù)標簽的添加,為下一步利用NLP自然語言技術學習樣本數(shù)據(jù),建立新的文本分類模型,實現(xiàn)對增量的檔案數(shù)據(jù)進行自動推理和分析,形成檔案數(shù)據(jù)自動歸集到相應主題、相應維度的應用場景。

        3.2.4 完成聚類工作流程,實現(xiàn)滾動式聚類效應,提升數(shù)據(jù)聚類精度。主要分三步走:第一步,基于初步聚類產(chǎn)出成果,組織專業(yè)技術人員進行審核、分析研判,去蕪存菁,優(yōu)化聚類維度和檢索詞,形成新詞庫。同時根據(jù)新詞進行第二次聚類。第二步,為確保聚類成果與實際需求的一致性,結(jié)合第二次聚類成果數(shù)據(jù),提交需求方或相關單位審核、確認,并結(jié)合確認結(jié)果及反饋意見建議進行第三次優(yōu)化,并通過關鍵詞定位等技術,采用“人工+智能輔助”方式編輯摘要性說明。第三步,結(jié)合第三次聚類成果做好輸出、提交利用等工作,及時跟蹤利用反饋情況,建立聚類成果全生命周期服務模式。

        4 研究意義和應用價值

        大數(shù)據(jù)時代,檔案館的核心競爭力在很大程度上會取決于將檔案信息資源轉(zhuǎn)化為信息和知識的速度與能力。具有“五位一體”功能的國家綜合檔案館作為海量資源的存儲信息中心和信息服務中心,必須主動創(chuàng)新,推動檔案工作向“知識化、信息化、技術化、市場化”變革,利用大數(shù)據(jù)技術實現(xiàn)戰(zhàn)略發(fā)展以滿足未來需求。

        溫州市檔案館建設館藏檔案綜合管理系統(tǒng)的同時,開發(fā)檔案數(shù)據(jù)智能聚類功能模塊,為項目研究提供了必要的理論基礎、研究基礎。本項目建設集合數(shù)據(jù)挖掘技術,“盤活”館藏檔案,逐步形成“三類”數(shù)據(jù)聚合。一是基礎類。即構(gòu)建政策庫、名人庫、組織沿革庫等通用型數(shù)據(jù)集合。二是專題類。即圍繞中心工作、重點工作、專項工作,開展專題類數(shù)據(jù)聚合。如“數(shù)字化改革”“碳達峰碳中和”“共同富裕”“公民全生命周期”等類型主題;三是記憶類。如家庭經(jīng)濟、民俗文化、傳統(tǒng)戲劇等類型主題,即深挖家庭工業(yè)、專業(yè)市場、小城鎮(zhèn)、供銷員等專用型數(shù)據(jù)集合,構(gòu)建特色庫??蓪崿F(xiàn)以更開放的結(jié)構(gòu),推動檔案資源的深挖和利用,科學區(qū)分層次、準確實施定位,使項目成果更具普適性,為下一步的推廣應用打下扎實基礎。

        近年來,溫州市檔案館秉持主動服務、靠前服務、精準服務精神,積極探索檔案資源智能聚類研究,激活館藏檔案信息資源,深化迭代數(shù)字檔案資源匯聚共享,把“被動服務”轉(zhuǎn)變成“主動服務”,推進檔案工作整體智治和轉(zhuǎn)型發(fā)展,在“溫州模式”的引領下,踐行小檔案實現(xiàn)大服務。本項目形成的館藏檔案數(shù)據(jù)聚類工作模式、智能聚類功能以及數(shù)據(jù)標簽體系等研究成果,不僅適用于各級檔案館激活館藏檔案信息資源,提升檔案精準服務能力;同樣也為各級黨政機關、企事業(yè)單位激活數(shù)據(jù)潛能,打造“數(shù)據(jù)倉”“數(shù)據(jù)集市”提供了思路和模板,具有較強的可復制性、可推廣性和可借鑒性。

        猜你喜歡
        信息
        訂閱信息
        中華手工(2017年2期)2017-06-06 23:00:31
        展會信息
        中外會展(2014年4期)2014-11-27 07:46:46
        信息超市
        展會信息
        展會信息
        展會信息
        展會信息
        展會信息
        信息
        健康信息
        祝您健康(1987年3期)1987-12-30 09:52:32
        中文字幕成人精品久久不卡| 亚洲精品午夜无码专区| 少妇内射高潮福利炮| 国产精品高潮av有码久久| 国产av一区麻豆精品久久| 极品嫩模大尺度av在线播放| 午夜无码伦费影视在线观看| 四虎永久免费影院在线| 国产在线精品亚洲视频在线| 亚洲中文字幕久久在线| 爱性久久久久久久久| 国产精品video| 久久亚洲精品国产精品婷婷| 伊人久久大香线蕉av色婷婷色| 成人免费直播| 成人免费xxxxx在线视频| 中文乱码字幕在线中文乱码 | 国产又粗又黄又爽的大片| y111111少妇影院无码| 日韩成人精品一区二区三区| 中文字幕人妻在线少妇| 激性欧美激情在线| 国产精品亚洲一区二区杨幂| 中文字幕日本五十路熟女| 高清午夜福利电影在线| 欧美激情内射喷水高潮| 亚洲精品乱码久久久久99| 人妖啪啪综合av一区| 免费观看羞羞视频网站| 国产呦精品系列在线播放| 亚洲综合免费在线视频| 美女脱了内裤露出奶头的视频| 少妇无码av无码专区线| 亚洲国产成人精品激情资源9| 日本女优久久精品久久| 国产精品成人3p一区二区三区| 国产激情对白一区二区三区四| 精品人妻夜夜爽一区二区| 久久婷婷国产综合精品| 欧美巨大性爽| 国产精品性一区二区三区|