摘 要:現(xiàn)有的數(shù)據(jù)資源智能檢索方法的檢索排序質(zhì)量較低,檢索結(jié)果文檔排名順序和文檔之間的相關(guān)性較低,為此提出基于自然語言處理的社區(qū)人口數(shù)據(jù)公共信息智能檢索方法。對物聯(lián)網(wǎng)檢索問題進行分析,引入自然語言處理方式對社區(qū)人口數(shù)據(jù)公共信息進行映射處理,以信息在公共語義空間環(huán)境的分布位置為基礎(chǔ)提取特征,將與社區(qū)人口數(shù)據(jù)公共信息檢索請求特征擬合度最高的信息作為檢索輸出結(jié)果,實現(xiàn)社區(qū)人口數(shù)據(jù)公共信息智能檢索。在測試結(jié)果中,所設(shè)計檢索方法的NDCG值未受到并行檢索請求數(shù)量的影響,NDCG值處于較高水平,表示檢索結(jié)果的排序質(zhì)量較高,文檔排名順序和文檔之間的相關(guān)性較高,說明設(shè)計方法能夠有效地對檢索結(jié)果進行排序,具有較高的性能。
關(guān)鍵詞:自然語言處理;社區(qū)人口數(shù)據(jù)公共信息;智能檢索;映射處理;公共語義空間;特征擬合度
中圖分類號:TP39;U464 文獻標識碼:A 文章編號:2095-1302(2024)05-0-03
0 引 言
隨著大數(shù)據(jù)時代的到來,數(shù)字經(jīng)濟得到快速發(fā)展,其不僅在極大程度上顛覆了人類原有的生產(chǎn)方式和生活方式,降低了相關(guān)活動開展的難度[1],同時也使得信息呈現(xiàn)大規(guī)?!熬畤姟?。在檢索目標信息時,無論是以搜索引擎為基礎(chǔ)的網(wǎng)頁信息搜索過程[2],還是以個人計算機系統(tǒng)為基礎(chǔ)的文件信息查找過程,如何快速篩選出與用戶信息需求匹配的內(nèi)容和服務(wù)成為了備受關(guān)注的業(yè)務(wù)執(zhí)行效果優(yōu)化方向之一[3]。在此基礎(chǔ)上,對信息檢索的主要任務(wù)進行分析可以發(fā)現(xiàn),其執(zhí)行的核心是以用戶查詢文本對象為基礎(chǔ)的,對應(yīng)的搜索范圍大多是大規(guī)模非結(jié)構(gòu)化的數(shù)據(jù)集,通過定位滿足用戶信息需求的文檔信息,實現(xiàn)對最符合要求信息的檢索[4]。一般情況下,以處理數(shù)據(jù)規(guī)模為基礎(chǔ)對信息檢索進行分類,可以劃分為3個主要級別,分別為大規(guī)模信息檢索、中等規(guī)模信息檢索以及小規(guī)模信息檢索[5]。其中,大規(guī)模信息檢索大多是以Web搜索的形式存在的;中等規(guī)模信息檢索大多是由數(shù)臺服務(wù)器提供檢索服務(wù);小規(guī)模信息檢索的執(zhí)行載體大多為個人計算機。
國內(nèi)有相關(guān)領(lǐng)域的研究專家就信息的智能檢索展開了研究。潘敏等人[6]提出了基于ConceptNet語義的偽相關(guān)反饋信息檢索方法。但是檢索結(jié)果的優(yōu)劣排序與實際檢索需求還存在一定的誤差,檢索排序質(zhì)量不能滿足實際需求。傅曉菲等人[7]基于數(shù)據(jù)中臺,針對多級調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源檢索方法展開了研究。但是檢索結(jié)果文檔排名順序與文檔之間的相關(guān)性較低,影響最終檢索結(jié)果的有效性。
為解決上述方法存在的不足,本文提出基于自然語言處理的社區(qū)人口數(shù)據(jù)公共信息智能檢索方法;并通過設(shè)置對比測試環(huán)境,分析驗證了設(shè)計方法的實際應(yīng)用效果和性能。
1 社區(qū)人口數(shù)據(jù)公共信息智能檢索方法設(shè)計
1.1 物聯(lián)網(wǎng)檢索問題分析
在物聯(lián)網(wǎng)體系內(nèi),考慮社區(qū)人口數(shù)據(jù)公共信息特征以及用戶對信息完整性、獨立性的需求,需要在社區(qū)人口數(shù)據(jù)公共信息和用戶應(yīng)用之間構(gòu)建一個統(tǒng)一的信息處理模型,向上接收用戶所需的檢索請求,向下協(xié)調(diào)物聯(lián)網(wǎng)各個傳感器設(shè)備進行社區(qū)人口數(shù)據(jù)公共信息源的采集,進行有效的信息交流。物聯(lián)網(wǎng)信息檢索體系中,檢索結(jié)果與用戶需求的相關(guān)程度是信息檢索系統(tǒng)的核心標準,標志著反饋給用戶的檢索結(jié)果是否滿足用戶需求。物聯(lián)網(wǎng)檢索體系的主要目標是盡可能全面地檢索出海量社區(qū)人口數(shù)據(jù)公共信息與用戶檢索關(guān)鍵字之間相關(guān)的所有信息,能夠為數(shù)據(jù)處理和分析提供有力的支持。
1.2 社區(qū)人口數(shù)據(jù)公共信息自然語言映射處理
考慮到查詢請求、社區(qū)人口數(shù)據(jù)公共信息文檔和社區(qū)人口數(shù)據(jù)公共信息分類文本在存在形式上表現(xiàn)出的不同,首先對物聯(lián)網(wǎng)檢索問題進行分析,即因社區(qū)人口數(shù)據(jù)往往來自不同的數(shù)據(jù)源,包括統(tǒng)計數(shù)據(jù)、調(diào)查數(shù)據(jù)、公共部門數(shù)據(jù)等[8],導致信息格式、標準、精度等可能存在差異,需采用自然語言處理方法進行映射處理,再實施智能檢索。在保證社區(qū)人口數(shù)據(jù)公共信息獨立性基礎(chǔ)上,需要引入自然語言處理的概念[9],實現(xiàn)對信息屬性特征的獲取及信息檢索。
對自然語言檢索任務(wù)進行分析可以發(fā)現(xiàn),其影響檢索性能的最主要原因是查詢請求語言、社區(qū)人口數(shù)據(jù)公共信息文檔和社區(qū)人口數(shù)據(jù)公共信息分類文本的存在形式不同。為此,本文首先通過預(yù)訓練的方式,對輸入的查詢請求、檢索請求和社區(qū)人口數(shù)據(jù)公共信息文本分類文檔中存在的自然語言進行映射處理,使對應(yīng)的自然語言向量處于同一個公共語義空間環(huán)境中[10]。其中,自然語言向量具體的映射方式為:
(1)
式中:vim為信息查詢請求中自然語言向量在公共語義空間環(huán)境的映射結(jié)果;vjn為公共信息中自然語言向量在公共語義空間環(huán)境中的映射結(jié)果;vkc為公共信息文本分類文檔中自然語言向量在公共語義空間環(huán)境中的映射結(jié)果;wordvecm(wmi)為查詢請求語言詞向量子;wim為公共信息查詢請求中的第i個詞匯;wordvecn(wnj)表示社區(qū)人口數(shù)據(jù)公共信息語言詞向量子;wjn表示社區(qū)人口數(shù)據(jù)公共信息中的第j個詞匯;wordvecc(wck)表示社區(qū)人口數(shù)據(jù)公共信息分類文本使用的跨語言詞向量子;wck表示社區(qū)人口數(shù)據(jù)公共信息文本分類文檔中的第k個詞匯。
1.3 社區(qū)人口數(shù)據(jù)公共信息智能檢索
按照上述方式,實現(xiàn)對社區(qū)人口數(shù)據(jù)公共信息檢索全過程中自然語言的映射處理,并以此為基礎(chǔ),對輸入的查詢請求、檢索請求和社區(qū)人口數(shù)據(jù)公共信息文本分類文檔特征進行提取[11]。在具體的實現(xiàn)階段,以信息在公共語義空間環(huán)境的分布位置為基礎(chǔ),具體的提取方式為:
(2)
式中:z表示查詢請求、檢索請求和社區(qū)人口數(shù)據(jù)公共信息文本分類文檔特征提取結(jié)果;σ表示物聯(lián)網(wǎng)Bi-GRU單元的文本特征提取器;λ表示物聯(lián)網(wǎng) Bi-GRU單元的編碼器;β表示物聯(lián)網(wǎng)Bi-GRU單元的學習模型;γ表示物聯(lián)網(wǎng)Bi-GRU單元的軟共享參數(shù)。根據(jù)提取結(jié)果,將擬合度最高的數(shù)據(jù)信息作為檢索的輸出,其中對應(yīng)的輸出結(jié)果為:
(3)
式中,f(x)表示匹配vim社區(qū)人口數(shù)據(jù)公共信息查詢請求的社區(qū)人口數(shù)據(jù)公共信息輸出結(jié)果。
按照上述方式實現(xiàn)對社區(qū)人口數(shù)據(jù)公共信息的有效檢索。
2 應(yīng)用測試
2.1 測試環(huán)境
在對本文設(shè)計的基于自然語言處理的社區(qū)人口數(shù)據(jù)公共信息智能檢索方法實際應(yīng)用效果進行分析時,以A地區(qū)的實際環(huán)境為基礎(chǔ),開展了對比測試。其中,參與測試的對照組分別為文獻[6]提出的以ConceptNet語義為基礎(chǔ)的信息檢索方法,以及文獻[7]提出的以數(shù)據(jù)中臺為基礎(chǔ)的資源檢索方法。
對測試環(huán)境的基本情況進行分析,其中A地區(qū)為所在城市的經(jīng)濟中心區(qū)域,具有交通、科技發(fā)展水平較高的特點,具有明顯的金融中心屬性。對測試地區(qū)的總面積情況進行分析,約為64.20 km2,其中共包含11個小區(qū)。對測試區(qū)域的人口占比分布情況進行統(tǒng)計,以第七次人口普查結(jié)果為基礎(chǔ),3歲及以下人口占比為15.2%,3~18歲人口占比為27.2%,18~40歲人口占比為42.6%,65歲及以上人口占比為15.0%。以上述數(shù)據(jù)信息為基礎(chǔ),分別采用三種檢索方法開展對比測試。在對具體的檢索效果進行分析時,本文將歸一化折損累計增益(Normalized Discounted Cumulative Gain, NDCG)作為具體的評價指標。NDCG值的范圍在0~1之間,越接近1代表排序質(zhì)量越好。具體的計算方式可以表示為:
(4)
(5)
式中:DCG@κ表示文檔數(shù)排名在前κ時的截斷累積增益;re表示排名在第e位的文檔的相關(guān)性得分,re={r1, r2, ..., re};I×DCG@κ表示理想情況下的累積增益。
以上述研究為基礎(chǔ),對三種不同信息檢索方法的性能做出客觀評價。
2.2 測試結(jié)果與分析
結(jié)合上述測試環(huán)境,本文設(shè)置了不同的并行檢索請求數(shù)量,對應(yīng)的檢索結(jié)果如圖1所示。
結(jié)合圖1所示的測試結(jié)果,對三種不同信息檢索方法的性能進行分析可以發(fā)現(xiàn),在ConceptNet語義信息檢索方法下,對應(yīng)的NDCG值隨著并行檢索請求數(shù)量的增加呈現(xiàn)出逐漸下降的發(fā)展趨勢,其中,當并行檢索請求數(shù)量由5個增加至35個時,對應(yīng)的NDCG值由0.542 2下降至0.401 7,降幅達到了0.140 5。在數(shù)據(jù)中臺信息檢索方法下,NDCG值受并行檢索請求數(shù)量的影響并不明顯,但是NDCG值的整體水平始終處于相對偏低的狀態(tài),最大值僅為0.462 4。相比之下,在本文設(shè)計的信息檢索方法的測試結(jié)果中,不僅NDCG值未受到并行檢索請求數(shù)量的影響,而且具體的NDCG值始終穩(wěn)定在較高水平,其中最大值達到了0.856 6,比ConceptNet語義信息檢索方法高0.314 4,比數(shù)據(jù)中臺信息檢索方法高0.394 2;最小值也達到了0.852 1(并行檢索請求數(shù)量為35個時),比ConceptNet語義信息檢索方法高0.450 4,比數(shù)據(jù)中臺信息檢索方法高0.419 8。
3 結(jié) 語
為了實現(xiàn)對目標信息的快速獲取,有效的信息檢索方法成為了研究熱點之一。本文提出基于自然語言處理的社區(qū)人口數(shù)據(jù)公共信息智能檢索方法,通過對社區(qū)人口數(shù)據(jù)公共信息自然語言進行映射處理,實現(xiàn)了社區(qū)人口數(shù)據(jù)公共信息智能檢索。希望借助本文關(guān)于公共信息智能檢索方法的研究,為實際的檢索工作提供有價值的參考,最大限度地提高檢索的性能。
參考文獻
[1]李輝,黃祖源,田園,等.基于隱私信息檢索的大規(guī)模用電增信查詢方法[J/OL].山西大學學報(自然科學版):1-11[2024-04-08].https://doi.org/10.13451/j.sxu.ns.2023117.
[2]陳佳,張鴻.基于特征增強和語義相關(guān)性匹配的圖像文本檢索方法[J].計算機應(yīng)用,2024,44(1):16-23.
[3]李葉,毛伊敏,陳志剛.基于Winograd卷積的并行深度卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化算法[J].信息與控制,2023,52(4):466-482.
[4]岳雷,崔展齊,陳翔,等.基于歷史缺陷信息檢索的語句級軟件缺陷定位方法[J/OL].軟件學報:1-20[2024-04-08]. https://doi.org/10.13328/j.cnki.jos.006980.
[5]孫志強,鄭杭彬,呂超凡,等.基于神經(jīng)渲染的數(shù)字孿生資產(chǎn)快速場景幾何建模與檢索方法[J/OL].計算機集成制造系統(tǒng):1-21[2024-04-08]. http://kns.cnki.net/kcms/detail/11.5946.TP.20230818.1726.010.html.
[6]潘敏,劉宇,裴全力,等. 基于ConceptNet語義的偽相關(guān)反饋信息檢索方法[J]. 湖北師范大學學報(自然科學版),2023,43(2):28-37.
[7]傅曉菲,陳涵,陳磊,等. 基于數(shù)據(jù)中臺的面向多級調(diào)度管理業(yè)務(wù)數(shù)據(jù)資源檢索方法[J]. 現(xiàn)代計算機,2023,29(9):98-102.
[8]劉思源,毛存禮,張勇丙. 基于領(lǐng)域知識圖譜和對比學習的漢越跨境民族文本檢索方法[J]. 南京大學學報(自然科學),2023,59(4):610-619.
[9]王湘玲,沙璐,楊雯婷. 國際譯者信息檢索行為研究現(xiàn)狀和趨勢分析(2000-2022)—基于R語言Bibliometrix的可視化分析[J]. 湖南大學學報(社會科學版),2023,37(4):98-105.
[10]侯慧太,藍朝楨,徐青.基于衛(wèi)星影像全局和局部深度學習特征檢索的無人機絕對定位方法[J].地球信息科學學報,2023,25(5):1064-1074.
[11]胡侃,王明莉,魏曉倩. 融合橋梁建設(shè)知識圖譜" 建立多元數(shù)據(jù)檢索方法—實現(xiàn)橋梁工程內(nèi)業(yè)資料數(shù)字化創(chuàng)新應(yīng)用[J]. 四川檔案,2023,41(2):34-35.
作者簡介:孔越峰(1982—),男,廣東汕頭人,碩士研究生,信息技術(shù)工程師,研究方向為人工智能、大數(shù)據(jù)及其智能化應(yīng)用。
收稿日期:2023-10-31 修回日期:2023-11-27