摘 "要: 信息檢索一直是數(shù)據(jù)挖掘研究的重要領域,也是情報搜集的重要手段。如果采用人工手動搜索方式在數(shù)據(jù)庫中檢索信息,檢索效率較低。為此,以新聞信息搜集為應用背景,以提高信息檢索效率為目的,提出了一種多視角新聞信息快速檢索方法。該方法以用戶需要檢索的多視角新聞描述信息為檢索依據(jù),利用關鍵詞權重分割法處理多視角新聞描述信息來構建詞匯向量,以詞匯向量在新聞信息庫中的檢索結果為依據(jù)來構建詞匯檢索向量,以向量相似度計算模型為信息篩選規(guī)則,在新聞信息庫中快速檢索并篩選出用戶需要搜集的新聞信息。文中給出了所提方法的設計模型、涉及的關鍵技術實現(xiàn)策略、數(shù)據(jù)處理流程以及實驗對比分析。實驗結果表明,該方法能夠根據(jù)用戶指定的多視角新聞描述信息,在新聞信息庫中快速高效地檢索并篩選出符合用戶需求的新聞文章信息。
關鍵詞: 多視角; 新聞信息; 信息檢索; 快速檢索方法; 詞匯向量; 詞匯檢索向量; 向量相似度計算
中圖分類號: TN919?34; TP391.1 " " " " " " " " " " 文獻標識碼: A " " " " " " " " "文章編號: 1004?373X(2024)18?0057?08
Method of fast news information retrieval from multiple perspective
ZHANG Zhiqiang1, 2, ZHANG Li3, ZHOU Xiaoqing1, 2, WANG Weijun2, LI Zhongwen1, 2
(1. Key Laboratory of Pattern Recognition and Intelligent Information Processing of Sichuan, Chengdu University, Chengdu 610106, China;
2. College of Computer Science, Chengdu University, Chengdu 610106, China;
3. School of Foreign Languages, Sichuan Normal University, Chengdu 610066, China)
Abstract: Information retrieval has always been an important field of data mining research and an important mean of intelligence gathering. If the manual search method is used to retrieve information in the database, the retrieval efficiency is low. Therefore, a method of fast news information retrieval from multiple perspectives is proposed with the application background of news information collection and the purpose of improving the efficiency of the information retrieval. In this method, the multi?perspective news description information that users need to retrieve is used as the retrieval basis, and the keyword weight segmentation method is used to process multi?perspective news description information to build vocabulary vectors. The retrieval results of vocabulary vectors in the news information database are used as the basis to build vocabulary retrieval vectors. The vector similarity calculation model is used as the information screening rule to rapidly retrieve and screen out the news information that users need to collect in the news information database. The design model of the proposed method, the implementation strategy for key technologies involved in the method, data processing flow, and the comparative analysis of experiments are provided. The experimental results show that, according to multi?perspective news description information specified by users, this method can quickly and efficiently retrieve and screen out news article information that meets users′ needs in the news information database.
Keywords: multiple perspective; news information; information retrieval; fast retrieval method; vocabulary vector; vocabulary retrieval vector; vector similarity calculation
隨著“互聯(lián)網(wǎng)+”技術的發(fā)展,當前瞬息萬變的信息時代會產(chǎn)生大量的新聞類文章,而新聞分析與情報檢索部門需要利用信息檢索技術,依據(jù)用戶需求對大量的新聞信息進行檢索,并篩選出用戶需要的新聞文章。檢索操作一般是采用人工手動搜索方式在每篇新聞文章中搜索指定信息,進行新聞文章的篩選。但當新聞信息量非常龐大時,采用人工手動搜索方式進行新聞信息檢索和篩選存在效率低、速度慢等問題。為了提高信息檢索的速度和效率,需要研究快速高效的信息檢索技術來解決人工檢索存在的問題。
信息檢索一直是數(shù)據(jù)挖掘研究的重要領域,其在知識挖掘、信息發(fā)現(xiàn)等方面都具有重要的研究意義,目前已對信息檢索技術進行了多方面的研究。文獻[1]對近年來的SIGIR會議論文進行了分析,提出了信息檢索領域以用戶為中心,檢索模型不斷優(yōu)化、檢索技術不斷融合發(fā)展、檢索應用領域不斷擴大的觀點。文獻[2]以數(shù)據(jù)在檢索過程中面臨的泄露風險為研究背景,詳細解析了不經(jīng)意關鍵詞檢索技術路線,對該技術的未來發(fā)展趨勢進行了分析和探討。文獻[3]以用戶為中心,提出了一種基于用戶需求挖掘的交互式信息檢索方法,并將可視化技術應用于該方法設計中。文獻[4?5]將大數(shù)據(jù)分析技術以及本體知識庫融入信息檢索技術,并設計了圖書館信息檢索系統(tǒng)。文獻[6?7]將人工智能技術融入信息檢索技術,并設計了應用于高校和公共場合的圖書館檢索系統(tǒng)。文獻[8]將關鍵詞檢索和語義檢索技術相融合,提出了一種應用于電影搜索的信息檢索方案。文獻[9]將深度學習方法和模型融入信息檢索技術,設計了對應的信息檢索模型。文獻[10]依據(jù)圖像、文本、用戶多維度相似性,提出了面向圖情信息的快速檢索優(yōu)化算法,該算法可以解決識別率低的問題。文獻[11?14]對中文文本語義相似度進行了研究,提出了基于語義相似技術的相似度計算方法。文獻[15]以提高文本相似度的準確性為目標,提出了基于句向量的文本相似度計算方法。文獻[16?17]對短文本相似度進行了研究,提出了短文本相似度計算方法。
雖然已有學者對信息檢索技術進行了研究,但以新聞信息搜集為應用背景,對新聞文章進行多視角快速檢索的方法還較少。為此,本文以LexisNexis新聞文章信息庫檢索和篩選為研究背景,提出了一種多視角新聞信息快速檢索方法。將用戶需求的多視角新聞描述信息轉換為向量進行處理,并利用向量相似度計算模型進行新聞文章的篩選。實驗結果表明,該方法具有可適應性和設置靈活性,能夠以動態(tài)設定的準確度來實現(xiàn)新聞文章的快速篩選。
1 "快速檢索方法的目標
由于數(shù)據(jù)庫信息量一般都非常龐大,故需要使用快速檢索方法,依據(jù)用戶需求進行特定數(shù)據(jù)的快速獲取。為此,快速檢索方法的目標為:在前期構建的新聞信息庫中,依據(jù)用戶檢索的多角度需求對信息庫中的新聞文章進行快速檢索,從而快速篩選出用戶需求的新聞文章信息,為后期情報分析和處理提供新聞數(shù)據(jù)源。快速檢索方法在情報信息搜集和分析處理流程中的階段如圖1所示。
2 "快速檢索方法的設計
快速檢索方法實現(xiàn)的關鍵是:依據(jù)用戶檢索需求構建有效的新聞視角詞匯向量和新聞視角詞匯檢索向量,并在此基礎上建立向量相似度計算模型,通過該模型進行多視角新聞文章信息的快速篩選操作。
2.1 "新聞視角詞匯向量的構建
對新聞信息的檢索,一般是依據(jù)用戶提出的新聞視角描述信息,從新聞信息庫中篩選出與新聞視角吻合的新聞文章。為此,首先需要利用權重分割法對新聞視角描述信息進行詞匯分割,并構建新聞視角詞匯向量;其次,依據(jù)字符信息在新聞信息檢索過程中的重要程度(一般可以依據(jù)用戶的需求進行分析確定),對新聞視角描述信息串進行分割,生成新聞視角詞匯angle_wordi
(1≤i≤新聞視角描述信息分割的總詞匯數(shù)),同時依據(jù)不同詞匯的重要程度,對不同詞匯angle_wordi設定不同的權值wi,詞匯越重要,其權值設置越大。權值設定規(guī)則如表1所示,設定的權值最大值為2。在快速檢索方法中,權值等級設定規(guī)則也可以依據(jù)用戶需求進行動態(tài)調(diào)整。
基于上述分析,按照權重分割法的策略對某個需要檢索的新聞視角描述信息進行分割,以(angle_wordi,wi)為數(shù)據(jù)項單位,構建一個新聞視角詞匯向量A,公式如下:
[A=(angle_wordi,wi)1≤i≤m] " "(1)
式中:(angle_wordi,wi)表示該新聞視角描述信息的第i個帶權詞匯分量,wi表示詞匯angle_wordi的權值;m表示向量A的總分量數(shù)。由此可見,針對某個新聞視角描述信息可以構建一個帶權詞匯的新聞視角詞匯向量。
本文根據(jù)用戶提出的多個新聞視角描述信息,對每個新聞視角描述信息串進行分割處理,從而構建多個帶權詞匯的新聞視角詞匯向量組B,公式為:
[B=(A1,A2,…,Aj,…,An)T, " 1≤j≤nAj={(angle_wordi,j,wi,j)T1≤i≤mj}] " "(2)
式中:B為n個向量Aj組成的向量組;Aj表示依據(jù)第j個新聞視角描述信息串構建的新聞視角詞匯向量;mj為Aj的總分量數(shù);n為基于用戶檢索需求的新聞視角個數(shù)。
2.2 "新聞視角詞匯檢索向量的構建
在新聞信息檢索過程中,檢索準確度對于檢索效率至關重要。為了提高檢索的準確度,需要確定新聞視角詞匯向量中每個詞匯在新聞信息庫中的分布情況,從而為后期向量相似度計算提供依據(jù)。
針對B中的新聞視角詞匯向量Aj,提取Aj的每個詞匯分量angle_wordij(1≤i≤mj,1≤j≤n),在新聞信息庫的每篇文章中檢索,從而發(fā)現(xiàn)每個詞匯angle_wordij在新聞文章中的分布情況;再依據(jù)詞匯出現(xiàn)在新聞文章中的不同位置,標識出該詞匯的分布權值k。如:有些詞匯可能會出現(xiàn)在新聞文章標題、新聞文章熱點描述、新聞文章正文描述等中;而有些詞匯則沒有出現(xiàn)在新聞文章中。分布權值k表示詞匯對新聞文章信息匹配的重要程度,k值越大,表示詞匯在某篇新聞文章中分布的位置越重要。本文k值的設定規(guī)則如表2所示。另外,k值設定規(guī)則仍然可以依據(jù)新聞文章格式變化而進行動態(tài)調(diào)整。
根據(jù)B中新聞視角詞匯在新聞文章里的檢索結果,構建新聞視角詞匯檢索向量組[B'],公式如下:
[B'=(A'1,A'2,…,A'j,…,A'n)T, "1≤j≤nA'j=(Cj,1,Cj,2,…,Cj,index,…,Cj,p), "1≤index≤pCj,index=(angle_wordi,j,index,ki,j,index)T1≤i≤mj, " " " " " " " " 1≤index≤p] "(3)
式中:Cj,index為Aj中詞匯分量angle_wordij(1≤i≤mj,1≤j≤n)檢索新聞信息庫的第index篇新聞文章后,構建的新聞視角詞匯檢索向量;index為新聞信息庫中被檢索的新聞文章編號(新聞文章編號在構建新聞信息庫時已確定);ki,j,index表示檢索第index篇新聞文章后,詞匯angle_wordij在該篇新聞文章中的分布權值;[A'j]為利用第j個新聞視角詞匯向量Aj檢索新聞信息庫中的p篇新聞文章后,構建的新聞視角詞匯檢索向量組;p為新聞信息庫中包含的新聞文章總篇數(shù);n為基于用戶檢索需求的新聞視角個數(shù)。
2.3 "向量相似度計算模型的構建
新聞信息檢索效率主要取決于檢索準確度,而檢索準確度又依賴于新聞視角描述信息和新聞文章信息的文本相似度。為此,構建向量Aj與[A'j]中的向量Cj,index相似度計算模型,利用該計算模型判斷第index篇新聞文章內(nèi)容是否為滿足檢索第j個新聞視角描述信息需求的新聞文章。
兩個向量Aj與Cj,index相似度計算模型公式如下:
[corr(Aj,Cj,index)=cosθj_index=Aj·Cj,indexAj×Cj,index, " " " " " " " " " " " " " " " "1≤j≤n,1≤index≤pAj·Cj,index=i=1mjwi,j×ki,j,indexAj=i=1mjwi,j×wi,jCj,index=i=1mjki,j,index×ki,j,indexθj_index=Aj,Cj,index] "(4)
式中:[θj_index]為第j個新聞視角詞匯向量[Aj]與新聞視角詞匯檢索向量Cj,index的夾角;cos θj_index為向量[Aj]和向量Cj,index的相似度corr([Aj],Cj,index)。corr([Aj],Cj,index)值越大,表示向量Cj,index與向量[Aj]的夾角[θj_index]越小,則說明在新聞信息庫中第index篇新聞文章內(nèi)容與檢索第j個新聞視角描述信息需求越能夠得到滿足。
向量間的夾角變化如圖2所示,在圖2中,θj_alt;θj_b,表示第a篇新聞文章內(nèi)容比第b篇新聞文章內(nèi)容更滿足第j個新聞視角描述信息的檢索需求。
由此可見,以第j個新聞視角描述信息為檢索條件,利用式(4)計算[Aj]和Cj,index的相似度,然后依據(jù)設定的篩選閾值來判斷第index篇新聞文章是否符合篩選需求,隨著index值的變化,可以從新聞信息庫中快速篩選出符合檢索需求的新聞文章。
2.4 "本文方法的數(shù)據(jù)處理流程
本文方法實現(xiàn)了新聞視角詞匯向量組構建、新聞視角詞匯檢索向量組構建、向量相似度計算、新聞文章篩選等,多個步驟的處理流程見圖3。
1) 依據(jù)已構建的新聞信息庫(包括每篇新聞文章的新聞編號、新聞題目、新聞時間、新聞內(nèi)容長度、新聞熱點描述信息、新聞正文內(nèi)容等),利用權重分割法對用戶需要檢索的第j個新聞視角描述信息進行詞匯分割,并構建新聞視角詞匯向量Aj。如果新聞視角描述信息有多個,則分別構建由多個新聞視角詞匯向量組成的新聞視角詞匯向量組B。
2) 從向量組B中依次提取每個向量Aj,利用向量Aj中詞匯分量,依次對新聞信息庫中的每篇新聞文章進行檢索;再根據(jù)檢索結果構建對應的向量組[A′j],并入B′中,由此構建新聞視角詞匯檢索向量組B′。
3) 從向量組B中依次提取每個向量Aj,從向量組B′中依次提取每個[A′j],利用向量相似度計算模型依次計算向量Aj和[A′j]中的每個向量Cj,index的相似度corr(Aj,Cj,index)。
4) 依據(jù)步驟3)獲得的向量相似度計算結果,從新聞信息庫中篩選出滿足條件corr(Aj,Cj,index)≥Tj的新聞文章編號index,其中Tj為第j個新聞視角描述信息檢索結果的篩選閾值。篩選閾值可以根據(jù)用戶需求、新聞文章內(nèi)容的類型、用戶對篩選結果的后期處理需求等多種因素來綜合動態(tài)設定。
5) 依據(jù)新聞文章編號index,從新聞信息庫中獲取對應的新聞文章內(nèi)容。
3 "實驗與分析
實驗的新聞文章來源于LexisNexis數(shù)據(jù)庫2020年實時新聞,新聞文章初始存儲格式為Word文件。實驗目標是按照用戶給定的多個新聞視角描述信息,對LexisNexis數(shù)據(jù)庫中大量的新聞文章進行快速檢索,篩選出符合用戶檢索需求的新聞文章,從而提高信息檢索的效率。方法采用Java編程語言實現(xiàn)。
實驗測試的樣本數(shù)據(jù)量統(tǒng)計情況如表3所示。首先從LexisNexis數(shù)據(jù)庫中獲取新聞文章,然后從Word文件中抽取數(shù)據(jù)構建新聞信息庫。
用戶檢索的新聞視角描述信息設定如表4所示。
依據(jù)表4的新聞視角描述信息,利用權重分割法分別對每類信息進行詞匯分割,構建三個新聞視角詞匯向量A1、A2、A3,如表5~表7所示。
在表5~表7中,w為1表示該詞匯為分割分析處理后的詞匯;w為2表示該詞匯是用戶指定需要直接檢索的詞匯(這些詞匯也可以是前面分割處理的詞匯,但依據(jù)詞匯的檢索重要程度來提高相應的權值)。權值越高,表示該詞匯在新聞信息檢索過程中的重要程度越高。
分別用3個新聞視角詞匯向量對新聞信息庫中每篇新聞文章內(nèi)容進行檢索,依據(jù)檢索結果,構建了新聞視角詞匯檢索向量組[A′1]、[A′2]、[A′3],如表8~表10所示。
在表8~表10中,詞匯分布權值k為3表示該詞匯分布在對應編號的新聞文章標題;k為2表示該詞匯分布在對應編號的新聞文章熱點描述;k為1表示該詞匯分布在對應編號的新聞文章正文;k為0表示該詞匯沒有分布在對應編號的新聞文章中。
表8數(shù)據(jù)是將向量A1中的每個詞匯在不同新聞文章中進行檢索,再根據(jù)檢索結果來設置詞匯分布權值k。在新聞文章中的詞匯分布權值之和越大,后期處理的相似度計算結果也會越大,該篇新聞文章內(nèi)容越符合需要檢索的新聞視角描述信息,從而越有可能被篩選出來。同理,表9和表10數(shù)據(jù)也符合相應的判定思想。
依據(jù)向量相似度計算模型,對新聞信息庫中的新聞文章按照三個不同新聞視角同時進行快速檢索,篩選結果統(tǒng)計如表11所示。
篩選過程的變化趨勢如圖4所示。
由表11數(shù)據(jù)可以看出,對于每一個新聞視角,相似度值越大,則該方法篩選出的新聞文章篇數(shù)越少,表明能夠篩選出更準確符合用戶檢索需求的新聞文章。本文依據(jù)實驗樣本新聞文章數(shù)量,以第1個新聞視角進行檢索,獲得的最高相似度值是0.79;以第2個新聞視角進行檢索,獲得的最高相似度值是0.65;以第3個新聞視角進行檢索,獲得的最高相似度值是0.63。
方法篩選出第1個新聞視角最高相似度值的新聞文章題為“New Layoffs Add to Worries Over U.S. Economic Slowdown”;方法篩選出第2個新聞視角最高相似度值的新聞文章題為“How Loss of Varsity Teams Can Become a Win”;方法篩選出第3個新聞視角最高相似度值的新聞文章題為“The Digital Divide Starts With a Laptop Shortage”。對這些新聞文章內(nèi)容分析后發(fā)現(xiàn),新聞文章內(nèi)容大致符合用戶需要檢索的相關新聞視角信息。
當按照設定的篩選閾值進行判斷后,可以獲得滿足用戶需求的新聞文章,從而為后期情報分析與處理提供重要的數(shù)據(jù)源。
由圖4的篩選過程曲線變化情況也可以看出,以向量相似度計算模型為新聞信息檢索判定規(guī)則,隨著相似度值增大,篩選出的新聞文章數(shù)量逐步降低,說明該方法已篩選出更準確符合用戶需求的新聞文章。
綜合上述分析可知,采用本文方法能夠快速從數(shù)據(jù)庫中篩選用戶需求的數(shù)據(jù),解決了人工篩選存在的問題。但依據(jù)用戶檢索需求的新聞視角描述信息而構建的新聞視角詞匯向量、被檢索的樣本新聞文章信息等因素都會影響方法的檢索準確度,為此,可通過參數(shù)動態(tài)調(diào)節(jié)來進一步提高該方法檢索的準確度。
4 "結 "語
以解決常規(guī)人工檢索存在的問題為目的,本文提出一種多視角新聞信息快速檢索方法。該方法利用詞匯向量構建詞匯向量檢索模型和向量相似度計算模型,進行新聞文章的快速篩選。本文方法具有參數(shù)設置靈活性和可適應性,實驗分析結果也證明了該方法的有效性。
參考文獻
[1] 李躍艷,王昊,鄧三鴻,等.近十年信息檢索領域的研究熱點與演化趨勢研究:基于SIGIR會議論文的分析[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2021,5(4):13?24.
[2] 韓宗達,鄧宇濤,程祥.不經(jīng)意關鍵詞檢索技術綜述[J].信息通信技術與政策,2022(5):82?90.
[3] 陳樂,劉迎春.基于用戶需求挖掘的交互式信息檢索算法設計[J].計算機仿真,2022,39(5):418?422.
[4] 吳云.大數(shù)據(jù)分析技術的圖書館信息檢索系統(tǒng)設計與研究[J].現(xiàn)代電子技術,2020,43(19):167?170.
[5] 黨小琴.基于本體論的數(shù)字圖書館信息檢索技術[J].科技通報,2022,38(8):110?113.
[6] 郭美嬌,金莉.人工智能技術在高校圖書館信息檢索中的應用[J].普洱學院學報,2022,38(3):22?24.
[7] 陳江淮.人工智能技術在公共圖書館信息檢索中的應用[J].科技資訊,2022,20(17):205?208.
[8] 王元卓,沈英漢,陸源.漫威電影中的信息檢索[J].大數(shù)據(jù),2022,8(5):177?179.
[9] 李康.基于深度學習的信息檢索技術研究[D].成都:電子科技大學,2021.
[10] 徐繼維.一種面向圖情信息的快速檢索優(yōu)化算法[J].現(xiàn)代電子技術,2023,46(24):165?169.
[11] 韓程程,李磊,劉婷婷,等.語義文本相似度計算方法[J].華東師范大學學報(自然科學版),2020(5):95?112.
[12] 楊宏偉,張紅梅,張驥,等.基于TF?IDF加權文本語義相似度算法的變電站一鍵順控測試方法研究[J].電力科學與技術學報,2023,38(5):269?278.
[13] 溫雨,王琦,嚴武軍.基于相似度融合的中文文本相似性度量方法研究[J].信息技術與信息化,2023(10):36?39.
[14] 尚福華,張洪銘,解紅濤.基于知識圖譜與依存句法分析的井控領域文本相似度計算[J].計算機與數(shù)字工程,2023,51(8):1732?1737.
[15] 劉繼明,于敏敏,袁野.基于句向量的文本相似度計算方法[J].科學技術與工程,2020,20(17):6950?6955.
[16] 石彩霞,李書琴,劉斌.多重檢驗加權融合的短文本相似度計算方法[J].計算機工程,2021,47(2):95?102.
[17] 陳樂,王超群,鄒全,等.基于綜合相似度的短文本匹配算法研究[J].軟件導刊,2023,22(7):71?78.