亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        融合依存句法網絡和PageRank的檢索詞推薦方法研究

        2023-12-26 02:18:24馬昕鈺蘇子龍
        情報學報 2023年11期
        關鍵詞:信息檢索句法用戶

        樓 雯,馬昕鈺,蘇子龍

        (1.華東師范大學經濟與管理學院信息管理系,上海 200062;2.華東師范大學學術評價與促進研究中心,上海 200241;3.華東師范大學統(tǒng)計與數據科學前沿理論及應用教育部重點實驗室,上海 200062)

        0 引言

        信息檢索系統(tǒng)通常被認為是信息系統(tǒng)的重要分支和人類科學活動的重要信息來源。在跨學科背景下,隨著研究問題的復雜化和研究對象跨學科屬性的多樣化[1-3],同一科學概念在不同學科領域有著不同的表述[4]。由于各科研群體的信息素養(yǎng)、信息檢索需求和信息檢索能力差異較大[5-6],信息檢索系統(tǒng)亟須回答如何結合科學議題或科學概念在整個科學知識體系中的重要性和連通性,借助信息檢索者的歷史需求和檢索行為,以實現信息檢索系統(tǒng)跨領域性能的提升等問題。

        當前提供學術論文檢索平臺發(fā)展較為成熟,但在為科研人員提供極大便利的同時,信息過載也成為科研人員所面臨的主要困境之一[7-9]。國內比較著名的學術論文檢索平臺包括中國知網、萬方數據庫和百度學術等,國外著名的學術論文檢索平臺則包括Google Scholar、Web of Science(WoS)、ScienceDirect、PubMed Central 等。學術檢索平臺種類之多,學術資源差別之大,對科研人員的檢索能力提出了挑戰(zhàn)。當檢索效果不佳時,頻繁更換檢索平臺會使原本煩瑣和耗時的信息檢索活動耗費大量的時間成本,也可能導致科研人員遺漏具有重要價值的檢索結果。隨著跨學科知識迫切的交融需求,信息素養(yǎng)教育水平低下和信息檢索能力不足之間的矛盾日益顯著,如何利用現有的科學數據向學者、科研人員等科學活動主體提供更加準確和主動的檢索詞推薦服務,促進科研人員突破自身知識體系的邊界,加速跨學科研究和知識交流,具有重要的價值和意義。

        語言在生成和處理過程中體現出網絡拓撲結構[10],依存句法網絡是建立在依存語法理論基礎之上,將句子中的成分以謂語為中心建立直接或間接關系的語言網絡[11]。因此,本文參考既有的檢索詞推薦算法,聚焦于information science &library science(LIS)領域,從依存句法網絡的角度觀察和分析語言網路中詞與詞之間的關系和語義信息,對Web of Science 中2000—2020 年論文數據的摘要數據進行名詞識別和依存句法分析,通過所獲取的依存關系詞對構建依存句法網絡,使用PageRank 算法獲取檢索詞排序,結合用戶檢索內容為用戶提供信息檢索服務。本文有助于深入探索學術數據中的潛在知識內容,以突破科研人員知識體系邊界,提升科研人員的信息素養(yǎng),促進交叉學科研究持續(xù)發(fā)展。

        1 相關研究綜述

        (1)基于用戶檢索歷史的推薦方法研究。學者們圍繞這一主題展開的研究可以劃分為基于內容的過濾、基于規(guī)則的過濾和基于協(xié)同的過濾[12-14]。例如,范圓圓等[15]分別基于用戶自身生成內容和相關學者列表對用戶的檢索詞進行了兩次搜索擴展,推薦結果匹配用戶搜索意圖且所涉及的學術領域更為詳細;張洋等[16]使用關聯檢索緩和了推薦系統(tǒng)中的稀疏性問題,提高了協(xié)同過濾系統(tǒng)中的推薦精度;Nair 等[17]提出了一種基于內容相似性的選址循環(huán)單元和關聯規(guī)則挖掘算法的C-SAR(content based scientific article recommendation)模型,將深度學習與數據挖掘中的經典算法相結合,優(yōu)化了現有推薦算法性能;魏玲等[18]基于知乎live 付費用戶信息,利用TF-IDF(term frequency-inverse document frequency)、熵值法等方法確定用戶特征標簽,融合用戶畫像與改進后的協(xié)同過濾算法計算用戶相似度,通過Top-N進行個性化推薦;賈凡等[19]引入漏洞相似性計算方法,在基于內容的推薦算法中強調漏洞之間的普遍聯系,從而解決推薦算法的交互矩陣高稀疏性、冷啟動等問題,同時,充分考慮多類型用戶的特點,最終形成了基于相似性的多用戶漏洞推薦算法;Osadchiy 等[20]建立了一種獨立于個人用戶興趣的集體偏好模型,證明了基于成對關聯規(guī)則的推薦在對抗冷啟動問題上的推薦效果。

        (2)基于詞間關系的推薦方法研究。郭偉光[21]基于語義網和本體技術,構建了農產品知識檢索和推薦系統(tǒng),解決了人們在農產品電子商務中信息過載的問題。熊回香等[22]構建了一種基于組合相似度計算的個性化學者推薦模型。組合相似度計算包括基于學者特征詞相似度計算和基于學者共被引相似度計算,并以CSSCI(Chinese Social Sciences Citation Index)數據庫和CNKI(China National Knowledge Infrastructure)中的數據進行模型驗證。楊辰等[23]基于用戶的協(xié)同過濾的方法,引入了基于主題模型的文本相似度和兩種社會化的用戶相似度(用戶標簽相似度與用戶群組相似度),運用非監(jiān)督的融合策略對這些相似度進行整合,該方法在真實數據集上展示了多源信息對于推薦準確度的增強和提升效應。熊回香等[24]將學術論文關鍵詞按語義類型進行劃分,分別基于共現關系、關鍵詞相似度和文獻老化思想計算同類型關鍵詞間相似度、語義類型相似度、不同類型論文的時間價值,結合論文在語義類型上的相似度及時間價值生成論文推薦列表。丁浩等[25]提出了一種基于隨機森林模型與關鍵詞查詢擴展相結合的推薦方法,通過計算主題與文章之間相似點和引文關系的權重,利用隨機森林方法對查詢擴展結果進行重新排序,有效提升了醫(yī)學文獻推薦的效果。袁仁進等[26]提出了融合向量空間模型和Bisectingk-means 聚類的新聞推薦方法,通過構建“用戶—新聞類別—新聞”層次結構的用戶興趣模型,采用余弦相似度方法得出新聞推薦結果,該方法在準確率、召回率和F值等指標上均展現了優(yōu)于同類算法的性能。Andra 等[27]提出了一種基于主成分分析(principal component analysis,PCA)和kmeans 聚類的協(xié)同過濾的電子商務產品推薦系統(tǒng),使用k-means 克服稀疏性問題并形成用戶集群以減少需要處理的數據量,PCA 用于減少數據維度并提升k-means 的聚類性能。

        (3)基于PageRank 的文獻檢索算法研究。學者通常利用傳統(tǒng)網頁排名算法評估文獻與查詢詞的相似度,并根據該相似度對檢索結果進行排序,以此提高文獻檢索的有效性[28-29]。例如,王丹[30]將Lucene 的排序機制結合到PageRank 算法中,實現了檢索速度的提升,但對文獻的相關匹配度沒有顯著改進。張勇等[31]結合PageRank 算法和TF-IDF,增強了文獻搜索的性能,但這種方法具有局限性:TFIDF 只能提取文獻的關鍵特征詞,對語義相似的詞匯無法進行有效匹配。華一雄等[32]將WMD(word mover's distance)算法與PageRank 結合,開發(fā)了一種基于文獻相似度和流入流出比的搜索方法,然而,WMD 算法本身存在無法解決詞向量OOV(out of vocabulary)的問題,且可能丟失語序信息。以上研究主要從改善相似度角度對算法進行了創(chuàng)新。此外,也有學者如常家偉等[33]在PageRank 的價值分配方面做出了改進,提出了結合PageRank 和譜方法的個性化推薦算法。該方法在PageRank[34]迭代過程中引入候選節(jié)點集的數量控制,運用閾值剪枝技術來優(yōu)化參與迭代的節(jié)點數,通過譜聚類技術對候選集進行排序,利用歸一化的鄰接矩陣和矩陣的特征值與特征向量計算節(jié)點之間的距離,最終生成推薦列表。Hadhiatma 等[35]提出了一個具有偶然視角的科學引文推薦框架,該框架包括學術引文網絡的特征提取、多主題社區(qū)的選擇,并通過修改后的PageRank 對選定的多主題社區(qū)中的論文進行排名和推薦。

        (4)檢索詞推薦方法的評價研究。相關研究主要使用準確率、召回率、MAE(mean absolute error)等評價指標評價推薦方法效果[36-37]。例如,溫有奎[38]通過與中國知網和百度學術的檢出結果的數量進行對比,證明關聯關鍵詞推薦方法提升了檢索的精度;劉軍等[39]通過調節(jié)懲罰系數得出準確率、召回率和綜合F1 值,對基于用戶購買意愿的增強評分矩陣協(xié)同過濾推薦算法效果進行評價;Liu[40]提出了基于BGN(bipartite graph network)鏈路預測的電子商務推薦算法,并通過MAE 評價指標對該方法進行效果評價。

        總體而言,現有相關研究更偏重從分析用戶檢索習慣和主題偏好中輸出檢索結果。將檢索詞的語義關系構建為語言網絡,基于PageRank 算法提出適用于語言網絡節(jié)點的方法,以提升信息檢索系統(tǒng)的準確性和用戶行為的驚喜度,這方面的研究仍有待進一步深入。

        2 研究設計

        本文提出一種基于依存句法網絡的檢索詞推薦方法,設計思路如圖1 所示。對所收集的論文摘要數據進行分句、分詞、名詞短語識別與清洗等預處理,構建待推薦檢索詞集合,使用依存句法分析摘要數據,利用得到的依存關系構建依存句法網絡。通過計算PageRank 值對網絡中的詞節(jié)點進行排序,結合用戶的初始檢索信息和待推薦檢索詞集合提供檢索詞推薦列表,最后對檢索詞推薦系統(tǒng)進行評價。本文包括方法研究和用戶研究兩個部分,下文將在第3 節(jié)進行實證與分析。

        圖1 基于依存句法網絡的檢索詞推薦方法

        2.1 推薦方法的設計思路

        (1)數據預處理。本文將摘要數據進行分句、分詞、名詞識別與提取等預處理。名詞和名詞短語是檢索詞的主要組成部分,名詞短語識別技術被廣泛應用于機器翻譯、信息檢索和主題分析等多個領域。因此,本文利用摘要數據,從中抽取名詞短語用于構建檢索詞集合。其中,Spacy 是NLP(natural language processing)領域主要的文本預處理庫,主要功能包括分詞(tokenization)、詞性標注(partof-speech tagging,POS tagging)、依存分析(dependency parsing)、詞形還原(lemmatization)、句子邊界檢測(sentence boundary detection,SBD)、命名實體識別(named entity recognition,NER)等。Spacy 庫借助深度學習模型完成任務,其名詞塊(noun_chunks)屬性能夠基于英文語言標注模型en_core_web_sm 識別名詞短語,并且在時間成本上優(yōu)于其他方法,遍歷Doc.noun_chunks 即可獲得目標文檔中的全部名詞塊。本文利用該方法識別摘要數據中具有名詞詞性的短語文本,并對其進行清洗,刪除其中含有數字和標點符號的短語,將清洗后的名詞性短語存儲,并作為待推薦檢索詞集合。

        (2)獲取依存關系。本文主要利用依存句法分析摘要數據。利用依存句法將摘要劃分為語句,并分析句子中詞與詞之間的依存關系,以得到摘要集中所有的依存關聯詞對,并且去除含有停用詞、標點和數字的價值較低的詞對。

        (3)構建依存句法網絡。本文利用詞間依存關系構建網絡,以節(jié)點和邊的關系重組摘要數據。其中,NetworkX[41]是基于Python 的復雜網絡構建工具,具有分析網絡結構、建立網絡模型、設計網絡算法、實現網絡可視化等功能,利用NetworkX 可以以標準化和非標準化的數據格式存儲網絡、生成多種隨機網絡和經典網絡、分析網絡結構、建立網絡模型、設計新的網絡算法、進行網絡繪制等。本文利用NetworkX 的網絡構建功能,根據上一步獲取的詞間依存關系構建依存句法網絡,該網絡以詞為節(jié)點,以詞與詞之間的依存關系為邊。

        (4)檢索詞提取與推薦。基于用戶需求分析初始檢索詞,結合PageRank 算法,計算上一步所構建的語言網絡中各節(jié)點的PageRank 值,將該值作為檢索詞重要性評估的標準,并構建節(jié)點的PageRank 值字典以實現對節(jié)點重要性的高效查詢。以此擴展用戶需求,為用戶進行檢索詞推薦,幫助用戶獲取目標文獻。

        (5)檢索詞推薦系統(tǒng)評價。通過用戶研究與分析對本文提出的檢索詞推薦方法效果進行評價,利用準確性、多樣性、前沿性和驚喜度4 個指標對該方法進行綜合評價,以體現該方法相較于其他檢索方法的優(yōu)勢。

        2.2 依存關系提取與網絡構建

        依存句法以句子作為分析對象。依存關系是一個中心詞與其從屬之間的二元非對稱關系,一個句子的中心詞通常是動詞,所有其他詞依賴于中心詞或通過依賴路徑與中心詞關聯。

        本文采用依存句法分析器Spacy 作為語言模型解析依存關系。將句子中的每個詞看作一個Token,每個Token 的詞性解析得到其所屬的唯一Head,每一組Token 與Head 間的從屬關系為依存關系。以“Autonomous cars shift insurance liability toward manufacturers”為例(圖2),采用Spacy 對該句進行分析,如“Autonomous”所屬Head 為“cars”,二者間的依存關系為形容詞修飾語(amod)。

        圖2 依存句法分析結果

        去除所得詞對中含有停用詞、標點和數字等價值較低的詞對??紤]到同一個英文單詞具有單復數、時態(tài)、詞性等多種形態(tài),將所有詞對進行詞干化處理,得到用于構建語言網絡的關系數據。基于此關系數據,利用NetworkX 構建以詞為節(jié)點、以詞間關系為邊的具有跨學科性質的語言網絡,對網絡中的詞利用PageRank 算法計算評價指標,從而提取待推薦檢索詞并推薦。

        2.3 基于PageRank算法的檢索詞推薦邏輯

        PageRank 算法的基本思想是在有向圖上定義一個隨機游走模型,形成一個一階馬爾可夫鏈[42],描述隨機游走者沿有向圖隨機訪問各個節(jié)點的行為。通過計算每個網頁所具有的PageRank 值(PR 值)決定其重要程度,PR 值越高,表明網頁越重要,在搜索結果中該網頁的排序就越靠前。文獻的相似度排名與網頁具有一定的相似性。PageRank 算法通過迭代思想來強化節(jié)點重要性,該算法的核心思想是“從重要節(jié)點鏈接過來的節(jié)點是重要的節(jié)點”的回歸關系,其所采用的鏈接間的相互投票思想與文獻間的相互引用一致。在本文所構建的依存句法網絡中,同樣存在多個節(jié)點之間的相互引用與關聯,這與PageRank 算法和文獻引用的思想相一致,可以認為,依存句法網絡中被重要概念所依存的概念也是重要的概念[43]。PageRank 算法的數學表示為

        其中,PR(i)表示節(jié)點i的PageRank 值;d為阻尼因子,0≤d≤1,一般取d=0.85;B(i)表示指向節(jié)點i的邊的集合;PR(j)表示節(jié)點j的PageRank 值;NIj表示節(jié)點j的鄰居節(jié)點的個數。節(jié)點i的PageRank 值的大小受到兩個因素的影響:一是節(jié)點i的鄰居節(jié)點數量,二是鄰居節(jié)點的重要性。這也刻畫了本文評價語詞重要性的基本思想,即若一個概念被其他概念依存的次數越多,則該概念在學術概念網絡中越重要;若一個概念被重要的概念所依存,則證明該概念本身也是重要的?;诖?,本文利用PageRank 算法對檢索詞集合進行排序重組,獲取新的具有高度重要性的待推薦檢索詞,以提高檢索質量。

        3 實驗與結果分析

        3.1 數據來源與處理

        本文以所獲取的WoS 核心集中學科分類為LIS的科學文獻數據為例,文獻發(fā)表時間為2000 年1 月至2020 年11 月,下載時間為2020 年11 月。去除沒有摘要的文獻記錄,共獲取124516 篇科學文獻的摘要數據。利用Spacy 對摘要數據進行分句處理,識別句中的名詞及名詞短語,清洗后得到有效檢索詞624040 個。單詞在檢索詞集合中出現的頻次能夠在一定程度上反映檢索集合所描述的主要內容,因此,對所構建的檢索詞集合的詞頻分布進行分析,如圖3 所示。其中,圖3a 展示了檢索詞的詞頻分布。圖3b 展示了低頻詞的單詞數量分布情況,有50505 個詞出現了0.5~63.5 次,由此可見,大部分詞語在檢索詞集合中為低頻詞。圖3c 為高頻詞的單詞數量分布圖,分布較為均勻,其中方框部分為詞頻最高的50 個實詞的分布情況,如圖3d 所示。依據齊普夫定律,少量的高頻詞能夠覆蓋較多的檢索主題,表明本文構建的檢索詞集合基本覆蓋了領域的主要研究主題,能夠在檢索主題的廣度滿足用戶的信息需求。

        3.2 依存關系提取與網絡構建

        采用Spacy 語言模型對所有摘要數據進行依存關系分析,共獲取摘要文本集中的所有依存關聯詞對11669495 對,清洗后共得到有效關聯詞對4178108 對,所得依存關系類型共43 種,圖4 展示了關聯詞對中包含的所有依存關系。圖4a~圖4d 以降序展示了各依存關系類型的數量分布,其中,數量最多的依存關系分別為“amod(形容詞)”“compound(復合詞)”和“dobj(直接賓語)”。

        圖4 LIS領域43種依存關系類型的數量分布

        利用依存關系數據構建能夠反映LIS 領域知識體系的語言學特征的依存語言網絡。得到的依存語言網絡擁有52037 個節(jié)點、1111315 條邊,其中,網絡平均度為21.356。同時,構建與本文依存語言網絡參數相同的隨機網絡,隨機網絡的平均路徑長度為3.547,與真實的依存語言網絡接近。這表明本文所構建的依存語言網絡具有明顯的小世界效應,在LIS 領域相關文本中,隨機兩個概念(詞)能夠以較短的路徑建立連接。

        3.3 檢索詞推薦列表獲取結果

        由于檢索詞是名詞短語,其中的介詞和連詞等成分可能具有較高的網絡影響力和較低的區(qū)分度,因此,在計算檢索詞網絡影響力時,只需考慮名詞、動詞、形容詞等主要成分即可。本文選取的成分類型包括NN(noun,常用名詞單數形式)、NNS(noun,常用名詞復數形式)、NNP(proper noun,專有名詞單數形式)、NNPS(proper noun,專有名詞復數形式)、VB(verb,動詞基本形式)、VBD(verb,動詞過去式)、VBG(verb,動名詞和現在分詞)、VBN(verb,過去分詞)、VBZ(verb,動詞第三人稱單數)、VBP(verb,動詞非第三人稱單數)、JJ(adjective,形容詞或序數詞)以及RB(adverb,副詞)。計算3.1 節(jié)所獲取的624040 個有效檢索詞PageRank 值,結果分布如表1 所示。其中,80.11%的檢索詞PageRank 值在[0,0.001),表明檢索詞集合中的少量檢索詞具有較大的重要性,即少部分檢索詞是大部分用戶所感興趣的內容。

        表1 有效檢索詞PageRank值分布

        將計算所得的PageRank 值作為檢索詞的網絡影響力排序依據,將“artificial intelligence”作為初始檢索詞進行檢索,該方法返回的檢索詞推薦列表如表2 所示。

        表2 檢索詞推薦列表示例

        3.4 檢索詞推薦效果評價

        3.4.1 研究設計與數據獲取

        本文利用用戶研究對所提出的檢索詞推薦方法效果進行評價。用戶研究設計具體包括:①選擇目標用戶,提供其背景信息與檢索要求;②確定評價指標,即上文提到的準確性、多樣性、前沿性和驚喜度4 個指標;③設計量表,收集與分析用戶的檢索結果數據;④基于評價指標綜合分析和評價檢索詞推薦方法。

        目標用戶選擇方面,考慮本文的應用場景和專業(yè)素養(yǎng),選擇10 名華東師范大學圖書情報專業(yè)碩士研究生作為目標用戶,對應其畢業(yè)論文選題和研究方向(表3),要求他們在LIS 領域中檢索畢業(yè)論文的相關文獻,在檢索過程中使用本文方法得到推薦檢索詞列表,收集用戶對這些詞的使用信息。

        表3 用戶檢索的初始檢索詞(部分)

        3.4.2 檢索詞推薦效果評價指標

        本文從推薦方法的性能和用戶的滿意度兩個方面對所提出的檢索詞推薦方法進行評價,對兩個評價角度進行細分,選取準確性、多樣性、前沿性和驚喜度[44]4 個指標對檢索詞推薦效果進行評估。各指標的設計與計算方法具體如下。

        (1)準確性:用戶的每一次檢索行為都會產生對應的檢索詞推薦列表,若所推薦的檢索詞列表中存在用戶感興趣的檢索詞,則視該推薦是有效的,通常是通過捕捉用戶的點擊行為推斷用戶是否感興趣,也就是以點擊率(click-through-rate,CTR)來表征檢索詞推薦的準確性,即

        其中,N表示樣本量,即參與實驗的用戶數;i表示第i個用戶;Ci表示第i個用戶點擊的推薦列表數量;Ri表示第i個用戶的在實驗中的檢索次數。推薦方法根據用戶需求產生的推薦列表中,用戶所感興趣的列表數量越多,則點擊率越高,說明推薦的檢索詞列表對用戶信息需求的預測越準確。

        (2)多樣性:對于個性化推薦方法,多樣性表現為不同用戶擁有不同的推薦結果。對于詞間關系推薦方法,多樣性考慮的則是每一個推薦列表中檢索詞的差異性。本文方法是基于詞間關系的檢索詞推薦方法,故利用列表中平均詞間相似度來衡量,即

        其中,I(L)為檢索詞列表的平均詞間相似度;L為列表中檢索詞數量;S(Oα,Oβ)為檢索詞Oα和Oβ之間的相似度,據此可以計算出實驗中所有檢索詞列表的平均詞間相似性,該值越低,推薦方法的多樣性就越好。

        (3)前沿性:檢索詞推薦的前沿性是指推薦列表具有隨文獻資源的更新而更新的能力。在基于語言網絡的檢索詞推薦方法中,檢索詞推薦列表中的內容應根據網絡的演化而產生不同的推薦結果。故利用檢索詞重要性與其前沿性評分的Spearman 相關系數來衡量,即

        相關性越高,推薦結果的前沿性越強。

        (4)驚喜度:驚喜度是指推薦系統(tǒng)發(fā)現用戶所需要卻意想不到的對象的能力,提高驚喜度可以避免推薦系統(tǒng)總是向用戶推薦相似的對象的情況[45]。推薦結果列表的驚喜度定義為

        其中,Ii為檢索詞的重要性,在語言網絡中可以用節(jié)點的PageRank 值來表征;Si為推薦檢索詞和原檢索詞之間的相似度。驚喜度越高,說明推薦結果給用戶帶來的探索性越強,能夠為用戶帶來更多創(chuàng)新性參考。

        3.5 結果分析與對比

        根據10 位用戶的50 個用戶初始檢索詞共得到1310 個推薦檢索詞,檢索結果向用戶提供了推薦檢索詞的前沿性等級指標(包含5 個層次,數字越大表示越新穎),用戶選取其中的167 個推薦檢索詞進行擴展檢索。表4 展示了其中3 位用戶的初始檢索詞、推薦檢索詞及其采用情況、前沿性和PageRank 值。

        表4 檢索結果示例

        在準確性方面,50 個檢索詞推薦列表中,有40個檢索詞列表包含用戶感興趣的內容,且能夠引導用戶獲取其所需的參考文獻,準確性達到80%。其中,未能滿足用戶信息需求的檢索詞列表存在3 類問題:第一類是初始檢索詞自身較為抽象,且普適性較高,例如,“innovation”可以與學術創(chuàng)新、方法創(chuàng)新等其他多種概念相結合,將其作為初始檢索詞需要更為具體的描述;第二類是專有名詞,例如,“用戶畫像”的英文專有名詞是“user personas”,而非“user profile”,后者更多指代的是用戶配置文件;第三類是檢索詞集合的覆蓋范圍,如“academic mobility”,在檢索詞集合中僅有初始檢索詞本身的形態(tài)。

        在多樣性方面,本文分別用Cosine 相似性和Jaccard 相似性指標評估列表內檢索詞的平均相似度。列表返回推薦詞的數量和推薦算法本身是影響推薦詞多樣性的主要因素,一方面,豐富的推薦檢索詞可以擴大用戶的選擇范圍;另一方面,基于內容重要性的推薦思路能夠盡可能地避免數據稀疏問題,基于依存語言網絡的推薦方法的參考標準是學術文獻,能夠構建更為真實和全面的知識體系。

        在前沿性方面,標注數據中的前沿性評級與PageRank 值的Spearman 相關系數為0.089,P=0.225,結果顯示檢索詞推薦的前沿性與排序規(guī)則之間沒有顯著的相關性。

        在驚喜度方面,本文方法驚喜度是0.00161。采用相同計算指標利用不同方法的對比結果顯示(表5),基于語言網絡的檢索詞推薦方法表現更優(yōu),其原因是基于內容重要性的推薦思路打破了基于內容相似性在檢索詞同質化方面的局限,用客觀的知識體系取代了基于詞相似的詞間關聯,從驚喜度角度直觀評價了一個信息檢索系統(tǒng)的性能。

        表5 推薦方法效果對比

        此外,本文利用相同的初始檢索詞列表在中國知網和百度學術進行了文獻檢索,對不同平臺返回的檢索詞推薦列表數據進行收集和分析,與本文所提出的檢索詞推薦方法在多樣性維度進行對比。研究結果表明,本文提出的基于語言網絡的檢索詞推薦方法的表內平均Cosine 相似性為0.530,表內平均Jaccard 相似性為0.395,無論是采用Cosine 相似性計算方法還是采用Jaccard 相似性計算方法,基于依存詞語網絡的檢索詞推薦方法均比兩個國內主流的學術文獻檢索平臺具有更好的表內多樣性表現。

        4 結語

        信息過載和學科交叉融合背景下,為了提升信息檢索服務能力,有效緩解信息過載帶來的負面影響,本文提出了一種基于依存句法網絡的檢索詞推薦方法。首先,對摘要數據進行名詞短語識別,構建檢索詞集合;其次,利用依存句法分析摘要中的語句,通過獲取的詞間依存關系構建依存句法網絡,利用PageRank 算法計算所構建的依存句法網絡中各節(jié)點的PageRank 值,將該值作為檢索詞重要性評估的標準,結合用戶檢索內容進行檢索詞推薦,并通過用戶研究與分析對檢索詞推薦方法效果進行評價。

        本文以LIS 領域數據為例對所提出的方法進行驗證,通過實證分析與用戶研究,本文方法的準確率高達80%,推薦列表表內平均Cosine 相似性為0.530,表內平均Jaccard 相似性為0.395,表內檢索詞多樣性比中國知網和百度學術的表現更優(yōu);檢索詞重要性與前沿性評級之間沒有顯著的相關性;驚喜度表現比基于詞相似和詞聚類的方法有顯著提升。由此可見,基于依存句法網絡的檢索詞推薦方法在實際檢索案例中能夠有效輔助研究內容的形成。

        基于依存句法網絡的檢索詞推薦方法在檢索詞推薦的準確性方面表現良好。但是,該方法仍然存在進一步優(yōu)化的空間。首先,信息檢索系統(tǒng)的應用需求覆蓋領域廣泛,在學科交叉融合背景下,僅針對單一學科領域的科學語料進行研究存在局限性。其次,基于用戶反饋的分析結果顯示,推薦結果的重要性與前沿性之間不存在顯著相關性,對于檢索結果如何更好地滿足對前沿性和新穎性有較高要求的用戶,尚有待進一步研究。因此,在檢索詞推薦方法中,可以考慮采集全學科的科學語料作為檢索詞獲取和語言網絡構建的基礎。此外,在檢索詞推薦方法效果評價方面,未從準確性角度與相關方法進行量化比較分析,未考慮增加檢索詞的時效性特征,尚可以進一步優(yōu)化推薦方法。

        本文的研究結果對信息檢索系統(tǒng)、檢索詞推薦算法優(yōu)化具有以下幾點啟示:①信息檢索系統(tǒng)應該突出學科交叉與融合的優(yōu)勢,避免檢索結果的學科和領域局限性,以促進知識的交流與跨學科背景下的信息資源共享;②信息檢索用戶應該秉持多學科交流與融合的理念,提升自身信息素養(yǎng)和信息處理能力,從而減少信息檢索者和信息檢索系統(tǒng)之間的障礙。本文基于依存句法網絡優(yōu)化檢索詞推薦方法,充分利用現有的學術論文資源推動學科交叉融合的發(fā)展,有助于檢索者突破自身知識體系邊界,為促進交叉研究和創(chuàng)新研究做出貢獻。

        猜你喜歡
        信息檢索句法用戶
        句法與句意(外一篇)
        中華詩詞(2021年3期)2021-12-31 08:07:22
        述謂結構與英語句法配置
        句法二題
        中華詩詞(2018年3期)2018-08-01 06:40:40
        詩詞聯句句法梳理
        中華詩詞(2018年11期)2018-03-26 06:41:32
        關注用戶
        商用汽車(2016年11期)2016-12-19 01:20:16
        醫(yī)學期刊編輯中文獻信息檢索的應用
        新聞傳播(2016年18期)2016-07-19 10:12:06
        關注用戶
        商用汽車(2016年6期)2016-06-29 09:18:54
        關注用戶
        商用汽車(2016年4期)2016-05-09 01:23:12
        基于神經網絡的個性化信息檢索模型研究
        如何獲取一億海外用戶
        白丝美女扒开内露出内裤视频 | 少妇又色又爽又高潮在线看| av在线免费观看男人天堂| 国产精品午夜福利视频234区| 成人免费a级毛片| 娇妻玩4p被三个男人伺候电影| 99re免费在线视频| 视频一区中文字幕亚洲| 亚洲精彩av大片在线观看| 精品香蕉一区二区三区| 女厕厕露p撒尿八个少妇| 欧美成人形色生活片| 久久精品国产热| 在线免费午夜视频一区二区| 好大好爽我要高潮在线观看| 男人靠女人免费视频网站| 国产午夜无码视频免费网站| 国产亚洲无码1024| 国产精品熟女视频一区二区三区| 97人妻人人做人碰人人爽| 免费99精品国产自在在线| 97色偷偷色噜噜狠狠爱网站97| 亚洲色图在线视频免费观看| 日本视频一区二区三区观看| 精品国产一区二区三区av性色| 少妇做爰免费视频网站| 最新国产精品亚洲二区| 丰满人妻被公侵犯的视频| 91精品亚洲成人一区二区三区| 久久99久久99精品中文字幕| 亚洲中文av一区二区三区| 久久精品国产福利亚洲av| 国色天香社区视频在线| 国产无套护士在线观看| 精品国产迪丽热巴在线| 亚洲自拍偷拍色图综合| 亚洲av成人网| 国产精品二区在线观看| 国产一区二区三区av香蕉| 亚洲精品在线国产精品| 精品无码人妻一区二区三区|