亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于共現(xiàn)網(wǎng)絡(luò)的用戶評論聚類分析與語義識別研究

        2023-12-31 00:00:00李森濤
        圖書館研究與工作 2023年9期

        摘 要:挖掘網(wǎng)絡(luò)知識問答社區(qū)用戶評論的語義關(guān)系,有利于識別用戶信息需求特征,為用戶提供更具有價值的評論,提升問答社區(qū)的信息服務(wù)質(zhì)量。文章以“百度貼吧圖書館吧”中的評論文本數(shù)據(jù)進行實證研究,通過LDA主題模型進行評論主題聚類分析,利用Word2vec模型將主題關(guān)鍵詞轉(zhuǎn)換為詞向量,并以此構(gòu)建評論語義共現(xiàn)網(wǎng)絡(luò),最后進行評論排序?qū)Ρ取Mㄟ^這種方法不僅能夠正確聚類不同評論主題,還能夠篩選出易被用戶所忽視的高質(zhì)量評論。研究發(fā)現(xiàn),用戶評論共分為6類,用戶主要關(guān)注于學(xué)科前景發(fā)展,而對于基礎(chǔ)設(shè)施服務(wù)和泛在化服務(wù)關(guān)注度較低。

        關(guān)鍵詞:網(wǎng)絡(luò)知識問答社區(qū);主題聚類;共現(xiàn)網(wǎng)絡(luò);語義識別;用戶評論

        中圖分類號:G252.0 文獻標(biāo)識碼:A

        A Study on User Comment Clustering Analysis and Semantic Recognition Based on Co-occurrence Network

        Abstract Mining the semantic relationships of user comments in a network knowledge Qamp;A community can help identify user information needs and provide more valuable comments, thereby improving the information service quality of the Qamp;A community. This paper conducts empirical research using comment text data from the \"Library Bar\" under \"Baidu Post Bar\". By using LDA topic models for comment clustering analysis, the study transforms the topic keywords into word vectors using the Word2vec model, constructs a comment semantic co-occurrence network, and finally compares comment ranking results. This method can not only correctly cluster different comment topics but also screen out high-quality comments that are easily overlooked by users. The study found that community library user comments can be divided into six categories, and users are mainly concerned about the development of disciplinary prospects, with less attention paid to infrastructure services and ubiquitous services.

        Key words online Qamp;A community; topic clustering; co-occurrence network; semantic recognition; user comment

        1 引言

        隨著互聯(lián)網(wǎng)技術(shù)的日益進步,網(wǎng)絡(luò)知識問答社區(qū)逐漸成為用戶進行知識獲取、互換、傳播的重要平臺。網(wǎng)絡(luò)知識問答社區(qū)除了具備傳統(tǒng)意義上的知識問答功能以外,還具備社交功能,用戶可根據(jù)個人需要或喜好選擇自己信任的博主并給予關(guān)注。在網(wǎng)絡(luò)時代,網(wǎng)絡(luò)知識問答社區(qū)逐漸成為創(chuàng)造知識資源的新興載體。由于網(wǎng)絡(luò)用戶知識背景差異較大,因而所產(chǎn)生的評論內(nèi)容質(zhì)量參差不齊。冗余繁雜的評論信息使得平臺和用戶難以快速高效篩選出優(yōu)質(zhì)評論,造成時間浪費。因此,如何高效挖掘用戶生成內(nèi)容的深層語義關(guān)系,并篩選出高質(zhì)量內(nèi)容,是問答平臺首要考慮的問題。

        針對用戶粘性高、主題開放性強的網(wǎng)絡(luò)社區(qū)平臺,已有學(xué)者證實平臺使用算法介入有利于識別評論信息特征,推薦結(jié)果有助于滿足用戶信息需求。劉偉利等人基于知乎問答數(shù)據(jù)進行語義網(wǎng)絡(luò)研究,提出了一種規(guī)避“投票機制”答案推薦算法[1];張艷豐等人基于電商平臺評論的有用性進行研究,利用評論情感語義的特征抽取,對在線評論進行排序和分類[2];Biyani等人研究了在線癌癥社區(qū)中用戶消息隱含語義關(guān)系,并利用文本挖掘和情感分析技術(shù)研究,發(fā)現(xiàn)影響力較高的用戶會提供更多的情感支持[3];楊九龍等人通過潛在狄利克雷分布(Latent Dirichlet Allocation, LDA)主題模型和情感傾向分析挖掘用戶在大眾點評、攜程網(wǎng)上對31家省級公共圖書館的評論內(nèi)容的語義關(guān)系,提出公共圖書館服務(wù)優(yōu)化路徑[4];聶卉等人基于中關(guān)村在線的用戶評論,通過融合用戶興趣及評論質(zhì)量進行評論推薦[5];Esparza等人基于Twitter用戶評論生成用戶模型和產(chǎn)品模型,最后依據(jù)二者內(nèi)容相似度進行推薦[6]。當(dāng)前關(guān)于用戶評論推薦的研究主要采用機器學(xué)習(xí)、情感分析、扎根理論等來識別用戶評論的語義關(guān)系,推進了評論的篩選與推薦,節(jié)約了一定的時間成本。但是常規(guī)的文本聚類模型并未深層次挖掘語義信息,語義排序與推薦算法并沒有完全避免“信息注水”情況,導(dǎo)致一些高質(zhì)量評論因為發(fā)布者的社區(qū)背景而被忽略,例如發(fā)帖數(shù)、活躍時長等。此外基于用戶評論的內(nèi)容關(guān)聯(lián)和特征項之間隱含著共現(xiàn)關(guān)系,但少有基于共現(xiàn)網(wǎng)絡(luò)來對評論間語義進行研究。

        考慮到多數(shù)網(wǎng)絡(luò)知識問答社區(qū)并未對某個話題或者某個提問下的所有評論進行主題聚類,使得用戶無法按照主題興趣批量瀏覽符合自身要求的評論。本文首先通過LDA主題模型對評論信息進行主題聚類,挖掘出各評論間的主題語義關(guān)系;其次將共現(xiàn)網(wǎng)絡(luò)分析引入到本研究中,結(jié)合Word2vec模型、Louvain算法(社區(qū)發(fā)現(xiàn)算法)構(gòu)建共現(xiàn)網(wǎng)絡(luò),識別內(nèi)在語義關(guān)系,幫助用戶選擇高質(zhì)量評論,解決用戶的知識需求;最后運用PageRank算法進行評論排序計算,快速篩選出得分較高的優(yōu)質(zhì)評論,避免因“信息注水”情況導(dǎo)致優(yōu)質(zhì)評論的忽視。

        2 研究框架與關(guān)鍵技術(shù)

        本文運用LDA主題模型、Word2vec模型、共現(xiàn)網(wǎng)絡(luò)分析等多種方法,基于評論間存在的潛在語義關(guān)系構(gòu)建語義網(wǎng)絡(luò),通過多種算法對用戶評論進行語義識別并排序。整體框架如圖1所示。首先以用戶評論內(nèi)容為數(shù)據(jù)源,通過數(shù)據(jù)清理、中文分詞等處理后進行主題聚類,得到主題—詞矩陣,并將各評論語料的主題概率向量進行計算得到相似度矩陣,運用Louvain算法進行主題識別驗證。其次,驗證通過后,利用訓(xùn)練好的Word2vec詞向量模型計算各主題的主題向量,并構(gòu)建主題共現(xiàn)網(wǎng)絡(luò),并基于此網(wǎng)絡(luò)從關(guān)鍵性和關(guān)聯(lián)性2個方面選出某個主題,以該主題為例進行評論語義識別。

        2.1 主題聚類與向量化

        2.1.1 LDA主題模型

        LDA主題模型是由Blei D M等人在2003年提出的,是一個關(guān)于文檔、主題、詞語的3層貝葉斯概率生成模型,其核心思想是把文檔看成隱含主題的一個概率分布,主題看成詞語的一個概率分布。文檔到主題服從多項式分布,主題到詞服從多項式分布,而該多項分布的參數(shù)服從Dirichlet分布[7]。為了確定具體主題劃分數(shù)量,LDA常用困惑度(Perplexity Score)指標(biāo)來輔助衡量主題模型的識別能力,困惑度越低,相應(yīng)的模型性能越好,困惑度的計算公式如下。

        公式(1)中,代表一篇文檔;表示每個單詞出現(xiàn)的概率;代表一個文檔中每個主題出現(xiàn)的概率;代表詞典中每一個單詞在某個主題下出現(xiàn)的概率。

        2.1.2 Word2vec模型

        Word2vec詞向量模型由學(xué)者Tomas Mikolov提出,主要思想是將文本單詞向量化表示。主要過程是通過訓(xùn)練文本集轉(zhuǎn)化為K維度向量,利用向量之間的空間距離來表示文本在語義上的相似度。Word2vec包含CBOW和Skip-gram兩個模型,現(xiàn)有研究表明二者在訓(xùn)練效果上無明顯差異[8]。本文選用Skip-gram模型將主題詞映射為向量,結(jié)合LDA主題識別的結(jié)果實現(xiàn)文本數(shù)據(jù)的語義信息提取與向量化。考慮到Word2vec模型未體現(xiàn)詞匯對主題的貢獻度,導(dǎo)致非關(guān)鍵詞匯影響特征語義表達。因此利用值對主題詞向量進行加權(quán)處理[9],具體公式如下。

        其中,為第個主題的向量表示,為該主題下概率排名前s的詞語數(shù),表示各主題關(guān)鍵詞所對應(yīng)的值,表示該詞語對應(yīng)的詞向量。

        2.1.3 Louvain算法

        本文引入Louvain算法進行答案主題聚類并顯示于評論語義網(wǎng)絡(luò)中,對各主題評論之間以及不同主題評論之間的關(guān)聯(lián)性進行可視化顯示,并驗證LDA主題識別的準確性。Louvain算法是一種以模塊度為計算依據(jù)的社區(qū)發(fā)現(xiàn)算法[10],模塊度反映不同社區(qū)之間內(nèi)部連接強度以及連接差異,是復(fù)雜社區(qū)劃分標(biāo)準[1]。Louvain算法優(yōu)點在于無需事先確定社群個數(shù),社群聚類結(jié)果的準確性和響應(yīng)速度都優(yōu)于其他算法。模塊度計算公式為:

        其中,表示模塊度,表示節(jié)點與節(jié)點之間連邊的權(quán)重,表示整個網(wǎng)絡(luò)的度,表示網(wǎng)絡(luò)中邊權(quán)重之和,表示與節(jié)點相連邊權(quán)重的和,表示節(jié)點所在的社區(qū),當(dāng)時,,當(dāng)時,。

        2.2 共現(xiàn)網(wǎng)絡(luò)構(gòu)建

        共現(xiàn)網(wǎng)絡(luò)是以各主題或各評論為節(jié)點,主題或評論之間的語義相似度為邊。節(jié)點顏色越深、形狀越大表示其越核心,連邊越粗表示其關(guān)系越強。以前文生成的主題向量為基礎(chǔ),利用余弦相似度計算不同主題之間的語義關(guān)聯(lián)程度,并基于主題節(jié)點間相似度均值保留連邊,構(gòu)建主題網(wǎng)絡(luò),具體計算公式如下:

        其中,表示主題,表示主題的向量形式,表示主題之間的相似度,取值介于0和1之間。該網(wǎng)絡(luò)的節(jié)點是LDA抽取的主題,而每一個主題則由帶有概率分布的詞簇來表示。

        2.2.1 共性主題識別

        本文借鑒關(guān)鍵共性技術(shù)識別指標(biāo),在共現(xiàn)主題網(wǎng)絡(luò)構(gòu)建的基礎(chǔ)上,根據(jù)關(guān)鍵性和關(guān)聯(lián)性兩個指標(biāo)進行共性主題識別[11]。關(guān)鍵性從不同主題間邊的權(quán)重來表示某個主題的關(guān)鍵程度,關(guān)聯(lián)性從評論主題聯(lián)系廣度的角度來反映某主題與其他主題之間的關(guān)聯(lián)程度。公式如下所示。

        其中表示主題的主題關(guān)鍵性,表示主題與主題之間連邊的權(quán)重得分,表示主題關(guān)聯(lián)性,表示主題的加權(quán)度,表示總主題數(shù)。

        2.2.2 PageRank算法

        PageRank算法(以下簡稱PR)最早由谷歌提出,是將傳統(tǒng)引文分析思想運用到搜索引擎中對網(wǎng)頁重要性排名的算法,該算法以網(wǎng)頁超文本鏈接的數(shù)量來衡量網(wǎng)頁的質(zhì)量[12]。本文以評論PR值的高低對其進行排序。該算法在計算PR值之前有兩個重要假設(shè):數(shù)量假設(shè),在無向的語義網(wǎng)絡(luò)中X節(jié)點度數(shù)越高,X節(jié)點就越重要;質(zhì)量假設(shè),與X節(jié)點連接的Y節(jié)點度數(shù)越高,X節(jié)點就越重要。計算公式如下。

        為評論相似度組成的轉(zhuǎn)移矩陣,表示兩個節(jié)點之間轉(zhuǎn)移概率,為阻尼系數(shù)()。

        3 實驗及結(jié)果分析

        3.1 數(shù)據(jù)收集與預(yù)處理

        圖書館是面向讀者開展信息服務(wù)的重要載體,以滿足讀者的信息需求為首要目的。從海量的評論數(shù)據(jù)中開展信息識別、信息組織,挖掘出高質(zhì)量、強關(guān)聯(lián)的優(yōu)質(zhì)評論,能夠有效滿足讀者多元化、即時性的信息需求,圖書館根據(jù)評論識別結(jié)果,有針對性地對館藏資源、日常管理、信息公開等進行更新,能夠提升信息服務(wù)質(zhì)量。百度貼吧作為全球最大的中文社區(qū),具備高成熟度、高知名度,貼吧環(huán)境具有開放性,信息傳播方式具有多樣性,用戶獲取信息門檻低。與其他網(wǎng)絡(luò)知識問答社區(qū)相比,“百度貼吧圖書館吧”下的用戶興趣領(lǐng)域相近,發(fā)帖與用戶評論專業(yè)性強,與圖書館信息服務(wù)無關(guān)內(nèi)容占比較低,能夠為用戶評論聚類分析與語義識別研究提供客觀有效的數(shù)據(jù)來源。因此本文選取“百度貼吧圖書館吧”作為數(shù)據(jù)來源。

        首先,本研究使用Python自編代碼進行數(shù)據(jù)采集,爬取時間為2022年11月25日,以百度貼吧的“圖書館吧”為主,收錄所有帖子的發(fā)帖時間、發(fā)帖人、發(fā)帖內(nèi)容等信息,共爬取到主題帖數(shù)3 284個,用戶評論信息6 187條,剔除貼吧廣告貼以及無意義數(shù)據(jù)后最終得到4 995條有效數(shù)據(jù)。其次,結(jié)合哈爾濱工業(yè)大學(xué)停用詞表、百度停用詞表以及自定義停用語料構(gòu)建停用詞表,自定義語料詞庫形成用戶分詞詞典。最后,在此基礎(chǔ)上借用Jieba分詞庫,對處理過的文本進行過濾停用詞、去除標(biāo)點特殊符號等步驟,提高主題識別的準確性。

        3.2 LDA主題聚類

        評論主題提取使用Python中的sklearn庫運行LDA主題模型挖掘經(jīng)過數(shù)據(jù)清理后的評論主題,在其運行過程中需確定主題數(shù)目并不斷調(diào)整參數(shù)對機器學(xué)習(xí)模型進行訓(xùn)練。本文將超參數(shù)α、β分別設(shè)為0.1,0.01,迭代50次,每個主題顯示前10個關(guān)鍵詞。綜合采用困惑度、一致性與可視化方式進行主題數(shù)量的選擇,結(jié)果如圖2所示。通過比較不同主題數(shù)目困惑度和一致性曲線拐點與可視化結(jié)果顯示重疊度情況,最終將主題數(shù)目K確定為6,具體分為學(xué)科前景發(fā)展、基礎(chǔ)設(shè)施服務(wù)、閱讀推廣與交流、圖書館業(yè)務(wù)辦理、泛在化服務(wù)和空間服務(wù)6個方面。主題數(shù)量確定之后得到相關(guān)主題—關(guān)鍵詞矩陣,如表1所示。

        3.3 語義網(wǎng)絡(luò)構(gòu)建

        3.3.1 評論語義網(wǎng)絡(luò)構(gòu)建與主題聚類驗證

        通過LDA主題模型識別后,得到每條評論的隸屬主題以及文本向量,對每條評論進行編號并通過公式(5)計算各條評論之間相似度,并將相似度值標(biāo)準化處理,得到各評論之間相似矩陣,同時運用Louvain算法對評論進行主題社區(qū)聚類,以此繪制評論語義網(wǎng)絡(luò)。評論語義矩陣如表2所示,表中首行與首列為評論編號。為便于觀察,依據(jù)編號進行等距抽取100條評論并且從中選取標(biāo)準化文本相似度高于0.6的邊,評論語義網(wǎng)絡(luò)如圖3所示。圖中節(jié)點上數(shù)字表示評論編號,節(jié)點大小由節(jié)點的度決定,節(jié)點的形狀代表節(jié)點所屬的社區(qū),不同的形狀代表不同的主題。觀察圖可知Louvain算法將隨機等距抽取的100條評論劃分為6個社區(qū),與LDA主題識別結(jié)果一致,人工校對后聚類結(jié)果一致,圓形表示Topic0、心形表示Topic1、梯形表示Topic2、三角形表示Topic3、正方形表示Topic4、五邊形表示Topic5。通過Louvain算法社區(qū)聚類結(jié)果對LDA主題模型進行分類,保證了本文數(shù)據(jù)分析與結(jié)論的可信度。

        3.3.2 主題網(wǎng)絡(luò)構(gòu)建

        對LDA主題識別后的各評論主題權(quán)重進行清理,剔除在各主題權(quán)重中相等的評論,最終得到3 786條評論。通過Python實現(xiàn)對Word2vec模型的詞向量訓(xùn)練,最終確定參數(shù)設(shè)置:維度參數(shù)γ設(shè)置為100,窗口大小設(shè)置為3,epochs值設(shè)為50,最小詞頻數(shù)設(shè)為5。利用訓(xùn)練好的Word2vec模型將各主題的前10個關(guān)鍵詞進行詞向量表示并計算出各關(guān)鍵詞值,為便于計算,運用Python sklearn工具包中PCA模塊對詞向量進行降維處理,將各關(guān)鍵詞維度降至6。通過公式(3)和(5)計算各主題向量以及主題之間相似度并構(gòu)建主題間語義網(wǎng)絡(luò)。相似度矩陣如表3所示,主題網(wǎng)絡(luò)如圖4所示。圖中連邊越粗表示兩主題間關(guān)聯(lián)度越高。

        3.4 共性網(wǎng)絡(luò)識別與分析

        依據(jù)公式計算主題之間的關(guān)鍵性和關(guān)聯(lián)性指標(biāo),并依據(jù)權(quán)重進行歸一化處理計算主題共性分數(shù),識別出基于用戶評論的共性主題,結(jié)果如表4所示。根據(jù)公式(6)和(7)計算出評論主題關(guān)聯(lián)性得分和關(guān)鍵性得分,以二者分數(shù)均值為原點,構(gòu)建關(guān)鍵性—關(guān)聯(lián)性得分組合分析坐標(biāo)系,越靠近坐標(biāo)系右上角的主題共性特征越明顯,從中選擇共性特征最明顯的主題來進一步分析包含其評論的語義關(guān)系。需要說明的是,靠近坐標(biāo)系左下角的主圖并不說明不重要,而是相對于其他象限的主題關(guān)注度較低,結(jié)果如圖5所示。

        第一象限包含學(xué)科前景發(fā)展、圖書館業(yè)務(wù)辦理以及閱讀推廣與交流。讀者在進入圖書館后以自身專業(yè)學(xué)科為出發(fā)點,通過館內(nèi)本學(xué)科領(lǐng)域閱讀推薦以及其他學(xué)科領(lǐng)域的閱讀體驗后引起更多的閱讀興趣,從而辦理相關(guān)業(yè)務(wù)。

        第二象限包含空間服務(wù)??臻g服務(wù)更多的是以學(xué)生或者社會備考人員為主,以自習(xí)室座位預(yù)約、研討室預(yù)約為主,由于用戶群體較小,并不對其他主題起到關(guān)鍵作用,但是無論是自習(xí)室、研討室的預(yù)約,還是閱覽室、展覽室、會議室等,都與空間服務(wù)息息相關(guān),因而與其他主題之間具有一定關(guān)聯(lián)性。

        第三象限包含基礎(chǔ)設(shè)施服務(wù)和泛在化服務(wù)。隨著信息時代的發(fā)展,越來越多的信息技術(shù)運用到公共文化服務(wù)中,極大地提高了用戶服務(wù)體驗以及目標(biāo)實現(xiàn)效率。但是技術(shù)更新?lián)Q代速度過快,用戶信息素養(yǎng)和設(shè)備操作能力無法同步提升,因而對于圖書館服務(wù)來說,更多的用戶還是以訪問實體圖書館為主,并且館內(nèi)多數(shù)智能設(shè)施仍需在服務(wù)人員幫助下才能正常操作。此外,部分圖書館設(shè)施更新不及時、技術(shù)相對落后,因而基礎(chǔ)設(shè)施服務(wù)和泛在化服務(wù)的得分情況并不理想。

        結(jié)合上述分析以及觀察分析結(jié)果,學(xué)科服務(wù)的關(guān)鍵性得分與關(guān)聯(lián)性得分情況較好,共性程度最優(yōu),故而選擇學(xué)科前景發(fā)展下的所有評論來進行語義識別。

        3.5 評論語義識別與分析

        通過上文主題共性分析,以共性得分最高的Topic0進行評論語義識別為例。首先對Topic0主題下的所有評論構(gòu)建語義網(wǎng)絡(luò),根據(jù)LDA主題模型識別結(jié)果篩選出Topic0的所有評論并利用Python生成詞云圖,然后利用公式(5)計算Topic0中各評論相似度,形成相似度矩陣,以此繪制語義網(wǎng)絡(luò);然后引入PageRank算法,通過公式(8)~(10)計算Topic0評論語義網(wǎng)絡(luò)各節(jié)點的PR值,阻尼系數(shù)取值為0.85。PR值越大,節(jié)點大小就越大,邊的顏色就越深。為便于觀察,從Topic0主題下隨機等距抽取100條評論并編號,并設(shè)置可視化范圍。詞云圖與語義網(wǎng)絡(luò)如圖6和圖7所示。表5中展示了圖6和圖7中100條評論中各PR值梯度的部分評論基本信息。

        由圖6和表5看出,該主題關(guān)鍵詞包括“專業(yè)”“圖書館學(xué)”“論文”“書籍”“工作”“大學(xué)”等,貼吧網(wǎng)友對于該主題的討論更側(cè)重于圖書館的文獻資源查找、學(xué)科發(fā)展前景等,此外也出現(xiàn)關(guān)鍵詞“公共圖書館”與“高校圖書館”,表明不單單是科研高校關(guān)注學(xué)科服務(wù),公共圖書館的讀者也在關(guān)注。貼吧瀏覽者在瀏覽相關(guān)內(nèi)容時,可以從多種視角了解到學(xué)科的發(fā)展和不同用戶群體學(xué)科關(guān)注點,多方面滿足用戶的知識需求。同時多數(shù)吧齡超過10年以及發(fā)帖量高的用戶會被認為具備一定經(jīng)驗,其帖子評論的質(zhì)量較高,因此網(wǎng)友在瀏覽時更傾向于采納此類用戶評論。但505號吧齡和發(fā)帖量在表中數(shù)值均為最高,PR值卻較低,而250號吧齡為8年,發(fā)帖量不足40,在表中均為最低,卻被賦予較高的PR值,因為該答案十分詳細地回答帖子所提出的問題并且與樓主進行頻繁互動,具備良好的評論質(zhì)量。因此證明本研究所采用的評論語義識別算法能夠破除“唯經(jīng)驗論”的博主評論選擇,避免因“經(jīng)驗注水”而導(dǎo)致用戶采納錯誤博主評論,造成用戶不必要的損失。

        4 結(jié)論與建議

        本文首先基于語義相似度識別知識社區(qū)海量評論間存在的潛在共性語義關(guān)聯(lián)關(guān)系,構(gòu)建了評論識別語義網(wǎng)絡(luò),并提出一套快速對評論進行聚類、識別、整合的計算方法。其次以“百度貼吧圖書館吧”的用戶評論進行實證研究,利用LDA主題模型、Word2vec模型和余弦相似度計算得到了主題和所有評論相似度矩陣,在此基礎(chǔ)上利用Louvain算法對LDA主題識別情況進行驗證并將語義網(wǎng)絡(luò)可視化。最后借鑒關(guān)鍵共性技術(shù)識別計算各個主題的關(guān)鍵性和關(guān)聯(lián)性得分,選取共性得分最高的主題進行評論語義識別,通過PageRank算法對該主題評論進行排序,識別出較高質(zhì)量的博主評論,為文本處理研究以及網(wǎng)絡(luò)知識問答社區(qū)的優(yōu)質(zhì)評論推薦提供一種新的思路。計算結(jié)果表明本文所使用的評論推薦算法能夠有效識別優(yōu)質(zhì)評論,并不受博主注冊時長、發(fā)帖量等主觀因素影響;網(wǎng)絡(luò)知識問答社區(qū)中的圖書館用戶更加關(guān)注于自身學(xué)科前景發(fā)展,而對圖書館提供的基礎(chǔ)設(shè)施服務(wù)和泛在化服務(wù)關(guān)注度較低。

        針對上述發(fā)現(xiàn),本文為圖書館未來發(fā)展提出如下建議:(1)考慮到電子文獻的便捷性,圖書館應(yīng)拓寬數(shù)字資源獲取路徑,對內(nèi)時刻關(guān)注各學(xué)科最新研究成果,加大購買文獻資源的資金投入,及時更新相關(guān)領(lǐng)域館藏書籍,并與眾多文獻數(shù)據(jù)庫如知網(wǎng)、萬方、維普等建立鏈接,拓寬數(shù)字館藏資源。對外在移動端定期免費開放數(shù)字資源,降低用戶獲取難度,將部分館藏少但借閱頻率高的書籍進行掃描復(fù)印并上傳館內(nèi)數(shù)據(jù)庫,以供讀者閱讀。此外,在學(xué)科前景發(fā)展的評論中,關(guān)注圖書館領(lǐng)域就業(yè)問題也是一大熱點。當(dāng)?shù)貓D書館應(yīng)聯(lián)合設(shè)有圖書館相關(guān)專業(yè)的高校定期統(tǒng)計并公布學(xué)生就業(yè)情況,并公開圖書館工作職位的專業(yè)要求、考試內(nèi)容、考試形式等招聘細則。(2)部分圖書館的數(shù)字資源建設(shè)存在數(shù)據(jù)庫訪問入口難以尋找、學(xué)科分類不夠細化、數(shù)據(jù)庫質(zhì)量良莠不齊等問題。針對以上不足,圖書館工作人員應(yīng)基于訪問情況,優(yōu)化頁面導(dǎo)航布局,將各數(shù)據(jù)庫訪問入口設(shè)置到網(wǎng)站首頁,便于用戶直接訪問;比照最新學(xué)科分類表,細化館藏分類;針對讀者反饋與借閱情況,對館內(nèi)各類數(shù)據(jù)庫進行迭代更新,保留有特色有需求的優(yōu)質(zhì)數(shù)據(jù)庫,合并或刪除訪問量與需求程度低的多余數(shù)據(jù)庫。(3)圖書館提供的基礎(chǔ)設(shè)施服務(wù)和泛在化服務(wù)關(guān)注度較低,后期應(yīng)引入先進的智慧服務(wù)并加大宣傳力度,結(jié)合線上與線下開展公益教育活動,邀請領(lǐng)域?qū)<?、科研工作者或者圖書館工作人員舉辦交流活動,為公眾講解并演示智能設(shè)施的操作流程,并鼓勵公眾到館實際體驗設(shè)施操作,提高用戶主觀規(guī)范,以此來提升用戶信息素養(yǎng),為最終提高圖書館服務(wù)質(zhì)量奠定基礎(chǔ)。同時,圖書館應(yīng)加大館內(nèi)空間建設(shè)的資金投入力度,保證館內(nèi)閱覽室、研討室、自習(xí)室、多媒體資源室、創(chuàng)客空間、各種學(xué)科書庫等實體空間的舒適程度,滿足不同群體對環(huán)境的訴求,為讀者提供良好的空間體驗。此外,圖書館應(yīng)加強云計算、大數(shù)據(jù)、人工智能等新興技術(shù)在館內(nèi)的有效運用,為提升業(yè)務(wù)辦理效率、數(shù)據(jù)庫穩(wěn)定運行、智慧空間建設(shè)等虛擬空間服務(wù)提供技術(shù)保障。

        本文也存在一定不足。第一,爬取評論數(shù)據(jù)量較少,數(shù)據(jù)來源也過于單一,因而影響模型訓(xùn)練的準確度。第二,Word2vec模型的段落識別效果并不理想,可能在識別長評論中的詞向量時會有一定偏差。第三,對于主題評論的語義識別并未按照語義特征進行歸類,也未考慮用戶特征。因此,在未來的研究中要爬取足夠數(shù)量的評論數(shù)據(jù)來補充語料庫,并運用識別效果更好的機器學(xué)習(xí)模型,提高向量計算的準確性;考慮提問者、回答者等多維特征,以此進一步完善語義網(wǎng)絡(luò)識別和排序算法,進一步減輕用戶篩選答案的時間成本。

        參考文獻:

        [1] 劉偉利,張海濤,李依霖,等.基于語義網(wǎng)絡(luò)的社會化問答社區(qū)答案聚合與排序研究[J].情報科學(xué),2021,39(9):94-100.

        [2] 張艷豐,李賀,彭麗徽,等.基于情感語義特征抽取的在線評論有用性分類算法與應(yīng)用[J].數(shù)據(jù)分析與知識發(fā)現(xiàn),2017,1(12):74-83.

        [3] BIYANI P,CARAGEA C,MITRA P.Identifying Emotional and Informational Support in Online Health Communities[C]//Proceedings of COLING 2014, the 25th International Conference on Computational Linguistics:Technical Papers.Dublin, Ireland: Dublin City University and Association for Computational Linguistics,2014:827-836.

        [4] 楊九龍,鮑慧璐.用戶在線評論省級公共圖書館內(nèi)容挖掘與情感分析[J].圖書館學(xué)研究,2021(21):10-17.

        [5] 聶卉,邱以菲.融合用戶興趣及評論效用的評論信息推薦[J].圖書情報工作,2021,65(10):68-78.

        [6] ESPARZA S G,O’MAHONY M P,SMYTH B.Effective product recommendation using the real-time web[C]//Proceedings of the 30th SGAI international conference on innovative techniques and applications of artificial intelligence.Cambridge: Springer,2010:5-18.

        [7] BLEI D M,NG A Y,JORDAN M I.Latent Dirichlet Allocation[J].Journal of Machine Learning Research,2003,3(1):993-1022.

        [8] OMER L,YOAV G,IDO D.Improving Distributional Similarity with Lessons Learned from Word Embeddings[J].Transactions of the Association for Computational Linguistics,2015,3:211-225.

        [9] 顏端武,梅喜瑞,楊雄飛,等.基于主題模型和詞向量融合的微博文本主題聚類研究[J].現(xiàn)代情報,2021,41(10):67-74.

        [10] BLONDEL V D,GUILLAUME J L,LAMBIOTTE R,et al.Fast unfolding of communities in large networks[J].Journal of statistical mechanics:theory and experiment,2008(10):P10008.

        [11] 單曉紅,郝秀艷,劉曉燕.融合技術(shù)社會影響力的關(guān)鍵共性技術(shù)識別研究[J].情報理論與實踐,2022,45(11):97,115-125.

        [12] PAGE L,BRIN S,MOTWANI R,et al.The PageRank citation ranking: Bringing order to the web[R].Stanford:Stanford InfoLab,1999.

        作者簡介:李森濤,鄭州大學(xué)信息管理學(xué)院碩士研究生,研究方向為用戶行為與信息服務(wù)。

        收稿日期:2023-01-09本文責(zé)編:孫曉清

        一本色道久久亚洲精品| 亚洲AV一二三四区四色婷婷 | 欧洲乱码伦视频免费| 日本a级片一区二区三区| 久久精品国产亚洲av无码偷窥 | 婷婷成人基地| 99热这里只有精品久久6| 毛茸茸的女性外淫小视频| 天天躁日日躁aaaaxxxx| 福利体验试看120秒| 婷婷色国产精品视频一区| 白白在线免费观看视频| 亚洲综合网国产精品一区| 欧洲人妻丰满av无码久久不卡| 久99久精品视频免费观看v| 在线观看免费视频发布白白色| 四虎影在永久在线观看| 国产性生交xxxxx免费| 女同中的p是什么意思| 日本高清一区二区在线播放 | 青青草手机视频免费在线播放| 国产综合色在线视频区| 特级毛片a级毛片免费播放| 亚洲日日噜噜噜夜夜爽爽| 久久一区二区国产精品| 国产成人精品午夜视频| 久久无码一二三四| 中文字幕亚洲视频三区| 国产亚洲欧洲aⅴ综合一区| 亚洲精品网站在线观看你懂的| 97色综合| 草逼视频免费观看网站| 人妻色综合网站| 北条麻妃在线视频观看| 亚洲成生人免费av毛片| 亚洲av永久无码精品网站| 少妇寂寞难耐被黑人中出| 超级碰碰人妻中文字幕| 国产精品亚洲精品国产| 国产办公室沙发系列高清| 午夜视频网址|