史可玉 羅洋
摘 ?要: 作為由多個問答社區(qū)組成的問答網(wǎng)站,StackExchange上擁有諸多用戶的問答數(shù)據(jù)。想要實現(xiàn)知識的有效傳播,還要加強專業(yè)回答的挖掘。基于此,本文對數(shù)據(jù)挖掘技術及其在社區(qū)網(wǎng)絡平臺中的應用方法進行了探討,然后結合StackExchange特點提出了相應的數(shù)據(jù)挖掘算法,為網(wǎng)站個性化問答推薦服務生成提供支持,促使用戶知識獲取需求得到滿足。
關鍵詞: StackExchange問答網(wǎng)站;社區(qū)網(wǎng)絡平臺;數(shù)據(jù)挖掘
中圖分類號: TP3 ? ?文獻標識碼: A ? ?DOI:10.3969/j.issn.1003-6970.2020.06.048
本文著錄格式:史可玉,羅洋. 關于StackExchange問答社區(qū)網(wǎng)絡數(shù)據(jù)挖掘的分析[J]. 軟件,2020,41(06):233236
【Abstract】: As Q & A website composed of multiple Q & A communities, StackExchange has Q & A data of many users. To achieve effective dissemination of knowledge, it is necessary to strengthen mining of professional answers. Based on this, the paper discusses data mining technology and application method in community network platform, and puts forward corresponding data mining algorithm combined with characteristics of StackExchange, which provides support for generation of personalized Q & A recommendation service on website, and meets ?knowledge acquisition requirement of users.
【Key words】: StackExchange Q & A website; Community network platform; Data mining
0 ?引言
在信息大爆炸時代,知識出現(xiàn)了多元化交融的趨勢。面對人們?nèi)諠u增加的知識和信息獲取需求,社區(qū)網(wǎng)絡平臺得到了迅速發(fā)展,為人們獲取知識提供途徑。對于網(wǎng)站用戶來講,希望在第一時間通過訪問平臺滿足自身求知欲。因此在網(wǎng)站經(jīng)營方面,還應同夠數(shù)據(jù)挖掘實現(xiàn)精準營銷,以推動平臺的可持續(xù)發(fā)展。
1 ?數(shù)據(jù)挖掘技術
數(shù)據(jù)挖掘技術實際為利用算法從大量數(shù)據(jù)中完成有用信息提取的過程,需要先獲取數(shù)據(jù)源,然后進行預處理和數(shù)據(jù)變換,將提取到的有用信息轉換為知識,向用戶可視化展現(xiàn)。針對數(shù)據(jù)推向,應確定特征信息。在合適數(shù)據(jù)庫中完成數(shù)據(jù)存儲,能夠保證數(shù)據(jù)綜合性、完整性,然后根據(jù)經(jīng)驗確定分析指標。對數(shù)據(jù)進行清洗、歸約等處理,去除無效和冗余數(shù)據(jù),完成噪聲點處理,保證數(shù)據(jù)一致性,從而使數(shù)據(jù)質量得到提高[1]。對得到的數(shù)據(jù)進行歸約,能夠得到形式更小的數(shù)據(jù)集,保證數(shù)據(jù)挖掘效率。實際在數(shù)據(jù)挖掘期間,需要確定目標,對研究主題進行選擇,然后解決數(shù)據(jù)抽樣問題。根據(jù)挖掘程度,能夠對與任務相關的知識類型進行確認。選擇適合的分析工具,如決策樹、模糊集等,能夠完成數(shù)據(jù)挖掘,最后以圖表、報告等不同形式呈現(xiàn)結果。
2 ?數(shù)據(jù)挖掘在社區(qū)網(wǎng)絡平臺中的應用
2.1 ?確定訪問習慣
社區(qū)網(wǎng)絡平臺在運營的過程中,需要為用戶提供個性化服務,確保平臺點擊量和人流量能夠得到提高。為此,平臺需要把握受眾心理,呈現(xiàn)用戶感興趣的內(nèi)容。通過為用戶提供相對自由的網(wǎng)絡空間,根據(jù)自身需求發(fā)表意見和建議,能夠使用戶對平臺服務感到滿意,繼而使平臺競爭力得到提升。因此運用數(shù)據(jù)挖掘技術,需要對訪問平臺的用戶數(shù)據(jù)展開深入分析,結合用戶習慣對其日常偏好、界面瀏覽方式等進行推斷,以便提供有針對性的服務[2]。通過提供人性化服務,能夠使用戶對平臺的好感度得到提升,促使平臺運營效益得到保證。結合這一目標,對用戶網(wǎng)絡數(shù)據(jù)進行分析需要確定用戶行為流程,如瀏覽點擊、搜索等過程。根據(jù)用戶瀏覽規(guī)律和訪問習慣,能夠對頻繁訪問路徑進行抽取,實現(xiàn)前端界面優(yōu)化,使用戶能夠迅速完成符合需求的結果查找。
2.2 ?實現(xiàn)類群分組
按照上述思路,在對平臺數(shù)據(jù)進行挖掘時需要完成用戶搜索特征信息采集,從中分析得到用戶搜索行為特點。通常的情況下,用戶需要利用關鍵詞對想要的信息進行搜索。根據(jù)這一習慣對平臺關鍵詞進行選取,使平臺搜索符合用戶操作習慣,能夠使用戶目光在第一時間被吸引。實際在關鍵詞選取時,需要做到合理分組,完成詞庫建立,以便使擁有類似行為特征的用戶需求得到兼顧,確保用戶群能夠根據(jù)平臺推廣搜索到想要的內(nèi)容。按照這一要求,需要對用戶后端數(shù)據(jù)展開分析和處理,根據(jù)用戶問答提供的文本信息完成興趣標簽的設置,完成潛在用戶特征數(shù)據(jù)提取,得到準確的用戶類群信息。根據(jù)興趣標簽完成用戶分組,能夠推斷用戶對哪些信息感興趣。結合用戶傾向進行信息推廣,能夠使挖掘得到的有用信息更具價值,幫助平臺成功實現(xiàn)用戶關系維系。
2.3 ?完善網(wǎng)站運營
利用數(shù)據(jù)挖掘結果,能夠對用戶訪問結果進行完善,促使用戶得到關注度得到提高。結合用戶群興趣愛好,可以對平臺界面布局進行調(diào)整和動態(tài)更新,在顯著位置推廣關鍵信息。在平臺規(guī)劃設計階段,也可以采取該措施實現(xiàn)資源整合,通過提供大量有效信息完成用戶感興趣內(nèi)容挖掘,使平臺對用戶的吸引力得到提高。應用數(shù)據(jù)挖掘技術,也能完成網(wǎng)站日志數(shù)據(jù)分析,做到合理判斷用戶日常瀏覽行為,為用戶操作提供便捷服務。針對潛在客戶,也可以在瀏覽信息中推送感興趣的內(nèi)容[3]。從平臺運營角度來看,可以結合用戶群偏好進行廣告適度推送,在保證用戶順利接收各種信息的同時,為平臺帶來更多收益,繼而使平臺在維持穩(wěn)定用戶數(shù)的同時,能夠取得可持續(xù)發(fā)展。
其中,EQui→qj為回答ui對問題涉及各知識領域專業(yè)可信度,Tagqj為問題qj知識領域標簽。在實際分析的過程中,需要對相關參數(shù)進行歸一化處理,得到Tui→tk的特定取值范圍。根據(jù)分析得到的用戶在不同領域回答可信度,并根據(jù)用戶提問涉及的知識領域,能夠完成專業(yè)可信用戶群劃分,對用戶的回答進行推薦,達到生成網(wǎng)站個性化回答推薦服務的目標[9]。
3.5 ?網(wǎng)站個性化推薦服務生成
利用數(shù)據(jù)挖掘方法完成社區(qū)網(wǎng)絡數(shù)據(jù)分析后,可以得到不同的用戶群。在平臺個性化回答推薦服務生成方面,可以先利用篩選得到的高信譽用戶集合進行驗證,然后利用特殊貢獻用戶集合展開驗證分析。在此基礎上,針對某個問題,可以完成全部用戶專業(yè)可信度評價,從中篩選出專業(yè)可信用戶,得到專家用戶集合。在問題回答驗證上,可以對三種用戶群的回答命中個數(shù)展開比較,確定不同推薦服務的有效性。實際開展評估時,可以采用準確率和平均相似度兩大指標,前者為回答命中數(shù)占推薦個數(shù)的比率,后者為命中個數(shù)占用戶個數(shù)的比率。如表1所示,為驗證結果。在回答擁有一定推薦數(shù)的情況下,相較于其他用戶群,專業(yè)用戶群的回答顯然擁有更高的準確率和較小平均相似度。但在一些問題回答上,專業(yè)可信回答用戶數(shù)量較少,以至于推薦數(shù)量比設定的數(shù)量要少。出現(xiàn)這一情況,主要是由于專業(yè)用戶數(shù)量本身較少。為提高專業(yè)用戶的活躍度,平臺還應采取一定獎勵措施。但總體 ?來看,專業(yè)用戶回答推薦性能依然較高,因此還應將專業(yè)用戶回答當成是優(yōu)選結果,在新問題提出 ?后進行個性化推薦,繼而使網(wǎng)站服務水平得到提 ? 高[10]。
4 ?結語
綜上所述,針對社區(qū)網(wǎng)絡中大量問答數(shù)據(jù),可以利用數(shù)據(jù)挖掘技術加強用戶訪問習慣分析,通過類群分組對訪問結果進行完善,保證用戶能夠盡快獲得想要的信息。在StackExchange網(wǎng)站運營方面,通過實現(xiàn)數(shù)據(jù)采集和處理,能夠完成專業(yè)回答數(shù)據(jù)挖掘,生成個性化推薦服務,從而通過構建高效社區(qū)滿足用戶訪問需求。
參考文獻
[1] 陳華慶, 冼遠清, 賴建明. 網(wǎng)站彈幕視頻數(shù)據(jù)的挖掘與分析[J]. 福建電腦, 2019, 35(08): 102-103.
[2] 國鋒. 數(shù)據(jù)挖掘技術在電子商務中的應用研究[J]. 電腦知識與技術, 2019, 15(24): 280-281.
[3] 劉艷, 李一銘, 劉子逸. 基于精準營銷的問答平臺數(shù)據(jù)挖掘算法需求綜述[J]. 中小企業(yè)管理與科技(中旬刊), 2018(01): 152-153.
[4] 劉迎春, 朱旭, 謝年春, 等. 基于數(shù)據(jù)挖掘的專業(yè)可信回答者個性化推薦——以Stack Overflow問答社區(qū)為例[J]. 現(xiàn)代教育技術, 2019, 29(05): 78-84.
[5] 常海. 數(shù)據(jù)挖掘與分析在網(wǎng)站運營管理中的應用[J]. 企業(yè)改革與管理, 2018(19): 66+70.
[6] 李小雙. 基于CNKI數(shù)據(jù)庫的城市社區(qū)活力知識圖譜分析[C]. 中國城市規(guī)劃學會、重慶市人民政府. 活力城鄉(xiāng) 美好人居——2019中國城市規(guī)劃年會論文集(20住房與社區(qū)規(guī)劃). 中國城市規(guī)劃學會、重慶市人民政府: 中國城市規(guī)劃學會, 2019: 817-832.
[7] 洪闖, 李賀, 祝琳琳, 彭麗徽. 活動理論視角下社會化問答平臺用戶知識協(xié)同模型與關鍵影響因素研究——基于模糊DANP方法[J]. 情報理論與實踐, 2019, 42(11): 100-106.
[8] 王麗萍. 智慧圖書館知識服務新思路:問答社區(qū)模式的啟示與應用[J]. 出版廣角, 2019(13): 74-76.
[9] 閆俊周, 齊念念. 基于ISM的我國戰(zhàn)略性新興產(chǎn)業(yè)創(chuàng)新績效影響因素分析[J]. 科技管理研究, 2019, 39(12): 159-166.
[10] 張曉清, 潘清, 龔波. 基于控制流與數(shù)據(jù)流分離機制的網(wǎng)絡服務方法[J]. 軟件, 2014, 35(03): 111-113.