嚴(yán)煒煒 曹燦瑜
關(guān)鍵詞: 知識(shí)交流; 多元平臺(tái); 主題模型; BERTopic; 用戶畫像
DOI:10.3969 / j.issn.1008-0821.2024.07.005
〔中圖分類號(hào)〕G203 〔文獻(xiàn)標(biāo)識(shí)碼〕A 〔文章編號(hào)〕1008-0821 (2024) 07-0047-13
知識(shí)被認(rèn)為是價(jià)值創(chuàng)造、生產(chǎn)力拉升和社會(huì)經(jīng)濟(jì)增長的重要驅(qū)動(dòng)力[1] 。面向當(dāng)前世界科技前沿,推動(dòng)創(chuàng)新驅(qū)動(dòng)發(fā)展成為時(shí)代主題。黨的二十大報(bào)告明確了創(chuàng)新在我國現(xiàn)代化建設(shè)全局中的核心地位,科技創(chuàng)新是打造高質(zhì)量發(fā)展新動(dòng)能和新機(jī)制的關(guān)鍵[2] , 是新時(shí)期“實(shí)現(xiàn)高水平對外開放、推動(dòng)高質(zhì)量發(fā)展” 對國際科技合作提出的重點(diǎn)要求。在這一背景下, 知識(shí)交流作為科技創(chuàng)新合作的重要窗口,是促進(jìn)科學(xué)技術(shù)和知識(shí)經(jīng)濟(jì)發(fā)展的加速器, 也是我國深度融入全球創(chuàng)新網(wǎng)絡(luò)并引領(lǐng)科學(xué)領(lǐng)域前沿發(fā)展的關(guān)鍵路徑[3] 。
當(dāng)前, 包括大眾社交媒體、問答知識(shí)社區(qū)、學(xué)術(shù)社交網(wǎng)絡(luò)等在內(nèi)的多元平臺(tái)已成為網(wǎng)絡(luò)環(huán)境下開展知識(shí)交流的重要情境, 其中, 不同知識(shí)水平的個(gè)體廣泛參與主題多樣的知識(shí)交流并促進(jìn)著知識(shí)創(chuàng)新[4] 。依托網(wǎng)絡(luò)平臺(tái)更安全的社交環(huán)境和持續(xù)豐富的互動(dòng)渠道, 以知識(shí)內(nèi)容為主體的用戶知識(shí)交流行為亦呈現(xiàn)出多元化、開放式的融合趨勢[5] 。由此可見, 單一的平臺(tái)研究已無法全面揭示用戶知識(shí)交流行為與偏好, 亟需拓展多平臺(tái)場景的知識(shí)交流內(nèi)容差異與群體識(shí)別等領(lǐng)域的研究。
綜上所述, 本文立足多平臺(tái)視角, 對用戶知識(shí)交流內(nèi)容進(jìn)行主題挖掘, 并融合多平臺(tái)共性指標(biāo)構(gòu)建用戶畫像標(biāo)簽體系, 進(jìn)行群體聚類并抽象出不同用戶群體的典型特征, 最終通過對比分析揭示平臺(tái)間知識(shí)交流主題和群體差異, 旨在實(shí)現(xiàn)用戶知識(shí)交流行為的泛平臺(tái)刻畫, 有助于差異化網(wǎng)絡(luò)平臺(tái)精準(zhǔn)經(jīng)營和科學(xué)決策, 從而推動(dòng)平臺(tái)良性知識(shí)交流生態(tài)建設(shè)和平臺(tái)間開放創(chuàng)新進(jìn)程。
1 相關(guān)研究
1.1 知識(shí)交流行為研究現(xiàn)狀
知識(shí)交流是指以知識(shí)共享和知識(shí)創(chuàng)新為導(dǎo)向,通過特定平臺(tái)渠道的溝通互動(dòng), 將知識(shí)主體的隱性知識(shí)顯性化的過程[6] 。作為當(dāng)前時(shí)代人們知識(shí)生產(chǎn)、協(xié)作和傳播的聚集地, 以知識(shí)內(nèi)容為核心的網(wǎng)絡(luò)平臺(tái)也在向著多元類型演化, 成為知識(shí)交流主體實(shí)現(xiàn)知識(shí)需求、傳播信息價(jià)值的有效載體。圍繞知識(shí)交流行為, 學(xué)者們除了對交流過程中的知識(shí)貢獻(xiàn)意愿[7] 、交流效率[8] 等方面進(jìn)行了探索, 還重點(diǎn)關(guān)注了知識(shí)交流互動(dòng)偏好[9] 。相關(guān)研究不僅利用問卷訪談、社會(huì)網(wǎng)絡(luò)分析法及內(nèi)容分析法等方法, 探討了互動(dòng)主客體、互動(dòng)網(wǎng)絡(luò)及互動(dòng)主題等行為規(guī)律,揭示了知識(shí)主體主要通過知識(shí)傳遞或信息共享對知識(shí)客體進(jìn)行內(nèi)容輸出[10] ; 亦從特定平臺(tái)場景探究了內(nèi)容交互模式, 發(fā)現(xiàn)學(xué)術(shù)社區(qū)用戶內(nèi)容交互涉及問題澄清、回答擴(kuò)充、問題協(xié)商三類模式[11] 。還有部分研究利用LDA、BERT 等主題建模等手段,對知識(shí)交流主題進(jìn)行數(shù)據(jù)抽取與識(shí)別, 如Ning C等[12]基于BERT 模型對知乎體育文本進(jìn)行主題分析,發(fā)現(xiàn)女性在表達(dá)對體育信息等需求時(shí)更傾向于強(qiáng)調(diào)自身的性別屬性以獲取更有用的知識(shí)。
1.2 用戶畫像研究現(xiàn)狀
用戶畫像是建立在一系列真實(shí)用戶數(shù)據(jù)上的目標(biāo)模型[13] , 由交互設(shè)計(jì)之父Alan Cooper 提出, 最初被常用于電商行業(yè), 作為識(shí)別用戶標(biāo)簽特征、追蹤用戶興趣偏好的一種技術(shù)工具[14] 。因具有靈活便捷、精準(zhǔn)度和重要性高等優(yōu)勢, 用戶畫像在社交媒體[15] 、健康社區(qū)[16] 、政府服務(wù)[17] 等多領(lǐng)域得到廣泛應(yīng)用, 指導(dǎo)用戶需求識(shí)別、精準(zhǔn)信息營銷、平臺(tái)個(gè)性化服務(wù)等工作, 其構(gòu)建方式主要包括基于用戶行為、基于用戶偏好、基于主題、基于人格和用戶情緒4 種主流方法[18] 。現(xiàn)有研究通常圍繞某特定平臺(tái)構(gòu)建用戶畫像標(biāo)簽體系, 結(jié)合用戶年齡、性別等人口統(tǒng)計(jì)學(xué)指標(biāo)[19] , 瀏覽量、發(fā)布數(shù)、互動(dòng)數(shù)等行為計(jì)數(shù)指標(biāo)[20] 及社會(huì)網(wǎng)絡(luò)出入度、影響力等計(jì)量指標(biāo)[21-22] , 實(shí)現(xiàn)群體標(biāo)簽抽象與特征描述。亦有部分學(xué)者嘗試引入多元數(shù)據(jù)以完善系統(tǒng)化用戶畫像, 如高靖超等[23] 結(jié)合4 個(gè)代表性在線醫(yī)療社區(qū)特征構(gòu)建健康焦慮用戶畫像標(biāo)簽體系; 王東等[24]通過對多數(shù)據(jù)源的科研人員信息整合, 從實(shí)體抽取和科研屬性標(biāo)簽抽取等維度構(gòu)建科研人員畫像。
1.3 研究評述
伴隨知識(shí)生產(chǎn)與互動(dòng)傳播渠道拓展, 網(wǎng)絡(luò)平臺(tái)用戶知識(shí)交流行為相關(guān)研究主要關(guān)注了用戶互動(dòng)行為偏好和互動(dòng)主題, 但大多存在樣本局限性或個(gè)體主觀性等問題。同時(shí), 用戶畫像技術(shù)雖較為豐富,應(yīng)用于不同場景以揭示用戶特征規(guī)律, 但現(xiàn)有研究往往僅針對單一平臺(tái)樣本或同類型平臺(tái), 對多元情景的融合樣本研究較少, 尤其是從多平臺(tái)乃至跨平臺(tái)視角對用戶畫像的整體刻畫較為有限, 缺乏對多元平臺(tái)情境下的用戶整體畫像揭示, 未能深入理解用戶知識(shí)交流行為全貌特征及偏好。因此, 本研究結(jié)合多平臺(tái)的用戶知識(shí)交流指標(biāo)構(gòu)建用戶畫像標(biāo)簽體系, 利用技術(shù)手段加工得到用戶標(biāo)簽數(shù)據(jù), 以在多平臺(tái)情境下探究不同類型用戶及不同類型平臺(tái)的知識(shí)交流行為規(guī)律。
2 研究設(shè)計(jì)
虛擬技術(shù)發(fā)展為知識(shí)交流構(gòu)筑了多元平臺(tái)情境,諸如以新浪微博、Twitter(現(xiàn)更名為X)為代表的大眾社交平臺(tái)賦予不同話語主體信息傳播的權(quán)利[25] ,為廣泛穩(wěn)定的知識(shí)交流行為提供場景; 以百度貼吧、豆瓣為代表的興趣交流平臺(tái)核心為共同興趣, 通過問答討論等形式, 聚集豐富的“圈層化” 用戶知識(shí)生產(chǎn)內(nèi)容[26] ; 以CSDN、經(jīng)管之家為代表的垂直知識(shí)平臺(tái)將用戶知識(shí)內(nèi)容下沉至垂直領(lǐng)域[27] , 實(shí)現(xiàn)更加優(yōu)質(zhì)標(biāo)準(zhǔn)的個(gè)性化知識(shí)服務(wù)。此三類平臺(tái)分別代表了社交、圈層、專業(yè)的交流媒介, 共同構(gòu)筑了在線知識(shí)交流的主要渠道, 且三類平臺(tái)知識(shí)交流主體及內(nèi)容特征差異明顯, 故而本文以此為多平臺(tái)樣本構(gòu)建研究框架, 如圖1 所示。根據(jù)多平臺(tái)的數(shù)據(jù)結(jié)構(gòu)和指標(biāo)差異選取可以應(yīng)用于研究的數(shù)據(jù), 并通過Python 爬蟲采集用戶知識(shí)交流行為數(shù)據(jù), 進(jìn)行數(shù)據(jù)預(yù)處理。在實(shí)驗(yàn)設(shè)計(jì)部分, 利用BERTopic模型對用戶博文進(jìn)行主題提取, 構(gòu)建用戶知識(shí)交流主題, 篩選得到有明確知識(shí)交流主題的用戶, 并對該部分用戶構(gòu)建用戶畫像標(biāo)簽體系。在用戶畫像呈現(xiàn)和多平臺(tái)對比分析部分, 采用K-means 算法生成畫像, 最終分析多平臺(tái)用戶畫像和知識(shí)交流主題的差異。
2.1 數(shù)據(jù)來源與預(yù)處理
ChatGPT 全稱為聊天生成預(yù)訓(xùn)練轉(zhuǎn)化器, 是OpenAI 于2022 年11 月發(fā)布的人工智慧聊天機(jī)器人程序[28] 。由于優(yōu)異的文本處理能力和對話技術(shù),該產(chǎn)品自推出后引發(fā)全球廣泛關(guān)注和討論?;冢茫瑁幔簦牵校?相關(guān)話題的時(shí)間周期短、爆發(fā)性高、知識(shí)交流內(nèi)容豐富等特點(diǎn), 本文以該科技前沿性話題為實(shí)證研究對象, 結(jié)合平臺(tái)特性差異和用戶活躍情況,選取了新浪微博、百度貼吧和CSDN 分別作為大眾社交平臺(tái)、興趣交流平臺(tái)、垂直知識(shí)平臺(tái)三類平臺(tái)的代表進(jìn)行樣本數(shù)據(jù)的獲取。利用Python 爬蟲以ChatGPT 為檢索關(guān)鍵詞獲取了2022 年12 月1 日—2023 年8 月31 日各平臺(tái)下全體原創(chuàng)知識(shí)交流信息,包含博文信息(博文ID、用戶ID、發(fā)布時(shí)間、互動(dòng)數(shù)據(jù))和用戶信息(用戶基本指標(biāo)、平臺(tái)行為指標(biāo)等)等數(shù)據(jù)共計(jì)184 929條。考慮到數(shù)據(jù)可用性, 對已有樣本進(jìn)行數(shù)據(jù)清洗與預(yù)處理步驟如下:
1) 去除文本中的表情、符號(hào)、用戶名、網(wǎng)址鏈接、平臺(tái)特有字符串等無意義表達(dá)。
2) 篩選漢語文本長度在5~160 之間的帖子文本。
3) 剔除重復(fù)及無效數(shù)據(jù)。
4) 利用Python 的Jieba 庫和中文停用詞庫對文本數(shù)據(jù)進(jìn)行分詞和去停用詞處理, 并剔除超高頻詞匯。
經(jīng)過以上步驟, 得到數(shù)據(jù)總體數(shù)量和預(yù)處理結(jié)果示例, 如表1 所示。
2.2 知識(shí)交流主題模型
本文利用BERTopic 模型來挖掘用戶知識(shí)交流主題。BERTopic 是一種基于變換器的無監(jiān)督主題聚類深度學(xué)習(xí)模型[29] , 能夠解決傳統(tǒng)主題模型中常見的短語依賴和語義模糊問題, 在句子向量表征與文檔語義關(guān)系方面表現(xiàn)優(yōu)秀[30] , 對大樣本主題識(shí)別具有更強(qiáng)的靈活性和穩(wěn)定性[31] , 適用于本文多平臺(tái)博文樣本量大、短文本多及文本內(nèi)容復(fù)雜等數(shù)據(jù)特點(diǎn)。該模型的具體實(shí)現(xiàn)步驟如圖2 所示。①文檔嵌入。使用SBERT 語言模型對多平臺(tái)輸入文檔進(jìn)行向量化描述, 將文檔表示為高維向量空間中的點(diǎn); ②文檔聚類。由于聚類模型難以處理高維雜糅數(shù)據(jù), 因此在利用UMAP 算法對高維向量進(jìn)行降維后, 采用基于密度的聚類技術(shù)HDBSCAN 創(chuàng)建語義相似的文檔簇; ③主題表征。使用c-TF-IDF和MMR 算法對各文檔簇提取主題詞, 各主題詞代表其融合了多平臺(tái)文本語義的聚類關(guān)鍵特征。
2.3 用戶畫像標(biāo)簽抽取
通過對用戶信息的高度特征凝練, 抽取得到的標(biāo)簽可用于構(gòu)建用戶畫像模型, 現(xiàn)有研究多從自然屬性、社會(huì)屬性、行為屬性、主題屬性等維度抽取畫像標(biāo)簽, 其中自然屬性主要考察用戶性別、地區(qū)和用戶興趣專業(yè)[20,32] ; 社會(huì)屬性一般關(guān)注用戶平臺(tái)粉絲量、成就貢獻(xiàn)和用戶消費(fèi)水平等[14,33] ; 行為屬性不僅考慮行為總量和生產(chǎn)內(nèi)容長度等用戶行為特征[23,34] , 也量化評估用戶影響力指標(biāo)[22] ; 主題屬性則重點(diǎn)聚焦于主題詞及其子類目[35] 。結(jié)合多平臺(tái)的場景搭建差異及知識(shí)交流指標(biāo)定義, 通過對平臺(tái)間用戶行為指標(biāo)的異同對比, 從中抽取相似要素, 構(gòu)建多平臺(tái)視角下用戶畫像標(biāo)簽體系如表2所示。
2.4 用戶畫像標(biāo)簽加工
2.4.1 社會(huì)屬性標(biāo)簽加工
粉絲規(guī)模。該標(biāo)簽被廣泛應(yīng)用于識(shí)別網(wǎng)絡(luò)平臺(tái)意見領(lǐng)袖, 是評價(jià)用戶社交價(jià)值的重要依據(jù)[37] ,由用戶的其他用戶關(guān)注數(shù)fans 表示。fans 值越大,代表用戶的平臺(tái)被關(guān)注數(shù)越多, 用戶的平臺(tái)知識(shí)交流和輿論引導(dǎo)的傳播潛力越強(qiáng)。
個(gè)人成就。該標(biāo)簽指用戶在平臺(tái)完成一系列指定信息行為后獲得的個(gè)人成就, 包括成就獎(jiǎng)牌、成就勛章數(shù), 由achievements 表示。achievements 連接了個(gè)體需求和平臺(tái)功能, 使得用戶能有效和其他個(gè)體建立關(guān)系、獲得榮譽(yù)以及成長[38] 。
會(huì)員水平。該標(biāo)簽以用戶是否為平臺(tái)會(huì)員及其當(dāng)前會(huì)員等級(jí)為衡量依據(jù), 用ranks 表示。購買會(huì)員是網(wǎng)絡(luò)平臺(tái)的重要付費(fèi)形式之一, 反映用戶對平臺(tái)的使用深度和付費(fèi)意愿。在新浪微博體現(xiàn)為用戶的VVIP 等級(jí), 百度貼吧和CDSN 體現(xiàn)為用戶的會(huì)員天數(shù)。
由于不同平臺(tái)特征及其社會(huì)屬性標(biāo)簽計(jì)量方式存在差異, 如以用戶活躍度較高的新浪微博的fans均值顯著大于百度貼吧和CDSN。為科學(xué)衡量用戶在差異化平臺(tái)情境下的社會(huì)屬性表征, 分別對各平臺(tái)的屬性標(biāo)簽進(jìn)行歸一化處理, 如式(1)所示:
2.4.3 標(biāo)簽加工結(jié)果
為排除標(biāo)簽間相關(guān)性對最終聚類的影響, 考慮到各標(biāo)簽均不符合正態(tài)分布, 故采用Spearman 相關(guān)分析法對加工后的用戶畫像標(biāo)簽體系進(jìn)行相關(guān)性檢驗(yàn), 結(jié)果如圖3 所示。一般認(rèn)為Spearman 相關(guān)系數(shù)絕對值在0~0.2 區(qū)間不相關(guān), 0.2 ~0.4 區(qū)間弱相關(guān), 0.4~0.8 區(qū)間中度相關(guān), 0.8~1.0 區(qū)間顯著相關(guān)??芍獦?biāo)簽之間均未出現(xiàn)顯著相關(guān), 多數(shù)為不相關(guān)或弱相關(guān), 標(biāo)簽呈現(xiàn)較強(qiáng)的獨(dú)立性, 因此該體系可用于后文的聚類分析。
對構(gòu)建的用戶畫像標(biāo)簽體系進(jìn)行分類統(tǒng)計(jì), 其數(shù)據(jù)分布情況如表3所示。
3 結(jié)果分析
3.1 知識(shí)交流主題識(shí)別
通過對搭建的BERTopic 模型的多次調(diào)參訓(xùn)練,確定當(dāng)設(shè)置UMAP 句嵌入降維維度為29, HDB?SCAN 最小聚類規(guī)模為250 時(shí), 可得到最具有明確含義的主題共57 個(gè)。該結(jié)果解釋了83 437篇文檔的主題分類表征, 另有57 559篇文檔由于主題雜糅或離群被視為噪聲值而剔除。根據(jù)基于簇的c-TFIDF方法提取各主題關(guān)鍵詞, 經(jīng)過人工審閱, 發(fā)現(xiàn)部分主題的關(guān)鍵詞及文檔內(nèi)容呈現(xiàn)較高的相似性。根據(jù)知識(shí)交流主題識(shí)別及網(wǎng)絡(luò)平臺(tái)主題分類的相關(guān)研究, 以主題關(guān)鍵詞及余弦相似度為研判依據(jù), 結(jié)合3 名專家意見對相似主題進(jìn)行人工篩選及歸類合并, 最終得到46 個(gè)用戶知識(shí)交流主題如表4 所示。結(jié)果顯示, 針對科技前沿性話題的各平臺(tái)中用戶知識(shí)交流主題較為豐富, 可劃分為應(yīng)用場景、行業(yè)進(jìn)展、未來探討、相關(guān)產(chǎn)業(yè)、咨詢求助、熱門話題、使用感受及風(fēng)險(xiǎn)監(jiān)督8 個(gè)方向。其中, 應(yīng)用場景主題最為熱門, 包括論文參考、代碼編程、語言潤色等多元實(shí)踐場景, 體現(xiàn)了用戶對科技前沿性技術(shù)應(yīng)用價(jià)值的關(guān)注。此外, 除去對話題本身的探討, 對諸如股票、元宇宙等相關(guān)產(chǎn)業(yè)及數(shù)據(jù)安全、數(shù)據(jù)監(jiān)管等延伸話題的討論也具有一定顯示度, 如圖4 所示。該類型主題位于整體主題討論的偏中位置, 反映出延伸話題同樣是科技前沿性話題的重點(diǎn)討論對象, 拓展了一般知識(shí)交流的層次范圍。
3.2 用戶畫像呈現(xiàn)
在剔除了噪聲數(shù)據(jù)后, 對識(shí)別出明確主題的58 859名知識(shí)交流用戶進(jìn)行畫像分析。采用K-means算法對用戶畫像標(biāo)簽體系進(jìn)行群體聚類。K-means是一種基于數(shù)據(jù)之間相似性進(jìn)行聚類的強(qiáng)大算法,其泛化能力強(qiáng), 對高維大規(guī)模數(shù)據(jù)的處理效果優(yōu)異,被廣泛應(yīng)用于群體分類和特征識(shí)別[39] 。該算法的基本思想是將數(shù)據(jù)集按照不同的類別劃分成多個(gè)簇,通過不斷迭代使得數(shù)據(jù)點(diǎn)和相應(yīng)的簇中心的歐式距離最小。結(jié)合本文數(shù)據(jù)集規(guī)模大、特征標(biāo)簽復(fù)雜等特點(diǎn), K-means 算法可以在高效收斂集合的同時(shí)提供較強(qiáng)的解釋度。通過手肘法選取最佳聚類數(shù)K,如圖5 所示, 可知當(dāng)K 取值小于4 時(shí)和方差(SSE)下降明顯, 往后再增加K 所得的聚合效果回報(bào)迅速變小, 因此確定最佳聚類值K=4。
根據(jù)最佳聚類值計(jì)算K-means 聚類結(jié)果, 對畫像標(biāo)簽進(jìn)行分類統(tǒng)計(jì), 并結(jié)合不同群體的標(biāo)簽分布特點(diǎn)和分類內(nèi)容, 將知識(shí)交流主體分為專業(yè)貢獻(xiàn)型、綜合共享型、社交求知型及話題潛力型4 種類型, 其占比和特征呈現(xiàn)結(jié)果如表5 所示。
專業(yè)貢獻(xiàn)型用戶。該群體中多為數(shù)碼、寫作及教育興趣等專業(yè)領(lǐng)域的關(guān)鍵意見領(lǐng)袖, 在粉絲規(guī)模和個(gè)人成就等指標(biāo)上表現(xiàn)最優(yōu), 且具有豐富粉絲基礎(chǔ)和高平臺(tái)價(jià)值。從知識(shí)交流行為屬性來看, 該群體產(chǎn)出較高, 形式以長篇和中長篇博文為主, 且博文具有顯著的知識(shí)交流影響力, 代表了平臺(tái)高質(zhì)量知識(shí)交流行為。該群體的知識(shí)交流主題以應(yīng)用場景為主, 用戶善于結(jié)合自身專業(yè)特點(diǎn), 針對人工智能話題的應(yīng)用價(jià)值創(chuàng)作知識(shí)博文, 如探討ChatGPT如何提升聊天機(jī)器人的性能水平。可以看出, 該群體雖占比最少, 不足用戶總量的10%, 卻是不同平臺(tái)和相關(guān)話題的高黏用戶, 貢獻(xiàn)了大量優(yōu)質(zhì)知識(shí)內(nèi)容, 是多平臺(tái)知識(shí)交流行為的重要組成。
綜合共享型用戶。該群體約占用戶總量的1/5,綜合了財(cái)經(jīng)、科技、互聯(lián)網(wǎng)等專業(yè)領(lǐng)域, 社會(huì)屬性表現(xiàn)較為顯著, 其中高會(huì)員水平用戶占比最高, 體現(xiàn)出群體普遍具有高付費(fèi)意愿及高平臺(tái)經(jīng)營價(jià)值。該群體的知識(shí)交流行為屬性略弱于專業(yè)貢獻(xiàn)型用戶,但在知識(shí)交流總量、長度和影響力水平仍較高。從知識(shí)交流主題來看, 該群體對行業(yè)進(jìn)展、風(fēng)險(xiǎn)監(jiān)督的主題關(guān)注度高, 對國內(nèi)同行業(yè)產(chǎn)品、數(shù)據(jù)安全監(jiān)管等相關(guān)產(chǎn)業(yè)有較高討論度。結(jié)合以上特征, 本文認(rèn)為該群體在平臺(tái)使用時(shí)更注重共享傳播知識(shí)、跟進(jìn)時(shí)事熱點(diǎn)、實(shí)現(xiàn)自我價(jià)值等多維需求。社交求知型用戶。該群體占比略高于綜合共享性用戶, 興趣領(lǐng)域更傾向于娛樂化。從社區(qū)屬性來看, 該群體的粉絲規(guī)模表現(xiàn)不突出, 且多成就和高等級(jí)用戶占比較低。該群體低產(chǎn)出用戶顯著高于其他三類群體, 知識(shí)交流內(nèi)容以短篇、弱影響力的帖子為主, 表現(xiàn)出較弱的知識(shí)交流貢獻(xiàn)度和話題黏性, 能夠滿足他人知識(shí)需求或引起共鳴的高價(jià)值內(nèi)容相對匱乏。知識(shí)交流主題以熱門話題、資訊求助和使用感受為主, 其中問題、回答、求助等關(guān)鍵詞出現(xiàn)頻次高。相較于成為內(nèi)容生產(chǎn)者, 該群體用戶更傾向于通過平臺(tái)實(shí)現(xiàn)感情抒發(fā)、尋友交友及彰顯存在等社交意愿, 或利用平臺(tái)的已有社交與知識(shí)價(jià)值來解答個(gè)體疑惑。
話題潛力型用戶。該群體為用戶總量最高的群體, 同時(shí)也擁有最弱的社區(qū)屬性, 其中社交用戶、知名用戶和多成就用戶的占比最低, 而普通用戶、一般成就及非會(huì)員用戶的占比最高, 用戶普遍對平臺(tái)使用黏性低。從知識(shí)交流行為來看, 該群體的知識(shí)交流總量和長度優(yōu)于求知社交型用戶, 體現(xiàn)在低產(chǎn)出用戶和中長篇及長篇帖子占比較高, 但影響力相對較弱。類似于專業(yè)貢獻(xiàn)型用戶, 該群體的知識(shí)交流主題以應(yīng)用場景為主, 往往針對教育、編程、感情等場景展開探討。本文認(rèn)為, 該群體具有一定強(qiáng)度的知識(shí)交流意愿, 但由于對平臺(tái)的日常利用率不高, 而受限于社會(huì)屬性難以形成大影響力的知識(shí)交流行為, 但總體來說屬于相關(guān)話題優(yōu)質(zhì)產(chǎn)出的潛力用戶。
3.3 多平臺(tái)差異對比
為進(jìn)一步探究平臺(tái)間知識(shí)交流差異, 對多平臺(tái)的知識(shí)交流主題占比分布統(tǒng)計(jì)如圖6 所示。結(jié)果顯示, 各平臺(tái)用戶的知識(shí)交流主題存在明顯差異。新浪微博中應(yīng)用場景的主題討論占比最高(51.6%),而對其他主題的探討頻次相對平均, 相較于其他平臺(tái)表現(xiàn)出更強(qiáng)的主題廣泛型。百度貼吧的知識(shí)交流則更集中在咨詢求助主題上, 如賬號(hào)注冊、登錄節(jié)點(diǎn)、網(wǎng)站地址等針對話題本體使用的用戶求助意愿在3 個(gè)平臺(tái)中表現(xiàn)最強(qiáng)烈, 原因可能是興趣平臺(tái)的知識(shí)交流主題更傾向于聚集化, 對于某些典型咨詢問題的響應(yīng)速度較快、內(nèi)容較優(yōu)質(zhì), 因此用戶樂于利用該平臺(tái)尋求咨詢解答。相對來說, CSDN 的知識(shí)交流多為行業(yè)進(jìn)展、應(yīng)用場景、咨詢求救和相關(guān)產(chǎn)業(yè)主題, 而涉及其他主題的知識(shí)交流內(nèi)容較少,體現(xiàn)出一定的平臺(tái)垂直性。
圖7 反映了多平臺(tái)知識(shí)交流用戶畫像分布情況。作為開放式的大眾社交平臺(tái), 新浪微博具有多元化的用戶群體, 在4 個(gè)群體用戶占比分布上最為平均,其中專業(yè)內(nèi)容貢獻(xiàn)者、綜合領(lǐng)域共享者、社交話題用戶以及普通網(wǎng)民等不同話語主題均廣泛參與到科技前沿性話題的知識(shí)交流行為中, 并在知識(shí)傳播交流中發(fā)揮作用。作為私域化的興趣交流平臺(tái), 百度貼吧的大多數(shù)用戶由社交求知型和話題潛力型組成,用戶利用平臺(tái)的功能屬性和獨(dú)特社群制度, 進(jìn)行社交性的知識(shí)交流問答, 提升自身認(rèn)知水平, 尋求群體身份認(rèn)同。作為技術(shù)型的垂直知識(shí)平臺(tái), CSDN以綜合共享型知識(shí)交流用戶為主, 以發(fā)表原創(chuàng)博文的形式進(jìn)行知識(shí)創(chuàng)作和共享。此外, 由于平臺(tái)兼顧問答功能, 因此社交求知型和話題潛力型也是該平臺(tái)的重要用戶群體。結(jié)合各平臺(tái)特性和用戶構(gòu)成,可以看出本文構(gòu)建的多平臺(tái)用戶畫像標(biāo)簽體系具有較強(qiáng)的解釋性和普適性。
4結(jié)語
本文在以往網(wǎng)絡(luò)平臺(tái)及知識(shí)交流相關(guān)研究的基礎(chǔ)上, 提出了一種基于多平臺(tái)視角下的知識(shí)交流用戶畫像標(biāo)簽體系, 并以多平臺(tái)數(shù)據(jù)為研究樣本, 圍繞科技前沿性話題ChatGPT 探討用戶知識(shí)交流主題內(nèi)容、用戶群體分類及多平臺(tái)知識(shí)交流主題和畫像差異。研究首先采用BERTopic 主題模型對博文數(shù)據(jù)進(jìn)行文本聚類, 獲得46 個(gè)知識(shí)交流主題和8大研究方向; 其次從自然屬性、社會(huì)屬性、知識(shí)交流行為屬性和知識(shí)交流主題屬性4 個(gè)維度對多平臺(tái)用戶知識(shí)交流特征進(jìn)行標(biāo)簽分級(jí)與概念解釋, 并利用K-means 算法進(jìn)行用戶聚類, 提取出4 類群體的典型特征; 最后從知識(shí)交流主題和用戶畫像兩個(gè)維度對比分析平臺(tái)間差異。研究有助于進(jìn)一步豐富多平臺(tái)用戶信息行為相關(guān)研究, 有利于相關(guān)平臺(tái)針對不同群體提出針對性服務(wù)對策。
具體而言, 本文實(shí)證研究結(jié)果發(fā)現(xiàn), 多平臺(tái)間知識(shí)交流主題和用戶畫像存在顯著差異, 不同類型平臺(tái)應(yīng)采取針對性地優(yōu)化策略和管理手段, 以提高平臺(tái)經(jīng)營能力。①針對大眾社交平臺(tái)參與知識(shí)交流的用戶群體多元、交流活躍度高、知識(shí)交流主題廣泛等特征, 平臺(tái)可動(dòng)態(tài)跟蹤用戶知識(shí)交流需求與行業(yè)前沿?zé)狳c(diǎn), 根據(jù)用戶自然特征與使用行為等特征及時(shí)匹配推送興趣知識(shí)內(nèi)容, 以降低用戶信息篩選成本, 從而提高使用黏性。同時(shí), 完善博文反饋機(jī)制, 利用平臺(tái)傳播能力優(yōu)勢對專業(yè)貢獻(xiàn)型及綜合共享型用戶的知識(shí)產(chǎn)出與傳播方向進(jìn)行引導(dǎo), 正確把控信息輿論導(dǎo)向; ②針對興趣交流平臺(tái)以社交求知型和話題潛力型用戶為主、知識(shí)交流主題集中于咨詢求助等特征, 平臺(tái)可設(shè)立專門答疑板塊, 優(yōu)化個(gè)性化問答服務(wù), 引入趣味性、游戲化的交互功能,并完善獎(jiǎng)勵(lì)機(jī)制鼓勵(lì)潛力用戶參與互動(dòng), 以激發(fā)用戶活性; ③針對垂直知識(shí)平臺(tái)兼顧綜合分享、話題潛力及社交求知型用戶的畫像特征與集中化的知識(shí)交流主題, 平臺(tái)可根據(jù)用戶訴求提供個(gè)性化知識(shí)推薦與付費(fèi)服務(wù), 并積極與行業(yè)專家、技術(shù)達(dá)人和高??蒲袡C(jī)構(gòu)等群體達(dá)成資源共享與深度合作, 有效提高知識(shí)交流內(nèi)容質(zhì)量。
本文的局限性主要為研究對象僅針對ChatGPT單一話題, 數(shù)據(jù)樣本則選取的是大眾社交平臺(tái)、興趣交流平臺(tái)、垂直知識(shí)平臺(tái)三類平臺(tái)中的代表, 所獲得的知識(shí)交流主題和畫像結(jié)果可能存在一定的局限性, 在未來的研究中可以將研究對象拓展到其他平臺(tái)的其他話題上, 驗(yàn)證用戶畫像在面向不同領(lǐng)域數(shù)據(jù)的泛化能力, 以構(gòu)建更加全面、精準(zhǔn)的多平臺(tái)用戶畫像標(biāo)簽體系, 支撐多元平臺(tái)知識(shí)交流生態(tài)的持續(xù)完善。