翁雙卿
摘 要 主要研究熱點(diǎn)話題追蹤的方法及策略。首先,從熱點(diǎn)話題追蹤內(nèi)容出發(fā),對熱點(diǎn)話題追蹤過程中的注意事項進(jìn)行研究。其次,在上述基礎(chǔ)上全面挖掘了聚類熱點(diǎn)話題追蹤和自適應(yīng)熱點(diǎn)話題追蹤中的主要內(nèi)容,結(jié)合實際案例深入分析了聚類追蹤報道及自適應(yīng)追蹤報道的應(yīng)用效益,望為新時期熱點(diǎn)話題追蹤工作的開展提供一定的參考。
關(guān)鍵詞 話題追蹤;內(nèi)容;方法;應(yīng)用
中圖分類號 G2 文獻(xiàn)標(biāo)識碼 A 文章編號 2096-0360(2017)08-0163-02
信息作為人們生活中不可或缺的關(guān)鍵部分,直接影響著人們的生活質(zhì)量和生產(chǎn)效益。隨著互聯(lián)網(wǎng)的不斷深入,信息已經(jīng)越來越多樣化,面對快速更新的海量信息,如何形成高效的獲取技術(shù),對熱點(diǎn)話題進(jìn)行全面把握已勢在必行。話題追蹤技術(shù)能夠借助數(shù)據(jù)手段快速、高效地獲取相應(yīng)信息,對熱點(diǎn)話題進(jìn)行全面把握,對用戶獲取信息效益的提升具有至關(guān)重要的意義,已經(jīng)成為人們關(guān)注的焦點(diǎn)。
1 熱點(diǎn)話題追蹤的主要內(nèi)容
1.1 信息與熱點(diǎn)話題
熱點(diǎn)話題是圍繞熱點(diǎn)新聞、報道、事件、活動等形成且達(dá)到一定搜索量的話題。這種話題需圍繞一個種子事件、活動,或與一個種子事件、活動有間接的關(guān)系,即具有一定的關(guān)聯(lián)且能夠形成信息群。如2015年3月,“匈牙利展出肉身坐佛疑為三明20年前被盜文物”的帖子引起上億名網(wǎng)友關(guān)注,在大田縣吳山鄉(xiāng)陽春村村民找出許多當(dāng)年這尊千年肉身坐佛曾經(jīng)在此“生活”的蹤跡,兩方就肉身坐佛歸屬進(jìn)行“爭論”。在這里面肉身坐佛就是信息的種子源,由此衍生了了大量的信息,中央電視臺、中國之聲、新華社、人民網(wǎng)等20多家中央、省、市媒體進(jìn)行相關(guān)采訪報道,匈牙利華媒《歐洲論壇》等海外華文媒體也參與采訪調(diào)查,章公祖師、肉身坐佛等相關(guān)詞句成了熱門搜索的話題。
1.2 話題追蹤概述
我國話題追蹤起步較晚,在20世紀(jì)80年代才開始對話題追蹤進(jìn)行重視,90年代現(xiàn)代化話題追蹤技術(shù)體系才初步形成。上述追蹤的過程中主要從數(shù)據(jù)信息出發(fā),構(gòu)建相應(yīng)的數(shù)據(jù)庫,在該基礎(chǔ)上實施數(shù)據(jù)評估及處理,確定話題的相關(guān)性和時效性,對關(guān)聯(lián)話題的信息內(nèi)容進(jìn)行順序整理,從而為用戶提供完整的信息體系。
1.3 話題追蹤的內(nèi)容
熱點(diǎn)話題追蹤技術(shù)應(yīng)用的過程中需要全面把握熱點(diǎn)話題內(nèi)容,做好報道分切、話題識別、事件發(fā)現(xiàn)、分層追蹤等,這樣才能夠?qū)狳c(diǎn)話題進(jìn)行全面把握。
報道分切:熱點(diǎn)話題追蹤的過程中需要對話題報道流進(jìn)行處理,確定熱點(diǎn)話題的來源,做好話題的“分切”,依照具體來源形成歸類、整理,從而為話題追蹤奠定良好的基礎(chǔ)。報道分切過程中需做好信息分切、整理和標(biāo)記。
話題識別:識別過程中可依照報道分切、整理和標(biāo)記后的信息進(jìn)行針對性分析,識別熱點(diǎn)話題的相關(guān)性,在該基礎(chǔ)上進(jìn)行篩選。篩選完整后依照熱點(diǎn)話題時間對其進(jìn)行排序,確定熱點(diǎn)話題中事件發(fā)展進(jìn)程。
事件發(fā)現(xiàn):熱點(diǎn)話題具有實時性、動態(tài)性和發(fā)展性。在話題追蹤的過程中需要從實時、動態(tài)和發(fā)展的角度對事件進(jìn)行分析,做好新事件的發(fā)現(xiàn),及時將新事件納入到話題整理內(nèi)容中,從而提升熱點(diǎn)話題追蹤效益,為用戶提供完整的話題信息。
分層追蹤:熱點(diǎn)話題往往具有一定的層次性,在熱點(diǎn)話題追蹤的過程中需要做好分層話題追蹤,在報道分切及話題識別基礎(chǔ)上將原來的平面話題轉(zhuǎn)變?yōu)樵掝}簇,由子話題節(jié)點(diǎn)、子話題簇豐富熱點(diǎn)話題內(nèi)容,更熱點(diǎn)話題內(nèi)容及發(fā)展?fàn)顩r一目了然。
2 熱點(diǎn)話題追蹤的方法及策略
2.1 聚類追蹤報道分析
聚類追蹤報道主要從熱點(diǎn)話題內(nèi)容出發(fā),將熱點(diǎn)話題依照主題、內(nèi)容等的差異劃分為不同的子集,在該子集基礎(chǔ)上實施熱點(diǎn)話題主題或核心內(nèi)容的追蹤,形成相應(yīng)的報道。該技術(shù)在處理的過程中需要對聚類操作進(jìn)行合理把握,做好聚類指標(biāo)的設(shè)置,在該基礎(chǔ)上嚴(yán)格依照話題內(nèi)容實施處理,這樣才能夠保證熱點(diǎn)話題聚類子集的準(zhǔn)確性和有效性。
熱點(diǎn)話題聚類追蹤的過程中需要對話題主題及內(nèi)容等進(jìn)行把握,總結(jié)出話題的“特征”,確定熱點(diǎn)話題中的線索,在該基礎(chǔ)上構(gòu)建熱點(diǎn)話題的映射關(guān)系,從而實施相應(yīng)聚類處理。上述處理的過程中必須要把握好話題主題和內(nèi)容提出的準(zhǔn)確性、代表性和獨(dú)立性。
常規(guī)聚類處理過程中主要依照熱點(diǎn)話題狀況實施扁平聚類和層次聚類。扁平聚類的過程中只能夠依照主題對話題進(jìn)行劃分,不能夠確定話題內(nèi)容之間層次性。K-means聚類算法就是依照二維平面聚類后熱點(diǎn)話題之間的距離狀況確定其相關(guān)性的,實施針對性劃分的方法。該算法運(yùn)用的過程中計算內(nèi)容較為簡單,聚類處理速度非常快,只需要將熱點(diǎn)話題到范圍質(zhì)心歐式距離平方值最小的熱點(diǎn)劃分為一類即可,對其進(jìn)行標(biāo)注。在K-means聚類算法處理的過程中話題追蹤時還需要對標(biāo)注的主題和核心內(nèi)容進(jìn)行篩選即可,借助數(shù)據(jù)檢索技術(shù)就可以實現(xiàn),操作非常簡單,實用性較廣。如在“韓春雨學(xué)術(shù)造假”熱點(diǎn)話題聚類處理過程中就可以將對采集到的信息在專家評論或智能評論基礎(chǔ)上實施二維平面分布,確定位置后通過K-means聚類算法確定平均值,最有平均值范圍內(nèi)的話題即為所需的熱點(diǎn)話題關(guān)聯(lián)信息,開展后續(xù)報道。
而層次聚類既能夠顯示話題主題,又能夠分析話題內(nèi)容,聚類的效果更佳明顯,話題追蹤結(jié)果更佳全面。凝聚式層次聚類過主要依照從上而下的原則將各項熱點(diǎn)話題內(nèi)容整理和聚類,形成子話題簇,在算法分裂基礎(chǔ)上對各項內(nèi)容進(jìn)行分裂整理,為后續(xù)報道奠定了良好的基礎(chǔ)。該處理方法應(yīng)用的過程中需要構(gòu)建好話題層次的劃分,形成針對性權(quán)重,并結(jié)合專家評論或智能檢索結(jié)果將其與權(quán)重相乘,確定話題的關(guān)聯(lián)度。
2.2 自適應(yīng)追蹤報道分析
自適應(yīng)追蹤報道主要圍繞話題中的各項內(nèi)容對話題進(jìn)行追蹤,其借助自學(xué)習(xí)能力對話題進(jìn)行分析和評價,確定話題是否符合核心內(nèi)容,對其進(jìn)行劃分,從而形成針對性報道內(nèi)容。該技術(shù)在運(yùn)用的過程中可以依照熱點(diǎn)話題狀況對其追蹤進(jìn)行實施調(diào)整,借助內(nèi)容和統(tǒng)計方法計算話題主體和內(nèi)容的相似度,將后續(xù)話題報道的計算數(shù)值與上述相似度對比,確定兩者具有一定關(guān)聯(lián)后將后續(xù)報道與原話題內(nèi)容整合,從而實現(xiàn)話題鏈的構(gòu)建,完成后續(xù)報道的設(shè)定。
自適應(yīng)熱點(diǎn)話題追蹤的過程中需要對追蹤模型的構(gòu)建進(jìn)行全面把握,做好參數(shù)的調(diào)整,這樣才能夠保證追蹤的可靠性和準(zhǔn)確性。一般自適應(yīng)話題追蹤的過程中主要通過調(diào)整閾值、相似度和特征詞的權(quán)重來滿足追蹤要求,實現(xiàn)熱點(diǎn)話題的科學(xué)“匯總”。
特征詞權(quán)重調(diào)整的過程中可以利用人工調(diào)節(jié)的方法對熱點(diǎn)話題的特征值權(quán)重進(jìn)行設(shè)定,并依照具體的熱點(diǎn)話題內(nèi)容對權(quán)重值進(jìn)行調(diào)整,在調(diào)整過程中需要對報道和話題的相似度進(jìn)行對比,依照上述相似度值對熱點(diǎn)話題追蹤內(nèi)容進(jìn)行修正。相似度調(diào)整的過程中主要依照計算數(shù)值的相似度確定目標(biāo)話題與熱點(diǎn)話題之間的關(guān)聯(lián)狀況,上述相似度一般指內(nèi)容相似頻率,由頻率參數(shù)確定兩者之間的關(guān)聯(lián)系數(shù),進(jìn)而實施熱點(diǎn)話題追蹤。除此之外,還需要通過閾值調(diào)整對熱點(diǎn)話題的時間信息進(jìn)行分析,在話題創(chuàng)建時間和熱點(diǎn)信息報道拓展時間間隔基礎(chǔ)上分析相似度,從而保證自適應(yīng)追蹤的可靠性和有效性,為后續(xù)報道提供良好的信息資料。在該過程中人員需要重視好熱點(diǎn)話題中的各項因素,尤其是要把握好地域因素、時間因素等對熱點(diǎn)事件追蹤報道的影響,依照上述因素把握好報道的相似度范圍,做好后續(xù)報道內(nèi)容的篩選和跟進(jìn),形成系統(tǒng)化、層次化熱點(diǎn)話題追蹤報道體系,這樣才能夠從根本上改善熱點(diǎn)話題追蹤質(zhì)量,形成實時、全面的熱點(diǎn)話題追蹤報道內(nèi)容。
在新加坡航空公司航班墜毀熱點(diǎn)話題追蹤的過程中就可以通過自適應(yīng)追蹤報道對其相關(guān)信息進(jìn)行整理,確定飛機(jī)失事報道、傷亡狀況、損失狀況、航班目前狀態(tài)、事件處理結(jié)果等內(nèi)容,在該基礎(chǔ)上依照特征詞劃分確定自適應(yīng)追蹤中的子話題簇并確定各個話題的權(quán)重。追蹤過程中共發(fā)現(xiàn)802篇報道,依照報道和話題內(nèi)容進(jìn)行選擇后構(gòu)建子話題簇模型和子報道模型后發(fā)現(xiàn)用戶對航班狀態(tài)、傷亡狀況、事件發(fā)生原因等較為重視。因此,在后續(xù)報道過程中就需要做好上述熱點(diǎn)話題的追蹤,依照事件時間、區(qū)域等做好后續(xù)航班信息報道內(nèi)容的整理,形成相應(yīng)的追蹤報道內(nèi)容。
3 總結(jié)
熱點(diǎn)話題追蹤的過程中需要對話題主題和內(nèi)容進(jìn)行全面把握,依照追蹤需求合理選擇聚類追蹤報道或自適應(yīng)追蹤報道,形成科學(xué)的熱點(diǎn)話題追蹤體系,從而全面提升話題追蹤效益。在聚類追蹤過程中需做好聚類算法的選擇,依照算法實施二次平面分布或?qū)哟螜?quán)重構(gòu)建,從而為聚類奠定良好的數(shù)據(jù)基礎(chǔ);自適應(yīng)追蹤過程中要對特征值、相關(guān)度、閾值進(jìn)行把握,在上述基礎(chǔ)上實施模型數(shù)據(jù)與實際數(shù)據(jù)相似度的對比,找出報道與熱點(diǎn)話題的關(guān)聯(lián)度,從而實施相應(yīng)的話題聚類追蹤。