林翰軒 耿琛明 史景宏 南京理工大學(xué)電子工程與光電技術(shù)學(xué)院
基于WEB熱詞挖掘的熱點(diǎn)方向預(yù)測(cè)
林翰軒 耿琛明 史景宏 南京理工大學(xué)電子工程與光電技術(shù)學(xué)院
文章需要解決的是當(dāng)前熱點(diǎn)領(lǐng)域的分析以及未來熱點(diǎn)領(lǐng)域的預(yù)測(cè),同時(shí)對(duì)最終目標(biāo)“基于WEB熱詞挖掘的熱點(diǎn)方向預(yù)測(cè)”進(jìn)行合理化建議。針對(duì)當(dāng)前領(lǐng)域分析,文章收集大量近期發(fā)布的文本數(shù)據(jù),確保時(shí)效性,對(duì)高頻詞匯進(jìn)行了統(tǒng)計(jì),并進(jìn)行了當(dāng)前熱點(diǎn)領(lǐng)域的分析;對(duì)于未來熱點(diǎn)領(lǐng)域的預(yù)測(cè),文章在數(shù)據(jù)收集時(shí)便對(duì)發(fā)布數(shù)據(jù)的時(shí)間段、時(shí)間跨度做了規(guī)定,并結(jié)合權(quán)威網(wǎng)站以及專家評(píng)論,對(duì)未來領(lǐng)域做出預(yù)測(cè),從而保證預(yù)測(cè)結(jié)果的合理性。
大數(shù)據(jù) 神經(jīng)網(wǎng)絡(luò)模型 主成分分析
隨著大數(shù)據(jù)時(shí)代的來臨,網(wǎng)絡(luò)信息量以爆炸式增長。在此環(huán)境下,為了更好的應(yīng)對(duì)包括確定投資方向在內(nèi)等各類問題,如何更高效地獲取有效信息亟待進(jìn)一步的解決。文章針對(duì)如何從大量數(shù)據(jù)中提取出特定時(shí)期高頻出現(xiàn)的熱點(diǎn)詞的問題,建立了基于神經(jīng)網(wǎng)絡(luò)算法的分詞模型和基于主成分分析法的綜合評(píng)價(jià)機(jī)制。
本模型在對(duì)目標(biāo)文章進(jìn)行整體分詞的基礎(chǔ)上,對(duì)所輸出的有效分詞進(jìn)行頻率統(tǒng)計(jì),最終確定查找所需的關(guān)鍵詞。具體步驟如下:首先,對(duì)整篇文章中的語句進(jìn)行分詞處理;而后,對(duì)所分得的分詞進(jìn)行人工干預(yù):將單字分詞、代詞分詞等無關(guān)詞語剔除,在一定程度上減少接下來需要比對(duì)的樣本的大?。粚?duì)剩余的分詞按照頻率大小由高到低進(jìn)行排序;將所得的分詞序列以10個(gè)/組進(jìn)行劃分,分別于詞庫進(jìn)行比對(duì),進(jìn)行所得分詞的可靠性分析;將符合條件的分詞作為文章的關(guān)鍵詞。
基于BP(Back Propagation)神經(jīng)網(wǎng)絡(luò)的分詞模型構(gòu)建如下:
定義2:針對(duì)應(yīng)用域(Application domain)的詞匯集(詞庫):
一般地,可以省去針對(duì)某種應(yīng)用域的限制,認(rèn)為任何詞庫都是針對(duì)一種應(yīng)用的,νd簡記為ν,于是?v表示在ν的詞匯串集合。
Seg(w,k)=1就表示w是詞;Seg(w,k)=0就 表 示w不是詞。一般來說,當(dāng)把κ退化為一個(gè)詞庫ν時(shí),
由于統(tǒng)計(jì)的高頻詞并不一定是關(guān)鍵詞,故通過如下公式計(jì)算所選高頻詞的熱度:其中,xi為該詞匯在第i個(gè)網(wǎng)站的全部所給文檔中出現(xiàn)的頻率,βi為該網(wǎng)站的可信度系數(shù),受到網(wǎng)站規(guī)模、樣本密度等多方面因素影響。
在大量網(wǎng)絡(luò)數(shù)據(jù)的匹配以及基于上述兩個(gè)高頻詞熱度計(jì)算的基礎(chǔ)上,文章結(jié)合數(shù)據(jù)挖掘中的相關(guān)理論以及部分經(jīng)濟(jì)分析中的分析要素以及相應(yīng)原理,考慮了風(fēng)險(xiǎn)和回報(bào)率兩個(gè)因素對(duì)投資方向的確定的影響。針對(duì)此次收集到的數(shù)據(jù),根據(jù)分析,文章認(rèn)為電子商務(wù)以及通信領(lǐng)域是當(dāng)前投資的熱點(diǎn)領(lǐng)域。在之前的數(shù)據(jù)統(tǒng)計(jì)當(dāng)中,文章發(fā)現(xiàn)科技在熱點(diǎn)詞匯中占有一定的比重,在近期的數(shù)據(jù)統(tǒng)計(jì)中科技依然占有一定比重,此外,智能手機(jī)、云數(shù)據(jù)等隨著科技發(fā)展而衍生的新型詞匯,以及互聯(lián)網(wǎng),京東等電子商務(wù)平臺(tái)亦占有較大的比重,故文章認(rèn)為通信和電子商務(wù)是當(dāng)前投資的熱點(diǎn)領(lǐng)域。為了更好地實(shí)現(xiàn)這一領(lǐng)域的突破與進(jìn)展,文章特作出如下建議:
(1)建立完善的網(wǎng)絡(luò)權(quán)威或可信度評(píng)價(jià)體系:該體系既可具體針對(duì)某一領(lǐng)域,可針對(duì)特定人群,也可綜合多個(gè)領(lǐng)域?qū)ο嚓P(guān)網(wǎng)站進(jìn)行綜合性評(píng)價(jià)(如百度,新浪,谷歌,維基等);(2)WEB熱點(diǎn)信息的動(dòng)態(tài)觀察和及時(shí)更新;(3)挖掘算法在海量數(shù)據(jù)挖掘時(shí)的適應(yīng)性和時(shí)效性研究;(4)熱門站點(diǎn)可及時(shí)提供當(dāng)前熱點(diǎn)詞以特工個(gè)性化服務(wù),并在此基礎(chǔ)上進(jìn)行網(wǎng)站整體性能最優(yōu)化的研究;(5)分析研究分類和聚類在信息采集領(lǐng)域的研究,避免歧義的出現(xiàn)
經(jīng)過數(shù)據(jù)統(tǒng)計(jì)與模型模擬分析,實(shí)現(xiàn)投資趨勢(shì)以及投資效益的預(yù)測(cè)過程中較重要的一步便是WEB大數(shù)據(jù)的挖掘,具有極強(qiáng)的實(shí)用性,但同時(shí)這也是一個(gè)較新的研究領(lǐng)域。文章經(jīng)過數(shù)據(jù)篩選認(rèn)為通信和電子商務(wù)是當(dāng)前投資的熱點(diǎn)領(lǐng)域。
[1]王敬,中文文檔分類中若干關(guān)鍵技術(shù)的研究,湖北工業(yè)大學(xué)碩士學(xué)位論文,2007
[2]王俊義,HTML文本自動(dòng)分類技術(shù)的研究與工具的實(shí)現(xiàn),內(nèi)蒙古大學(xué)碩士學(xué)位論文,2004
[3]Youby,數(shù)據(jù)挖掘國內(nèi)外研究現(xiàn)狀,http://wenda.so.com/q/1365725240061485,2016.5.22
[4]何嘉,基于遺傳算法優(yōu)化的中文分詞研究,電子科技大學(xué)博士學(xué)位論文:2012年,8~66
[5]李慶虎,陳玉健,孫家廣,一種中文分詞詞典新機(jī)制— —雙字哈希機(jī)制,中文信息學(xué)報(bào),第17卷第4期:2002,15~18。