亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于新浪微博內(nèi)容的精準廣告投放

        2016-01-19 02:46:11齊冬梅
        湖北工程學(xué)院學(xué)報 2015年6期
        關(guān)鍵詞:博文主題詞博主

        齊冬梅,李 曉

        (河北師范大學(xué) 信息技術(shù)學(xué)院,河北 石家莊 050024)

        基于新浪微博內(nèi)容的精準廣告投放

        齊冬梅,李曉

        (河北師范大學(xué) 信息技術(shù)學(xué)院,河北 石家莊 050024)

        摘要:利用同義詞詞林定期對微博博主的微博進行主題詞的提取,建立用戶興趣模型。廣告商利用

        關(guān)鍵詞:精準廣告投放;主題詞提??;同義詞詞林 本文研究如何通過定期分析用戶博文得到用戶近期興趣,并利用主題詞建立用戶興趣模型,通過廣告與主題詞的匹配實現(xiàn)高效的、有針對性的廣告投放。 廣告商在進行廣告推廣時,如果提供的只與要推廣的產(chǎn)品有關(guān),比如健身器材商家要推廣“健身球”,而主題詞里可能沒有“健身球”,但是有“健身”、“跑步”等運動有關(guān)詞匯,說明博主對運動感興趣,也可以進行推廣。因此廣告推廣時根據(jù)提供的關(guān)鍵詞自動推送主題詞供用戶選擇。根據(jù)表4,主題詞系數(shù)反映了主題詞在博文中的重要程度,因此可以提供系數(shù)的選擇,以便提高匹配程度。圖3是廣告推廣的配置界面。如果選取的關(guān)鍵詞比較大眾化,系數(shù)值選取0.015就能基本把相關(guān)文檔都搜索到,如果是一些常用的本類詞匯,系數(shù)值選取0.005基本就能選取所有文檔,但對于更專業(yè)使用的一些詞匯,參數(shù)設(shè)置為0就可以搜索到需要的資源。 在廣告發(fā)布時,首先輸入廣告,然后對詞匯出現(xiàn)頻率的下限設(shè)置,選擇該詞所在博文博主的主頁進行廣告分發(fā)。 本文提取的主題詞都在一定程度上反應(yīng)博文的內(nèi)容,參數(shù)δ描述了本在體現(xiàn)博文內(nèi)容方面的能力。如果想要更高的廣告匹配度,一方面廣告方要選取表達自己產(chǎn)品的主題詞,另一方面要選取能夠有效表達博主主題的詞匯,該過程涉及到參數(shù)δ的選取。 表5主題詞與的匹配結(jié)果參數(shù)δ 由表5,如果選取的比較大眾化,當δ取0.015時,就能基本上搜索到所有相關(guān)文檔,如果是一些常用的本類詞匯,當δ取0.005時,基本就能搜索到所有相關(guān)文檔,但是對于更專業(yè)的一些詞匯,將δ參數(shù)設(shè)置為0才能搜索到需要的資源。 找到與廣告匹配的主題詞,進而找到對該廣告感興趣的博主,從而能夠在其微博主頁進行針對性的廣告投放。實驗結(jié)果表明,本文方法能夠?qū)崿F(xiàn)廣告與博文內(nèi)容較高的匹配度,為廣告的精準投放提供決策。 中醫(yī) 刮痧 推拿 針灸 胖大海0.005100%90%95%85%15%0.010100%75%60%80%00.015100%30%15%5%00.02085%10%0000.02515%00000.030000000.035000000.04000000

        目前,互聯(lián)網(wǎng)正從“人與機器”的時代邁向“人與人”的時代。來自中國互聯(lián)網(wǎng)信息中心的統(tǒng)計數(shù)據(jù)顯示,目前中國微博用戶數(shù)達2.75億。這些微博用戶用手機隨時隨地通過微博記錄生活的點點滴滴,蘊含著巨大的商機。因此,如何向這個人群定向投放廣告是非常值得研究的課題。

        當前,對微博的研究主要集中在話題事件、情感分析、關(guān)系分析等幾個方面[1]。目前主要基于意見領(lǐng)袖或者在官方微博進行廣告投放,而基于廣泛用戶的投放僅僅針對用戶注冊信息進行靜態(tài)投放[2]?;谝庖婎I(lǐng)袖的投放是利用名人效應(yīng)和數(shù)量龐大的粉絲群擴大廣告的曝光率,但這種方法影響了用戶的視覺體驗,勢必會引起用戶的反感。當廠家通過官方微博對產(chǎn)品進行宣傳時,單一的內(nèi)容會喪失大批粉絲,嚴重影響廣告的投放效果[3]。針對用戶靜態(tài)注冊信息進行廣告投放,雖然一定程度上迎合了用戶的要求,但由于這種方式精準度欠缺,會降低用戶的體驗。如何想用戶所想,提供用戶所需,達到動態(tài)推薦產(chǎn)品的目的呢?劉剛等[4]基于社交網(wǎng)絡(luò)中用戶的關(guān)注關(guān)系建立星型模型,對某方面關(guān)注度高的用戶投放廣告,一定程度上實現(xiàn)了投放對象的動態(tài)化、個性化和廣告的高曝光率。如果想進一步提高動態(tài)化和個性化投放,向每一個注冊的非僵尸用戶推薦廣告,有必要對每個用戶的微博信息進行數(shù)據(jù)挖掘,以達到進行個性化信息推送的目的。

        1基于微博內(nèi)容的精準廣告投放

        1.1基于同義詞詞林的主題詞提取

        確定主題詞主要有兩種方法,一種是通過與訓(xùn)練用語料庫的主題詞比較來確定,另外一種是根據(jù)該詞在文本中的詞頻統(tǒng)計、概率分布等數(shù)據(jù)來分析判定是否是該文的主題詞[5]。與單篇文檔表達一個主題有所不同,微博的主題具有多樣性,某個博主同一時間可能會關(guān)注多個不同的主題,要表示同一博主的主題模型,就要把該博主所關(guān)注的所有主題都表達出來。由于多條微博文本的不連貫性,相同主題可能用相似或相關(guān)的詞匯進行表達,如何分析這些語義之間的相似性非常關(guān)鍵。為此,本文利用同義詞詞林進行語義分析,提取出用戶主題詞。博文主題提取過程見圖1。

        李曉(1974-),女,河北石家莊人,河北師范大學(xué)信息技術(shù)學(xué)院講師,碩士。

        圖1 提取博文主題

        (1)數(shù)據(jù)清理。首先利用NLPIR漢語分詞系統(tǒng)對文本進行分詞,然后再進行詞性標注,保留名詞、動詞和形容詞三種實義詞,去掉其余詞性的詞和特殊符號[6]。

        (2)數(shù)據(jù)表示。由于博文一般比較短小,盡管一段時間內(nèi)博主的不同博文可能存在一定的相關(guān)性,但是用詞可能會出現(xiàn)不一致,因此對于博文的相似性判斷僅僅依賴相同詞匯可能會出現(xiàn)漏判,因此在進行相似性判定時需要考慮語義的相關(guān)性和相似性。本文利用《哈工大信息檢索研究室同義詞詞林擴展版》實現(xiàn)詞匯相關(guān)及相似性判定?!豆ご笮畔z索研究室同義詞詞林擴展版》是對詞典《同義詞詞林》的擴展,將詞語表示為5層結(jié)構(gòu),如圖2所示。

        圖2 《哈工大信息檢索研究室同義詞

        每一層的編碼方式如表1。表1均引自《哈工大信息檢索研究室同義詞詞林擴展版》的說明。

        表1 哈工大同義詞詞林每一層編碼方式

        詞林包括A~L的12個大類,分別是人、物、時間與空間、抽象事物、特征、動作、心理、活動、現(xiàn)象與狀態(tài)、關(guān)聯(lián)、語助和敬語。第一至第四大類主要是名詞。其中,第三大類主要是時間詞、方位詞與處所詞。第五大類大多屬形容詞。第六至第十大類大多屬動詞,第十大類主要是表明相互關(guān)系的動詞,含義比較抽象,有的學(xué)者稱之為關(guān)系動詞。第十一大類大多屬虛詞,其中包括副詞等六個詞類。第十二大類包括難以分到其他類別的客套語,大部分客套語按其含義分別列入各個有關(guān)類別中[7]。

        每一個詞都可以通過上圖的層次結(jié)構(gòu)來表示,例如把詞匯“不謝”表示為“La06D01”。對博文進行分詞后也可以把相應(yīng)的詞匯表示為字母數(shù)字標識的層次結(jié)構(gòu)。

        (3)提取博文主題。如果某個博主在若干條博文都提到某個主題,那么就可以推斷該博主對這個主題是感興趣的。由于博文不具有同一篇文檔的連貫性,表達同一主題的詞匯往往是近似的或者僅僅是相關(guān)的,導(dǎo)致這些詞匯在待處理的所有博文中的分布是稀疏的,因此詞頻無法反映該詞匯在微博中的重要程度。如果把近義詞及相關(guān)詞作為同一類詞匯,該類詞匯的出現(xiàn)頻率可以代表該類詞匯與微博主題的相關(guān)程度,就可以將出現(xiàn)頻率高的這類詞匯作為該微博的主題。

        同義詞詞林在不同層次按類別進行了劃分,第四個層次表達了一大類,比如“Ab04A*”都是表示“嬰兒”的詞匯,而“Ab04B*”都是表示“兒童”的詞匯,表達了具有一定相關(guān)性的主題,因此本文按照第四類代碼選取主題內(nèi)容。

        把數(shù)據(jù)清理后的詞匯用同義詞詞林中的代碼一一表示,對前四層代碼在全文中的出現(xiàn)頻率進行統(tǒng)計排序,將大于參數(shù)γ的代碼詞匯保留下來作為博文主題內(nèi)容。利用該方法可以將表達同一主題的相近詞和相關(guān)詞都包括進來,從而解決由于博文短小和文檔的不連貫性而導(dǎo)致表達同一主題的詞匯稀少而無法提取的問題。主題詞編碼形式表示為:

        Tcode=

        (1)

        式中:code為第四層代碼表示,c為第五層代碼表示,Q為第四層代碼在文檔中的詞頻。

        代碼在整個文檔中的出現(xiàn)頻率表示該代碼的重要程度,同樣這個代碼中下級代碼在這類代碼中的頻率也表明了它在該類別中的重要程度,表示為:

        (2)

        式中:codew為第五層代碼;w為最初的具體詞匯;α為表示為代碼后,按第五層代碼計算的在主題中的詞頻,表示其在主題中的重要程度;β為詞匯在第5層中的詞頻,表明其在這一詞群中的重要程度?;谕x詞詞林的文檔詞匯表示見表2。

        表2 基于同義詞詞林的文檔詞匯表示

        當博文的主題提取出來之后,最終用詞匯來表達博文的主題詞,表示如下:

        Tw={w1:δ1,w2:δ2…}

        (3)

        其中δ為θ、α、β三者的乘積,表示該詞匯整個博文中的詞頻,它不僅表示該詞匯在博文中的重要程度,也反映了該博主對主題的重視程度。

        1.2依據(jù)檢索原理進行廣告匹配

        博主的興趣可能隨時間推移而有所變化,因此本文對博文主題的提取按照時間分段進行,分別記錄某段時間博主的興趣所在,根據(jù)不同時期的興趣實現(xiàn)動態(tài)的個性化廣告投放。表3是根據(jù)每個用戶的主題表達建立本用戶的興趣模型。

        表3 博主的興趣模型

        表4 倒排序索引表

        圖3 廣告推廣的配置界面

        2算法設(shè)計

        很多學(xué)者對文檔的主題抽取方法進行了研究,對于主題詞的確定,一種是與訓(xùn)練用語料庫的主題詞比較來確定。本文提出的廣告投放算法的具體步驟如下:

        Step1:通過API獲得博主近期博文,用博主主頁地址命名文件名。

        Step2:將博文進行分詞,進行數(shù)據(jù)清理,保留名詞、動詞和形容詞。

        Step3:將處理后的博文詞匯用同義詞詞林中的代碼表示。

        Step4:對第四層代碼計算頻率θ,將大于參數(shù)γ的詞匯保留下來,作為博文主題內(nèi)容。

        Step5:計算選取的詞匯中第五層代碼頻率α,以及詞匯在第五層代碼中頻率β,最后計算詞匯在文檔中頻率θ*α*β,生成博主興趣模型,并根據(jù)主題詞建立倒排序索引表。

        利用上述5個步驟提取博文主題詞,并建立用戶興趣模型,其中第四步的參數(shù)γ和第五步中的詞匯頻率下限根據(jù)試驗進行確定。

        3實驗設(shè)計

        3.1參數(shù)γ的設(shè)定

        Lev-Zamir[56]等人觀察兩位教師的課堂教學(xué),盡管教學(xué)任務(wù)相似(本質(zhì)上都是“雞兔同籠”問題),但由于教師不同的教學(xué)策略,其帶給學(xué)生的數(shù)學(xué)創(chuàng)造體驗完全不同(詳見表1).

        任意選取20篇博文進行分析,人工挑選詞匯表示博文主題。比如在一篇中醫(yī)學(xué)博士的博文,里邊涉及到教學(xué)、中醫(yī)、看病、老師、教學(xué)、食療配方等,用主題詞博士、門診、食療、老師可大致概括出其博文方向,把這個詞向量作為本博文的人工挑選詞匯向量。

        對同義詞詞林第四層代碼θ,選取臨界參數(shù)γ,據(jù)此選定用于表示博文的詞匯。通過計算詞匯向量與人工選擇的表達博文內(nèi)容的詞匯向量間的距離,來表達這些詞匯與博文內(nèi)容的相關(guān)度。

        首先是向量的表示方法。計算用同義詞詞林第四層代碼表示的詞匯的出現(xiàn)頻率,將出現(xiàn)頻率大于等于參數(shù)γ的詞匯作為主題詞,其次數(shù)乘以代碼出現(xiàn)頻率來表示詞匯的重要程度,那么向量分量表示為:

        ai=ni×θj

        (4)

        式中:ai為向量分量值,ni為此分量在該代碼組中出現(xiàn)次數(shù),即為該詞匯所屬代碼的出現(xiàn)頻率。

        對于人工挑選的詞匯向量,若詞匯出現(xiàn)bi=1,否則為0。

        選定參數(shù)γ后,根據(jù)夾角余弦計算相應(yīng)向量間的距離,表示為:

        (5)

        選定不同的γ值,分別計算相應(yīng)向量之間的距離,根據(jù)相應(yīng)的結(jié)果繪制如圖4所示文檔詞語表示與文檔本意之間的相關(guān)度,其中橫坐標是γ的取值,縱坐標是對應(yīng)的向量距離,即相關(guān)度。對相關(guān)度圖表分析可知,當γ對應(yīng)的相關(guān)度為0時,表明沒有對應(yīng)的詞匯。據(jù)此可以判斷當γ取何值時,表達博文內(nèi)容的向量是稀疏的。另一方面,分析相關(guān)度的和,可以得到γ取何值時文檔的詞匯最能表達文檔本意。通過圖表分析,對于大部分文檔,當γ取值在0.015到0.037之間時,表達文本的詞匯密度大,而且相關(guān)度較高,所以應(yīng)該取γ值在[0.015,0.037]內(nèi)的詞匯作為文檔的主題詞。

        圖4 對應(yīng)γ取值的文檔詞語表示與

        選取一篇健身愛好者的博客,選取γ值在[0.015,0.037]內(nèi)的詞匯作為主題詞,包括動作、蹲、做、大腿、腿部、膝蓋、右腿、左腿、腹部、小腹、鍛煉、健身、身材、器械等詞匯,通過這些詞匯能很清楚地分析出該篇博客的方向,較好地驗證γ取值的合理性。

        3.2參數(shù)δ的選取

        假如博主愛好中醫(yī)或者是名中醫(yī)從業(yè)者,那么博文中“中醫(yī)”這個詞匯會出現(xiàn)頻率較高,能很好地代表博文的主題。而且某些中藥方子中的草藥也會有很多,但是由于這些草藥屬于同義詞詞林的同一個四級代碼,所以作為主題詞被提取出來后,這些詞也表明博文是關(guān)于中醫(yī)的,但是代表程度與“中醫(yī)”這個詞匯比較起來弱一些。如果頻繁用到某味中藥,那么也可以用作產(chǎn)品宣傳,所以參數(shù)δ的選擇對匹配程度高低有一定影響。

        在γ的選取范圍內(nèi)選擇的主題詞在一定程度上代表博文主題,但是由于選取方式是按照第四層代碼設(shè)置的,有些種類的詞匯很多,所以能夠被選中。比如上面提到從健身愛好者的博客中提取的大腿、腿部、膝蓋、右腿、左腿這些詞匯本身在文檔中只出現(xiàn)1次,但是對于第四層代碼來說構(gòu)成了一類,如果這類詞匯分布非常平均,則他們的重要程度都要降低。如果設(shè)置的關(guān)鍵詞屬于這類詞匯,對于文檔的匹配程度就會很低,因此查看這個詞匯在本文中的出現(xiàn)頻率也很關(guān)鍵。

        選擇20名對中醫(yī)感興趣的博主最近10天的博文作為實驗對象,選擇合適的參數(shù)δ,對幾個中醫(yī)詞匯進行匹配,匹配情況如表5所示。

        中圖分類號:TP391

        文獻標志碼:碼:A

        文章編號:號:2095-4824(2015)06-0066-05

        收稿日期:2015-09-03

        基金項目:河北師范大學(xué)青年基金項目(L2013Q06)

        作者簡介:齊冬梅(1973-),女,河北石家莊人,河北師范大學(xué)信息技術(shù)學(xué)院講師,碩士。

        Abstract:In this paper, an advertisement delivery method based on the contents of micro blogs is proposed. In the proposed method, the theme words of micro blogs are regularly extracted with the coding representation at different levels in the synonym forest for constructing the user interest model. The advertisement providers utilize the key words to seek the matched theme words with the advertisement so as to find the bloggers who are interested in the advertisement, and accordingly deliver the advertisement to the bloggers’ homepage. The experimental results indicated that with the suitable parameters the better matching could be achieved between the advertisement and the contents of blogs for an accurate advertising according to the contents of micro blogs.

        4結(jié)語

        本文應(yīng)用同義詞詞林代碼表示法,按類別提取主題詞,避免了相同意思用不同詞匯表達而導(dǎo)致詞匯在文檔中分布稀疏而不被選為主題詞的問題,該方法尤其適用于微博這種分散表達的情況。經(jīng)過試驗,設(shè)定好相應(yīng)參數(shù)后本文方法能取得廣告與博文內(nèi)容較高的匹配度。然而,由于同義詞詞林詞匯的不完整,導(dǎo)致微博中的某些詞匯不能被選中。因此,為更加精準地進行廣告推送,不斷完善同義詞詞林是未來研究工作的重點。

        [參考文獻]

        [1]丁兆云,賈焰,周斌.微博數(shù)據(jù)挖掘研究綜述[J].計算機研究與發(fā)展,2014,4(4):691-706.

        [2]段磊.面向網(wǎng)絡(luò)廣告定向的微博中心化方法研究[D].武漢:華中科技大學(xué),2011.

        [3]徐圓圓,程春慧,臧敏.網(wǎng)絡(luò)社區(qū)廣告現(xiàn)象研究——以新浪微博為例[J].赤峰學(xué)院學(xué)報:漢文哲學(xué)社會科學(xué)版,2014,35(2):128-130.

        [4]劉剛,劉萬軍,張偉.基于星形用戶社區(qū)模型的Twitter廣告投放[J].計算機應(yīng)用與軟件,2012,29(4):44-48.

        [5]王力,李培峰,朱巧明.一種基于LDA模型的主題句抽取方法[J].計算機工程與應(yīng)用,2013,49(2):160-164.

        [6]王連喜.微博短文本預(yù)處理及學(xué)習(xí)研究綜述[J].圖書情報工作,2013,57(11):125-131.

        [7]梅家駒,竺一鳴,高蘊琦,等.編纂漢語類義詞典的嘗試——《同義詞詞林》簡介[J].辭書研究,1983,1(1):133-138.

        An Accurate Advertising Method Based on Contents of Micro Blogs

        Qi Dongmei, Li Xiao

        (CollegeofInformationTechology,HebeiNormalUniversity,Shijiazhuang,Hebei050024,China)

        Key Words:accurate advertising; extraction of theme words; synonym forest

        (責任編輯:張凱兵)

        猜你喜歡
        博文主題詞博主
        跟著零食博主買拼多多小吃
        好日子(2022年6期)2022-08-17 07:16:42
        如果孩子想當美妝博主
        第一次掙錢
        時尚博主謝慕梓:分享身邊的美
        金橋(2021年1期)2021-05-21 08:22:04
        誰和誰好
        Review on Tang Wenzhi’s The Gist of Chinese Writing Gamut
        我校學(xué)報第32卷第5期(2014年10月)平均每篇有3.04個21世紀的Ei主題詞
        我校學(xué)報第32卷第6期(2014年12月)平均每篇有3.00個21世紀的Ei主題詞
        打電話2
        2014年第16卷第1~4期主題詞索引
        亚洲成人免费av影院| 国产精品亚洲一区二区杨幂| 欧美成人免费看片一区| 国产传媒剧情久久久av| 乱码午夜-极品国产内射| 午夜福利影院不卡影院| 国产一级黄色性生活片| 男性av天堂一区二区| 国产成人av一区二区三区在线观看| 色 综合 欧美 亚洲 国产| 精品丝袜人妻久久久久久| 国产亚洲精品综合99久久| 国产精品一区二区夜色不卡| 欧洲美女黑人粗性暴交视频| 性色做爰片在线观看ww| 日中文字幕在线| 亚洲熟妇网| 一本大道在线一久道一区二区| 亚洲人妻有码中文字幕| 日本一级二级三级不卡| 无码aⅴ精品一区二区三区浪潮| 99精品国产99久久久久久97| 国产精品中文第一字幕| 国产精品一区又黄又粗又猛又爽| 国产在线视频91九色| 99国产精品自在自在久久| 日本强好片久久久久久aaa| 欧美日本免费一区二| 亚洲天堂色婷婷一区二区| 精品国产自在现线看久久| 女人脱了内裤趴开腿让男躁| 无遮挡边吃摸边吃奶边做| 亚洲av一区二区国产精品| 精品成人av人一区二区三区| 性无码一区二区三区在线观看| 久久久天堂国产精品女人| 91青草久久久久久清纯| 我想看久久久一级黄片| 国产aⅴ激情无码久久久无码| 亚洲精品午睡沙发系列| 国产亚洲欧美日韩国产片|