(山東科技大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266590)?基于網(wǎng)絡(luò)日志的用戶查詢推薦王靜> (山東科技大學(xué)信息科學(xué)與工程學(xué)院,"/>

亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于網(wǎng)絡(luò)日志的用戶查詢推薦

        2016-08-18 05:47:34王靜山東科技大學(xué)信息科學(xué)與工程學(xué)院山東青島266590
        河南科技 2016年7期
        關(guān)鍵詞:搜索引擎日志聚類

        王靜>(山東科技大學(xué) 信息科學(xué)與工程學(xué)院,山東 青島 266590)

        ?

        基于網(wǎng)絡(luò)日志的用戶查詢推薦

        王靜>
        (山東科技大學(xué)信息科學(xué)與工程學(xué)院,山東青島266590)

        隨著Internet的迅速發(fā)展,人們面對(duì)信息爆炸的現(xiàn)實(shí)。因此,需要根據(jù)用戶的查詢意圖進(jìn)行推薦。基于此,提出一種計(jì)算查詢?cè)~相似度的方法,利用K-means對(duì)查詢?cè)~進(jìn)行聚類并計(jì)算聚類簇中心,當(dāng)用戶輸入查詢?cè)~后計(jì)算該查詢?cè)~與每個(gè)聚類簇中心的相似度并降序排列,選取相似度最大的兩個(gè)聚類簇對(duì)其進(jìn)行查詢推薦。

        查詢意圖;K-means聚類;查詢?nèi)罩荆徊樵兺扑]

        Internet的迅速發(fā)展使得人們從未像現(xiàn)如今一樣能夠輕易獲取數(shù)量如此龐大的信息,一方面數(shù)量豐富的信息極大地滿足了人們對(duì)知識(shí)的渴望,另一方面海量涌現(xiàn)的信息使人們無(wú)法直接得到自己真正感興趣的信息[1]。對(duì)于普通用戶來(lái)說(shuō),Internet上的“信息迷航”和“信息過(guò)載”已經(jīng)成為日益嚴(yán)重的問(wèn)題。用戶興趣建模正是在這樣的背景下產(chǎn)生的。

        用戶興趣建模的關(guān)鍵是分析用戶在互聯(lián)網(wǎng)上訪問(wèn)數(shù)據(jù)的歷史信息及行為信息,因?yàn)樵撔畔㈦[藏了用戶的目的與興趣。根據(jù)用戶興趣模型,為其提供個(gè)性化、針對(duì)性的信息服務(wù)。而如何得到用戶在互聯(lián)網(wǎng)上訪問(wèn)數(shù)據(jù)的相關(guān)信息也是至關(guān)重要的。

        1 相關(guān)工作

        查詢?nèi)罩臼谴罅坑脩糸L(zhǎng)期使用搜索引擎產(chǎn)生的用戶行為數(shù)據(jù),在很多研究方向上都有著重要價(jià)值。為改善搜索引擎性能,可以在信息檢索過(guò)程中進(jìn)行查詢擴(kuò)展、查詢推薦等;為加強(qiáng)自然語(yǔ)言理解,可以進(jìn)行命名實(shí)體識(shí)別、文本分類等;也可以根據(jù)日志數(shù)據(jù)建立用戶興趣模型,進(jìn)行個(gè)性化服務(wù)等。

        近年來(lái),許多研究工作開始使用查詢?nèi)罩局械腸lickthrough data來(lái)挖掘查詢之間的語(yǔ)義相關(guān)關(guān)系。例如,段建勇等人[2]提取基于查詢?cè)~的QueryRank算法對(duì)網(wǎng)絡(luò)日志的用戶進(jìn)行興趣建模,缺點(diǎn)是對(duì)網(wǎng)絡(luò)日志的處理仍采用傳統(tǒng)的文本處理的方法不具有針對(duì)性;Beeferman等人通過(guò)對(duì)query-URL二部圖上使用凝聚聚類算法來(lái)發(fā)現(xiàn)相關(guān)查詢;Wen等人同時(shí)考慮使用click-through data和查詢文檔的內(nèi)容信息來(lái)確定相似查詢,缺點(diǎn)是工作量比較大且不具有通用性。

        2 查詢?nèi)罩?/h2>

        在當(dāng)今的搜索引擎中,關(guān)于查詢者和搜索引擎之間的交互關(guān)系會(huì)被記錄下來(lái),從而形成了用戶查詢?nèi)罩尽1M管搜索引擎各不相同,但完整的用戶查詢?nèi)罩局辽侔?個(gè)方面的信息:用戶標(biāo)識(shí)、該查詢提交的時(shí)間、用戶輸入的查詢?cè)~、該查詢返回的結(jié)果以及用戶的點(diǎn)擊行為。本文使用搜狗實(shí)驗(yàn)室提供的用戶查詢?nèi)罩?,每條記錄的內(nèi)容如表1所示。

        表1 查詢?nèi)罩镜挠涗泝?nèi)容

        3 查詢?cè)~相似度

        式(1)中,n(q,lj)表示針對(duì)查詢?cè)~q點(diǎn)擊lj的次數(shù)。

        根據(jù)該向量形式,定義相似度函數(shù),這里使用余弦相似度,如式(2)所示。

        4 查詢?cè)~推薦模型

        制定基于相似度的相異度(準(zhǔn)則函數(shù)值)計(jì)算公式,利用該公式將相似度較高的查詢?cè)~歸到某一個(gè)聚類簇中,相異度計(jì)算公式如式(3)所示。

        式(3)中,sim(q,ci)是聚類簇ci中的任意一個(gè)查詢?cè)~q與聚類簇中心ci的相似度。

        每次聚類之后聚類簇中心的計(jì)算如式(4)所示。

        式(4)中,nci是聚類簇ci中包含的query總個(gè)數(shù)。

        當(dāng)兩次準(zhǔn)則函數(shù)值的差值不超過(guò)0.01時(shí),即達(dá)到我們的聚類結(jié)果,使用詞頻方法提取每個(gè)聚類簇的特征查詢?cè)~,如式(5)所示。

        式(5)中,nqi是查詢?cè)~qi在聚類簇ci中出現(xiàn)的總次數(shù),nci是聚類簇ci中所有查詢?cè)~的總個(gè)數(shù)。

        當(dāng)用戶輸入查詢?cè)~后,計(jì)算該查詢?cè)~與每個(gè)聚類簇中心ci的相似度如式(6)所示。

        根據(jù)相似度大小進(jìn)行降序排列,選取排在最前面的兩個(gè)聚類簇中的查詢?cè)~,實(shí)現(xiàn)用戶查詢推薦。

        5 結(jié)果與分析

        由已有研究可知,在一段時(shí)間內(nèi)用戶的興趣是比較穩(wěn)定的,因此可以利用前面建好的查詢?cè)~推薦模型對(duì)用戶進(jìn)行推薦。例如,當(dāng)用戶輸入“數(shù)碼科技”時(shí),計(jì)算出與其相似度較高的兩個(gè)聚類簇分別是“數(shù)碼家電”和“科技信息”,推薦的序列對(duì)比如表2所示。

        表2 關(guān)于“數(shù)碼家電”和“科技信息”的查詢推薦序列

        為了測(cè)試該方法的準(zhǔn)確性,從這150個(gè)聚類簇中隨機(jī)選取30個(gè),由3位專業(yè)人員對(duì)這30個(gè)聚類簇中排在前N(這里N取200)的查詢?cè)~進(jìn)行投票選取,計(jì)算其準(zhǔn)確率和召回率,結(jié)果如表3所示。

        表3 準(zhǔn)確率和召回率

        6 結(jié)語(yǔ)

        由表3的結(jié)果可知,該方法提出的查詢推薦模型是可行的,并且推薦效果良好。

        本文通過(guò)對(duì)搜索引擎查詢?nèi)罩镜慕Y(jié)構(gòu)進(jìn)行分析,挖掘該結(jié)構(gòu)下查詢?cè)~之間的關(guān)系,根據(jù)該關(guān)系對(duì)查詢?cè)~進(jìn)行聚類并提取每個(gè)聚類簇的特征詞。針對(duì)用戶輸入的查詢?cè)~,利用本文的查詢推薦模型對(duì)其進(jìn)行推薦,更好地服務(wù)于用戶。由于網(wǎng)絡(luò)日志的數(shù)量龐大,所以在未來(lái)的工作中需要對(duì)聚類算法進(jìn)行改進(jìn),提高聚類的效果和速度。

        [1]呂新波,關(guān)毅.基于聚類的隱式用戶興趣建模[J].智能計(jì)算機(jī)與應(yīng)用,2013(1):17-20.

        [2]段建勇,魏曉亮,張梅,等.基于網(wǎng)絡(luò)日志的用戶興趣模型構(gòu)建[J].情報(bào)科學(xué),2013(9):78-82.

        User Query Recommendation Based on Web Log

        Wang Jing
        (College of Information Science and Engineering,Shandong University of Science and Technology,Shandong Qingdao 266590)

        With the rapid development of Internet,people are facing the reality of information explosion. Therefore,we need to recommend according to the user's query intention.Based on this,a computation methods of query similarity was introduced,which used k-means to query clustering and calculate the clustering center,then calculated the similarity between query and each cluster center when the user input query and ranked in descending order,then selected the queries of the maximum similarity of two clusters to recommendation.

        query intention;K-means cluster;query log;query recommendation

        TP3

        A

        1003-5168(2016)04-0050-02

        2016-03-23

        王靜(1991-),女,碩士,研究方向:人工智能。

        猜你喜歡
        搜索引擎日志聚類
        一名老黨員的工作日志
        扶貧日志
        心聲歌刊(2020年4期)2020-09-07 06:37:14
        基于DBSACN聚類算法的XML文檔聚類
        游學(xué)日志
        基于改進(jìn)的遺傳算法的模糊聚類算法
        網(wǎng)絡(luò)搜索引擎亟待規(guī)范
        一種層次初始的聚類個(gè)數(shù)自適應(yīng)的聚類方法研究
        基于Nutch的醫(yī)療搜索引擎的研究與開發(fā)
        廣告主與搜索引擎的雙向博弈分析
        自適應(yīng)確定K-means算法的聚類數(shù):以遙感圖像聚類為例
        大又黄又粗又爽少妇毛片| 亚洲av成人无码网天堂| 久久无码人妻一区=区三区| 老熟妇高潮av一区二区三区啪啪 | 依依成人影视国产精品| 亚洲中文字幕免费精品| 人人人妻人人人妻人人人| 欧美极品色午夜在线视频| 久久九九有精品国产尤物| 国产亚洲精品视频在线| 精品久久有码中文字幕| 人人爽人人爽人人爽人人片av| 国产精品亚洲A∨天堂不卡| 久久精品一区二区三区夜夜| 精品亚洲一区二区三区四区五区| 鲁鲁鲁爽爽爽在线视频观看| 亚洲中文字幕在线爆乳| 国产一区二区美女主播| 一区二区三区内射美女毛片| 国产内射在线激情一区| 国产精品久久这里只有精品| 熟女免费视频一区二区| 成人无码网www在线观看| 亚洲中文无码成人影院在线播放| 国产女主播免费在线观看| 久久精品国产色蜜蜜麻豆国语版| 护士人妻hd中文字幕| 8av国产精品爽爽ⅴa在线观看| 精品人妻一区二区视频| 公与淑婷厨房猛烈进出| 人人妻人人爽人人做夜欢视频九色 | 国产美女三级视频网站| 在线视频色系中文字幕| 久久亚洲私人国产精品va| 无码国产精品一区二区免费网曝| 中文字幕日韩精品中文字幕| 99999久久久久久亚洲| 国产一区二区三区四区五区vm| 熟女少妇丰满一区二区| 国产亚洲精品美女久久久久| 亚洲av无码国产剧情|