摘 要:隨著互聯(lián)網(wǎng)數(shù)據(jù)量的不斷增加,個(gè)性化搜索引擎也得到了快速發(fā)展。其中關(guān)鍵詞推薦技術(shù)用于找出與初始關(guān)鍵詞相關(guān)的其他關(guān)鍵詞,幫助用戶快速準(zhǔn)確地搜索目標(biāo),被廣泛用于搜索引擎系統(tǒng)中。文章基于專利文獻(xiàn)對關(guān)鍵詞推薦技術(shù)專利的年度申請量、申請區(qū)域分布和重要申請人分布分別進(jìn)行了統(tǒng)計(jì)分析。同時(shí),對關(guān)鍵詞推薦技術(shù)進(jìn)行了分類,并以若干典型的相關(guān)專利為主線,對關(guān)鍵詞推薦技術(shù)的發(fā)展歷程進(jìn)行了回顧。對其他相關(guān)人員了解該項(xiàng)技術(shù)的脈絡(luò)以及今后的專利審查具有一定的指導(dǎo)意義。
關(guān)鍵詞:搜索引擎;關(guān)鍵詞推薦;個(gè)性化;專利分析
引言
隨著互聯(lián)網(wǎng)的普及,搜索引擎已經(jīng)成為人們獲取信息的主要手段之一。搜索引擎采用的主要交互方式為用戶自主輸入關(guān)鍵詞,檢索系統(tǒng)根據(jù)輸入的關(guān)鍵詞提供檢索結(jié)果。然而,由于用戶輸入的關(guān)鍵詞通常較短,且可能存在歧義、意圖模糊等情況,使其不能精確地表達(dá)其搜索意圖。為了幫助用戶更好地構(gòu)造關(guān)鍵詞,通常搜索引擎會(huì)使用個(gè)性化關(guān)鍵詞推薦技術(shù)。其通過分析文檔結(jié)構(gòu)、用戶瀏覽行為及用戶對文檔的評價(jià)等信息,建立用戶的興趣模型,推薦出用戶實(shí)際所需的關(guān)鍵詞,提高搜索準(zhǔn)確性,改善用戶智能、便捷的搜索體驗(yàn)。
1 個(gè)性化關(guān)鍵詞推薦技術(shù)概述
早在上世紀(jì)90年代,學(xué)者就開展了一些關(guān)鍵詞推薦相關(guān)研究,如今已成為搜索引擎的必備技術(shù)之一。個(gè)性化關(guān)鍵詞推薦根據(jù)所依賴的數(shù)據(jù)源不同大體可分為三類:基于文檔詞典、基于搜索日志和其他相關(guān)技術(shù),如圖1所示。
(1)基于文檔詞典的關(guān)鍵詞推薦技術(shù)是以當(dāng)前關(guān)鍵詞返回的文檔內(nèi)容為對象,對文檔進(jìn)行概括來提取關(guān)鍵詞,并將關(guān)鍵詞按類別進(jìn)行聚類,最后將關(guān)鍵詞反饋給用戶。該技術(shù)不考慮用戶的歷史記錄,根據(jù)文檔內(nèi)容之間的相似度來提取用戶興趣,并基于各種詞庫(如分類詞庫、同義詞庫、關(guān)聯(lián)詞庫、外語詞庫、糾錯(cuò)詞庫和分詞詞庫等)來推薦關(guān)鍵詞。
(2)基于用戶搜索日志的關(guān)鍵詞推薦技術(shù)是從用戶角度出發(fā),以用戶搜索日志中的歷史記錄作為對象,采用聚類技術(shù)計(jì)算關(guān)鍵詞之間的相似度,并返回相關(guān)度較高的關(guān)鍵詞。該技術(shù)通常會(huì)從搜索日志中分析用戶操作行為,提取用戶標(biāo)識(shí)和群體特征。
(3)對于個(gè)性化關(guān)鍵詞推薦中的其他相關(guān)技術(shù),其主要包含了能夠使用戶更加便捷地使用搜索引擎所采用的一些其它技術(shù)。例如,與用戶之間進(jìn)行語音交互、結(jié)合用戶當(dāng)前位置信息等手段來提供關(guān)鍵詞。
2 個(gè)性化關(guān)鍵詞推薦相關(guān)專利申請分析
本文在CNABS和DWPI數(shù)據(jù)庫中,通過“搜索”、“關(guān)鍵詞”、“推薦”及其中英文擴(kuò)展詞匯作為主要關(guān)鍵詞,并排除IPC分類號(hào)為G06Q的噪聲文獻(xiàn),檢索得到的2016年5月以前公布的300余篇專利文獻(xiàn)作為樣本,對全球的專利申請量的趨勢、申請區(qū)域分布以及重要申請人分布進(jìn)行分析,從中得到技術(shù)發(fā)展趨勢,以及各階段專利申請人所屬的國家分布和主要申請人分布。其中,以每個(gè)同族中最早優(yōu)先權(quán)日期視為該申請的申請日,一系列同族申請視為一件申請。
2.1 國際專利申請量趨勢分析
圖2給出了個(gè)性化關(guān)鍵詞推薦技術(shù)的全球?qū)@暾堏厔荩笾驴梢苑譃樗膫€(gè)時(shí)期,各時(shí)期劃分以申請量增長率的變化為標(biāo)準(zhǔn)。
2.1.1 萌芽階段(2003年之前)
搜索引擎起源于1990年,經(jīng)歷近10年的發(fā)展后,開始向個(gè)性化趨勢邁進(jìn)。1998-2003年是個(gè)性化搜索引擎中的關(guān)鍵詞推薦技術(shù)從無到有的萌芽階段,該階段申請量極少。具有代表性的申請人是國際商業(yè)機(jī)器(IBM)公司以及皇家飛利浦(KONINK PHILIPS)電子股份有限公司。
2.1.2 平穩(wěn)增長階段(2004年-2007年)
從2004年開始,關(guān)于個(gè)性化關(guān)鍵詞推薦技術(shù)的專利每年的申請量明顯比2003年之前的申請量多,申請量和申請人的發(fā)展總體趨勢趨于平穩(wěn)增長。在此階段,申請量前三位的國別分布如圖3所示。美國申請的專利量占67%,其中,前四位的申請人分別是微軟公司、谷歌公司、雅虎公司、IBM公司。另外,韓國和中國分別占25%和5%,這也從側(cè)面說明這個(gè)時(shí)期內(nèi),中國和韓國在搜索引擎所涉及的IT技術(shù)領(lǐng)域發(fā)展迅猛。
2.1.3 快速增長階段(2008年-2011年)
在2008年-2011年之間,除了2009年出現(xiàn)了下滑趨勢(經(jīng)濟(jì)環(huán)境背景的影響)以外,該技術(shù)的申請量和申請人數(shù)量呈現(xiàn)跨越式增長。這是由于在此期間IT產(chǎn)業(yè)的迅猛發(fā)展,使得企業(yè)對于個(gè)性化關(guān)鍵詞推薦技術(shù)的關(guān)注度急劇提升,因此出現(xiàn)了申請量的快速增長。在此階段,申請量占前四位的國別分布如圖4所示。可以看出,中國在這一時(shí)期內(nèi)的申請保持著較快的發(fā)展,并且申請量超過起步較早的韓國和日本,這與中國在2008年之后各種IT類型企業(yè)迅猛發(fā)展息息相關(guān)。而美國的申請量趨于穩(wěn)定,技術(shù)發(fā)展成熟度也較高,保持著絕對的領(lǐng)先地位。
2.1.4 成熟階段(2012年-至今)
個(gè)性化關(guān)鍵詞推薦技術(shù)的專利申請量從2012年至今呈現(xiàn)出穩(wěn)步增長的趨勢。在此階段,申請量占前五位的國別分布如圖5所示。在這一階段,中國國內(nèi)的大型公司充分意識(shí)到了知識(shí)產(chǎn)權(quán)的重要性,申請量超過了美國成為第一。特別是國內(nèi)如百度、奇虎、騰訊等公司申請的專利在數(shù)量和質(zhì)量上都有明顯提升。
2.2 本領(lǐng)域重要申請人分析
本節(jié)對本領(lǐng)域重要申請人方面做進(jìn)一步分析,主要考慮申請人歷年的申請總量,按照申請總量進(jìn)行排名。前16名申請人分布如圖6所示。其中GOOG:谷歌(美國);MICT:微軟(美國);BAID:百度(中國);YAHO:雅虎(美國);IBMC:國際商業(yè)機(jī)器公司(美國);QIHU:奇虎(中國);ABAB:阿里巴巴(中國);NHNN:NHN株式會(huì)社(韓國);TNCT:騰訊(中國);ETRI:韓國電子通信研究院(韓國);EBAY:電子灣(美國);FUIT:富士通株式會(huì)社(日本);INCR:INCRUIT公司(韓國);KING:金山軟件(中國);NITE:日本電信電話株式會(huì)社(日本);SOGO:搜狗(中國)。
從圖6可以看出,在本領(lǐng)域,諸如谷歌、微軟、雅虎、IBM等的國際化大公司一直是較為活躍的申請人,這些申請人在申請數(shù)量以及質(zhì)量方面都占據(jù)領(lǐng)頭羊地位;諸如百度、奇虎、阿里巴巴、騰訊等的國內(nèi)知名大公司也占據(jù)著較重要的席位。
3 個(gè)性化關(guān)鍵詞推薦相關(guān)專利技術(shù)發(fā)展分析
個(gè)性化關(guān)鍵詞推薦技術(shù)可分為基于文檔詞典、基于搜索日志和其他相關(guān)技術(shù)。圖7給出了從1998年到2015年,三類技術(shù)相關(guān)的專利申請量分布。從圖7可知,基于文檔詞典和基于搜索日志的個(gè)性化關(guān)鍵詞推薦技術(shù)為主要技術(shù)。
本章將對基于文檔詞典和基于搜索日志這兩類技術(shù)的發(fā)展路線方面進(jìn)行分析,給出了每個(gè)年度具有代表性的專利技術(shù)。
以申請時(shí)間為主線,基于文檔詞典的個(gè)性化關(guān)鍵詞推薦技術(shù)示例性專利如圖8所示。
以申請時(shí)間為主線,基于搜索日志的個(gè)性化關(guān)鍵詞推薦技術(shù)示例性專利如圖9所示。
4 結(jié)束語
本文結(jié)合國內(nèi)外專利申請的狀況,對個(gè)性化搜索引擎中關(guān)鍵詞推薦專利技術(shù)進(jìn)行了較為全面的分析和研究,并對其發(fā)展歷程進(jìn)行了回顧。從以上分析可知,我國關(guān)鍵詞推薦技術(shù)雖然起步較晚,但近十幾年發(fā)展很快,也涌現(xiàn)出一批具有競爭力的大企業(yè)。另外,目前基于文檔詞典和搜索日志的關(guān)鍵詞推薦技術(shù)已經(jīng)發(fā)展成熟,且應(yīng)用廣泛。今后的關(guān)鍵詞推薦技術(shù)應(yīng)該會(huì)向混合推薦方向發(fā)展,充分發(fā)揮每種推薦方法的優(yōu)勢,提高推薦的效率。
參考文獻(xiàn)
[1]張博,周瑞瑞,魚冰.協(xié)同過濾推薦算法專利綜述[J].河南科技,2015(10):3-5.
[2]王瑩,羅坤,姜磊,等.基于內(nèi)容的圖像檢索技術(shù)的專利技術(shù)綜述[J].電視技術(shù),2013,37(2):62-65.
[3]李亞楠,王斌,李錦濤.搜索引擎查詢推薦技術(shù)綜述[J].中文信息學(xué)報(bào),2010,24(6):75-84.
[4]王芬,王辭,熊晶.基于協(xié)同過濾的個(gè)性化推薦專利技術(shù)研究[J].科技展望,2016,26(29):266-267.
作者簡介:李歡(1989-),女,漢族,湖南婁底人,碩士研究生,國家知識(shí)產(chǎn)權(quán)局專利局專利審查協(xié)作江蘇中心,研究實(shí)習(xí)員,研究方向:信息檢索、圖像處理方面專利審查工作。