郭銳 (微視互聯(lián)(天津)科技有限公司 天津300456)
隨著我國(guó)互聯(lián)網(wǎng)應(yīng)用的日益普及,人們的衣食住行都和網(wǎng)絡(luò)發(fā)生了直接或者間接的聯(lián)系,特別是搜索引擎的出現(xiàn),可以說(shuō)是改變了人們獲取知識(shí)和信息的方式,其重要性毋庸置疑。然而類似百度和Google這樣的通用搜索引擎,在某些特定的領(lǐng)域,從信息的準(zhǔn)確性、實(shí)用性和及時(shí)性來(lái)講,往往并不如人意,夾雜大量無(wú)用的信息,用戶還必須逐個(gè)點(diǎn)擊篩選。特定領(lǐng)域的垂直搜索引擎正是為了解決這一問(wèn)題而產(chǎn)生的,其目標(biāo)是在限定領(lǐng)域范圍內(nèi)提供更加精準(zhǔn)有用的信息。在育兒這個(gè)領(lǐng)域的知識(shí)和信息有其自身的特性,而且用戶有特定的人群,即主要為0~6歲的父母,我們基于對(duì)育兒知識(shí)信息和父母用戶的深入研究,研發(fā)了一款新型的垂直育兒搜索引擎——智能育兒通。
智能育兒通的主要?jiǎng)?chuàng)新點(diǎn)在于,該搜索引擎的內(nèi)核包括一個(gè)自動(dòng)問(wèn)答系統(tǒng),用戶能夠以平常說(shuō)話的自然語(yǔ)言形式提問(wèn),系統(tǒng)自動(dòng)給出相關(guān)的答案;搜索結(jié)果的展示不僅包括傳統(tǒng)的圖文,而且還能夠提供視頻形式,從而信息以一種多媒體的立體角度進(jìn)行呈現(xiàn);系統(tǒng)還為用戶建立了用戶模型,智能分析用戶的需求和使用習(xí)慣,在搜索的同時(shí)主動(dòng)推送相關(guān)的用戶可能感興趣的育兒資訊;并且提供多種客戶端,以供用戶可以隨時(shí)隨地進(jìn)行訪問(wèn),用戶操作接口包括網(wǎng)頁(yè)瀏覽、手機(jī)短信、手機(jī)客戶端程序和及時(shí)聊天。
由于網(wǎng)絡(luò)信息的爆炸式增長(zhǎng),網(wǎng)民面對(duì)海量數(shù)據(jù)不得不借助搜索引擎這一強(qiáng)大的工具去尋找自己的目標(biāo)信息,百度和Google是我國(guó)網(wǎng)民使用最多的兩個(gè)通用搜索引擎。各大門戶網(wǎng)站也有自己的搜索引擎,如搜狐的搜狗、網(wǎng)易的有道、騰訊的搜搜,這些搜索引擎也各有特色和定位。
在垂直搜索引擎方面,英文比較著名的有KidsClick兒童搜索、AddAll購(gòu)物搜索、PicSearch圖片搜索、MusiDB個(gè)性化的音樂(lè)搜索。而在中文方面,258商業(yè)搜索(http://www.258.com/)、愛(ài)幫生活搜索(http://www.aibang.com/)、跳哪工作搜索引擎(http://www.tiaona.com)是比較典型的代表??梢哉f(shuō),在通用搜索引擎占據(jù)主導(dǎo)地位的同時(shí),垂直搜索引擎作為一個(gè)重要的補(bǔ)充,是互聯(lián)網(wǎng)發(fā)展的必然趨勢(shì),也是整合網(wǎng)絡(luò)資源的一個(gè)不可超越的階段。
中國(guó)人均年出生人口是1 500~1 700萬(wàn),保守估計(jì)潛在父母用戶群在1.2億左右。互聯(lián)網(wǎng)的普及化和移動(dòng)互聯(lián)網(wǎng)的迅猛發(fā)展已經(jīng)改變了新一代父母獲取育兒知識(shí)的方式,二者已經(jīng)成為媽媽獲取育兒信息的主要手段。但是目前,網(wǎng)絡(luò)上各種信息龐雜,真假難辨,如何讓媽媽更有效的獲取最權(quán)威的知識(shí)信息是目前存在的最大問(wèn)題。
我們所研發(fā)的智能育兒通的出發(fā)點(diǎn)就是利用先進(jìn)的人工智能技術(shù)和互聯(lián)網(wǎng)技術(shù),為媽媽提供一個(gè)迅速獲取權(quán)威育兒知識(shí),解決育兒難題的有力工具,過(guò)濾掉無(wú)用的虛假信息,給出最有效的育兒知識(shí),為父母的育兒過(guò)程提供極大的便利,其目標(biāo)是力爭(zhēng)在育兒領(lǐng)域,能夠做到比百度更智能,比google更精準(zhǔn)。
與傳統(tǒng)的垂直搜索引擎相比,智能育兒通的最大不同點(diǎn)就是基于人工智能技術(shù)以及科學(xué)育兒方法和知識(shí)體系構(gòu)建的,強(qiáng)調(diào)用戶體驗(yàn),父母用戶能夠以各種接入方式,使用貼近自然語(yǔ)言的形式向這個(gè)系統(tǒng)提問(wèn)有關(guān)育兒方面的各種問(wèn)題,系統(tǒng)能夠自動(dòng)給出答案或者資料,并且可以智能地根據(jù)用戶資料及其使用習(xí)慣進(jìn)行深入分析,提供相關(guān)聯(lián)的育兒知識(shí)或信息,使用戶可以獲取到全面貼心的服務(wù)。因此,智能化的自動(dòng)問(wèn)答系統(tǒng)是智能育兒通的重要核心之一。
從接入方法來(lái)講,系統(tǒng)的用戶可以通過(guò)瀏覽網(wǎng)頁(yè)、發(fā)送手機(jī)短信、使用手機(jī)客戶端程序或是即時(shí)聊天工具等方式向智能育兒通提問(wèn),從而能夠隨時(shí)隨地獲取育兒信息。智能育兒通基于SOA體系架構(gòu),可以對(duì)第三方應(yīng)用程序開(kāi)放方便的服務(wù)接口以供靈活的集成。
從數(shù)據(jù)來(lái)源來(lái)講,系統(tǒng)致力于打造一個(gè)全面綜合、立體呈現(xiàn)的育兒知識(shí)庫(kù),主體數(shù)據(jù)來(lái)源包括來(lái)自專業(yè)育兒網(wǎng)站的數(shù)據(jù)庫(kù)(包括視頻,圖文形式的育兒知識(shí)、育兒活動(dòng)、育兒專家、育兒機(jī)構(gòu)、育兒產(chǎn)品、育兒資訊等),國(guó)內(nèi)主要的問(wèn)答系統(tǒng),如百度知道、搜搜問(wèn)問(wèn)的問(wèn)題數(shù)據(jù),以及從各種育兒專業(yè)網(wǎng)站抓取過(guò)來(lái)的網(wǎng)頁(yè)資源。
從返回結(jié)果來(lái)講,系統(tǒng)能夠根據(jù)用戶輸入的請(qǐng)求,提供搜索引擎的搜索結(jié)果或是智能問(wèn)答的答案,同時(shí)還可以根據(jù)內(nèi)容的相關(guān)性,提供育兒知識(shí)庫(kù)中的相關(guān)育兒信息,以圖文、視頻多種方式進(jìn)行立體呈現(xiàn)。
此外,系統(tǒng)能夠針對(duì)用戶提供的資料和用戶的使用行為,建立用戶模型,除了用戶搜索的結(jié)果之外,還能夠主動(dòng)推送用戶可能感興趣的相關(guān)育兒信息。
從整體架構(gòu)來(lái)說(shuō),可以將系統(tǒng)分為6個(gè)子系統(tǒng)(見(jiàn)圖1),分別是多客戶端子系統(tǒng)、輸入輸出子系統(tǒng)、自動(dòng)問(wèn)答子系統(tǒng)、關(guān)鍵詞搜索子系統(tǒng)、育兒知識(shí)庫(kù)與查詢子系統(tǒng)以及用戶行為分析與反饋?zhàn)酉到y(tǒng)。
圖1 智能育兒通的整體架構(gòu)示意圖
2.2.1 多客戶端子系統(tǒng) 提供多種客戶端,以供用戶可以隨時(shí)隨地進(jìn)行訪問(wèn),用戶操作接口包括網(wǎng)頁(yè)瀏覽、手機(jī)短信、手機(jī)客戶端程序和及時(shí)聊天。各種客戶端以統(tǒng)一的方式對(duì)用戶輸入進(jìn)行處理,即加入用戶身份信息,進(jìn)行加密之后,發(fā)送請(qǐng)求到“輸入輸出子系統(tǒng)”。
育兒?jiǎn)栴}答案的展現(xiàn)形式會(huì)隨著用戶操作接口的不同而不同,在網(wǎng)頁(yè)瀏覽的形式下,答案的主體應(yīng)以圖文加視頻的方式呈現(xiàn),并且將顯示相關(guān)的輔助信息和相類似的問(wèn)題。
2.2.2 輸入輸出子系統(tǒng) 輸入輸出子系統(tǒng)的核心是用戶提問(wèn)請(qǐng)求的分析和提問(wèn)結(jié)果的輸出。請(qǐng)求分析模塊的功能包括:對(duì)于請(qǐng)求進(jìn)行解密和認(rèn)證,過(guò)濾非法請(qǐng)求;做必要的字符串處理,過(guò)濾非法字符;要能夠分析出用戶的提問(wèn)是問(wèn)句形式還是關(guān)鍵詞組合形式,前者將請(qǐng)求傳給問(wèn)答系統(tǒng),后者將請(qǐng)求傳給垂直搜索子系統(tǒng);在用戶輸入的同時(shí),能夠給出相關(guān)提示,類似百度的搜索體驗(yàn);分析出用戶提問(wèn)所屬的育兒知識(shí)分類,向育兒知識(shí)庫(kù)提出請(qǐng)求。結(jié)果輸出模塊的功能包括:以統(tǒng)一的形式格式化獲得的提問(wèn)結(jié)果和相關(guān)知識(shí)的結(jié)果,包裝之后返回相應(yīng)的客戶端;針對(duì)相似問(wèn)題的輸出,要有統(tǒng)一的處理模式;針對(duì)不同的客戶端形式,做不同的結(jié)果處理,如結(jié)果的字?jǐn)?shù)限制、結(jié)果的條數(shù)、結(jié)果的字段數(shù)。
2.2.3 自動(dòng)問(wèn)答子系統(tǒng) 用戶能以自然語(yǔ)言形式提問(wèn),系統(tǒng)會(huì)通過(guò)自動(dòng)分析,給出最佳匹配的答案,同時(shí)還能給出相類似的問(wèn)題。主要功能如下:?jiǎn)栴}庫(kù)來(lái)自百度知道、搜搜問(wèn)問(wèn)、新浪愛(ài)問(wèn)等各大知名問(wèn)答網(wǎng)站;通過(guò)對(duì)于提問(wèn)進(jìn)行語(yǔ)法分析,匹配出相關(guān)問(wèn)題,在各種問(wèn)題庫(kù)中搜索問(wèn)題,找到該問(wèn)題庫(kù)中最佳答案,并且可以在最佳答案中選擇一個(gè)或多個(gè)作為提問(wèn)結(jié)果;給出相似或者相關(guān)聯(lián)的問(wèn)題,并且格式化后推送給輸入輸出系統(tǒng);對(duì)于問(wèn)題庫(kù)、關(guān)鍵詞等關(guān)鍵因素可以設(shè)置一系列的參數(shù),并可以靈活調(diào)節(jié);根據(jù)用戶模型,給出問(wèn)題答案的調(diào)節(jié);根據(jù)用戶對(duì)于提問(wèn)答案的滿意程度的反饋結(jié)果,對(duì)于問(wèn)題系統(tǒng)的算法模型進(jìn)行調(diào)節(jié)。
2.2.4 關(guān)鍵詞搜索子系統(tǒng) 首先對(duì)于網(wǎng)絡(luò)育兒資源進(jìn)行全面整理和收集,包括各大網(wǎng)站的文字和視頻育兒知識(shí),在此基礎(chǔ)上進(jìn)行歸納分析主題,建立專業(yè)的育兒詞匯表,對(duì)育兒資源數(shù)據(jù)進(jìn)行解析和提取,在專業(yè)的育兒知識(shí)體系框架下實(shí)現(xiàn)網(wǎng)頁(yè)內(nèi)容的智能分析、網(wǎng)頁(yè)的分類,從而為育兒關(guān)鍵詞的搜索提供更加精準(zhǔn)專業(yè)的結(jié)果。
現(xiàn)在對(duì)于育兒視頻的搜索各大網(wǎng)站幾乎都沒(méi)有,或者效果并不理想,而育兒通提供基于標(biāo)簽和視頻文字描述的育兒視頻搜索,搜索結(jié)果可以以視頻形式直接呈現(xiàn)。另外,我們也注意到,用戶想購(gòu)買產(chǎn)品或服務(wù)時(shí),許多人的習(xí)慣是先搜索關(guān)于這個(gè)東西的正面或負(fù)面評(píng)價(jià),而這些評(píng)價(jià)信息又很大程度影響用戶的購(gòu)買行為。因此我們著重挖掘各種育兒機(jī)構(gòu)和母嬰產(chǎn)品的評(píng)價(jià)、評(píng)論信息,對(duì)于每個(gè)機(jī)構(gòu)和產(chǎn)品可以計(jì)算口碑指數(shù),并表明負(fù)面評(píng)價(jià)和正面評(píng)價(jià),在用戶搜索的結(jié)果中提供這些經(jīng)過(guò)整理之后的口碑評(píng)價(jià)。
2.2.5 育兒知識(shí)庫(kù)與查詢子系統(tǒng) 建立爬蟲(chóng)系統(tǒng),持續(xù)更新育兒知識(shí)庫(kù),從第三方網(wǎng)站抽取和整理形成統(tǒng)一的知識(shí)庫(kù)資料。將抓取自各大育兒網(wǎng)站的資源數(shù)據(jù)統(tǒng)一整理,其中包括發(fā)布文章、視頻、問(wèn)答、博客、帖子等各種內(nèi)容形式,經(jīng)過(guò)語(yǔ)料過(guò)濾、清洗、重新格式化,形成一個(gè)綜合性的育兒知識(shí)庫(kù)。首先是為自動(dòng)問(wèn)答子系統(tǒng)和關(guān)鍵詞搜索子系統(tǒng)提供訓(xùn)練語(yǔ)料的支撐;其次支持育兒知識(shí)查詢,能夠直接接收育兒知識(shí)分類請(qǐng)求,返回育兒知識(shí)內(nèi)容,并且能夠根據(jù)用戶模型,返回針對(duì)該用戶定制的育兒知識(shí)。
2.2.6 用戶行為分析與反饋?zhàn)酉到y(tǒng) 育兒通能夠針對(duì)用戶提供的資料和用戶的使用行為建立用戶模型,在用戶提問(wèn)之后,不僅給出問(wèn)題的答案,還能夠主動(dòng)推送各種用戶可能感興趣的相關(guān)育兒信息,如母嬰機(jī)構(gòu)、幼教產(chǎn)品、打折信息等等。主要功能包括:建立完整全面的父母用戶資料庫(kù);記錄完整的用戶訪問(wèn)智能育兒通的行為;保存所有的提問(wèn)請(qǐng)求及其對(duì)應(yīng)的答案結(jié)果,一方面可以作為提問(wèn)的緩存,提高系統(tǒng)響應(yīng),另一方面可以作為提高答案準(zhǔn)確率的訓(xùn)練集;用戶可以對(duì)于提問(wèn)的答案進(jìn)行評(píng)價(jià),記錄所有的滿意度,并結(jié)合提問(wèn)回答的結(jié)果進(jìn)行針對(duì)性訓(xùn)練,提高搜索模型的精確度;對(duì)于提問(wèn)行為進(jìn)行分析,給出熱門問(wèn)題、熱門關(guān)鍵詞等指標(biāo);通過(guò)分析用戶資料和行為,將用戶進(jìn)行特定指標(biāo)的分類,并能智能推送和定制育兒知識(shí)提供決策依據(jù)。
智能育兒通整體采用SOA體系架構(gòu),對(duì)外提供基于Web Services的在線應(yīng)用服務(wù),從而為第三方應(yīng)用程序提供方便的服務(wù)接口實(shí)現(xiàn)集成。主體程序使用Java EE技術(shù)構(gòu)建,客戶端覆蓋各種操作系統(tǒng)和編程語(yǔ)言。搜索引擎的實(shí)現(xiàn)上使用了大量的開(kāi)源軟件,其中利用Apache Nutch負(fù)責(zé)抓?。╟rawling)和提?。╡xtracting)內(nèi)容。Apache Solr作為處理搜索結(jié)果的源和入口,使用Solr作為搜索后端,在Nutch和Solr的整體框架下,實(shí)現(xiàn)根據(jù)育兒知識(shí)和信息體系定制的分詞、語(yǔ)法分析、索引、匹配等算法。
用戶操作接口包括網(wǎng)頁(yè)瀏覽、手機(jī)短信、手機(jī)客戶端程序和及時(shí)聊天。其中及時(shí)聊天工具應(yīng)包括但不限于QQ、MSN和Fetion(飛信),手機(jī)客戶端程序的操作系統(tǒng)包括但不限于Android、iOS(iPhone)和 Symbian。
智能育兒通的核心技術(shù)來(lái)源于本公司與清華大學(xué)計(jì)算機(jī)系合作開(kāi)發(fā)的技術(shù)成果,共同享有自主知識(shí)產(chǎn)權(quán)。智能育兒通預(yù)計(jì)2011年內(nèi)發(fā)布公測(cè)版,將在本公司的運(yùn)營(yíng)的真實(shí)同城育兒社區(qū)“父母在線”(http://www.ifumu.com)中發(fā)布,為廣大中國(guó)父母提供精準(zhǔn)的育兒信息和貼心的母嬰服務(wù)。
智能育兒通在傳統(tǒng)搜索引擎的技術(shù)基礎(chǔ)之上,創(chuàng)新地使用人工智能技術(shù)以及科學(xué)育兒方法和知識(shí)體系進(jìn)行構(gòu)建,為全中國(guó)的父母提供更精準(zhǔn)、更全面的搜索和問(wèn)答服務(wù),是一種全新的用戶體驗(yàn)和服務(wù)模式,其技術(shù)水平方面在國(guó)內(nèi)也屬領(lǐng)先。未來(lái)在不斷優(yōu)化搜索效果和提高用戶體驗(yàn)的同時(shí),還將拓展商業(yè)應(yīng)用和增值服務(wù),實(shí)現(xiàn)大規(guī)模的商業(yè)化運(yùn)營(yíng)?!?/p>
[1]鄭實(shí)福,劉挺,秦兵,等.中文自動(dòng)問(wèn)答系統(tǒng)綜述[J].中文信息學(xué)報(bào),2002,6(16):46-52.
[2]H uizhong D uan1,Y unbo Cao,Chin-Y ew Lin ,etal.Searching Q uestions by Identifying Q uestion Topic and Q uestion Focus[J].Proceedings of A CL,2008(8):156-164.
[3]P Raghavan,H Schtze.Introduction to Information Retrieval[M].Cambridge U niversity Press N ew Y ork,N Y,U SA,2008:100-152.