亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        智慧搜索中的實(shí)體與關(guān)聯(lián)關(guān)系建模與挖掘

        2015-01-01 02:55:48王曉陽(yáng)鄭驍慶肖仰華
        通信學(xué)報(bào) 2015年12期
        關(guān)鍵詞:關(guān)聯(lián)語(yǔ)義智慧

        王曉陽(yáng),鄭驍慶,肖仰華

        (復(fù)旦大學(xué) 計(jì)算機(jī)科學(xué)技術(shù)學(xué)院 上海市數(shù)據(jù)科學(xué)重點(diǎn)實(shí)驗(yàn)室,上海 201203)

        1 引言

        自萬(wàn)維網(wǎng)(World Wide Web)誕生以來(lái),經(jīng)歷半個(gè)多世紀(jì)的迅速發(fā)展與演化,其形式內(nèi)容與應(yīng)用模式都發(fā)生了顯著的變化。網(wǎng)絡(luò)應(yīng)用模式從由專業(yè)人員開發(fā)、以高訪問(wèn)量為目標(biāo)的綜合門戶網(wǎng)站為主導(dǎo)的Web1.0時(shí)代,發(fā)展至眾人皆可參與、高度交互的社交媒體Web 2.0時(shí)期。萬(wàn)維網(wǎng)正在向更高級(jí)的、以語(yǔ)義和智能技術(shù)應(yīng)用為代表的Web3.0發(fā)展,更加強(qiáng)調(diào)通過(guò)綜合多源異質(zhì)信息,以提供個(gè)性化的智能解答與服務(wù)。

        與此同時(shí),大數(shù)據(jù)概念及技術(shù)迅速滲入社會(huì)各層面。大數(shù)據(jù)的目標(biāo)是從存在“噪聲”的海量多源異質(zhì)異構(gòu)數(shù)據(jù)中,自動(dòng)高效地發(fā)掘有價(jià)值的信息。將大數(shù)據(jù)分析中技術(shù)共性部分抽取出來(lái),加以擴(kuò)展,開發(fā)新一代面向網(wǎng)絡(luò)空間的搜索引擎,推進(jìn)搜索引擎向?qū)ο蠖嘣?、?shù)據(jù)多樣化、信息融合化、解答智能化的方向發(fā)展,從而能夠提供契合用戶搜索意圖的智慧解決方案——“大搜索”的概念也應(yīng)運(yùn)而生[1]。

        大搜索或稱“智慧搜索”,指的是根據(jù)搜索請(qǐng)求,在網(wǎng)絡(luò)空間中進(jìn)行搜索,形成相應(yīng)的智慧解決方案,最后返回以解決方案為搜索結(jié)果的過(guò)程。它與傳統(tǒng)搜索最大的不同在于:它的搜索內(nèi)容和對(duì)象由傳統(tǒng)的文本信息擴(kuò)展到了物體、信息和人物,以及他們之間的關(guān)聯(lián)關(guān)系;它要求從網(wǎng)絡(luò)空間中獲取智能解答方案而非簡(jiǎn)單的返回相關(guān)網(wǎng)頁(yè)。

        實(shí)現(xiàn)智慧搜索面臨以下挑戰(zhàn)。1)網(wǎng)絡(luò)空間的數(shù)據(jù)獲取與組織。當(dāng)前網(wǎng)絡(luò)空間中所描述的實(shí)體對(duì)象(如人、物、概念、事件等)及關(guān)聯(lián)關(guān)系(如朋友、購(gòu)買、參與等)的數(shù)量巨大、種類繁多。數(shù)據(jù)來(lái)源可包括互聯(lián)網(wǎng)、社交網(wǎng)絡(luò)、時(shí)空數(shù)據(jù)、企業(yè)、運(yùn)營(yíng)商等。智慧搜索需要融合多渠道、多模式的各種類型數(shù)據(jù),挖掘和發(fā)現(xiàn)其中潛在的、有價(jià)值的信息,并且形成相應(yīng)的知識(shí)框架及索引體系,以便于搜索、查詢與利用。2)用戶意圖的準(zhǔn)確理解。用戶查詢輸入方式多樣,充滿了語(yǔ)義方面的歧義。這需要智慧搜索能夠洞察與理解用戶真實(shí)的搜索意圖,在海量、多源、異構(gòu)、多態(tài)的數(shù)據(jù)中,利用他們之間語(yǔ)義關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)實(shí)體對(duì)象及其關(guān)聯(lián)關(guān)系相關(guān)信息的有效搜索,提供最貼合用戶需求的搜索結(jié)果。3)滿足用戶查詢需求的智慧方案形成。傳統(tǒng)搜索引擎一般只能為用戶提供符合搜索要求的存在性信息(相關(guān)的網(wǎng)頁(yè)),而用戶的意圖具有多樣化、個(gè)性化等特點(diǎn),需要根據(jù)其意圖形成一系列可供選擇的智慧解決方案。這需要實(shí)現(xiàn)搜索解答方案的智慧化,為用戶求解出智慧答案。因而如何根據(jù)用戶的搜索意圖,基于知識(shí)倉(cāng)庫(kù)對(duì)有關(guān)知識(shí)進(jìn)行求解,通過(guò)推理演算形成若干綜合的智慧解決方案則成為智慧搜索技術(shù)的關(guān)鍵所在。

        應(yīng)對(duì)上述智慧搜索技術(shù)的挑戰(zhàn),一個(gè)重要的任務(wù)就是對(duì)實(shí)體對(duì)象及關(guān)聯(lián)關(guān)系進(jìn)行建模,將網(wǎng)絡(luò)空間包含的各類實(shí)體關(guān)聯(lián)知識(shí)用有效的組織方式存儲(chǔ),以支持智慧搜索。這里,“實(shí)體對(duì)象”或簡(jiǎn)稱“實(shí)體”應(yīng)被理解為廣義的對(duì)象,包含世界中客觀存在的事物以及人類思維空間中的概念,他們之間相互作用、制約,由此形成一定的“關(guān)聯(lián)關(guān)系”或簡(jiǎn)稱“關(guān)聯(lián)”。實(shí)體可以是名人、城市、球隊(duì)、電影、地標(biāo)性建筑、藝術(shù)品、概念、事件等,關(guān)聯(lián)則可以是人與人、概念與地點(diǎn)、人與物品以及地點(diǎn)與物品等之間存在的關(guān)系。利用實(shí)體以及他們之間的關(guān)聯(lián),不僅可以提高搜索精度和優(yōu)化搜索結(jié)果,還可以支撐語(yǔ)義分析、關(guān)聯(lián)分析、知識(shí)搜索和智能推薦等高層的服務(wù)。

        簡(jiǎn)單地說(shuō),實(shí)體對(duì)象與關(guān)聯(lián)關(guān)系建模就是要從網(wǎng)絡(luò)空間中抽取實(shí)體及關(guān)聯(lián)信息,形成知識(shí)庫(kù)。這是個(gè)工業(yè)界及學(xué)術(shù)界共同關(guān)心的問(wèn)題,谷歌和百度的知識(shí)圖譜、搜狗的知立方都是這類知識(shí)庫(kù)的實(shí)例。表1顯示部分公開的知識(shí)圖譜及它們的規(guī)模。廣義上講,這個(gè)建模問(wèn)題本質(zhì)上是解決如何使用計(jì)算機(jī)進(jìn)行大規(guī)模多源知識(shí)的獲取、組織和使用的問(wèn)題。它的必要性表現(xiàn)在以下方面。

        1)實(shí)體對(duì)象及關(guān)聯(lián)關(guān)系建模是跨越語(yǔ)義鴻溝的關(guān)鍵,背景知識(shí)缺乏是語(yǔ)義鴻溝難以跨越的一個(gè)重要原因?,F(xiàn)有機(jī)器可讀的知識(shí)庫(kù)在質(zhì)量上和完整性方面仍然難以達(dá)到人類語(yǔ)義理解的基本水平,但近年來(lái)研究開發(fā)的基于知識(shí)圖譜的知識(shí)庫(kù),相對(duì)于傳統(tǒng)知識(shí)表示方法,在兼顧精準(zhǔn)性的同時(shí),在完整性方面取得了長(zhǎng)足的進(jìn)步,它為用戶意圖理解、語(yǔ)義消歧、信息整合等提供了必要的背景知識(shí),使征服語(yǔ)義鴻溝又前進(jìn)了一步。谷歌等搜索引擎已將基于知識(shí)圖譜的知識(shí)庫(kù)成功用于提高搜索結(jié)果準(zhǔn)確性。

        2)實(shí)體對(duì)象及關(guān)聯(lián)關(guān)系建模是知識(shí)有效運(yùn)用的基礎(chǔ)。網(wǎng)絡(luò)空間所涉及的實(shí)體數(shù)巨大,已有的知識(shí)庫(kù)中實(shí)體數(shù)已達(dá)千萬(wàn)量,關(guān)聯(lián)數(shù)則以億計(jì),它們所形成的是典型的異構(gòu)信息網(wǎng)絡(luò)。實(shí)體對(duì)象及關(guān)聯(lián)關(guān)系建模呈多模形態(tài),常常需要用某種測(cè)度來(lái)表達(dá)實(shí)體及關(guān)系的出現(xiàn)頻率、強(qiáng)度等信息;需要用邊的方向表達(dá)關(guān)系的非對(duì)稱性;需要用概率體現(xiàn)數(shù)據(jù)源的不確定性等。上述特征對(duì)于實(shí)體對(duì)象及關(guān)聯(lián)關(guān)系模型提出更高的要求,設(shè)計(jì)良好的模型是其上進(jìn)行高效查詢、更新和推理的基礎(chǔ)。

        3)實(shí)體對(duì)象及關(guān)聯(lián)關(guān)系建模是搜索智慧化的前提。實(shí)體對(duì)象及關(guān)系模型相對(duì)于領(lǐng)域本體和傳統(tǒng)語(yǔ)義網(wǎng)絡(luò)而言,其實(shí)體覆蓋率更高,語(yǔ)義關(guān)系也更加全面而復(fù)雜。利用實(shí)體對(duì)象及關(guān)聯(lián)關(guān)系可以對(duì)搜索結(jié)果行系統(tǒng)的語(yǔ)義分析,將用戶查詢映射到知識(shí)庫(kù)的概念上,從而用于優(yōu)化搜索結(jié)果。還可利用已知的實(shí)體對(duì)象及關(guān)系進(jìn)行推理,產(chǎn)生新知識(shí),這種能力是問(wèn)題解答、自動(dòng)服務(wù)生成、智慧方案形成等的技術(shù)前提。

        表1 公開的知識(shí)圖譜

        以下介紹與討論智慧搜索中實(shí)體對(duì)象及關(guān)聯(lián)關(guān)系建模相關(guān)的關(guān)鍵技術(shù)與方法,其技術(shù)之間的關(guān)系如圖1所示。

        圖1 智慧搜索中實(shí)體對(duì)象及關(guān)聯(lián)關(guān)系建模關(guān)鍵技術(shù)關(guān)聯(lián)

        2 知識(shí)圖譜

        實(shí)體或概念是世界中客觀存在的事物,他們之間相互作用、制約,由此形成一定的關(guān)系。實(shí)體與關(guān)系建模本質(zhì)上是解決如何使用計(jì)算機(jī)進(jìn)行大規(guī)模多源知識(shí)的表示、獲取和使用的問(wèn)題。目前,實(shí)體對(duì)象及其關(guān)系建模工作較多地圍繞知識(shí)圖譜展開。

        知識(shí)圖譜是采用語(yǔ)義檢索技術(shù)從多種信息源收集與某一主題相關(guān)的實(shí)體或概念,以及他們之間的關(guān)聯(lián)所形成的網(wǎng)絡(luò)圖。圖中的節(jié)點(diǎn)對(duì)應(yīng)實(shí)體或概念,圖中的弧對(duì)應(yīng)實(shí)體或概念之間的關(guān)聯(lián)關(guān)系。

        大搜索借助知識(shí)圖譜,通過(guò)深化現(xiàn)實(shí)世界中每個(gè)實(shí)體以及他們之間相互關(guān)系的理解,提高搜索精度和優(yōu)化搜索結(jié)果。語(yǔ)言的歧義性會(huì)給搜索帶來(lái)了困難,例如當(dāng)用戶輸入查詢?cè)~“蘋果”,傳統(tǒng)搜索引擎無(wú)法理解用戶想要查詢的是水果還是公司?;谥R(shí)圖譜的智能搜索將所有這些可能性歸納分組,用戶僅需點(diǎn)擊其中一組即可看到針對(duì)特定含義的所有搜索結(jié)果。有了知識(shí)圖譜,搜索引擎可以更好地理解用戶的查詢,從而提供與該查詢更相關(guān)的內(nèi)容,即根據(jù)不同的實(shí)體,展示最相關(guān)的事實(shí)。如圖 2所示,當(dāng)用戶搜索“Marie Curie”(居里夫人)時(shí),不僅可以看到與居里夫人相關(guān)的網(wǎng)頁(yè),還可以看到有關(guān)居里夫人教育經(jīng)歷、科學(xué)貢獻(xiàn)和社會(huì)關(guān)系等信息。利用知識(shí)圖譜還可以提供語(yǔ)義分析、關(guān)聯(lián)分析、知識(shí)搜索和智能推薦等知識(shí)服務(wù)。

        圖2 知識(shí)圖譜優(yōu)化搜索結(jié)果的例子(摘自Google搜索結(jié)果)

        3 知識(shí)獲取

        知識(shí)圖譜需要各種自動(dòng)化知識(shí)獲取方法來(lái)補(bǔ)充相關(guān)的知識(shí)(即實(shí)體及其關(guān)系),其中存儲(chǔ)的知識(shí)越豐富,則解決問(wèn)題的能力也越強(qiáng)。關(guān)聯(lián)信息發(fā)掘是一種面向任務(wù)的信息獲取方式,是指以一定的策略和方法去采集、獲取、發(fā)掘用戶需要的數(shù)據(jù)與信息的過(guò)程。關(guān)聯(lián)信息發(fā)掘的工作過(guò)程如下。首先,以已有的知識(shí)圖譜為引導(dǎo),把所有可能的數(shù)據(jù)源都搜集起來(lái),包括互聯(lián)網(wǎng)上的網(wǎng)站、社交網(wǎng)絡(luò)、網(wǎng)絡(luò)服務(wù)等,以及物聯(lián)網(wǎng)、視音頻監(jiān)控的數(shù)據(jù)等,并且針對(duì)每一種數(shù)據(jù)源設(shè)計(jì)相應(yīng)的數(shù)據(jù)獲取方式,如網(wǎng)絡(luò)爬蟲方式、API數(shù)據(jù)獲取方式等;之后,對(duì)所有數(shù)據(jù)源進(jìn)行分類,類別層次是一個(gè)多層次多維度的分類過(guò)程,根據(jù)用戶需求的變化,數(shù)據(jù)源類別層次應(yīng)能做相應(yīng)調(diào)整;當(dāng)接受到用戶的定向獲取任務(wù)時(shí),根據(jù)用戶需求確定數(shù)據(jù)源的類別,并在相應(yīng)類別的數(shù)據(jù)源中進(jìn)行基于任務(wù)的數(shù)據(jù)獲?。蛔詈?,對(duì)所有數(shù)據(jù)源獲取的數(shù)據(jù)進(jìn)行結(jié)果的綜合,包括去重、清洗、結(jié)果融合等,并把最終結(jié)果返回給用戶,并且對(duì)其中共性的內(nèi)容用于更新已有知識(shí)圖譜。

        例如:通過(guò)搜索意圖理解確定用戶關(guān)心“達(dá)芬奇”相關(guān)的信息,則在互聯(lián)網(wǎng)上獲取維基百科、FreeBase以及普通網(wǎng)頁(yè)上關(guān)于達(dá)芬奇的介紹、照片,與達(dá)芬奇相關(guān)的音視頻等信息,另外,通過(guò)深入分析,還可以把達(dá)芬奇的作品如“蒙娜麗莎”的相關(guān)信息、圖片,以及同時(shí)期的藝術(shù)家“米開朗基羅”的相關(guān)信息等一起獲取過(guò)來(lái),之后再對(duì)獲取的信息進(jìn)行去重、清洗等預(yù)處理操作,最后把處理后的數(shù)據(jù)返回給用戶。

        關(guān)聯(lián)信息發(fā)掘的關(guān)鍵技術(shù)除了傳統(tǒng)數(shù)據(jù)集成任務(wù)所需的數(shù)據(jù)清洗、數(shù)據(jù)去重、數(shù)據(jù)融合、沖突消解和數(shù)據(jù)轉(zhuǎn)換等數(shù)據(jù)預(yù)處理技術(shù)外,還包括直接和間接信息發(fā)掘技術(shù)。

        3.1 直接獲取

        直接信息獲取來(lái)源包括:互聯(lián)網(wǎng)、物聯(lián)網(wǎng)、視頻監(jiān)控、社交網(wǎng)絡(luò)、專業(yè)領(lǐng)域數(shù)據(jù)等。

        1)互聯(lián)網(wǎng)數(shù)據(jù)獲取是指對(duì)互聯(lián)網(wǎng)中的大數(shù)據(jù)進(jìn)行高度并行的自動(dòng)采集,并迅速收集到系統(tǒng)中的數(shù)據(jù)獲取過(guò)程?;ヂ?lián)網(wǎng)數(shù)據(jù)獲取包括網(wǎng)頁(yè)類獲取和服務(wù)類數(shù)據(jù)獲取2種方式,其中,網(wǎng)頁(yè)類服務(wù)獲取主要采用網(wǎng)絡(luò)爬蟲自動(dòng)獲取網(wǎng)頁(yè)上的內(nèi)容,網(wǎng)絡(luò)爬蟲可以按照一定的策略自動(dòng)在互聯(lián)網(wǎng)上蔓延以獲取更多相關(guān)信息;服務(wù)類數(shù)據(jù)獲取主要采用服務(wù)接口調(diào)用的方式獲得網(wǎng)絡(luò)服務(wù)數(shù)據(jù)。

        2)物聯(lián)網(wǎng)數(shù)據(jù)獲取是指通過(guò)RFID數(shù)據(jù)采集技術(shù)或者無(wú)線傳感器網(wǎng)技術(shù)等方式獲取物聯(lián)網(wǎng)數(shù)據(jù)。RFID數(shù)據(jù)采集技術(shù)是通過(guò)標(biāo)簽閱讀器和標(biāo)簽接收器,定時(shí)或?qū)崟r(shí)地收集人、物體、設(shè)備、環(huán)境、狀態(tài)等基本信息。無(wú)線傳感網(wǎng)技術(shù)是由許多在空間中分布的傳感節(jié)點(diǎn)組成的一種無(wú)線通信計(jì)算機(jī)網(wǎng)絡(luò),這些傳感節(jié)點(diǎn)協(xié)作地監(jiān)控不同位置的物理或環(huán)境狀況(如溫度、聲音、振動(dòng)、壓力、運(yùn)動(dòng)或污染物),其應(yīng)用涉及軍事、城市公共安全、公共衛(wèi)生、安全生產(chǎn)、智能交通、智能家居、環(huán)境監(jiān)控等領(lǐng)域。

        3)視頻監(jiān)控?cái)?shù)據(jù)獲取是對(duì)于視頻監(jiān)控系統(tǒng)和互聯(lián)網(wǎng)上的視頻數(shù)據(jù)進(jìn)行收集并集成到系統(tǒng)中的過(guò)程。視頻監(jiān)控系統(tǒng)一般擁有大量的視頻監(jiān)控設(shè)備,視頻監(jiān)控設(shè)備產(chǎn)生的視頻數(shù)據(jù)通過(guò)專用網(wǎng)絡(luò)實(shí)時(shí)傳輸至視頻監(jiān)控系統(tǒng)的數(shù)據(jù)存儲(chǔ)設(shè)備上,對(duì)于已存儲(chǔ)的視頻數(shù)據(jù)可以通過(guò)其調(diào)用接口進(jìn)行獲取?;ヂ?lián)網(wǎng)上的視頻一般具有特定的數(shù)據(jù)格式和相應(yīng)的文本說(shuō)明,可以通過(guò)網(wǎng)絡(luò)爬蟲利用合理的爬取策略來(lái)獲取視頻數(shù)據(jù)。

        4)社交網(wǎng)絡(luò)數(shù)據(jù)獲取是指對(duì)于各類社交網(wǎng)站中的相關(guān)數(shù)據(jù)進(jìn)行自動(dòng)收集并迅速集成到系統(tǒng)的過(guò)程。社交網(wǎng)絡(luò)數(shù)據(jù)有表層和深層網(wǎng)絡(luò)數(shù)據(jù)2類,如科研合作網(wǎng)絡(luò)DBLP屬于表層網(wǎng)絡(luò),而新浪微博屬于深層網(wǎng)絡(luò)。對(duì)于表層網(wǎng)絡(luò)中網(wǎng)頁(yè)信息的獲取,可以直接使用爬蟲程序?qū)@些存儲(chǔ)信息的網(wǎng)頁(yè)進(jìn)行解析,從標(biāo)簽屬性值中抽取需要的信息。與表層網(wǎng)絡(luò)相反,深層網(wǎng)絡(luò)將頁(yè)面信息存儲(chǔ)在后臺(tái)數(shù)據(jù)庫(kù)中,只有通過(guò)查詢接口查詢才能由服務(wù)器動(dòng)態(tài)生成并返回或者獲取權(quán)限后才能查看,并沒有超鏈接指向這些網(wǎng)頁(yè),不能被傳統(tǒng)的搜索引擎索引到。因此,獲取這些數(shù)據(jù)主要包含2種方式:一是通過(guò)查詢接口查詢由服務(wù)器動(dòng)態(tài)生成并返回查詢結(jié)果;二是僅對(duì)注冊(cè)用戶開放的信息,只有登錄后才可查看專有網(wǎng)絡(luò)信息。

        5)專業(yè)領(lǐng)域數(shù)據(jù)獲取是根據(jù)需要,收集與某專業(yè)領(lǐng)域相關(guān)信息的過(guò)程。以醫(yī)療健康數(shù)據(jù)獲取為例,它是對(duì)于醫(yī)療健康相關(guān)的信息系統(tǒng)和互聯(lián)網(wǎng)上有關(guān)醫(yī)療健康的大數(shù)據(jù)進(jìn)行高度并行的自動(dòng)采集,迅速收集到系統(tǒng)中的數(shù)據(jù)獲取過(guò)程。醫(yī)療健康信息系統(tǒng)包括醫(yī)院信息系統(tǒng)、放射信息系統(tǒng)、實(shí)驗(yàn)室信息系統(tǒng)、醫(yī)學(xué)影像存檔與通信系統(tǒng)、臨床信息系統(tǒng)、公關(guān)衛(wèi)生信息系統(tǒng)、電子病歷信息系統(tǒng)等,而互聯(lián)網(wǎng)上有關(guān)醫(yī)療健康的數(shù)據(jù)有醫(yī)學(xué)新聞博文、專業(yè)期刊雜志等。

        3.2 間接獲取

        基于用戶的搜索需求,間接信息發(fā)掘通過(guò)與智慧搜索知識(shí)推演系統(tǒng)的交互,基于知識(shí)推演給出深層次的搜索任務(wù),從而獲得更多面向任務(wù)的數(shù)據(jù),并對(duì)獲取的數(shù)據(jù)進(jìn)行融合,最終滿足用戶的搜索需求。

        間接信息發(fā)掘主要包含以下步驟。

        1)以用戶的搜索需求和直接數(shù)據(jù)獲取技術(shù)得到的數(shù)據(jù)作為輸入,將其提交給智慧搜索知識(shí)推演系統(tǒng)。

        2)知識(shí)推演系統(tǒng)根據(jù)用戶的搜索需求和已經(jīng)獲得的數(shù)據(jù)進(jìn)行推演,如果該搜索需求仍不存在知識(shí)推演系統(tǒng)中,則將其返回給間接信息發(fā)掘系統(tǒng)。

        3)間接信息發(fā)掘系統(tǒng)根據(jù)當(dāng)前收集相關(guān)數(shù)據(jù)和查詢需求,發(fā)出新的查詢請(qǐng)求,并將收集到的數(shù)據(jù)返回給智慧搜索知識(shí)推演系統(tǒng)。

        4)知識(shí)推演系統(tǒng)對(duì)用戶的搜索需求和獲得的信息進(jìn)行推演,判斷其是否滿足用戶的搜索需求。如果滿足,則直接返回,推演結(jié)束;如果不滿足,則重復(fù)步驟2)到步驟4),直到獲取的數(shù)據(jù)滿足用戶的搜索需求。

        5)將滿足用戶搜索需求的結(jié)果返回給用戶。

        例如,用戶搜索“2014年全球總體失業(yè)率是多少”。使用直接數(shù)據(jù)獲取技術(shù)會(huì)得到一些零散的與失業(yè)相關(guān)的數(shù)據(jù),無(wú)法滿足用戶搜索需求。此時(shí),間接信息發(fā)掘系統(tǒng)將用戶的搜索需求以及已經(jīng)獲得零散數(shù)據(jù)提交給智慧搜索知識(shí)推演系統(tǒng)。知識(shí)推演系統(tǒng)推演得出全球的總體失業(yè)率可以通過(guò)綜合不同國(guó)家和地區(qū)的失業(yè)率數(shù)據(jù)得到,因此,將各國(guó)的失業(yè)率作為查詢需求返回給間接信息發(fā)掘系統(tǒng)。間接信息發(fā)掘系統(tǒng)進(jìn)行查詢并將得到的數(shù)據(jù)返回給知識(shí)推演系統(tǒng)。系統(tǒng)推演發(fā)現(xiàn),除了美國(guó),其他各國(guó)2014年的失業(yè)率數(shù)據(jù)都可以得到。知識(shí)推演系統(tǒng)進(jìn)一步推演得出通過(guò)查詢美國(guó)每個(gè)季度的失業(yè)率來(lái)綜合得到的美國(guó)年平均失業(yè)率。因此,將這一查詢請(qǐng)求提交給間接信息發(fā)掘系統(tǒng)。間接信息發(fā)掘系統(tǒng)進(jìn)行查詢并將查詢得到的數(shù)據(jù)返回給知識(shí)推演系統(tǒng)。知識(shí)推演系統(tǒng)推演發(fā)現(xiàn)將所有數(shù)據(jù)融合即可得到滿足用戶搜索需求的數(shù)據(jù)。因此,知識(shí)推演系統(tǒng)將最終融合后的數(shù)據(jù)返回給間接信息發(fā)掘系統(tǒng),間接信息發(fā)掘系統(tǒng)將結(jié)果返回用戶。

        4 知識(shí)倉(cāng)庫(kù)

        知識(shí)圖譜包羅萬(wàn)象,可以看成是比較初級(jí)和粗糙的知識(shí)。為了能夠支持高層的智能搜索、分析和推理服務(wù),需要對(duì)知識(shí)圖譜中所包含的數(shù)據(jù)進(jìn)一步深度加工。在知識(shí)圖譜中,一個(gè)實(shí)體可能存在著數(shù)量眾多的關(guān)聯(lián)關(guān)系,并且具備相同特征的實(shí)體又散布在圖譜的各處,而基于知識(shí)圖譜的具體處理和分析任務(wù)往往僅涉及部分子圖和某些實(shí)體的部分關(guān)系。如何在語(yǔ)義層面對(duì)知識(shí)圖譜中存儲(chǔ)的知識(shí)進(jìn)一步的組織和建模成為最大程度地發(fā)揮知識(shí)圖譜作用的關(guān)鍵。這個(gè)層次的建模需要支持對(duì)知識(shí)圖譜中符合某一語(yǔ)義定義的實(shí)體進(jìn)行快速聚合,并且能夠從多個(gè)維度對(duì)相關(guān)的實(shí)體集合進(jìn)行分析,從而有利于發(fā)現(xiàn)各種規(guī)律或現(xiàn)象。此外,預(yù)先對(duì)知識(shí)圖譜中的數(shù)據(jù)從不同維度進(jìn)行組織和聚合,從而形成知識(shí)倉(cāng)庫(kù),能夠加快完成各種查詢和分析的任務(wù)。

        知識(shí)倉(cāng)庫(kù)是在整個(gè)知識(shí)圖譜上,或者在滿足預(yù)先定義或動(dòng)態(tài)生成模式所形成的目標(biāo)對(duì)象和關(guān)聯(lián)對(duì)象所形成的子圖上,通過(guò)系統(tǒng)地加工、匯總和整理所得到的結(jié)構(gòu)化數(shù)據(jù)環(huán)境。知識(shí)倉(cāng)庫(kù)采用基于圖的索引和分布式處理等技術(shù)能夠?qū)D中的對(duì)象從不同維度(或?qū)傩裕┖蛯哟芜M(jìn)行聚合(aggregate)、鉆?。╮oll up/drill down)和旋轉(zhuǎn)(pivot)等操作,以利于其上進(jìn)行聯(lián)機(jī)分析處理、數(shù)據(jù)挖掘,進(jìn)而快速有效地從大量數(shù)據(jù)中分析出有價(jià)值的資訊。如圖3所示,根據(jù)定義模式從知識(shí)圖譜中定位和收集目標(biāo)人群及其關(guān)聯(lián)人群之后,可以通過(guò)地域、性別、年齡3個(gè)不同維度對(duì)目標(biāo)人群和關(guān)聯(lián)人群所組成的網(wǎng)絡(luò),結(jié)合其他相關(guān)信息進(jìn)行焦點(diǎn)對(duì)象發(fā)現(xiàn)、多維度統(tǒng)計(jì)分析、對(duì)象行為預(yù)測(cè)、網(wǎng)絡(luò)結(jié)構(gòu)相似度分析等。

        圖3 基于知識(shí)倉(cāng)庫(kù)多維分析的例子

        5 查詢與推理

        知識(shí)圖譜上的查詢處理是管理和使用知識(shí)圖譜的前提,也是獲取蘊(yùn)含于知識(shí)圖譜中語(yǔ)義信息的基本操作。例如獲取概念間的語(yǔ)義距離,獲取一個(gè)或者一組實(shí)體的概念描述,獲取句子的主題,對(duì)多義詞進(jìn)行消歧等任務(wù),都可以轉(zhuǎn)化為在知識(shí)圖譜上的查詢操作。知識(shí)圖譜上的推理是從已知的知識(shí)產(chǎn)生新知識(shí)的過(guò)程。例如:從“配偶 + 男性”推理出“丈夫”概念、從“應(yīng)天是南京明朝時(shí)的名稱 +建康是南京古稱”推理出“應(yīng)天和建康是同一城市在不同時(shí)期的稱謂”。推理可以用于補(bǔ)充知識(shí)圖譜的知識(shí),也可以根據(jù)需要即時(shí)執(zhí)行。

        大數(shù)據(jù)是智慧搜索的處理對(duì)象,將搜索響應(yīng)時(shí)間控制在合理的范圍之內(nèi)是系統(tǒng)成功的關(guān)鍵因素之一。知識(shí)圖譜作為大數(shù)據(jù)的數(shù)據(jù)源之一,往往包含千萬(wàn)量級(jí)的實(shí)體和關(guān)系。為了提高知識(shí)圖譜的查詢性能,需要將知識(shí)圖譜劃分成若干子圖,并且存儲(chǔ)在不同的設(shè)備,然后通過(guò)分布式處理、并行計(jì)算、查詢優(yōu)化、索引技術(shù)來(lái)縮短查詢的完成時(shí)間。知識(shí)圖譜的推理一般采用基于規(guī)則的方法,規(guī)則既可以是基于數(shù)理邏輯學(xué)的邏輯規(guī)則,也可以是基于認(rèn)知心理學(xué)的產(chǎn)生式規(guī)則。規(guī)則既可以人工定義,也可以通過(guò)學(xué)習(xí)獲得。由于知識(shí)來(lái)源于動(dòng)態(tài)、開放的網(wǎng)絡(luò),具有不可靠性,因而規(guī)則推理系統(tǒng)一般需要具備處理不確定推理的能力。

        如果充分利用網(wǎng)頁(yè)鏈接關(guān)系蘊(yùn)含的信息是Web搜索引擎超越傳統(tǒng)信息檢索系統(tǒng)的基礎(chǔ),那么如何高效利用網(wǎng)絡(luò)空間巨規(guī)模實(shí)體關(guān)聯(lián)信息,將是智慧搜索取得成功的基礎(chǔ)。智慧搜索能帶來(lái)巨大的價(jià)值,不僅僅是因?yàn)槔昧烁喾N類的數(shù)據(jù)或某一類型更大量的數(shù)據(jù)量,更主要在于其將充分發(fā)掘不同實(shí)體對(duì)象的跨域關(guān)聯(lián)信息。

        實(shí)體關(guān)聯(lián)可以采用表和圖2種方式來(lái)表達(dá)。相比之下,圖更適合表達(dá)稀疏、高維、海量的關(guān)聯(lián)數(shù)據(jù),表則會(huì)面臨極高的連接、查詢和存儲(chǔ)的開銷。因此,圖是智慧搜索系統(tǒng)面向網(wǎng)絡(luò)數(shù)據(jù)的一種最合理的表達(dá)抽象。智慧搜索支撐平臺(tái)主要需要提供巨規(guī)模實(shí)體關(guān)聯(lián)數(shù)據(jù)的存儲(chǔ)和處理能力。

        6 知識(shí)更新與演化

        知識(shí)的演化與更新是指知識(shí)在時(shí)間軸上不斷發(fā)展的一種動(dòng)態(tài)變化,代表了知識(shí)的流動(dòng)和變遷,即通過(guò)往知識(shí)倉(cāng)庫(kù)中添加新節(jié)點(diǎn),并與網(wǎng)絡(luò)中已有的節(jié)點(diǎn)進(jìn)行連接,從而實(shí)現(xiàn)對(duì)知識(shí)的演化和更新。

        例如,維基百科可以將用戶發(fā)布的知識(shí)作為一個(gè)新的節(jié)點(diǎn),通過(guò)將這一節(jié)點(diǎn)加入已有的知識(shí)網(wǎng)絡(luò),從而實(shí)現(xiàn)對(duì)知識(shí)庫(kù)中原有知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)的動(dòng)態(tài)更新。又如,隨著計(jì)算機(jī)技術(shù)的發(fā)展,以前所未聞的可穿戴式計(jì)算機(jī)應(yīng)運(yùn)而生,從而賦予了移動(dòng)式計(jì)算機(jī)新的技術(shù)內(nèi)涵??纱┐魇接?jì)算機(jī)為可穿戴于身上外出進(jìn)行活動(dòng)的微型電子設(shè)備,對(duì)于這種以前未在知識(shí)網(wǎng)絡(luò)中出現(xiàn)的新知識(shí),如何將其添加到知識(shí)庫(kù)中,從而實(shí)現(xiàn)知識(shí)的演化和更新呢?其實(shí),可以根據(jù)可穿戴式計(jì)算機(jī)的定義,利用知識(shí)網(wǎng)絡(luò)中實(shí)體之間的關(guān)系,采用數(shù)據(jù)挖掘中的相關(guān)技術(shù),如聚類技術(shù),將其劃入相應(yīng)的知識(shí)社區(qū)中,從而實(shí)現(xiàn)知識(shí)網(wǎng)絡(luò)的動(dòng)態(tài)更新,最終更新知識(shí)庫(kù)系統(tǒng)。

        知識(shí)更新演化過(guò)程既反映知識(shí)網(wǎng)絡(luò)的時(shí)序結(jié)構(gòu)變遷,又體現(xiàn)知識(shí)和概念的內(nèi)在涵義流變,演化模型是知識(shí)網(wǎng)絡(luò)內(nèi)在作用模式及作用過(guò)程的抽象表達(dá)。對(duì)演化過(guò)程的探討既是分析知識(shí)網(wǎng)絡(luò)結(jié)構(gòu)的基礎(chǔ),也是探討知識(shí)熱點(diǎn)形成及創(chuàng)新趨勢(shì)形成的基礎(chǔ)。

        7 數(shù)據(jù)存儲(chǔ)與計(jì)算平臺(tái)

        數(shù)據(jù)存儲(chǔ)與計(jì)算支撐平臺(tái)用于存儲(chǔ)、管理泛在網(wǎng)絡(luò)空間的數(shù)據(jù),支持智慧搜索的查詢、統(tǒng)計(jì)和分析處理,包括高效知識(shí)提取和秒級(jí)搜索匹配等。

        支撐平臺(tái)的挑戰(zhàn)主要包括2個(gè)方面。1)數(shù)據(jù)普適化,包括文本數(shù)據(jù)、音視頻、地理數(shù)據(jù)、社交媒體關(guān)系數(shù)據(jù)、物聯(lián)網(wǎng)數(shù)據(jù)等,這些大規(guī)模的非結(jié)構(gòu)化數(shù)據(jù)需要通用的存儲(chǔ)和計(jì)算模型來(lái)進(jìn)行有效管理。2)查詢、挖掘和分析多樣復(fù)雜(如關(guān)鍵字查詢、大圖查詢、時(shí)空查詢、聚合查詢、聚類分類、時(shí)序挖掘等),且具有嚴(yán)格的反饋時(shí)間要求。對(duì)普適化網(wǎng)絡(luò)空間數(shù)據(jù)的存儲(chǔ)、組織和管理是保證實(shí)體關(guān)系、知識(shí)抽取、搜索匹配能力的核心問(wèn)題。

        關(guān)系數(shù)據(jù)庫(kù)管理系統(tǒng)和數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)已經(jīng)在過(guò)去幾十年中發(fā)展成為一項(xiàng)較為成熟的技術(shù),主要用于管理結(jié)構(gòu)化數(shù)據(jù),無(wú)法有效存儲(chǔ)組織形式松散的網(wǎng)絡(luò)文本、多媒體等非結(jié)構(gòu)化數(shù)據(jù),并且由于大量的加鎖操作和日志登記限制了數(shù)據(jù)更新性能。隨著網(wǎng)絡(luò)檢索和大數(shù)據(jù)技術(shù)的快速發(fā)展,近些年在非結(jié)構(gòu)化數(shù)據(jù)管理方面進(jìn)一步形成了基于GFS和HDFS等分布文件系統(tǒng)的NoSQL家族,典型產(chǎn)品包括 HBase、Cassandra、MongoDB、Redis、Neo4J等,以及著名的Map-Reduce分布式計(jì)算框架。這些數(shù)據(jù)庫(kù)普遍采用列存的方式來(lái)達(dá)到更好的數(shù)據(jù)壓縮,數(shù)據(jù)庫(kù)集群具有較好的可伸縮性,并且提供了傳統(tǒng)搜索引擎所需的簡(jiǎn)單索引。但是這些NoSQL數(shù)據(jù)庫(kù)無(wú)法有效支持新一代“智能搜索”,其主要原因如下。

        1)智能搜索是一種情景敏感、基于語(yǔ)義內(nèi)容的智能檢索,根據(jù)不同搜索需要以多層次多維度的方式快速定位數(shù)據(jù),因此現(xiàn)有數(shù)據(jù)庫(kù)的數(shù)據(jù)索引和查詢優(yōu)化需要以可兼容的方式擴(kuò)充,為大搜索處理提供底層的定制支持。

        2)現(xiàn)有數(shù)據(jù)庫(kù)主要基于單一的數(shù)據(jù)模式,例如圖模式、鍵值對(duì)模式以及關(guān)系模式等,分別對(duì)應(yīng)著單一模式的數(shù)據(jù)。但是智能搜索集成了泛在網(wǎng)絡(luò)空間數(shù)據(jù),因此需要在模式層進(jìn)行整合,以更加高效的方式管理普適化的巨規(guī)模網(wǎng)絡(luò)數(shù)據(jù)。

        3)智能搜索需要對(duì)網(wǎng)絡(luò)數(shù)據(jù)深加工,構(gòu)建知識(shí)圖譜并在此基礎(chǔ)上發(fā)掘領(lǐng)域知識(shí),需要執(zhí)行大量的復(fù)雜挖掘和機(jī)器學(xué)習(xí)算法,大量的迭代處理無(wú)法在常規(guī)的NoSQL框架之下有效運(yùn)行。隨著內(nèi)存存儲(chǔ)能力的快速提升,可以在系統(tǒng)架構(gòu)中引入內(nèi)存計(jì)算框架來(lái)解決該類需求。

        因此在智能搜索系統(tǒng)構(gòu)建中,需要研發(fā)面向智能搜索的通用數(shù)據(jù)存儲(chǔ)與計(jì)算平臺(tái),以分布式框架作為底層支撐,充分利用新型硬件效能(如內(nèi)存計(jì)算、固態(tài)硬盤等,顯著降低數(shù)據(jù)掃描的I/O代價(jià)),更加合理地組織管理泛在網(wǎng)絡(luò)空間的異構(gòu)數(shù)據(jù),保證大搜索中各類復(fù)雜查詢、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘、知識(shí)抽取的快速處理。

        8 相關(guān)工作

        互聯(lián)網(wǎng)上的搜索引擎已有20多年的歷史,從最初的人工歸類,到自動(dòng)關(guān)鍵字搜索,一直到最近的知識(shí)性搜索服務(wù)。下面圍繞實(shí)體對(duì)象及關(guān)聯(lián)關(guān)系在網(wǎng)絡(luò)搜索中的應(yīng)用,分析國(guó)內(nèi)外研究現(xiàn)狀。

        1)知識(shí)庫(kù)在網(wǎng)絡(luò)搜索中的使用

        到目前為止,實(shí)體對(duì)象及其關(guān)系建模工作較多地圍繞知識(shí)圖譜(knowledge graph)展開。知識(shí)圖譜簡(jiǎn)單地說(shuō)就是一個(gè)“主謂賓”三元組的集合,其中“主”和“賓”是實(shí)體對(duì)象,“謂”是關(guān)聯(lián)關(guān)系。2012年 5月Google發(fā)布了其基于知識(shí)圖譜智能化搜索功能,通過(guò)對(duì)搜索進(jìn)行系統(tǒng)的語(yǔ)義分析,使用戶的每個(gè)查詢關(guān)鍵詞都能映射到知識(shí)庫(kù)的概念上,從而用于優(yōu)化搜索結(jié)果。知識(shí)圖譜相對(duì)于本體和傳統(tǒng)語(yǔ)義網(wǎng)絡(luò)而言,實(shí)體對(duì)象覆蓋率更高、語(yǔ)義關(guān)系也更加全面而復(fù)雜。目前學(xué)術(shù)界與工業(yè)界均呈現(xiàn)出一股構(gòu)建和使用知識(shí)圖譜的熱潮。除Google之外,微軟、百度、搜狗等公司都推出了各自的知識(shí)圖譜,典型代表包括KnowItAll[2]、TextRunner[3]、Probase[4]、YAGO[5]、DBpedia[6]、Freebase[7]等。

        當(dāng)前知識(shí)圖譜的研究工作主要從構(gòu)建與應(yīng)用2個(gè)方面展開。知識(shí)圖譜構(gòu)建從其數(shù)據(jù)源來(lái)看可分為2類:一類是萬(wàn)維網(wǎng)的頁(yè)面,另一類是相對(duì)結(jié)構(gòu)化的在線百科。以前者為來(lái)源的典型知識(shí)圖譜包括KnowItAll[2]、TextRunner[3]和 Probase[4]。KnowItAll基于規(guī)則模板抽取實(shí)體或概念之間的關(guān)系;TextRunner提出了自監(jiān)督學(xué)習(xí)方法改善了KnowItAll需要人工定義規(guī)則的缺點(diǎn);為了進(jìn)一步提高關(guān)系抽取的準(zhǔn)確性,Probase采用基于語(yǔ)義的迭代方法抽取出更多更準(zhǔn)確的ISA關(guān)系。而以在線百科為數(shù)據(jù)來(lái)源的知識(shí)圖譜包括YAGO和DBpedia等。各類知識(shí)圖譜已經(jīng)在各類應(yīng)用中發(fā)揮威力。Google利用Freebase為用戶提供更加智能化的搜索結(jié)果[8]。微軟利用Probase理解Web表格[9]和查找話題[10]。蘋果公司利用知識(shí)圖譜進(jìn)行智能問(wèn)答[11];利用YAGO增強(qiáng)地圖的實(shí)時(shí)性[12];利用 DBpedia推薦音樂[13]、標(biāo)簽識(shí)別[14]以及信息抽取[15,16]等。

        國(guó)內(nèi)也有研究團(tuán)隊(duì)從事這方面的研究,比如中科院計(jì)算所在知識(shí)抽取方面做了大量的工作,有基于圖和圖上推斷的CIIGA方法[17],在非結(jié)構(gòu)化的文本中抽取實(shí)體并連接到知識(shí)庫(kù)中,可以對(duì)現(xiàn)有的知識(shí)庫(kù)做大量的補(bǔ)充。OpenKN[18,19]可用于取大量新的實(shí)體和概念,進(jìn)而不斷對(duì)知識(shí)庫(kù)進(jìn)行更新。

        上述知識(shí)圖譜方面的工作,增加了搜索的智能性,在提高用戶體驗(yàn)方面有著深遠(yuǎn)的影響。知識(shí)圖譜的研究及開發(fā)也產(chǎn)生了大量的自然語(yǔ)言處理以及機(jī)器學(xué)習(xí)方面的理論和方法,極大地推進(jìn)了領(lǐng)域的成長(zhǎng)。文獻(xiàn)[20]的工作主要點(diǎn)在于利用數(shù)據(jù)融合等方法,提高知識(shí)圖譜的質(zhì)量,在去除歧義、多名、錯(cuò)誤等方面,有了長(zhǎng)足的進(jìn)步。但如Sarma等[21]和Kuzey等[22]指出,現(xiàn)行知識(shí)圖譜技術(shù)偏重已知的實(shí)體,對(duì)不斷涌現(xiàn)的新興實(shí)體及其關(guān)聯(lián),尤其是事件性的關(guān)聯(lián),仍沒有相應(yīng)方法。

        2)知識(shí)庫(kù)存儲(chǔ)及查詢相關(guān)研究

        RDF作為語(yǔ)義萬(wàn)維網(wǎng)技術(shù)的資源表示標(biāo)準(zhǔn),許多知識(shí)圖譜都選擇RDF或者類似RDF的方式來(lái)表示知識(shí)。目前RDF查詢研究重點(diǎn)在于查詢語(yǔ)言的有效實(shí)現(xiàn)方法,但對(duì)查詢模型的語(yǔ)義缺乏必要考慮。早期RDF查詢多實(shí)現(xiàn)在關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)之上,利用關(guān)系表存儲(chǔ)RDF數(shù)據(jù),再將RDF查詢轉(zhuǎn)換為對(duì)應(yīng)的SQL查詢。其中典型的查詢與存儲(chǔ)系統(tǒng)包括:Sesam[23]、Jena2[24]、3store[25]、RDFSuite[26]。近期的焦點(diǎn)在于進(jìn)一步提升RDF查詢性能。如Eugene[27]使用RDF_MATCH 表函數(shù),Abadi[28]利用垂直分片,Hexastore[29]通過(guò)常數(shù)倍的額外索引開來(lái)提升 RDF查詢性能。近RDF查詢研究的核心是SPARQL查詢語(yǔ)言,提高查詢性能關(guān)鍵是減少Join操作的開銷,MonetDB[30]和Hexastore[29]都提出了SPARQL的Join優(yōu)化算法。Medha[31]則利用流方式在壓縮的RDF數(shù)據(jù)上生成最終結(jié)果而避免創(chuàng)建代價(jià)較高的中間連接表。Markus等[32]研究了SPARQL查詢的靜態(tài)優(yōu)化問(wèn)題,定義和分析了基本圖模式選擇的啟發(fā)式策略。Angela等[33]和Thomas[34~36]利用圖挖掘技術(shù)計(jì)算并記錄RDF圖中的頻繁最優(yōu)路徑來(lái)估計(jì)不同Join順序的代價(jià),用于查詢優(yōu)化。Huang等[37]通過(guò)分割RDF數(shù)據(jù)和分解SPARQL查詢來(lái)提高查詢效率。Binna等[38]設(shè)計(jì)了內(nèi)存數(shù)據(jù)庫(kù)SpiderStore來(lái)管理 RDF數(shù)據(jù)和快速執(zhí)行SPARQL查詢。Weaver等[39]提出了并行的RDFS閉包計(jì)算方法,而Urbani等[40]使用MapReduce實(shí)現(xiàn)類似的計(jì)算。Myung 等[41]和 Rohlo 等[42]研究使用MapReduce實(shí)現(xiàn)SPARQL查詢。Manish Gupta等研究Top-k子圖的查詢[43]。

        在國(guó)內(nèi),北京大學(xué)和中國(guó)人民大學(xué)在RDF數(shù)據(jù)管理方面做了較多研究工作。比如,gStore[44]是一種由圖作為存儲(chǔ)方式的能夠有效在動(dòng)態(tài)RDF數(shù)據(jù)集上處理SPARQL查詢的方法,Zou等[45]提出了基于RDF數(shù)據(jù)的解決自然語(yǔ)言自動(dòng)問(wèn)答的方法,Yang等[46]提出了自動(dòng)分割RDF數(shù)據(jù)的方法來(lái)提升查詢效率并同時(shí)考慮了減少數(shù)據(jù)冗余,Du等[47]研究了在集群環(huán)境下RDF數(shù)據(jù)分割和替換的策略,Bian等[48]還提出了基于實(shí)體屬性表單來(lái)補(bǔ)充知識(shí)庫(kù)中RDF數(shù)據(jù)的方法。

        RDF本質(zhì)上以“主謂賓”的方式表達(dá)實(shí)體之間的關(guān)聯(lián)關(guān)系。理論上,這個(gè)形式有很強(qiáng)的表達(dá)能力,但對(duì)復(fù)雜實(shí)體(比如事件性實(shí)體時(shí))一般采用隱含式表達(dá)。比如,在“事件本體模型”[49]中,事件作為實(shí)體,和事件有關(guān)的實(shí)體與此事件實(shí)體的關(guān)聯(lián)(事件S涉及實(shí)體A)即可用“主謂賓”模式建立,而事件的時(shí)間、地點(diǎn),則也作為實(shí)體與事件實(shí)體簡(jiǎn)單關(guān)聯(lián)。Trame等[50]對(duì)怎樣用RDF表示事件有所討論,結(jié)論是簡(jiǎn)單的RDF很難自然地表達(dá)事件。即使是時(shí)間這個(gè)屬性(也有把時(shí)間概念作為實(shí)體),基于RDF的表達(dá)也不夠自然[50]。智慧搜索對(duì)各類顯性及隱性實(shí)體必須用簡(jiǎn)單的方法,使之與人類一般認(rèn)知規(guī)則相配,以便查詢。

        由于現(xiàn)行各類知識(shí)以簡(jiǎn)單RDF形式存儲(chǔ),故大量的圖查詢模型及技術(shù)可以應(yīng)用知識(shí)庫(kù)查詢處理。目前大圖查詢研究工作主要圍繞可達(dá)性查詢、最短路徑或距離查詢、圖匹配查詢以及關(guān)鍵字查詢開展。這些研究一般剝離圖數(shù)據(jù)本身的領(lǐng)域背景,只在抽象的圖查詢模型上開展研究。圖算法固然在知識(shí)查詢方面有其作用,但當(dāng)知識(shí)庫(kù)在簡(jiǎn)單圖上進(jìn)行擴(kuò)充,得以表達(dá)事件類實(shí)體時(shí),需要考慮在知識(shí)庫(kù)上的其他操作。

        目前圖查詢算法大致有4類。1)可達(dá)性查詢。這一問(wèn)題主要研究特定約束條件下的可達(dá)查詢,這些約束一方面使問(wèn)題更為復(fù)雜,另一方面也為高效剪枝創(chuàng)造了條件。基本的約束是節(jié)點(diǎn)或邊上的標(biāo)簽約束[51,52]和更為復(fù)雜的正則表達(dá)式約束[53]。2)最短距離或路徑查詢。當(dāng)前主流方案都采用基于摘要(sketch)的框架。其基本思想是為每個(gè)節(jié)點(diǎn)創(chuàng)建固定大小的摘要,利用摘要估計(jì)節(jié)點(diǎn)之間的距離。目前有2類摘要方法:一是以到一組路標(biāo)(landmark)節(jié)點(diǎn)的最短距離作為節(jié)點(diǎn)的摘要[54~58];二是以節(jié)點(diǎn)在幾何空間中的坐標(biāo)作為摘要[59,60]。這些方案以線性空間索引實(shí)現(xiàn)常量時(shí)間的查詢回答。第1類方法的研究側(cè)重于提高距離估計(jì)準(zhǔn)確性。第2類方法的研究集中于幾何空間的選擇。Zhao等[59,60]先后提出基于歐式空間和雙曲空間最短距離查詢方案,并證實(shí)基于雙曲空間優(yōu)于歐式空間。3)圖匹配查詢。這一問(wèn)題的研究主要圍繞2個(gè)核心問(wèn)題開展:非精確匹配意義下的子圖查詢、大圖上的子圖查詢。在非精確匹配方面,F(xiàn)an等[61]率先提出基于圖模擬的圖匹配,將子圖匹配中邊到邊的嚴(yán)格映射放松為邊到給定長(zhǎng)度內(nèi)的路徑之間的映射。Zou等[62]進(jìn)一步改進(jìn)圖模擬高效算法。Ma等[63]則提出了強(qiáng)模擬以進(jìn)一步強(qiáng)化匹配約束。為了處理大圖,Sun[64]、Ma[65]分別提出了相應(yīng)的分布式子圖查詢方法和圖模擬算法從而支持快速大圖匹配。4)關(guān)鍵字查詢。這類問(wèn)題是尋找圖中含有關(guān)鍵字的點(diǎn)和邊,各研究的差異主要在于返回子圖的結(jié)構(gòu)約束不同,比如r半徑斯坦納(Steiner)圖[66],r-極大團(tuán)[67]。針對(duì)r半徑斯坦納圖,Li等[66]給出了一種基于圖劃分的快速查詢方法。Kargar[67]針對(duì)基r-極大團(tuán)的圖上關(guān)鍵字查詢提出了一個(gè)返回top-k的近似算法。

        3)數(shù)據(jù)立方模型

        數(shù)據(jù)立方(data cube)的概念于1996年由Gray[68]引入數(shù)據(jù)分析領(lǐng)域。數(shù)據(jù)立方建立在關(guān)系數(shù)據(jù)庫(kù)之上,為分析者提供簡(jiǎn)單易懂的概念模型和操作界面,把數(shù)據(jù)分析的操縱權(quán)從程序員手里奪走,交還給了分析用戶,為數(shù)據(jù)分析研究和產(chǎn)業(yè)做出了革命性的貢獻(xiàn)。對(duì)于這個(gè)成功,究其深層原因,是將數(shù)據(jù)以接近用戶習(xí)慣的認(rèn)知方式呈現(xiàn)給用戶:將數(shù)據(jù)以多維度的形式,每個(gè)維度對(duì)應(yīng)一類概念(如時(shí)間、空間),而每個(gè)概念又可以以不同粒度來(lái)觀察數(shù)據(jù)。

        研究人員已將數(shù)據(jù)立方相關(guān)的概念用于其他分析工作。如Jiawei Han所帶領(lǐng)的研究團(tuán)隊(duì)開展了文本數(shù)據(jù)的多粒度特性方面的研究[69,70],支持文本數(shù)據(jù)多粒度分析,將大量的文本信息組織成層次結(jié)構(gòu),而后數(shù)據(jù)分析可以利用上卷、下鉆等操作在不同粒度上進(jìn)行訪問(wèn)。近期,該研究團(tuán)隊(duì)又在圖數(shù)據(jù)上引入OLAP數(shù)據(jù)立方的概念,研究圖立方(graph OLAP和graph cube)[71,72]對(duì)圖數(shù)據(jù)分析的用途。

        9 結(jié)束語(yǔ)

        智慧搜索將會(huì)為人們帶來(lái)嶄新的搜索方式——知識(shí)服務(wù),它是指從各種知識(shí)來(lái)源(包括知識(shí)圖譜和知識(shí)倉(cāng)庫(kù))中按照用戶的個(gè)性需求有針對(duì)性地提煉知識(shí),并且用來(lái)解決用戶問(wèn)題的高級(jí)階段信息服務(wù)過(guò)程。與傳統(tǒng)信息服務(wù)強(qiáng)調(diào)信息資源獲?。ㄈ缥墨I(xiàn)檢索)不同,知識(shí)服務(wù)側(cè)重于提供個(gè)性化、面向解決方案的服務(wù)。它根據(jù)用戶問(wèn)題語(yǔ)義和上下文環(huán)境分析確定用戶的需求,通過(guò)多源信息和知識(shí)的重組與融合形成符合需要的知識(shí)產(chǎn)品。

        實(shí)現(xiàn)大搜索的愿景,目前還面臨許多的挑戰(zhàn),但同時(shí)也帶來(lái)眾多的研究機(jī)會(huì)。目前急需解決的難題包括:根據(jù)查詢的需求,從包括海量實(shí)體以及關(guān)系的泛在網(wǎng)絡(luò)空間中準(zhǔn)確地獲取數(shù)據(jù);全面和深度地理解用戶的真實(shí)搜索意圖;融合多渠道、多模式和實(shí)時(shí)復(fù)雜的數(shù)據(jù),挖掘和發(fā)現(xiàn)其中潛在、有價(jià)值的信息;確保大搜索使用過(guò)程安全可信;根據(jù)用戶的搜索意圖,基于知識(shí)倉(cāng)庫(kù)對(duì)關(guān)聯(lián)知識(shí)進(jìn)行推理和求解,形成若干可行的智慧綜合解決方案。

        大搜索是新一代具有“智慧”的搜索,能準(zhǔn)確洞察和理解用戶的搜索意圖,在海量、多源、異構(gòu)、多態(tài)、不確定的數(shù)據(jù)中,實(shí)現(xiàn)對(duì)與人物、物體和內(nèi)容等相關(guān)信息的對(duì)象級(jí)搜索,為用戶提供最貼切的搜索結(jié)果。這勢(shì)必影響我國(guó)的社會(huì)、經(jīng)濟(jì)和生活等各個(gè)方面,具有廣闊的應(yīng)用前程。

        [1] 方濱興,等.大搜索技術(shù)白皮書[M].北京:電子工業(yè)出版社,2015.FANG B X,et al.Big Search Technology White Paper[M].Beijing:Electronic Industry Press,2015.

        [2]ETZIONI O,CAFARELLA M,DOWNEY D,et al.Web-scale information extraction in knowitall:(preliminary results)[A].Proceedings of the 13th International Conference on World Wide Web[C].ACM,2004.100-110.

        [3]YATES A,CAFARELLA M,BANKO M,et al.Textrunner:open informationextractionontheweb[A].ProceedingsofHuman Language Technologies:The Annual Conference of the North American Chapter of the Association for Computational Linguistics:Demonstrations Association for Computational Linguistics[C].2007.25-26.

        [4] WU W,LI H,WANG H,et al.Probase:a probabilistic taxonomy for text understanding[A].ACM SIGMOD International Conference on Management of Data[C].ACM,2012.481-492.

        [5]SUCHANEK F M,KASNECI G,WEIKUM G.Yago:a core of semantic knowledge[A].16th International Conference on World Wide Web[C].ACM,2007.697-706.

        [6] AUER S,BIZER C,KOBILAROV G,et al.Dbpedia:a Nucleus for a Web of Open Data[M].Springer Berlin Heidelberg,2007.

        [7]BOLLACKER K,EVANS C,PARITOSH P,et al.Freebase:a collaboratively created graph database for structuring human knowledge[A].ACM SIGMOD International Conference on Management of Data[C].ACM,2008.1247-1250.

        [8] SINGHAL A.Introducing the Knowledge Graph:Things,Not Strings Official Blog(of Google)[EB/OL].http://googleblog.blogspot.com/2012/05/introducing-knowledge-graph-things-not.html.Retrieved.

        [9]WANG J,WANG H,WANG Z,et al.Understanding Tables on the Web Conceptual Modeling[M].Springer Berlin Heidelberg,2012.141-155.

        [10]WANG Y,LI H,WANG H,et al.Toward Topic Search on the Web[R].Technical report,Microsoft Research,2010.

        [11]Apple-Siri-frequently asked questions.Apple[EB/OL].http://www.siriuserguide.com/siri-faq/.

        [12]HOFFART J,SUCHANEK F M,BERBERICH K,et al.YAGO2:exploring and querying world knowledge in time,space,context,and many languages[A].20th International Conference Companion on World Wide Web[C].ACM,2011.229-232.

        [13]PASSANT A.Dbrec—music recommendations using DBpedia[A].The Semantic Web-ISWC 2010[C].Springer Berlin Heidelberg,2010.209-224.

        [14]GARCIA A,SZOMSZOR M,ALANI H,et al.Preliminary results in tag disambiguation using DBpedia[A].Collective Knowledge Capturing and Representation[C].California,2009.

        [15]Wu F,Weld D S.Automatically refining the wikipedia infobox ontology[A].17th International Conference on World Wide Web[C].ACM,2008.635-644.

        [16]KASNECIG,RAMANATHM,SUCHANEKF,etal.The YAGO-NAGA approach to knowledge discovery[J].ACM SIGMOD Record,2009,37(4):41-47.

        [17]LIN H,JIA Y,WANG Y,et al.Populating knowledge base with collective entity mentions:a graph-based approach[A].Advances in Social Networks Analysis and Mining(ASONAM),2014 IEEE/ACM International Conference on[C].IEEE,2014.604-611.

        [18]JIA Y,WANG Y,CHENG X,et al.OpenKN:an open knowledge computational engine for network big data[A].Advances in Social Networks AnalysisandMining(ASONAM),2014IEEE/ACM International Conference on[C].IEEE,2014.657-664.

        [19]王元卓,賈巖濤,趙澤亞,等.OpenKN——網(wǎng)絡(luò)大數(shù)據(jù)時(shí)代的知識(shí)計(jì)算引擎[J].CCF通訊,2014,10(11):30-35.WANG Y Z,JIA Y T,ZHAO Z Y,et al.OpenKN—— knowledge computing engine in the big data era[J].CCF Communication,2014,10(10):30-35.

        [20]LI Q,LI Y L,GAO J,et al.Resolving conflicts in heterogeneous data by truth discovery and source reliability estimation[A].Proceedings of the 2014 SIGMOD[C].2014.

        [21]SARMA D JAIN A A,YU C.Dynamic relationship and event discovery[A].Fourth ACM International Conference on Web Search and Data Mining[C].ACM,2011.207-216.

        [22]KUZEY E,VREEKEN J,WEIKUM G.A fresh look on knowledge bases:Distilling named events from news[A].23rd ACM International Conference on Information and Knowledge Management[C].ACM,2014.1689-1698.

        [23]BROEKSTRA J,KAMPMAN A,VAN HARMELEN F.Sesame:an architecture for storing and querying rdf data and schema information[J].Spinning the Semantic Web:Bringing the World Wide Web to Its Full Potential,2003,197.

        [24]WILKINSON K,SAYERS C,KUNO H A,et al.Efficient RDF Storage and retrieval in Jena2[A].The First International Workshop on Semantic Web and Databases[C].2003,3:131-150.

        [25]HARRIS S,GIBBINS N.3store:efficient bulk RDF storage[A].Workshop on Practical and Scalable Semantic Systems[C].2003.

        [26]ALEXAKI S,CHRISTOPHIDES V,KARVOUNARAKIS G,et al.The ICS-FORTH RDFSuite:managing voluminous RDF description bases[A].SemWeb[C].Hong Kong,China,2001.

        [27]CHONG E I,DAS S,EADON G,et al.An efficient SQL-based RDF querying scheme[A].31st International Conference on Very Large Data Bases VLDB Endowment[C].2005.1216-1227.

        [28]ABADI D J,MARCUS A,MADDEN S R,et al.Scalable semantic web data management using vertical partitioning[A]. 33rd International Conference on Very Large Data Bases[C].2007.411-422.

        [29]WEISS C,KARRAS P,BERNSTEIN A.Hexastore:sextuple indexing for semantic Web data management[J].Proceedings of the VLDB Endowment,2008,1(1):1008-1019.

        [30]SIDIROURGOSL,GONCALVESR,KERSTEN M,etal.Column-store support for RDF data management:not all swans are white[J].Proceedingsofthe VLDB Endowment,2008,1(2):1553-1563.

        [31]ATRE M,CHAOJI V,ZAKI M J,et al.Matrix bit loaded:a scalable lightweight join query processor for RDF data[A].19th International Conference on World Wide Web[C].ACM,2010.41-50.

        [32]STOCKER M,SEABORNE A,BERNSTEIN A,et al.SPARQL basic graph pattern optimization using selectivity estimation[A].17th International Conference on World Wide Web[C].ACM,2008.595-604.

        [33]MADUKO A,ANYANWU K,SHETH A,et al.Estimating the cardinality of RDF graph patterns[A].Proceedings of the 16th International Conference on World Wide Web[C].ACM,2007.1233-1234.

        [34]NEUMANN T,WEIKUM G.RDF-3X:a RISC-style engine for RDF[J].Proceedings of the VLDB Endowment,2008,1(1):647-659.

        [35]NEUMANN T,WEIKUM G.The RDF-3X engine for scalable management of RDF data[J].The VLDB Journal,2010,19(1):91-113.

        [36]NEUMANN T,WEIKUM G.Scalable join processing on very large RDF graphs[A].Proceedingsofthe 2009 ACM SIGMOD International Conference on Management of Data[C].ACM,2009.627-640.

        [37]HUANG J,ABADI D J,REN K.Scalable SPARQL querying of large RDF graphs[J].Proceedings of the VLDB Endowment,2011,4(11):1123-1134.

        [38]BINNA R,GASSLER W,ZANGERLE E,et al.Spiderstore:exploiting main memory for efficient RDF graph representation and fast querying[A].Proceedings of Workshop on Semantic Data Management(SemData@VLDB)[C].2010.

        [39]WEAVER J,HENDLER J A.Parallel Materialization of the Finite RDFs Closure for Hundreds of Millions of Triples[M].Springer Berlin Heidelberg,2009.

        [40]URBANI J,KOTOULAS S,OREN E,et al.Scalable Distributed Reasoning Using MapReduce[M].Springer Berlin Heidelberg,2009.

        [41]MYUNG J,YEON J,LEE S.SPARQL basic graph pattern processing with iterative MapReduce[A].Proceedings of the 2010 Workshop on Massive Data Analytics on the Cloud[C].ACM,2010.

        [42]ROHLOFF K,SCHANTZ R E.High-performance,massively scalable distributed systems using the MapReduce software framework:the SHARD triple-store[A].Programming SupportInnovationsfor Emerging Distributed Applications[C].ACM,2010.

        [43]GUPTA M,GAO J,YAN X F,et al.Top-Kinteresting subgraph discovery in information networks[A].2014 International Conference on Data Engineering[C].2014.

        [44]ZOU L,?ZSU M T,CHEN L,et al.gStore:a graph-based SPARQL query engine[J].The VLDB Journal—the International Journal on Very Large Data Bases,2014,23(4):565-590.

        [45]ZOU L,HUANG R,WANG H,et al.Natural language question answering over RDF:a graph data driven approach[A].Proceedings of the 2014 ACM SIGMOD International Conference on Management of data[C].ACM,2014.313-324.

        [46]YANG T,CHEN J,WANG X,et al.Efficient S`PARQL query evaluation via automatic data partitioning[A].Database Systems for Advanced Applications[C].Wuhan,2013.

        [47]DU F,BIAN H,CHEN Y,et al.Efficient SPARQL query evaluation in a database cluster[A].Big Data,2013 IEEE International Congress on[C].2013.165-172.

        [48]BIAN H,CHEN Y,DU X,et al.MetKB:enriching RDF knowledge bases with web entity-attribute tables[A].22nd ACM International Conference on Conference on Information & Knowledge Management[C].ACM,2013.2461-2464.

        [49]RAIMOND Y,et al.The event ontology[EB/OL].http://motools.sourceforge.net/event/event.html.2007.

        [50]TRAME J,KE?LER C,KUHN W.Linked Data And Time–Modeling Researcher Life Lines By Events[M].Spatial Information Theory.Springer International Publishing,2013.

        [51]JIN R,HONG H,WANG H,et al.Computing label-constraint reachability in graph databases[A].2010 ACM SIGMOD International Conference on Management of data[C].ACM,2010.123-134.

        [52]XU K,ZOU L,YU J X,et al.Answering label-constraint reachability in large graphs[A].Proceedings of the 20th ACM International Conference on Information and Knowledge Management[C].ACM,2011.1595-1600.

        [53]FAN W,LI J,MA S,et al.Adding regular expressions to graph reachability and pattern queries[A].Data Engineering(ICDE),2011 IEEE 27th International Conference on[C].2011.39-50.

        [54]GUBICHEV A,BEDATHUR S,SEUFERT S,et al.Fast and accurate estimation of shortest paths in large graphs[A].Proceedings of the 19th ACM International Conference on Information and Knowledge Management[C].ACM,2010.499-508.

        [55]POTAMIAS M,BONCHI F,CASTILLO C,et al.Fast shortest path distance estimation in large networks[A].18th ACM Conference on Information and Knowledge Management[C].ACM,2009.867-876.

        [56]TRETYAKOV K,ARMAS-CERVANTES A,GARCíA-BA?UELOS L,et al.Fast fully dynamic landmark-based estimation of shortest path distances in very large graphs[A].20th ACM International Conference onInformationandKnowledgeManagement[C].ACM,2011.1785-1794.

        [57]DAS SARMA A,GOLLAPUDI S,NAJORK M,et al.A sketch-based distance oracle for Web-scale graphs[A].Proceedings of the Third ACM International Conference on Web Search and Data Mining[C].ACM,2010.401-410.

        [58]GOLDBERG A V,HARRELSON C.Computing the shortest path:a search meetsgraph theory[A].Sixteenth AnnualACM-SIAM Symposium on Discrete Algorithms Society for Industrial and Applied Mathematics[C].2005.156-165.

        [59]ZHAO X,SALA A,WILSON C,et al.Orion:shortest path estimation for large social graphs[J].Networks,2010,1:5.

        [60]ZHAO X,SALA A,ZHENG H,et al.Fast and scalable analysis of massive social graph[J].arXiv preprint arXiv:1107.5114,2011.

        [61]FAN W,LI J,MA S,et al.Graph pattern matching:from intractable to polynomial time[J].Proceedings of the VLDB Endowment,2010,3(1-2):264-275.

        [62]ZOU L,CHEN L,?ZSU M T,et al.Answering pattern match queries in large graph databases via graph embedding[J].International Journal on Very Large Data Bases,2012,21(1):97-120.

        [63]MA S,CAO Y,FAN W,et al.Capturing topology in graph pattern matching[J].Proceedings of the VLDB Endowment,2011,5(4):310-321.

        [64]SUN Z,WANG H,WANG H,et al.Efficient subgraph matching on billion node graphs[J].Proceedings of the VLDB Endowment,2012,5(9):788-799.

        [65]MA S,CAO Y,HUAI J,et al.Distributed graph pattern matching[A].21st International Conference on World Wide Web[C].2012.949-958.

        [66]LI G,OOI B C,FENG J,et al.EASE:an effective 3-in-1 keyword search method for unstructured,semi-structured and structured data[A].ACM SIGMOD International Conference on Management of Data[C].2008.903-914.

        [67]KARGAR M,et al.A.Keyword search in graphs:finding r-cliques[J].Proceedings of the VLDB Endowment,2011,4(10):681-692.

        [68]GRAY J,CHAUDHURI S,Bosworth A,et al.Data cube:a relational aggregation operator generalizing group-by,cross-tab,and sub-totals[J].Data Mining and Knowledge Discovery,1997,1(1):29-53.

        [69]LIN C X,DING B,HAN J,et al.Text cube:computing ir measures for multidimensional text database analysis[A].Data Mining,ICDM'08.Eighth IEEE International Conference on[C].2008.905-910.

        [70]ZHANG D,ZHAI C,HAN J.Topic cube:topic modeling for OLAP on multidimensional text databases[A].SDM[C].2009,9:1124-1135.

        [71]CHEN C,YAN X,ZHU F,et al.Graph OLAP:towards online analyticalprocessing on graphs[A].Eighth IEEE International Conference on Data Mining[C].2008.

        [72]ZHAO P,LI X,XIN D,et al.Graph cube:on warehousing and OLAP multidimensional networks[A]. ACM SIGMOD International Conference on Management of data[C].2011.853-864.

        猜你喜歡
        關(guān)聯(lián)語(yǔ)義智慧
        “苦”的關(guān)聯(lián)
        語(yǔ)言與語(yǔ)義
        奇趣搭配
        智趣
        讀者(2017年5期)2017-02-15 18:04:18
        “上”與“下”語(yǔ)義的不對(duì)稱性及其認(rèn)知闡釋
        認(rèn)知范疇模糊與語(yǔ)義模糊
        有智慧的羊
        智慧派
        語(yǔ)言學(xué)與修辭學(xué):關(guān)聯(lián)與互動(dòng)
        語(yǔ)義分析與漢俄副名組合
        80s国产成年女人毛片| 乱色精品无码一区二区国产盗| 国产精品无码一本二本三本色| 亚洲人成网站18禁止久久影院| 人人看人人做人人爱精品| 午夜一级在线| 男女视频在线一区二区| 日韩av一区二区在线观看| 国产精品一区二区三区av在线| 国产精品国产三级国产av18| 婷婷精品国产亚洲av麻豆不片| 午夜免费视频| 国产av无码专区亚洲awww| 99精品一区二区三区免费视频| 免费 无码 国产精品| 日本黄色特级一区二区三区 | 亚洲熟女少妇一区二区三区青久久| 蜜桃尤物在线视频免费看| 日射精情感性色视频| xxxx国产视频| 日韩精品永久免费播放平台| 亚洲av成人波多野一区二区| 精品国产一区二区三区av免费 | 蜜臀性色av免费| 曰本无码人妻丰满熟妇5g影院| 午夜一级在线| 久久无人码人妻一区二区三区| 激情五月天在线观看视频| 久久只精品99品免费久23| 人人妻人人澡人人爽人人精品电影| 久久人妻av不卡中文字幕| 日本一区二区偷拍视频| 国产精品视频一区二区三区,| 亚洲视频在线观看青青草| 国产av一啪一区二区| 亚洲熟妇色自偷自拍另类 | 色狠狠一区二区三区香蕉| 亚洲久无码中文字幕热| 丰满人妻被猛烈进入中文字幕护士| 亚洲无精品一区二区在线观看 | 国自产偷精品不卡在线|