亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        基于人工智能推理引擎在微博數(shù)據(jù)挖掘中的應(yīng)用分析

        2018-11-22 00:48:04楊達(dá)賢
        微型電腦應(yīng)用 2018年11期
        關(guān)鍵詞:引擎數(shù)據(jù)挖掘人工智能

        楊達(dá)賢

        (廈門云之端信息科技有限公司, 漳州 361000)

        0 引言

        微博作為一種互動(dòng)的信息平臺(tái),在社交中的地位越來(lái)越重要。此外,微博還可以通過(guò)用戶的關(guān)注形成一個(gè)龐大的人際互動(dòng)網(wǎng)絡(luò)。然而,很多人只是使用了微博的少數(shù)功能。為了促進(jìn)微博的應(yīng)用和提高微博的可用性和樂(lè)趣,搜狐微博推出"想你知道”功能。人工智能推理引擎系統(tǒng)根據(jù)用戶輸入的詞語(yǔ),自動(dòng)進(jìn)行歸納推理,并將推理結(jié)果反饋給用戶[1]。

        現(xiàn)有的搜索引擎資源獲取方式是盲目的。依靠現(xiàn)有的算法,往往會(huì)得到大量的不相關(guān)信息,導(dǎo)致效率和搜索精確度下降。該系統(tǒng)基于人工智能(包括增益和衰減),自動(dòng)調(diào)整推理機(jī)系統(tǒng),不僅大大降低了后臺(tái)人員的維護(hù)成本,而且提高了用戶體驗(yàn),使微博用戶獲得更好、更準(zhǔn)確的服務(wù)[2]。

        1 人工智能引擎

        1.1 搜索引擎分類

        搜索引擎是指通過(guò)網(wǎng)絡(luò)爬蟲程序獲取網(wǎng)頁(yè)數(shù)據(jù),并建立數(shù)據(jù)庫(kù)提供查詢系統(tǒng)。根據(jù)工作原理,引擎分為兩類:一類是分類搜索目錄;另一類是全文搜索目錄[ 3 ]。

        全文搜索引擎的數(shù)據(jù)庫(kù)是基于一個(gè)名為“網(wǎng)絡(luò)爬蟲”的軟件。它通過(guò)web上的各種鏈接自動(dòng)獲取大量的Web信息內(nèi)容,并根據(jù)既定規(guī)則進(jìn)行分析和排序。分類法是收集和收集Web數(shù)據(jù)以手動(dòng)形成數(shù)據(jù)庫(kù)的[4]。

        1.2 工作原理

        全文搜索引擎是一種網(wǎng)絡(luò)軟件,它穿越網(wǎng)絡(luò)空間,可以掃描網(wǎng)站的某個(gè)地址范圍,并沿著網(wǎng)絡(luò)從一個(gè)頁(yè)面鏈接到另一個(gè)頁(yè)面,從一個(gè)站點(diǎn)到另一個(gè)網(wǎng)頁(yè)數(shù)據(jù)采集網(wǎng)絡(luò)。其工作原理,如圖1所示。

        圖1 網(wǎng)絡(luò)爬蟲工作原理

        1.3 人工智能推理引擎

        將人工智能應(yīng)用于網(wǎng)絡(luò)爬蟲程序,將使搜索引擎在獲取信息資源方面取得更大的成功。

        采用啟發(fā)式算法,網(wǎng)絡(luò)爬蟲可以消除無(wú)關(guān)鏈接,訪問(wèn)和瀏覽。在整個(gè)頁(yè)面中合格頁(yè)面的比例相當(dāng)大。網(wǎng)絡(luò)爬蟲收集信息資源的準(zhǔn)確性也提高了[5]。

        2 數(shù)據(jù)挖掘

        微博信息豐富,數(shù)據(jù)量巨大,所以微博數(shù)據(jù)的研究中,應(yīng)選擇合理的數(shù)據(jù)采集方法,為本文的研究提供了方便,數(shù)據(jù)采集分為以下3種類型:官方API采集,通過(guò)網(wǎng)絡(luò)爬蟲抓取網(wǎng)頁(yè)和直接使用開放的數(shù)據(jù)集[6]。

        2.1 數(shù)據(jù)獲取

        (1) 基于官方API開發(fā)的系統(tǒng)。

        為了使微博提供的服務(wù)和嵌入的小應(yīng)用更加多樣化和更加具有吸引力,開發(fā)商選擇了向應(yīng)用開發(fā)者和研究人員提供開放式的應(yīng)用接口,即開放API。開放API指的是開放應(yīng)用程序編程接口,即使用SOAP、JavaScript等的一系列技術(shù)[7]。

        (2) 通過(guò)網(wǎng)絡(luò)爬蟲爬取微博頁(yè)面。

        通過(guò)網(wǎng)絡(luò)爬蟲抓取微博數(shù)據(jù)通常指的是通過(guò)HTTP協(xié)議發(fā)送請(qǐng)求到服務(wù)器,分析返回的網(wǎng)頁(yè),并提取相應(yīng)的微博數(shù)據(jù)[8]。

        這種方法幾乎適用于任何微博數(shù)據(jù)的獲取,與官方API的數(shù)據(jù)采集不同,它不受微博運(yùn)營(yíng)商權(quán)限的限制。

        (3) 開放的數(shù)據(jù)集。

        隨著web2.0的發(fā)展,信息披露和資源共享變得越來(lái)越重要。越來(lái)越多的學(xué)者將語(yǔ)言庫(kù)和數(shù)據(jù)集開放到不同的開放程度以供開發(fā)和使用。利用已有的數(shù)據(jù)集,避免了預(yù)處理過(guò)程,提高了研究效率[9]。

        目前,在微博數(shù)據(jù)的應(yīng)用研究中,首先采用的是數(shù)據(jù)采集的方法。這些數(shù)據(jù)采集方法基本上滿足了研究人員的需要,但也存在一些差異。

        2.2 數(shù)據(jù)選擇

        根據(jù)引擎開發(fā)的目的,選擇研發(fā)適用范圍內(nèi)的數(shù)據(jù)集至關(guān)重要。在之前的微博數(shù)據(jù)選擇范圍研究中,研究人員一般選擇以下兩種數(shù)據(jù)選擇方法。

        (1) 指定主題或者用戶

        當(dāng)研究人員利用微博中的數(shù)據(jù)進(jìn)行社會(huì)現(xiàn)象分析或用戶行為分析等相關(guān)研究時(shí),他們通常會(huì)在指定的主題或用戶中選擇數(shù)據(jù)[10]。根據(jù)研究的需要,研究人員通常使用規(guī)定的時(shí)間段來(lái)限制數(shù)據(jù)量。在數(shù)據(jù)選擇的過(guò)程中,也存在隨機(jī)選擇過(guò)程[ 11 ]。

        (2) 隨機(jī)獲取用戶數(shù)據(jù)

        在理論和實(shí)踐研究方面,當(dāng)研究者需要研究微博的結(jié)構(gòu)特點(diǎn)、拓?fù)浣Y(jié)構(gòu)、性能評(píng)價(jià)及其應(yīng)用時(shí),通常采用隨機(jī)訪問(wèn)用戶數(shù)據(jù)的方式。隨機(jī)獲取用戶數(shù)據(jù)和信息的方法可以掌握微博用戶群的全部數(shù)據(jù)。它可以得到更準(zhǔn)確、更全面的結(jié)果,也更有利于微博自身的發(fā)展和發(fā)展。

        2.3 數(shù)據(jù)分析

        在數(shù)據(jù)分析階段中,主要工作是對(duì)微博數(shù)據(jù)庫(kù)中的數(shù)據(jù)進(jìn)行特征提取和分析。一般采用社會(huì)網(wǎng)絡(luò)分析、數(shù)理統(tǒng)計(jì)和數(shù)據(jù)挖掘等方法。

        (1) 社會(huì)網(wǎng)絡(luò)分析方法。

        社會(huì)網(wǎng)絡(luò)分析方法主要是利用網(wǎng)絡(luò)拓?fù)鋱D來(lái)反映社會(huì)結(jié)構(gòu)之間的關(guān)系和屬性。這種方法能夠從大局上把握微博的整體特征和用戶之間交互情況。通過(guò)分析以往的研究成果,也證實(shí)了社會(huì)網(wǎng)絡(luò)分析方法在微博中的應(yīng)用是可行的、相對(duì)成熟的[12]。

        (2) 數(shù)理統(tǒng)計(jì)方法

        數(shù)理統(tǒng)計(jì)方法在社會(huì)科學(xué)相關(guān)的科學(xué)研究中比較常用,是一種定量分析方法。該方法通過(guò)用戶的基本信息數(shù)據(jù)和經(jīng)常使用的數(shù)據(jù),利用統(tǒng)計(jì)學(xué)方法對(duì)數(shù)據(jù)中的某些參數(shù)或者參數(shù)間的關(guān)系進(jìn)行統(tǒng)計(jì)和分析。通過(guò)分析和研究得出整體數(shù)據(jù)的分布特征[13]。

        (3) 數(shù)據(jù)挖掘方法

        數(shù)據(jù)挖掘是采用智能自動(dòng)或半自動(dòng)的,采用相關(guān)分析、聚類分析、分類、預(yù)測(cè)、時(shí)間序列模型和誤差分析,分析大量的數(shù)據(jù),做出歸納性的推理,趨勢(shì)和相關(guān)資料,挖掘隱含的、先前未知的、潛在的信息價(jià)值。

        3 微博數(shù)據(jù)特點(diǎn)

        微博是一個(gè)信息分享、傳播的平臺(tái),這種分享和傳播是通過(guò)相互關(guān)注的人之間進(jìn)行的。用戶可以通過(guò)WEB、WAP(手機(jī)客戶端)和各種客戶端建立個(gè)人的交往圈子。微博具有短文本性、終端擴(kuò)展性、即時(shí)性、“裂變型”、信息傳遞性等特點(diǎn)[ 14 ]。

        3.1 篇散文的性質(zhì)

        傳統(tǒng)博客(blog)不限制用戶發(fā)文的篇幅,而微博將用戶的發(fā)文限制在140個(gè)字符以內(nèi)。

        3.2 終端的可擴(kuò)展性

        因?yàn)槲⒉┢脚_(tái)具有開放性,因此,用戶可以通過(guò)web、wap等多種方式輕松使用微博。根據(jù)美國(guó)互聯(lián)網(wǎng)統(tǒng)計(jì)公司統(tǒng)計(jì)分析,與2011年相比,2012年的移動(dòng)推特用戶數(shù)量增加了約101%。目前,它已成為增長(zhǎng)最快的社交網(wǎng)絡(luò)應(yīng)用[ 15 ]。

        3.3 即時(shí)性

        微博具有及時(shí)性,主要表現(xiàn)是內(nèi)容發(fā)布的即時(shí)性和信息傳播的即時(shí)性。由于微博的及時(shí)性及短端擴(kuò)展性,用戶可以通過(guò)網(wǎng)絡(luò)隨時(shí)隨地快速發(fā)布微博。微博的及時(shí)性徹底改變了信息傳播的模式,使信息傳播平臺(tái)變得更加強(qiáng)大[ 16 ]。

        此外,當(dāng)微博用戶的好友在主頁(yè)上更新消息時(shí),系統(tǒng)會(huì)自動(dòng)在用戶主頁(yè)上完成信息的更新,并將其推送到微博好友的主頁(yè)上。這一步驟幾乎是同時(shí)完成的,這樣就進(jìn)一步增強(qiáng)了微博信息的即時(shí)性。

        3.4 “裂變類型”信息傳播

        微博的轉(zhuǎn)發(fā)功能,使信息不受限制地轉(zhuǎn)發(fā)。信息傳遞的范圍是“核裂變”、公式的幾何級(jí)數(shù)展開、微博的主動(dòng)推送功能,信息迅速傳播給廣大用戶。

        4 人工智能推理系統(tǒng)的設(shè)計(jì)

        4.1 系統(tǒng)結(jié)構(gòu)

        智能數(shù)據(jù)挖掘引擎由五個(gè)功能單元組成:核心算法模塊、智能選擇模塊、輸入輸出模塊、元知識(shí)庫(kù)和中央控制模塊。組成結(jié)構(gòu),如圖2所示。

        圖2 智能數(shù)據(jù)挖掘引擎組成結(jié)構(gòu)

        (1) 核心算法模塊

        核心算法模塊完成了數(shù)據(jù)挖掘引擎最基本的處理功能,是引擎中最重要的部分。核心算法模塊主要由關(guān)聯(lián)規(guī)則算法、基于內(nèi)存的推理算法(MBR)和基于實(shí)例的推理算法(CBR)組成。

        (2) 智能選擇模塊

        智能選擇模塊根據(jù)用戶數(shù)據(jù)挖掘的特點(diǎn)和信息提取的方式,決定合適的數(shù)據(jù)挖掘算法和數(shù)據(jù)挖掘,以達(dá)到最佳的挖掘效果。智能選擇模塊是數(shù)據(jù)挖掘引擎的核心智能模塊,它直接決定了數(shù)據(jù)挖掘引擎的效率。

        (3) 輸入輸出模塊

        輸入輸出模塊負(fù)責(zé)從數(shù)據(jù)挖掘市場(chǎng)(數(shù)據(jù)源)和信息柜中從數(shù)據(jù)挖掘系統(tǒng)控制器中輸入數(shù)據(jù)。數(shù)據(jù)通過(guò)中央控制模塊提交給智能選擇模塊。同時(shí),輸入輸出模塊還負(fù)責(zé)向數(shù)據(jù)挖掘系統(tǒng)控制器提交數(shù)據(jù)挖掘引擎核心算法模塊的處理結(jié)果。

        (4) 中央控制模塊

        中央控制模塊是數(shù)據(jù)挖掘引擎的核心控制單元,負(fù)責(zé)整個(gè)引擎的各個(gè)模塊的協(xié)調(diào)和控制。通過(guò)控制引擎的輸入輸出模塊,控制引擎與整個(gè)數(shù)據(jù)挖掘系統(tǒng)之間的相互作用,實(shí)現(xiàn)引擎的完整性和獨(dú)立性。

        (5) 元知識(shí)庫(kù)

        元知識(shí)庫(kù)主要存儲(chǔ)數(shù)據(jù)挖掘引擎構(gòu)建和工作過(guò)程的知識(shí)、核心算法模塊算法和智能選擇模塊,中央控制模塊負(fù)責(zé)對(duì)數(shù)據(jù)挖掘引擎進(jìn)行更新和控制。元知識(shí)庫(kù)是實(shí)現(xiàn)數(shù)據(jù)挖掘引擎智能化的基本單元。

        4.2 關(guān)鍵技術(shù)

        (1) 數(shù)據(jù)挖掘算法

        數(shù)據(jù)挖掘算法是整個(gè)數(shù)據(jù)挖掘引擎的核心。不同的挖掘算法有不同的應(yīng)用領(lǐng)域和特點(diǎn),這就要求數(shù)據(jù)挖掘引擎在數(shù)據(jù)挖掘時(shí)必須有多種算法供用戶選擇。

        (2) 智能選擇控制技術(shù)

        智能選擇控制技術(shù)是實(shí)現(xiàn)數(shù)據(jù)挖掘引擎通用性的關(guān)鍵技術(shù)?;谠獢?shù)據(jù)庫(kù)的推理機(jī)制實(shí)現(xiàn)了引擎的智能選擇。

        (3) 元知識(shí)庫(kù)

        利用元知識(shí)庫(kù)對(duì)數(shù)據(jù)挖掘算法、智能選擇模塊、中央控制模塊和引擎工作控制過(guò)程中的知識(shí)信息進(jìn)行存儲(chǔ)和管理。元知識(shí)庫(kù)中知識(shí)的存儲(chǔ)和管理對(duì)整個(gè)引擎的性能至關(guān)重要。

        4.3 系統(tǒng)流程

        這個(gè)過(guò)程包括設(shè)置狀態(tài)參數(shù)、數(shù)據(jù)和用戶需求預(yù)處理、加載元素知識(shí)庫(kù)和一些模塊的初始化等。

        (1) 導(dǎo)入數(shù)據(jù)挖掘引擎的狀態(tài)參數(shù)配置文件,設(shè)置引擎的狀態(tài);狀態(tài)參數(shù)配置文件是一個(gè)文本文件,用于描述引擎的默認(rèn)參數(shù)。

        (2) 收集數(shù)據(jù)的特征信息和用戶的請(qǐng)求信息。

        (3) 加載元知識(shí)庫(kù)知識(shí)。

        (4) 將相關(guān)參數(shù)和元知識(shí)傳遞給相應(yīng)的功能模塊。

        (5) 初始化中央控制模塊。

        (6) 初始化智能選擇模塊。

        最后,在中央控制模塊的控制下,智能模塊選擇合適的數(shù)據(jù)挖掘算法模塊,根據(jù)元數(shù)據(jù)庫(kù)提供的元知識(shí)、數(shù)據(jù)特征信息和用戶需求進(jìn)行數(shù)據(jù)挖掘。

        5 總結(jié)

        將人工智能運(yùn)用到搜索引擎中,可以幫助用戶更加便捷、更加準(zhǔn)確的搜索到需要的信息。因此,人工智能推理引擎將是未來(lái)發(fā)展的趨勢(shì)。本文可以得出以下結(jié)論:

        (1) 搜索引擎工作方式不同,微博數(shù)據(jù)體量龐大,人工智能推理引擎可以收集用戶的關(guān)鍵詞和使用習(xí)慣,即時(shí)向用戶推送需要的信息、功能和使用方法。

        (2) 人工智能搜索引擎的實(shí)現(xiàn)需要設(shè)計(jì)智能數(shù)據(jù)挖掘引擎系統(tǒng)。智能數(shù)據(jù)挖掘引擎由五個(gè)功能單元組成:核心算法模塊、智能選擇模塊、輸入輸出模塊、元知識(shí)庫(kù)以及中央控制模塊等。

        (3) 數(shù)據(jù)挖掘算法是人工智能推理引擎的基石。挖掘算法是否具有先進(jìn)性和高效性,直接決定了數(shù)據(jù)挖掘引擎的性能。

        猜你喜歡
        引擎數(shù)據(jù)挖掘人工智能
        探討人工智能與數(shù)據(jù)挖掘發(fā)展趨勢(shì)
        2019:人工智能
        商界(2019年12期)2019-01-03 06:59:05
        人工智能與就業(yè)
        藍(lán)谷: “涉藍(lán)”新引擎
        商周刊(2017年22期)2017-11-09 05:08:31
        數(shù)讀人工智能
        小康(2017年16期)2017-06-07 09:00:59
        基于并行計(jì)算的大數(shù)據(jù)挖掘在電網(wǎng)中的應(yīng)用
        電力與能源(2017年6期)2017-05-14 06:19:37
        下一幕,人工智能!
        一種基于Hadoop的大數(shù)據(jù)挖掘云服務(wù)及應(yīng)用
        無(wú)形的引擎
        河南電力(2015年5期)2015-06-08 06:01:46
        基于Cocos2d引擎的PuzzleGame開發(fā)
        国产不卡av一区二区三区| 国内精品视频一区二区三区| 国内精品伊人久久久久av| 蜜桃视频在线免费观看完整版| 论理视频二区三区四区在线观看| 五月四房播播| 亚洲色偷拍区另类无码专区| 精品区2区3区4区产品乱码9| 美女自卫慰黄网站| 亚洲成A人A∨久在线观看| 激情都市亚洲一区二区| 麻豆网神马久久人鬼片| 亚州少妇无套内射激情视频| 成人免费无码a毛片| 久久av一区二区三区黑人| 18国产精品白浆在线观看免费 | 国产午夜福利小视频合集| 久久婷婷国产精品香蕉| 亚洲综合一区二区三区久久| 国产亚洲精品第一综合另类| 日韩无套内射视频6| 亚洲中出视频| 国产av剧情久久精品久久| 正在播放老肥熟妇露脸| 亚洲精品夜夜夜| 熟女人妻中文字幕一区 | 国产mv在线天堂mv免费观看| 国产丰满乱子伦无码专| 亚洲第一女人的天堂av| 男女高潮免费观看无遮挡 | 男女激情视频网站免费在线| 7m精品福利视频导航| 中文文精品字幕一区二区| 久久久精品国产亚洲av网不卡 | 日本熟妇hdsex视频| 激情五月婷婷综合| 精品国产一区二区三区毛片| 国产亚洲成性色av人片在线观| 国产日韩精品中文字无码| 亚洲高清国产品国语在线观看| 久久精品一区二区熟女|