亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        高校圖書(shū)館智能設(shè)備的信息提取

        2019-12-05 08:39:31張旋
        關(guān)鍵詞:數(shù)據(jù)庫(kù)智能用戶(hù)

        張旋

        [摘 ? ? ? ? ? 要] ?隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,將會(huì)有更多智能設(shè)備通過(guò)校園WiFi設(shè)備接入互聯(lián)網(wǎng)。了解智能設(shè)備的準(zhǔn)確信息可以進(jìn)一步提高網(wǎng)絡(luò)運(yùn)營(yíng)商的網(wǎng)絡(luò)服務(wù)質(zhì)量以及服務(wù)提供商的安全性,并為高校智慧圖書(shū)館建設(shè)提供數(shù)據(jù)分析依據(jù)。提出一種基于Hadoop平臺(tái)和用戶(hù)自定義功能的校園WiFi網(wǎng)絡(luò)智能設(shè)備信息提取方案。用戶(hù)自定義函數(shù)是根據(jù)高校圖書(shū)館日常服務(wù)中的常見(jiàn)參數(shù)開(kāi)發(fā)的,用于處理大量非標(biāo)準(zhǔn)化數(shù)據(jù)。提出的信息提取方案的核心是將處理后的輸入數(shù)據(jù)與預(yù)先構(gòu)建的智能設(shè)備規(guī)則數(shù)據(jù)庫(kù)進(jìn)行字符串匹配。測(cè)試是基于高校圖書(shū)館日常師生登陸平臺(tái)檢索數(shù)據(jù)集進(jìn)行的。測(cè)試結(jié)果表明,提出的方法能準(zhǔn)確地從校園WiFi網(wǎng)絡(luò)中提取設(shè)備信息。

        [關(guān) ? ?鍵 ? 詞] ?高校圖書(shū)館;智能設(shè)備;信息提取;無(wú)線網(wǎng)絡(luò)

        [中圖分類(lèi)號(hào)] ?G647 ? ? ? ? ? ? ? ? [文獻(xiàn)標(biāo)志碼] ?A ? ? ? ? ? ?[文章編號(hào)] ?2096-0603(2019)25-0224-02

        在校園網(wǎng)絡(luò)中,讀者用戶(hù)使用各種智能設(shè)備(如手機(jī)、平板電腦、智能手表等),通過(guò)校園無(wú)線網(wǎng)絡(luò)接入互聯(lián)網(wǎng)。隨著智慧圖書(shū)館的發(fā)展,更多的智能設(shè)備將通過(guò)無(wú)線網(wǎng)絡(luò)接入互聯(lián)網(wǎng)。為了向服務(wù)訂閱者提供更好的網(wǎng)絡(luò)服務(wù)質(zhì)量和業(yè)務(wù)體驗(yàn),高校圖書(shū)館服務(wù)人員將收集大量的測(cè)量數(shù)據(jù),包括安全性和用戶(hù)行為信息。然后進(jìn)一步執(zhí)行數(shù)據(jù)處理,如測(cè)試網(wǎng)絡(luò)管理的瓶頸,并提高用戶(hù)的體驗(yàn)質(zhì)量。智能設(shè)備的提取是上述數(shù)據(jù)處理過(guò)程中的關(guān)鍵任務(wù)之一。本文通過(guò)高等院校圖書(shū)館在校園網(wǎng)絡(luò)環(huán)境下提取數(shù)據(jù)流量以此建立分析智能設(shè)備信息的方案。傳統(tǒng)蜂窩網(wǎng)絡(luò)的運(yùn)營(yíng)商可以通過(guò)分析信息流量獲取大部分設(shè)備信息,如國(guó)際移動(dòng)設(shè)備標(biāo)識(shí)通常嵌入信息通信量中。然而,這些信息在默認(rèn)情況下不包含在WiFi條件下的數(shù)據(jù)流量信息。為了獲得校園無(wú)線網(wǎng)絡(luò)中智能設(shè)備等此類(lèi)信息,一種可能的方法是收集和解析智能設(shè)備與云之間交換的超文本傳輸協(xié)議(HTTP)消息中的用戶(hù)代理(UA)字符串。圖1顯示了UA的一個(gè)例子。如圖所示,可以通過(guò)解析過(guò)程提取瀏覽器類(lèi)型、操作系統(tǒng)、字符集等信息。

        盡管有兩個(gè)公共標(biāo)準(zhǔn)可用于格式化設(shè)備標(biāo)簽,但大多數(shù)制造商都忽略了這些標(biāo)準(zhǔn),從而使信息提取更加困難。對(duì)這個(gè)問(wèn)題,現(xiàn)有兩種解決方案。一種是無(wú)線通用資源文件(WURFL),這是一種基于唯一內(nèi)容的UA識(shí)別方法,如設(shè)備信息。通過(guò)將唯一標(biāo)識(shí)的內(nèi)容與預(yù)定義的文件進(jìn)行匹配,可以從Web服務(wù)器中提取設(shè)備信息。然而,由于新設(shè)備的出現(xiàn)和現(xiàn)有設(shè)備的頻繁升級(jí),WURFL不能保證長(zhǎng)期的高精度。另一種解決方案基于UA字符串匹配。應(yīng)用UA字符串匹配,需要使用包含UA字符串和設(shè)備模型的匹配規(guī)則預(yù)先設(shè)置數(shù)據(jù)庫(kù)。提取設(shè)備信息的方法是將捕獲的字符串映射到數(shù)據(jù)庫(kù)中的預(yù)置值。雖然實(shí)現(xiàn)起來(lái)很簡(jiǎn)單,但是這種方法效率很低,尤其是在大數(shù)據(jù)背景的今天,我們提出的方案旨在克服現(xiàn)有兩種方法的缺點(diǎn),特別是我們?cè)诜桨钢袑?shí)現(xiàn)Hadoop以快速高效地處理大量數(shù)據(jù)。此外,Hive UDF以統(tǒng)一數(shù)據(jù)格式對(duì)數(shù)據(jù)進(jìn)行預(yù)處理。

        本文的其余部分組織如下:給出智能設(shè)備信息提取方案的框架;介紹基于Hadoop的數(shù)據(jù)處理技術(shù),并描述了如何實(shí)現(xiàn)UDF函數(shù);給出實(shí)驗(yàn)結(jié)果;總結(jié)這項(xiàng)實(shí)驗(yàn)工作。

        一、方案概述

        圖2顯示了所提議的信息提取方案的概述??傮w而言,該方案包括4個(gè)部分,即流量采集、數(shù)據(jù)預(yù)處理、智能設(shè)備信息提取和智能設(shè)備信息記錄(SDIR)。

        流量收集是指從目標(biāo)網(wǎng)絡(luò)中收集原始數(shù)據(jù)流量。流量收集點(diǎn)可以部署在通信網(wǎng)絡(luò)的不同位置,如核心網(wǎng)絡(luò)、聚合層、基于遠(yuǎn)程服務(wù)器的訪問(wèn)節(jié)點(diǎn)和網(wǎng)絡(luò)網(wǎng)關(guān)。

        數(shù)據(jù)預(yù)處理是對(duì)采集到的交通數(shù)據(jù)進(jìn)行凈化和過(guò)濾,因?yàn)椴杉降慕煌〝?shù)據(jù)可能存在噪聲。經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,核心函數(shù)(即基于DPI9的核心函數(shù))只處理采集數(shù)據(jù)的一小部分,大大降低了方案的計(jì)算開(kāi)銷(xiāo)。研究發(fā)現(xiàn),大多數(shù)移動(dòng)應(yīng)用程序使用HTTP與服務(wù)器通信。在本文中,我們將使用HTTP演示所提出的信息提取方案。我們提出的方案可以很容易地?cái)U(kuò)展,如應(yīng)用報(bào)頭/消息字段以更好地兼容其他專(zhuān)有協(xié)議。在大量實(shí)驗(yàn)基礎(chǔ)上設(shè)計(jì)該方案的濾波策略,使近98%的原始數(shù)據(jù)能夠被準(zhǔn)確地清洗和濾波。策略包括用戶(hù)類(lèi)型、位置、通信協(xié)議等。

        智能設(shè)備信息提取是本方案的核心功能。此函數(shù)用于匹配從預(yù)定義庫(kù)中捕獲的、經(jīng)常維護(hù)和更新的UA字符串。

        SDIR是提取方案的匯總。在此步驟中,從原始數(shù)據(jù)流量中成功地提取了所需的信息,如設(shè)備類(lèi)型、品牌、模型等。收集SDIRs以進(jìn)行進(jìn)一步的數(shù)據(jù)統(tǒng)計(jì)、分析和挖掘。SDIR的詳細(xì)應(yīng)用超出了信息提取方案的范圍。

        二、基于UDF的智能設(shè)備信息提取方案

        經(jīng)過(guò)數(shù)據(jù)預(yù)處理后,可以獲得包含接入網(wǎng)絡(luò)用戶(hù)賬戶(hù)、用戶(hù)訪問(wèn)統(tǒng)一資源定位器(URL)和UA字符串的有用數(shù)據(jù)流,用于基于UDF-方案的信息提取。為了處理大量的UA字符串,實(shí)現(xiàn)基于Hadoop的MapReduce支持并行處理。Hadoop需要處理的5個(gè)步驟如下:

        1.在Hive數(shù)據(jù)庫(kù)中收集和預(yù)處理原始流量。

        2.從預(yù)處理中清除和過(guò)濾UA字符串?dāng)?shù)據(jù)。

        3.使用在MapReduce上實(shí)現(xiàn)的UDF函數(shù)解析和正則化UA字符串?dāng)?shù)據(jù)。

        4.通過(guò)WebMagic.11創(chuàng)建和管理一個(gè)智能設(shè)備規(guī)則數(shù)據(jù)庫(kù)。

        5.通過(guò)與數(shù)據(jù)庫(kù)匹配的UA字符串提取智能設(shè)備信息。

        在第1步中,Hive是一個(gè)基于Hadoop的數(shù)據(jù)倉(cāng)庫(kù),它使用Hadoop-HDFS作為數(shù)據(jù)存儲(chǔ)并提供HiveQL。除了內(nèi)置功能外,Hive還提供用戶(hù)定義功能(UDF)來(lái)增強(qiáng)數(shù)據(jù)處理。由于非標(biāo)準(zhǔn)的UA字符串不能由HiveQL內(nèi)置in語(yǔ)句處理,因此我們定義了一個(gè)UDF,它將非標(biāo)準(zhǔn)數(shù)據(jù)格式處理為期望的格式,以便進(jìn)行信息匹配。

        要啟動(dòng)步驟3中的調(diào)節(jié)過(guò)程,將一個(gè)UA字符串的正則表達(dá)式文件作為數(shù)據(jù)結(jié)構(gòu)列表讀入內(nèi)存。正則表達(dá)式包含智能設(shè)備信息,用于解析原始的UA字符串。表1顯示了正則表達(dá)式的一個(gè)示例。當(dāng)原始的UA字符串與正則表達(dá)式匹配時(shí),將得到解析過(guò)的UA字符串。表2顯示了一些原始UA刺和相應(yīng)的解析過(guò)的刺的例子。

        ? 在步驟4中,WebMagic是一個(gè)簡(jiǎn)單而靈活的Java web爬蟲(chóng)程序框架。它被用于從可信的電子商務(wù)網(wǎng)站收集智能設(shè)備相關(guān)信息,信息數(shù)據(jù)庫(kù)也由WebMagic自動(dòng)定期更新。最終結(jié)果存儲(chǔ)在SDIR數(shù)據(jù)結(jié)構(gòu)中。

        三、實(shí)驗(yàn)與案例分析

        在本節(jié)中,我們以實(shí)際網(wǎng)絡(luò)數(shù)據(jù)為基礎(chǔ),通過(guò)實(shí)驗(yàn)驗(yàn)證所提出的信息提取方案。通過(guò)與中國(guó)一家網(wǎng)絡(luò)運(yùn)營(yíng)商的合作,以天津音樂(lè)學(xué)院圖書(shū)館為調(diào)研地點(diǎn)收集了為期5天的原始數(shù)據(jù)。數(shù)據(jù)來(lái)自2種類(lèi)型的智能設(shè)備。其中手機(jī)3630臺(tái),平板電腦1609臺(tái)。正如我們所看到的,智能手機(jī)在收集數(shù)據(jù)中占主導(dǎo)地位。然而,為了提供更好的用戶(hù)體驗(yàn),網(wǎng)絡(luò)運(yùn)營(yíng)商可能需要更詳細(xì)的信息,如設(shè)備類(lèi)型、設(shè)備品牌、操作系統(tǒng)等。在不損失通用性的前提下給出利用該方案提取設(shè)備類(lèi)型和品牌的結(jié)果。特別是我們的虛擬計(jì)算集群配備了8核心中央處理器(CPU)和64GB隨機(jī)存取內(nèi)存(RAM)。整個(gè)信息提取過(guò)程包括數(shù)據(jù)預(yù)處理,在12小時(shí)內(nèi)完成。通過(guò)運(yùn)行我們提出的信息提取方案可以準(zhǔn)確地提取出各類(lèi)智能設(shè)備的品牌。在真實(shí)的實(shí)驗(yàn)中,所有類(lèi)型的智能設(shè)備的準(zhǔn)確率都達(dá)到了92%以上,準(zhǔn)確度是通過(guò)正確檢測(cè)的數(shù)量與智能設(shè)備總數(shù)的比值來(lái)衡量的。

        有了這些信息,網(wǎng)絡(luò)運(yùn)營(yíng)商將能更有效地提供服務(wù)和管理他們的網(wǎng)絡(luò)資源,以提高用戶(hù)的使用感受。如網(wǎng)絡(luò)運(yùn)營(yíng)商可以根據(jù)用戶(hù)設(shè)備的不同為視頻流服務(wù)分配不同的緩存大小和優(yōu)先級(jí)。類(lèi)似網(wǎng)絡(luò)資源管理可以應(yīng)用于其他應(yīng)用程序,如游戲、在線購(gòu)物、社交網(wǎng)絡(luò)等。為了進(jìn)一步提高用戶(hù)的使用感受,智能設(shè)備制造商和應(yīng)用程序開(kāi)發(fā)人員可以通過(guò)固件和應(yīng)用程序更新等方式對(duì)產(chǎn)品進(jìn)行改進(jìn),從而充分利用優(yōu)化后的網(wǎng)絡(luò)資源。

        四、結(jié)語(yǔ)

        本文提出了一種智能設(shè)備信息提取方案。該方案將UDF應(yīng)用于處理非標(biāo)準(zhǔn)的UA字符串格式,因此,可以使用基于Hadoop的平臺(tái)進(jìn)行處理,實(shí)驗(yàn)基于真實(shí)的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行。結(jié)果表明,在實(shí)際應(yīng)用中,該方法在智能設(shè)備信息提取中可以達(dá)到92%以上的精度。此外,在今后的工作中還將探討一些開(kāi)放的問(wèn)題,如UA簽名數(shù)據(jù)庫(kù)的更新和維護(hù),更快的匹配等。我們還將與未來(lái)可能進(jìn)行的相關(guān)工作進(jìn)行性能比較。

        編輯 馮永霞

        猜你喜歡
        數(shù)據(jù)庫(kù)智能用戶(hù)
        智能前沿
        文苑(2018年23期)2018-12-14 01:06:06
        智能前沿
        文苑(2018年19期)2018-11-09 01:30:14
        智能前沿
        文苑(2018年17期)2018-11-09 01:29:26
        智能前沿
        文苑(2018年21期)2018-11-09 01:22:32
        數(shù)據(jù)庫(kù)
        關(guān)注用戶(hù)
        關(guān)注用戶(hù)
        數(shù)據(jù)庫(kù)
        關(guān)注用戶(hù)
        數(shù)據(jù)庫(kù)
        伊人狠狠色j香婷婷综合| 久久婷婷人人澡人人喊人人爽| 人成午夜大片免费视频77777| 精品成在人线av无码免费看| 久久久亚洲色| 98在线视频噜噜噜国产| 91青青草免费在线视频 | 强d乱码中文字幕熟女免费| 色噜噜av亚洲色一区二区| 日韩欧美中文字幕不卡| 久久道精品一区二区三区| 美女叉开双腿让男人插| 日本一区二区三区综合视频| 91精品国产综合久久久密臀九色 | 在线观看网址你懂的| 亚洲日韩精品AⅤ片无码富二代| 亚洲大胆视频在线观看| 精品一区二区av在线| 中文字幕人妻丝袜成熟乱| 好屌草这里只有精品| 亚洲精品成人专区在线观看| 一区二区三区国产在线网站视频| 亚洲av日韩一区二三四五六七 | 欧美大屁股xxxx高潮喷水| 中文字幕天天躁日日躁狠狠躁免费 | 色综合久久无码五十路人妻 | 欧美成妇人吹潮在线播放| 国产亚洲情侣一区二区无| 国产成人77亚洲精品www| av免费观看在线网站| 亚洲一区精品在线中文字幕 | 亚洲av日韩av永久无码色欲| XXXXBBBB欧美| 亚洲小少妇一区二区三区| 天天躁日日躁狠狠躁av麻豆| 国产乱人伦av在线a| 99在线无码精品秘 人口| 亚洲精品久久区二区三区蜜桃臀| 18禁裸男晨勃露j毛网站| 精品欧美一区二区在线观看| 日本看片一区二区三区|