亚洲免费av电影一区二区三区,日韩爱爱视频,51精品视频一区二区三区,91视频爱爱,日韩欧美在线播放视频,中文字幕少妇AV,亚洲电影中文字幕,久久久久亚洲av成人网址,久久综合视频网站,国产在线不卡免费播放

        ?

        分類信息的數(shù)據(jù)倉庫平臺設計及實施

        2010-08-15 00:52:53汪榮榮
        科技傳播 2010年22期
        關鍵詞:數(shù)據(jù)倉庫工具分類

        汪榮榮

        同濟大學軟件學院,上海 201804

        0 引言

        分類信息又稱分類廣告,它是WEB2.0的衍生物,是新一代互聯(lián)網(wǎng)應用模式。日常在電視、報刊上所看到的廣告,往往是被強加給觀眾和讀者的,這類廣告稱為被動廣告。而人們主動去查詢招聘、租房、旅游等方面的信息,對這些信息,稱它為主動廣告,也即是本文所說的分類信息。分類信息的崛起,很好的彌補了傳統(tǒng)分類廣告的不足。它不僅信息量大,而且信息隨時在線。更重要的是利用分類搜索,可以保證用戶在任何時間、任何地點,都能非常方便快捷的查詢。它也以內(nèi)容編排精細化、及時、空間無限等特質(zhì),在大眾生活及商務活動中備受關注和喜歡。

        1 數(shù)據(jù)倉庫系統(tǒng)

        1.1 數(shù)據(jù)倉庫具有以下4個最基本的特點

        1)面向主題(Subject-Oriented):所謂主題是一個抽象的概念,是在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)綜合、歸類并進行分析利用的抽象。

        2)集成性(Integrated):數(shù)據(jù)倉庫的數(shù)據(jù)由于不是面向應用,所以并不關心細節(jié)數(shù)據(jù),而是從原有的數(shù)據(jù)庫中抽取出來的,并經(jīng)過統(tǒng)一和綜合,再進入數(shù)據(jù)倉庫中。

        3)穩(wěn)定性(Non-Volatile):數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,主要涉及的數(shù)據(jù)操作時數(shù)據(jù)查詢,一般情況下并不進行修改操作。

        4)時間變異性(Time-Variant):在數(shù)據(jù)倉庫中,數(shù)據(jù)記錄總含有一個時間屬性,倉庫中記錄了數(shù)據(jù)隨時間變化的歷史。

        1.2 一般數(shù)據(jù)倉庫系統(tǒng)的體系結構分為4個層次

        1)數(shù)據(jù)源。是數(shù)據(jù)倉庫系統(tǒng)的基礎,是整個系統(tǒng)的源泉。

        2)數(shù)據(jù)的存儲與管理。是整個數(shù)據(jù)倉庫系統(tǒng)的核心。數(shù)據(jù)倉庫的真正關鍵是數(shù)據(jù)的存儲與管理。數(shù)據(jù)倉庫的組織管理方式?jīng)Q定了它有別于傳統(tǒng)數(shù)據(jù)庫,同時也決定了其對外部數(shù)據(jù)的表現(xiàn)形式。針對現(xiàn)有各業(yè)務系統(tǒng)的數(shù)據(jù),進行抽取、清理、并有效集成,按照主題進行組織。該過程是通過ETL Server將數(shù)據(jù)源中的操作型數(shù)據(jù)經(jīng)過必要的轉換,重組導入數(shù)據(jù)倉庫。

        3)前段工具。主要包括各種報表工具、查詢工具、數(shù)據(jù)分析工具、數(shù)據(jù)挖掘工具以及各種基于數(shù)據(jù)倉庫或數(shù)據(jù)集市的應用開發(fā)工具。其中,數(shù)據(jù)分析工具主要針對OLAP服務器;報表工具、數(shù)據(jù)挖掘工具主要針對數(shù)據(jù)倉庫。

        4)數(shù)據(jù)用戶。即歷史數(shù)據(jù)等報表的使用者,一般為企業(yè)決策者。

        1.3 ETL策略設計

        ETL指的是數(shù)據(jù)抽取、數(shù)據(jù)轉換與數(shù)據(jù)加載。

        1)數(shù)據(jù)抽取。它完成從原有操作型數(shù)據(jù)庫中選擇與數(shù)據(jù)倉庫主體域相關的細節(jié)數(shù)據(jù)抽取到數(shù)據(jù)倉庫中。同時,數(shù)據(jù)抽取還要考慮源數(shù)據(jù)環(huán)境和ETL開發(fā)環(huán)境的接口問題,不同的業(yè)務系統(tǒng)有不同的平臺,相應地采用不同的數(shù)據(jù)抽取接口,一般應根據(jù)實際情況選擇可靠合適的源數(shù)據(jù)接口。比較典型的源數(shù)據(jù)接口有數(shù)據(jù)庫接口和文件接口。

        2)數(shù)據(jù)轉換。數(shù)據(jù)倉庫的源數(shù)據(jù)之間往往出現(xiàn)不一致的字段長、不一致的賦值等問題。數(shù)據(jù)轉換負責將數(shù)據(jù)名稱和格式進行統(tǒng)一,同時對不存在的數(shù)據(jù)賦缺省值,創(chuàng)建新的數(shù)據(jù)邏輯視圖。數(shù)據(jù)轉換的目標是將每個字段轉換為符合數(shù)據(jù)倉庫標準的數(shù)據(jù)格式。

        3)數(shù)據(jù)加載。數(shù)據(jù)加載有插入、增加和刷新3種模式。插入式加載對目標表進行增量操作;增加式加載需要對目標表同時做更新及插入操作,根據(jù)主鍵,對于已有的記錄進行更新,對于不存在的記錄做插入操作。

        2 數(shù)據(jù)倉庫技術在分類信息中的應用

        2.1 分類信息對數(shù)據(jù)倉庫技術的需求分析

        本文分析的是某跨國公司需要將其多個國家不同平臺的分類信息數(shù)據(jù)整合到統(tǒng)一格式的數(shù)據(jù)倉庫系統(tǒng)。具體這些信息包括廣告、用戶、回復、目錄、地址、支付、收費項目、網(wǎng)站等。它們的歷史數(shù)據(jù)為決策者們提供決策依據(jù)。

        1)廣告:用戶免費將廣告發(fā)布到其所在地的分類信息平臺。這些廣告通常包括租房信息、工作招聘信息、閑置物品二手交易信息等。

        2)用戶:即廣告投放者、回復廣告用戶以及注冊用戶。在該分類信息應用中,非注冊用戶也可以投放以及回復廣告。

        3)回復:當網(wǎng)頁瀏覽者對廣告感興趣時,可以通過回復廣告即發(fā)郵件給投放者與對方聯(lián)系。

        4)目錄:廣告的類別,又劃分為多級子目錄。根目錄如工作、房屋、汽車、寵物、服務等,在工作的根目錄下又細分為公寓出租、短期出租、旅游出租等。廣告被放在最底目錄下。

        5)地址:分類信息一般為同城交易,因此廣告也只對同一城市或者地區(qū)有效。這樣,廣告投放者所在的地址信息如國家、城市甚至地區(qū)就變得至關重要。

        6)收費項目:包括延長廣告有效期(默認免費廣告有效期為3個月)、將廣告靠前排放、彩色個性投放廣告等。

        2.2 分類信息網(wǎng)站數(shù)據(jù)倉庫平臺的ETL設計

        本系統(tǒng)采用E-L-T,即先將源數(shù)據(jù)從各個國家的操作型數(shù)據(jù)庫中抽取出來,再將這些數(shù)據(jù)直接裝載到數(shù)據(jù)倉庫平臺的DBMS- Teradata,最后在Teradata中對數(shù)據(jù)進行清洗轉換。由于Teradata有并行處理兼線性增長的數(shù)據(jù)處理功能,這樣設計的成本與性能要強于傳統(tǒng)的抽取-轉換-裝載流程。ETL的具體過程分為以下幾步:

        1)使用Shell腳本將需要的字段從源操作型數(shù)據(jù)庫的表中選取出來,該步驟將抽取得到的數(shù)據(jù)生成由分割符和源數(shù)據(jù)組成的FLAT FILE。每次從不同的源數(shù)據(jù)平臺上抽取數(shù)據(jù)時,只需編寫對應的SELECT SQL語句;

        2)使用Ab-initio將上一步驟中生成的FLAT FILE中的源數(shù)據(jù)載入Teradata的對應表中。在該步驟中,需要編寫數(shù)據(jù)格式轉換DML文件,該文件主要告訴Ab-initio如何讀取FLAT FILE中的分割符,以及如何將源數(shù)據(jù)匹配地存入Teradata中對應的字段;

        3)在上一步驟中,Teradata表中得到的數(shù)據(jù)是未經(jīng)任何清洗和轉換的臨時表數(shù)據(jù)。在數(shù)據(jù)轉換這一步驟里又分為兩步:INSERT SQL以及UPSERT SQL。INSERT SQL主要完成數(shù)據(jù)轉換工作,一般它需要左聯(lián)接不經(jīng)常變更的存放網(wǎng)站信息、地理信息、目錄信息的一些維度表,并作必要的數(shù)據(jù)清理和轉換工作,再講這些結果存入數(shù)據(jù)倉庫的臨時表中。UPSERT SQL實際又分為UPDATE SQL和INSERT SQL,即把上一步中INSERT SQL最后所得的臨時表數(shù)據(jù)導入最終表中。該最終表實際為最終數(shù)據(jù)用戶使用的表,它已包含歷史數(shù)據(jù)和其他國家平臺的數(shù)據(jù)。也即UPSERT SQL完成的是數(shù)據(jù)倉庫中的數(shù)據(jù)集成操作。

        猜你喜歡
        數(shù)據(jù)倉庫工具分類
        分類算一算
        波比的工具
        波比的工具
        分類討論求坐標
        基于數(shù)據(jù)倉庫的住房城鄉(xiāng)建設信息系統(tǒng)整合研究
        數(shù)據(jù)分析中的分類討論
        教你一招:數(shù)的分類
        “巧用”工具
        讀者(2017年18期)2017-08-29 21:22:03
        分布式存儲系統(tǒng)在液晶面板制造數(shù)據(jù)倉庫中的設計
        電子制作(2016年15期)2017-01-15 13:39:15
        探析電力系統(tǒng)調(diào)度中數(shù)據(jù)倉庫技術的應用
        亚洲视频免费在线观看| 日韩女人毛片在线播放| 色婷婷一区二区三区四区| 人妻精品久久一区二区三区| 亚洲国产精彩中文乱码av| 亚洲日韩精品欧美一区二区一| 色播中文字幕在线视频| 亚洲精品熟女av影院| 欧美男生射精高潮视频网站| 国产精品久久久久av福利动漫| 国产美女一级做a爱视频| 国产精品黑丝美女av| 亚洲丁香婷婷久久一区二区| 无码精品人妻一区二区三区影院| 欧美日韩精品一区二区三区高清视频| 亚洲小少妇一区二区三区| 极品少妇xxxx精品少妇偷拍| a级毛片在线观看| 亚洲精品日本| 国产精品日韩亚洲一区二区 | 亚洲av中文字字幕乱码软件 | 久久影院午夜理论片无码| 日本成熟妇人高潮aⅴ| 手机在线观看成年人视频| 久久无码潮喷a片无码高潮 | 无码人妻久久一区二区三区免费 | 亚洲天堂2017无码中文| 色婷婷激情在线一区二区三区| 国产精品一区二区av不卡| 初女破初的视频| 成人片99久久精品国产桃花岛| 中文字幕亚洲高清精品一区在线| 领导边摸边吃奶边做爽在线观看| 天堂网www在线资源| av在线免费播放网站| 少妇一级淫片中文字幕| 中文字幕av无码一区二区三区| 亚洲AV乱码毛片在线播放| 亚洲自拍偷拍一区二区三区 | 国产精品久久久久久久免费看| 中文字幕无码高清一区二区三区 |