江霞
摘要:數(shù)據(jù)挖掘技術在網上書店系統(tǒng)中起著重要作用,使用數(shù)據(jù)挖掘技術分析訂單數(shù)據(jù),通過關聯(lián)規(guī)則挖掘得到相同種類圖書之間和不同種類圖書之間的關聯(lián)關系,根據(jù)分析結果可以在客戶下訂單時,為客戶推薦相關書籍,從而增加銷售額。該文介紹網上書店訂單數(shù)據(jù)關聯(lián)分析的過程和結果。
關鍵詞:數(shù)據(jù)挖掘;關聯(lián)規(guī)則;網上書店;商品推薦
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)36-8597-02
網上書店以其圖書數(shù)量大、品種多、檢索方便、價格相對便宜、突破了時間和空間的限制等優(yōu)勢吸引了讀者,圖書購買的需求已是網上書店讀者的首要需求。為了能夠充分滿足以及了解使用者的需求,開發(fā)一套網上書店管理信息系統(tǒng)是必要的。從商務網站系統(tǒng)中得到的大量數(shù)據(jù)用數(shù)據(jù)庫保存起來,在競爭日益激烈的知識經濟環(huán)境下,數(shù)據(jù)庫不再只是用于查詢、輸出報表等一般的用途,還要在眾多的數(shù)據(jù)中挖掘出有用的知識以便作為決策支持。
1 數(shù)據(jù)挖掘在網上書店的應用
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它綜合利用了統(tǒng)計學、模式識別、人工智能、機器學習、神經網絡等學科的知識,從大量信息中提取有用的模式和規(guī)律,以輔助決策。
考察書店中涉及許多交易的事務:事務 1 中出現(xiàn)了書甲,事務 2 中出現(xiàn)了書乙,事務 3 中則同時出現(xiàn)了書甲和書乙。那么,書甲和書乙在事務中的出現(xiàn)相互之間是否有規(guī)律可循呢?在網上書店的前端訂單系統(tǒng)收集存儲了大量的購書數(shù)據(jù),這些數(shù)據(jù)是一條條的購買事務記錄,每條記錄存儲了事務處理時間,顧客購買的書籍、物品的數(shù)量及金額等。這些數(shù)據(jù)中常常隱含形式如下的關聯(lián)規(guī)則:在購買 JSP 書的顧客當中,有 70%的人同時購買了 Java 圖書。這些關聯(lián)規(guī)則很有價值,書店管理人員可以根據(jù)這些關聯(lián)規(guī)則更好地規(guī)劃書店,如把 Java 和 JSP 圖書其中一種促銷,能夠促進另一種通圖書的銷售。
2 數(shù)據(jù)庫準備
根據(jù)上面的數(shù)據(jù)庫需求分析及系統(tǒng)功能模塊的劃分,網上書店系統(tǒng)數(shù)據(jù)庫主要包括如下幾張表,其中用戶表和訂單表部分字段設置如表1、表2所示。
· _user(用戶)表 (表1),用來存儲用戶信息。
表1 _user表
[字段名\&數(shù)據(jù)類型\&備注\&userid\&Int not null\&用戶ID,自動增加\&username\&Nvarchar(50) not null\&用戶名,主鍵\&useremail\&Nvarchar(50) not null\&用戶email\&password\&Nvarchar(50) not null\&用戶密碼\&]
· myorder(我的訂單)表 (表2),用來存儲用戶購買圖書的信息。
表2 myorder表
[字段名\&數(shù)據(jù)類型\&備注\&Myorder_id\&int not null\&訂單ID,自動增加,主鍵\&username\&Nvarchar(50)\&訂單的用戶名\&name\&Nvarchar(255)\&購買的商品名稱\&]
3 數(shù)據(jù)分析
網上書店訂單數(shù)據(jù)的關聯(lián)規(guī)則頻繁項集挖掘可采用 Apriori 算法實現(xiàn)。假設當日銷售的數(shù)據(jù)庫中的一段事務數(shù)據(jù),數(shù)據(jù)庫中有 10 個事務,即|D|=10。Apriori 假定事務中的項按字典次序存放,Ik代表具體的書目或者一類圖書,比如I1-Java 類圖書,I2-JSP 圖書,I3-數(shù)據(jù)挖掘圖書,I4-C 語言圖書,I5-網頁制作圖書等等。
打開Microsoft SQL Server 2005中的Business Intelligence Development Studio, 在解決方案資源管理器中為數(shù)據(jù)庫ZT新建數(shù)據(jù)源、為view_myorder, view_user新建數(shù)據(jù)源視圖,新建挖掘結構。
在解決資源管理器中基于ZT數(shù)據(jù)源和數(shù)據(jù)源視圖新建名為User.dmm的關聯(lián)規(guī)則挖掘結構。選取“_user”為事例表,“myorder”為嵌套表,將事例表_user的username字段選取為鍵列,將嵌套表myorder的name字段選取為鍵列、輸入列和可預測列,勾選“運行鉆取”,最后點擊“完成”按鈕。
先看看顧客的購買記錄,如表3所示。
表3 顧客的購買記錄表
[用戶名\&購買的圖書\&C1\&數(shù)據(jù)庫,數(shù)據(jù)結構,離散數(shù)學,計算機網絡,C語言程序設計案例教程,計算機組成原理\&C2\&操作系統(tǒng),離散數(shù)學,C語言程序設計案例教程,計算機組成原理\&C3\&數(shù)據(jù)結構,數(shù)據(jù)庫,計算機網絡,C語言程序設計案例教程\&C4\&離散數(shù)學,C語言程序設計案例教程\&]
點擊“挖掘模型查看器”,可以在“項集”這個選項中,設置“最低支持”和“最小項集大小”。
點擊“挖掘模型預測”,可以對顧客的購買記錄進行關聯(lián)、序列分析。
1) 查看哪些商品會一起購買(針對關聯(lián)模型創(chuàng)建預測查詢)
首先在挖掘模型對話框中點擊“選擇模型”,選擇ZT下的User,點擊“確定”按鈕,在下面網格中“源”處,選擇“預測函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加,3,點擊“結果”。
2) 給定一種商品或兩種商品,查看和它一起購買的商品以及一起購買此商品的概率(向單獨預測查詢添加輸入和概率)
單擊“單獨查詢按鈕”,在單獨查詢輸入中添加“C語言”,挖掘模型也選擇ZT下的User,在下面網格中“源”處,選擇“預測函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加include_statistics6,點擊“結果”。
4 結束語
本文以網上書店為平臺,介紹顧客購書訂單模塊的數(shù)據(jù)庫的設計,并用SQL Server 2005的Business intelligence development studio對商務網站交易數(shù)據(jù)進行關聯(lián)分析,發(fā)現(xiàn)被顧客購買的商品之間的關聯(lián),為商品導購提供數(shù)據(jù)支持。
參考文獻:
[1] 馬剛.關聯(lián)規(guī)則挖掘在電子商務中的研究與應用[D].上海:上海交通大學,2008:40-44.
[2] 魏建香,馮春輝.SQL Server 數(shù)據(jù)庫應用技術[M].北京:中國計劃出版社,2007:8-9.
[3] 謝邦昌.商務智能與數(shù)據(jù)挖掘 Microsoft SQL Server應用[M].北京:機械工業(yè)出版社,2008:35-40.
[4] 左鳳朝.基于 Web 的數(shù)據(jù)庫訪問技術探析[J].計算機工程與應用,2005,52(15).
[5] John H.Heinrichs,Jeen-Su Lim.Integrating Web-based Data Mining Tools with Business Models for Knowledge Management[J].Decision Support Systems,2003,35.endprint
摘要:數(shù)據(jù)挖掘技術在網上書店系統(tǒng)中起著重要作用,使用數(shù)據(jù)挖掘技術分析訂單數(shù)據(jù),通過關聯(lián)規(guī)則挖掘得到相同種類圖書之間和不同種類圖書之間的關聯(lián)關系,根據(jù)分析結果可以在客戶下訂單時,為客戶推薦相關書籍,從而增加銷售額。該文介紹網上書店訂單數(shù)據(jù)關聯(lián)分析的過程和結果。
關鍵詞:數(shù)據(jù)挖掘;關聯(lián)規(guī)則;網上書店;商品推薦
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)36-8597-02
網上書店以其圖書數(shù)量大、品種多、檢索方便、價格相對便宜、突破了時間和空間的限制等優(yōu)勢吸引了讀者,圖書購買的需求已是網上書店讀者的首要需求。為了能夠充分滿足以及了解使用者的需求,開發(fā)一套網上書店管理信息系統(tǒng)是必要的。從商務網站系統(tǒng)中得到的大量數(shù)據(jù)用數(shù)據(jù)庫保存起來,在競爭日益激烈的知識經濟環(huán)境下,數(shù)據(jù)庫不再只是用于查詢、輸出報表等一般的用途,還要在眾多的數(shù)據(jù)中挖掘出有用的知識以便作為決策支持。
1 數(shù)據(jù)挖掘在網上書店的應用
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它綜合利用了統(tǒng)計學、模式識別、人工智能、機器學習、神經網絡等學科的知識,從大量信息中提取有用的模式和規(guī)律,以輔助決策。
考察書店中涉及許多交易的事務:事務 1 中出現(xiàn)了書甲,事務 2 中出現(xiàn)了書乙,事務 3 中則同時出現(xiàn)了書甲和書乙。那么,書甲和書乙在事務中的出現(xiàn)相互之間是否有規(guī)律可循呢?在網上書店的前端訂單系統(tǒng)收集存儲了大量的購書數(shù)據(jù),這些數(shù)據(jù)是一條條的購買事務記錄,每條記錄存儲了事務處理時間,顧客購買的書籍、物品的數(shù)量及金額等。這些數(shù)據(jù)中常常隱含形式如下的關聯(lián)規(guī)則:在購買 JSP 書的顧客當中,有 70%的人同時購買了 Java 圖書。這些關聯(lián)規(guī)則很有價值,書店管理人員可以根據(jù)這些關聯(lián)規(guī)則更好地規(guī)劃書店,如把 Java 和 JSP 圖書其中一種促銷,能夠促進另一種通圖書的銷售。
2 數(shù)據(jù)庫準備
根據(jù)上面的數(shù)據(jù)庫需求分析及系統(tǒng)功能模塊的劃分,網上書店系統(tǒng)數(shù)據(jù)庫主要包括如下幾張表,其中用戶表和訂單表部分字段設置如表1、表2所示。
· _user(用戶)表 (表1),用來存儲用戶信息。
表1 _user表
[字段名\&數(shù)據(jù)類型\&備注\&userid\&Int not null\&用戶ID,自動增加\&username\&Nvarchar(50) not null\&用戶名,主鍵\&useremail\&Nvarchar(50) not null\&用戶email\&password\&Nvarchar(50) not null\&用戶密碼\&]
· myorder(我的訂單)表 (表2),用來存儲用戶購買圖書的信息。
表2 myorder表
[字段名\&數(shù)據(jù)類型\&備注\&Myorder_id\&int not null\&訂單ID,自動增加,主鍵\&username\&Nvarchar(50)\&訂單的用戶名\&name\&Nvarchar(255)\&購買的商品名稱\&]
3 數(shù)據(jù)分析
網上書店訂單數(shù)據(jù)的關聯(lián)規(guī)則頻繁項集挖掘可采用 Apriori 算法實現(xiàn)。假設當日銷售的數(shù)據(jù)庫中的一段事務數(shù)據(jù),數(shù)據(jù)庫中有 10 個事務,即|D|=10。Apriori 假定事務中的項按字典次序存放,Ik代表具體的書目或者一類圖書,比如I1-Java 類圖書,I2-JSP 圖書,I3-數(shù)據(jù)挖掘圖書,I4-C 語言圖書,I5-網頁制作圖書等等。
打開Microsoft SQL Server 2005中的Business Intelligence Development Studio, 在解決方案資源管理器中為數(shù)據(jù)庫ZT新建數(shù)據(jù)源、為view_myorder, view_user新建數(shù)據(jù)源視圖,新建挖掘結構。
在解決資源管理器中基于ZT數(shù)據(jù)源和數(shù)據(jù)源視圖新建名為User.dmm的關聯(lián)規(guī)則挖掘結構。選取“_user”為事例表,“myorder”為嵌套表,將事例表_user的username字段選取為鍵列,將嵌套表myorder的name字段選取為鍵列、輸入列和可預測列,勾選“運行鉆取”,最后點擊“完成”按鈕。
先看看顧客的購買記錄,如表3所示。
表3 顧客的購買記錄表
[用戶名\&購買的圖書\&C1\&數(shù)據(jù)庫,數(shù)據(jù)結構,離散數(shù)學,計算機網絡,C語言程序設計案例教程,計算機組成原理\&C2\&操作系統(tǒng),離散數(shù)學,C語言程序設計案例教程,計算機組成原理\&C3\&數(shù)據(jù)結構,數(shù)據(jù)庫,計算機網絡,C語言程序設計案例教程\&C4\&離散數(shù)學,C語言程序設計案例教程\&]
點擊“挖掘模型查看器”,可以在“項集”這個選項中,設置“最低支持”和“最小項集大小”。
點擊“挖掘模型預測”,可以對顧客的購買記錄進行關聯(lián)、序列分析。
1) 查看哪些商品會一起購買(針對關聯(lián)模型創(chuàng)建預測查詢)
首先在挖掘模型對話框中點擊“選擇模型”,選擇ZT下的User,點擊“確定”按鈕,在下面網格中“源”處,選擇“預測函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加,3,點擊“結果”。
2) 給定一種商品或兩種商品,查看和它一起購買的商品以及一起購買此商品的概率(向單獨預測查詢添加輸入和概率)
單擊“單獨查詢按鈕”,在單獨查詢輸入中添加“C語言”,挖掘模型也選擇ZT下的User,在下面網格中“源”處,選擇“預測函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加include_statistics6,點擊“結果”。
4 結束語
本文以網上書店為平臺,介紹顧客購書訂單模塊的數(shù)據(jù)庫的設計,并用SQL Server 2005的Business intelligence development studio對商務網站交易數(shù)據(jù)進行關聯(lián)分析,發(fā)現(xiàn)被顧客購買的商品之間的關聯(lián),為商品導購提供數(shù)據(jù)支持。
參考文獻:
[1] 馬剛.關聯(lián)規(guī)則挖掘在電子商務中的研究與應用[D].上海:上海交通大學,2008:40-44.
[2] 魏建香,馮春輝.SQL Server 數(shù)據(jù)庫應用技術[M].北京:中國計劃出版社,2007:8-9.
[3] 謝邦昌.商務智能與數(shù)據(jù)挖掘 Microsoft SQL Server應用[M].北京:機械工業(yè)出版社,2008:35-40.
[4] 左鳳朝.基于 Web 的數(shù)據(jù)庫訪問技術探析[J].計算機工程與應用,2005,52(15).
[5] John H.Heinrichs,Jeen-Su Lim.Integrating Web-based Data Mining Tools with Business Models for Knowledge Management[J].Decision Support Systems,2003,35.endprint
摘要:數(shù)據(jù)挖掘技術在網上書店系統(tǒng)中起著重要作用,使用數(shù)據(jù)挖掘技術分析訂單數(shù)據(jù),通過關聯(lián)規(guī)則挖掘得到相同種類圖書之間和不同種類圖書之間的關聯(lián)關系,根據(jù)分析結果可以在客戶下訂單時,為客戶推薦相關書籍,從而增加銷售額。該文介紹網上書店訂單數(shù)據(jù)關聯(lián)分析的過程和結果。
關鍵詞:數(shù)據(jù)挖掘;關聯(lián)規(guī)則;網上書店;商品推薦
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2014)36-8597-02
網上書店以其圖書數(shù)量大、品種多、檢索方便、價格相對便宜、突破了時間和空間的限制等優(yōu)勢吸引了讀者,圖書購買的需求已是網上書店讀者的首要需求。為了能夠充分滿足以及了解使用者的需求,開發(fā)一套網上書店管理信息系統(tǒng)是必要的。從商務網站系統(tǒng)中得到的大量數(shù)據(jù)用數(shù)據(jù)庫保存起來,在競爭日益激烈的知識經濟環(huán)境下,數(shù)據(jù)庫不再只是用于查詢、輸出報表等一般的用途,還要在眾多的數(shù)據(jù)中挖掘出有用的知識以便作為決策支持。
1 數(shù)據(jù)挖掘在網上書店的應用
數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它綜合利用了統(tǒng)計學、模式識別、人工智能、機器學習、神經網絡等學科的知識,從大量信息中提取有用的模式和規(guī)律,以輔助決策。
考察書店中涉及許多交易的事務:事務 1 中出現(xiàn)了書甲,事務 2 中出現(xiàn)了書乙,事務 3 中則同時出現(xiàn)了書甲和書乙。那么,書甲和書乙在事務中的出現(xiàn)相互之間是否有規(guī)律可循呢?在網上書店的前端訂單系統(tǒng)收集存儲了大量的購書數(shù)據(jù),這些數(shù)據(jù)是一條條的購買事務記錄,每條記錄存儲了事務處理時間,顧客購買的書籍、物品的數(shù)量及金額等。這些數(shù)據(jù)中常常隱含形式如下的關聯(lián)規(guī)則:在購買 JSP 書的顧客當中,有 70%的人同時購買了 Java 圖書。這些關聯(lián)規(guī)則很有價值,書店管理人員可以根據(jù)這些關聯(lián)規(guī)則更好地規(guī)劃書店,如把 Java 和 JSP 圖書其中一種促銷,能夠促進另一種通圖書的銷售。
2 數(shù)據(jù)庫準備
根據(jù)上面的數(shù)據(jù)庫需求分析及系統(tǒng)功能模塊的劃分,網上書店系統(tǒng)數(shù)據(jù)庫主要包括如下幾張表,其中用戶表和訂單表部分字段設置如表1、表2所示。
· _user(用戶)表 (表1),用來存儲用戶信息。
表1 _user表
[字段名\&數(shù)據(jù)類型\&備注\&userid\&Int not null\&用戶ID,自動增加\&username\&Nvarchar(50) not null\&用戶名,主鍵\&useremail\&Nvarchar(50) not null\&用戶email\&password\&Nvarchar(50) not null\&用戶密碼\&]
· myorder(我的訂單)表 (表2),用來存儲用戶購買圖書的信息。
表2 myorder表
[字段名\&數(shù)據(jù)類型\&備注\&Myorder_id\&int not null\&訂單ID,自動增加,主鍵\&username\&Nvarchar(50)\&訂單的用戶名\&name\&Nvarchar(255)\&購買的商品名稱\&]
3 數(shù)據(jù)分析
網上書店訂單數(shù)據(jù)的關聯(lián)規(guī)則頻繁項集挖掘可采用 Apriori 算法實現(xiàn)。假設當日銷售的數(shù)據(jù)庫中的一段事務數(shù)據(jù),數(shù)據(jù)庫中有 10 個事務,即|D|=10。Apriori 假定事務中的項按字典次序存放,Ik代表具體的書目或者一類圖書,比如I1-Java 類圖書,I2-JSP 圖書,I3-數(shù)據(jù)挖掘圖書,I4-C 語言圖書,I5-網頁制作圖書等等。
打開Microsoft SQL Server 2005中的Business Intelligence Development Studio, 在解決方案資源管理器中為數(shù)據(jù)庫ZT新建數(shù)據(jù)源、為view_myorder, view_user新建數(shù)據(jù)源視圖,新建挖掘結構。
在解決資源管理器中基于ZT數(shù)據(jù)源和數(shù)據(jù)源視圖新建名為User.dmm的關聯(lián)規(guī)則挖掘結構。選取“_user”為事例表,“myorder”為嵌套表,將事例表_user的username字段選取為鍵列,將嵌套表myorder的name字段選取為鍵列、輸入列和可預測列,勾選“運行鉆取”,最后點擊“完成”按鈕。
先看看顧客的購買記錄,如表3所示。
表3 顧客的購買記錄表
[用戶名\&購買的圖書\&C1\&數(shù)據(jù)庫,數(shù)據(jù)結構,離散數(shù)學,計算機網絡,C語言程序設計案例教程,計算機組成原理\&C2\&操作系統(tǒng),離散數(shù)學,C語言程序設計案例教程,計算機組成原理\&C3\&數(shù)據(jù)結構,數(shù)據(jù)庫,計算機網絡,C語言程序設計案例教程\&C4\&離散數(shù)學,C語言程序設計案例教程\&]
點擊“挖掘模型查看器”,可以在“項集”這個選項中,設置“最低支持”和“最小項集大小”。
點擊“挖掘模型預測”,可以對顧客的購買記錄進行關聯(lián)、序列分析。
1) 查看哪些商品會一起購買(針對關聯(lián)模型創(chuàng)建預測查詢)
首先在挖掘模型對話框中點擊“選擇模型”,選擇ZT下的User,點擊“確定”按鈕,在下面網格中“源”處,選擇“預測函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加,3,點擊“結果”。
2) 給定一種商品或兩種商品,查看和它一起購買的商品以及一起購買此商品的概率(向單獨預測查詢添加輸入和概率)
單擊“單獨查詢按鈕”,在單獨查詢輸入中添加“C語言”,挖掘模型也選擇ZT下的User,在下面網格中“源”處,選擇“預測函數(shù)”,在“字段”處選擇“PredictAssociation”,將挖掘模型中的myorder托放到條件/參數(shù)中,并在后添加include_statistics6,點擊“結果”。
4 結束語
本文以網上書店為平臺,介紹顧客購書訂單模塊的數(shù)據(jù)庫的設計,并用SQL Server 2005的Business intelligence development studio對商務網站交易數(shù)據(jù)進行關聯(lián)分析,發(fā)現(xiàn)被顧客購買的商品之間的關聯(lián),為商品導購提供數(shù)據(jù)支持。
參考文獻:
[1] 馬剛.關聯(lián)規(guī)則挖掘在電子商務中的研究與應用[D].上海:上海交通大學,2008:40-44.
[2] 魏建香,馮春輝.SQL Server 數(shù)據(jù)庫應用技術[M].北京:中國計劃出版社,2007:8-9.
[3] 謝邦昌.商務智能與數(shù)據(jù)挖掘 Microsoft SQL Server應用[M].北京:機械工業(yè)出版社,2008:35-40.
[4] 左鳳朝.基于 Web 的數(shù)據(jù)庫訪問技術探析[J].計算機工程與應用,2005,52(15).
[5] John H.Heinrichs,Jeen-Su Lim.Integrating Web-based Data Mining Tools with Business Models for Knowledge Management[J].Decision Support Systems,2003,35.endprint