公務(wù)員期刊網(wǎng) 論文中心 正文

數(shù)據(jù)挖掘在工商管理中的運(yùn)用

前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘在工商管理中的運(yùn)用范文,希望能給你帶來靈感和參考,敬請閱讀。

數(shù)據(jù)挖掘在工商管理中的運(yùn)用

網(wǎng)絡(luò)經(jīng)濟(jì)的關(guān)鍵在于能夠?yàn)樯唐返墓?yīng)商及其合作者之間提供一個(gè)交流的平臺,但是即便是最權(quán)威的搜索引擎也只能夠搜索到三分之一的web網(wǎng)頁,并且這些Web都是沒有結(jié)構(gòu)的、動態(tài)的、復(fù)雜的形式出現(xiàn)。人們要從各種各樣的文本網(wǎng)站中尋找自己想要的信息進(jìn)而變得更加困難。網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)就是用來解決這一問題的好辦法,利用數(shù)據(jù)挖掘技術(shù)能夠有效發(fā)現(xiàn)在web網(wǎng)頁中隱藏著的對用戶有力的數(shù)據(jù)信息,在對數(shù)據(jù)的分析中總結(jié)出規(guī)律。如何實(shí)現(xiàn)用戶對于Web上的有效數(shù)據(jù)的深度挖掘,使其成為工商管理領(lǐng)域中的重要應(yīng)用,成為了當(dāng)代許多網(wǎng)絡(luò)工作者所關(guān)注的話題。

一、數(shù)據(jù)挖掘概述

(一)數(shù)據(jù)挖掘

數(shù)據(jù)挖掘(DataMining)指的是,在大量的、不規(guī)則的、隨機(jī)的、復(fù)雜的、有噪聲的實(shí)際應(yīng)用數(shù)據(jù)中,獲得一些信息和知識,能夠?qū)τ脩羝矶\潛在作用的效果的過程。將數(shù)據(jù)挖掘用通俗的話來描述就是在數(shù)據(jù)庫中發(fā)現(xiàn)潛在有用的知識發(fā)現(xiàn)(KDDKnowledgeDiscoveryinDatabase)。在這個(gè)定義中主要包含了以下幾方面的含義:首先數(shù)據(jù)源的特性是大量、隨機(jī)、不規(guī)則、噪聲;信息是客戶所感興趣的對象;選取的知識必須是在可接受、可理解、可運(yùn)用的范圍內(nèi)的,并不是全部符合要求的都可以,對于問題要有一定的針對性。也就是說對于所發(fā)現(xiàn)的知識的篩選是有一定的約束和限制條件的,同時(shí)也要符合用戶的理解和學(xué)習(xí)能力,最好還能夠用通俗的語言來表達(dá)最終的結(jié)果。

(二)Web數(shù)據(jù)挖掘

Web數(shù)據(jù)挖掘?qū)嶋H上是屬于數(shù)據(jù)挖掘的范疇的。概括的來說,Web數(shù)據(jù)挖掘的數(shù)據(jù)庫特定的就是Web服務(wù)器上的數(shù)據(jù)文件,從中發(fā)現(xiàn)用戶感興趣并有所應(yīng)用潛能的知識。Web數(shù)據(jù)挖掘主要針對的就是頁面內(nèi)容、頁面之間的結(jié)構(gòu)、用戶訪問信息、電子商務(wù)等內(nèi)在信息,通過數(shù)據(jù)挖掘技術(shù)來獲得有價(jià)值的信息。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫存在著很大的差異,傳統(tǒng)的數(shù)據(jù)庫都是在一定的數(shù)學(xué)模型范圍之內(nèi)的,通過模型來描述其中的數(shù)據(jù);但是web數(shù)據(jù)庫相對來講就要復(fù)雜許多,沒有通用的模型來描述數(shù)據(jù),每個(gè)網(wǎng)頁都有其獨(dú)特的數(shù)據(jù)描述方式,丙炔數(shù)據(jù)自身都是可變的、動態(tài)的。因而,Web數(shù)據(jù)雖然具有一定的結(jié)構(gòu)性,不能用架構(gòu)化的形式來表達(dá),也可以稱其為半結(jié)構(gòu)化的數(shù)據(jù)。Web數(shù)據(jù)的最大特點(diǎn)就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導(dǎo)致整一個(gè)數(shù)據(jù)庫成為一個(gè)巨大的異構(gòu)數(shù)據(jù)庫。

二、網(wǎng)絡(luò)數(shù)據(jù)挖掘的類型

(一)網(wǎng)絡(luò)內(nèi)容挖掘

網(wǎng)絡(luò)內(nèi)容挖掘的對象是網(wǎng)頁的內(nèi)容、數(shù)據(jù)、文檔,這通常也是網(wǎng)頁在急性搜索的時(shí)候需要考察的訪問對象。由于網(wǎng)絡(luò)信息繁多,按照信息源的不同可以劃分為Gopher、FTP、Usenet等已經(jīng)隱藏到WWW形式之后的資源,我們稱之為WWW信息資源,存儲于數(shù)據(jù)庫管理信息系統(tǒng)中的數(shù)據(jù),以及不能直接訪問的私人數(shù)據(jù)。按照網(wǎng)絡(luò)資源的形式又可以劃分為文本、圖像、音頻、視頻等數(shù)據(jù)。

(二)網(wǎng)絡(luò)結(jié)構(gòu)挖掘

網(wǎng)絡(luò)結(jié)構(gòu)挖掘的對象就是Web潛在的鏈接結(jié)構(gòu)模式。這種類型最早出現(xiàn)在引文分析,在建立web自身的鏈接結(jié)構(gòu)模型的時(shí)候借鑒了網(wǎng)頁鏈接和被鏈接數(shù)量以及對象。在網(wǎng)頁歸類的時(shí)候往往會采用這種模式,還能夠得到不同網(wǎng)頁間相似度及關(guān)聯(lián)度的相關(guān)數(shù)據(jù)。網(wǎng)絡(luò)結(jié)構(gòu)挖掘能夠幫助用戶在相關(guān)領(lǐng)域中找到最有分量的網(wǎng)站。

(三)網(wǎng)絡(luò)用法挖掘

網(wǎng)絡(luò)用法挖掘的目的在于掌握用戶的一系列網(wǎng)絡(luò)行為數(shù)據(jù)。網(wǎng)絡(luò)內(nèi)容挖掘、網(wǎng)絡(luò)結(jié)構(gòu)挖掘針對的都是網(wǎng)上的原始數(shù)據(jù),而網(wǎng)絡(luò)用法挖掘針對的是用戶在上網(wǎng)過程中的人機(jī)交互的第二手?jǐn)?shù)據(jù),主要有用戶的網(wǎng)頁游覽記錄、服務(wù)器日志記錄、網(wǎng)頁維護(hù)信息、用戶簡介、注冊信息、聊天記錄、交易信息等等。

三、網(wǎng)絡(luò)經(jīng)濟(jì)環(huán)境下數(shù)據(jù)挖掘在工商管理中的運(yùn)用步驟

(一)識別網(wǎng)站訪問者的特征信息

企業(yè)對電子商務(wù)網(wǎng)站的數(shù)據(jù)進(jìn)行挖掘的第一步,就是要明確訪問者的特點(diǎn),找出訪問者使用的條款特征。訪問者特征主要有入口統(tǒng)計(jì)、心理狀態(tài)和技術(shù)手段等要素。人口統(tǒng)計(jì)并不是一成不變的,比如家庭地址、收入、購買力等因素都會不斷改變。心理狀態(tài)指的是在心理調(diào)研中展現(xiàn)出的個(gè)性類型,比如對商品的選擇去世、價(jià)格優(yōu)惠心理、技術(shù)興趣等。隨著訪問者數(shù)量的增加,相關(guān)數(shù)據(jù)也會不斷累積。條款的交互信息主要包括購買歷史、廣告歷史和優(yōu)選信息。網(wǎng)站統(tǒng)計(jì)信息是指每次會話的相關(guān)要素。公司信息主要包括訪問者對接的服務(wù)器所包含的一系列要素信息。

(二)制定目標(biāo)

開展網(wǎng)上交易的最大優(yōu)勢在于企業(yè)對于訪問者的反應(yīng)有著更好的前瞻性。當(dāng)廠商的目標(biāo)是明確且具象的時(shí)候,就能夠通過數(shù)據(jù)挖掘技術(shù)得到較好的效果。企業(yè)通常可以設(shè)定以下的目標(biāo):網(wǎng)頁訪問者的增加量;類此網(wǎng)頁訪問的瀏覽時(shí)間增加;每次結(jié)賬的平均利潤;退換貨的減少;品牌知名度效應(yīng);回頭客的數(shù)量等等。

(三)問題描述

開展電子商務(wù)的企業(yè)最關(guān)鍵要面對的一個(gè)問題就是如何進(jìn)行商品的傳播,要實(shí)現(xiàn)網(wǎng)頁的個(gè)性化又要將商品的信息完整的展現(xiàn)給顧客,就需要了解同一類訪問者的共有特征、估計(jì)貨物丟失的數(shù)據(jù)并預(yù)測未來行為。所有這一切都涉及尋找并支持各種不同的隱含模式。

(四)關(guān)聯(lián)分析

對顧客大量的交易數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,能夠發(fā)現(xiàn)顧客購買組合商品的趨勢。關(guān)聯(lián)分析指的是在一次瀏覽或者會話中所涉及到的商品,也叫做市場分析。若電子商務(wù)網(wǎng)站能夠?qū)⑦@些商品放在同一個(gè)網(wǎng)頁中,就能夠提高顧客同時(shí)購買這些商品的概率。如果在關(guān)聯(lián)的一組商品中有某一項(xiàng)商品正在進(jìn)行促銷,就能夠帶動其他組合產(chǎn)品的銷量。關(guān)聯(lián)也能夠用在靜態(tài)的網(wǎng)站目錄網(wǎng)頁。在這種情況下,網(wǎng)站排序的主要依據(jù)是廠商選擇的且是網(wǎng)站所要查看的第一頁內(nèi)容,將其以及其相關(guān)的商品信息放在網(wǎng)頁的首頁。

(五)聚類

聚類指的是將具有相同特征的商品歸為一類,將特征平均,以形成一個(gè)“特征矢量”。聚類技術(shù)能夠確定一組數(shù)據(jù)有多少類,并用其中一個(gè)聚類來表示其余大多數(shù)數(shù)據(jù)。通常在企業(yè)分析訪問者類型的時(shí)候使用聚類技術(shù)。

(六)決策樹

決策樹描繪的是都想決定在做出的一系列過程中的問題或數(shù)據(jù)點(diǎn)。比如做出購買電視機(jī)這一決定就要經(jīng)歷對于電視機(jī)的需求、電視機(jī)的品牌、尺寸等等問題,最終確定好買哪一臺電視機(jī)為止。決策樹能夠較一個(gè)決策過程進(jìn)行系統(tǒng)的排序,以便選出最優(yōu)的路徑來盡可能減少決策的步驟,提高決定的質(zhì)量和速度。許多企業(yè)將決策樹體系添加到自己的產(chǎn)品選擇系統(tǒng)中,能夠幫助訪問者解決特定問題。

(七)估計(jì)和預(yù)測

估計(jì)是對未知量的判斷,預(yù)測是根據(jù)當(dāng)前的趨勢做出將來的判斷。估計(jì)和預(yù)測使用的算法類似。估計(jì)能夠?qū)蛻艨瞻椎捻?xiàng)目做到預(yù)判。如果網(wǎng)站想知道某個(gè)訪問者的收入,就可以通過與收入密切相關(guān)的量估計(jì)得到,最后通過與其有相同特征的訪問者的收入來衡量這個(gè)訪問者的收入和信用值。預(yù)測是對未來事項(xiàng)的判斷。尤其是在某些個(gè)性化網(wǎng)頁中顯得尤為重要。企業(yè)通過數(shù)據(jù)的匯總增進(jìn)對客戶的了解。即使是對以往事件的分析中也可以得到有效的信息。預(yù)測能夠?qū)υL問者的特征作出總結(jié)和匯總,以便企業(yè)能夠找出更有針對性的組合商品來滿足客戶的需求。Web數(shù)據(jù)和傳統(tǒng)數(shù)據(jù)庫存在著很大的差異,最大特點(diǎn)就是半結(jié)構(gòu)化,加上Web數(shù)據(jù)的信息量極大,導(dǎo)致整一個(gè)數(shù)據(jù)庫成為一個(gè)巨大的異構(gòu)數(shù)據(jù)庫。能夠幫助用戶在特性是大量、隨機(jī)、不規(guī)則、噪聲的信息中發(fā)現(xiàn)感興趣的對象。

作者:黃嬿