期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊(cè) 購(gòu)物車(0)

首頁(yè) > 精品范文 > 數(shù)據(jù)挖掘技術(shù)研究

數(shù)據(jù)挖掘技術(shù)研究精品(七篇)

時(shí)間:2022-07-17 22:06:00

序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來(lái)了七篇數(shù)據(jù)挖掘技術(shù)研究范文,愿它們成為您寫作過(guò)程中的靈感催化劑,助力您的創(chuàng)作。

數(shù)據(jù)挖掘技術(shù)研究

篇(1)

1 空間數(shù)據(jù)挖掘研究概述

空間數(shù)據(jù)挖掘(spatial Data Mining,簡(jiǎn)稱SDM),是指從空間數(shù)據(jù)庫(kù)中提取用戶感興趣的空間模式、普遍關(guān)系、數(shù)據(jù)特征的過(guò)程??臻g數(shù)據(jù)挖掘技術(shù)綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫(kù)技術(shù),可用于對(duì)空間數(shù)據(jù)的理解、空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識(shí)庫(kù)的構(gòu)造以及空間數(shù)據(jù)庫(kù)的重組和查詢的優(yōu)化等,其根本目標(biāo)是把大量的原始數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的知識(shí),發(fā)現(xiàn)大量的地學(xué)信息中所隱含的規(guī)則。

空間數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫(kù)應(yīng)用技術(shù)和管理決策支持技術(shù)等多學(xué)科交叉發(fā)展的新興邊緣學(xué)科,一般來(lái)說(shuō),空間數(shù)據(jù)挖掘可分成空間分類、空間聚類、空間趨勢(shì)分析和空間關(guān)聯(lián)規(guī)則四類。空間分類的目的是在空間數(shù)據(jù)庫(kù)對(duì)象的空間屬性和非空間屬性之間發(fā)現(xiàn)分類規(guī)則,是近年來(lái)空間數(shù)據(jù)挖掘領(lǐng)域中比較活躍的一個(gè)方向,常用的方法是決策樹(shù)??臻g聚類是在一個(gè)比較大的多維數(shù)據(jù)集中根據(jù)距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法。空間趨勢(shì)分析指離開(kāi)一個(gè)給定的起始對(duì)象時(shí)非空間屬性的變化情況,例如,當(dāng)離城市中心越來(lái)越遠(yuǎn)時(shí)經(jīng)濟(jì)形勢(shì)的變化趨勢(shì),空間趨勢(shì)分析需要使用回歸和相關(guān)的分析方法。空間關(guān)聯(lián)規(guī)則是指空間鄰接圖中對(duì)象之間的關(guān)聯(lián),空間關(guān)聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對(duì)初始空間數(shù)據(jù)庫(kù)進(jìn)行一次挖掘,然后再在裁剪過(guò)的數(shù)據(jù)庫(kù)上用代價(jià)高的算法進(jìn)行進(jìn)一步精化挖掘。

空間數(shù)據(jù)挖掘過(guò)程一般可分為數(shù)據(jù)篩選(消除原始數(shù)據(jù)的噪聲或不一致數(shù)據(jù))、數(shù)據(jù)集成(將多種數(shù)據(jù)源組合在一起)、數(shù)據(jù)選擇(根據(jù)用戶的要求從空間數(shù)據(jù)庫(kù)中提取與空間數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù))、數(shù)據(jù)變換(將數(shù)據(jù)統(tǒng)一成適合挖掘的形式)、空間數(shù)據(jù)挖掘(運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶所需的知識(shí))、模式評(píng)估(根據(jù)某種興趣度度量并識(shí)別表示知識(shí)的真正有趣的模式),知識(shí)表示(使用可視化技術(shù)和知識(shí)表示技術(shù),向用戶提供挖掘的知識(shí))等階段(見(jiàn)圖1)??臻g數(shù)據(jù)挖掘?qū)嶋H上是一個(gè)“人引導(dǎo)機(jī)器,機(jī)器幫助人”的交互理解數(shù)據(jù)的過(guò)程。

2 空間數(shù)據(jù)挖掘在GIS中的應(yīng)用

空間數(shù)據(jù)挖掘技術(shù)與地理信息系統(tǒng)(GIS)的結(jié)合具有非常廣泛的應(yīng)用空間。數(shù)據(jù)挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱外部空間數(shù)據(jù)挖掘模式,這種模式基本上將GIS當(dāng)作一個(gè)空間數(shù)據(jù)庫(kù)看待,在G IS環(huán)境外部借助其它軟件或計(jì)算機(jī)語(yǔ)言進(jìn)行空間數(shù)據(jù)挖掘,與GIS之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱內(nèi)部空間數(shù)據(jù)挖掘模式,即在GIs中將空間數(shù)據(jù)挖掘技術(shù)融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結(jié)合,即盡可能利用GIS提供的功能,最大限度的減少用戶自行開(kāi)發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性。

利用空間數(shù)據(jù)挖掘技術(shù)可以從空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)如下幾種主要類型的知識(shí):普遍的幾何知識(shí)、空間分布規(guī)律、空間關(guān)聯(lián)規(guī)律、空間聚類規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向?qū)ο蟮闹R(shí)。目前,這些知識(shí)已比較成熟地應(yīng)用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運(yùn)輸、環(huán)境監(jiān)測(cè)和保護(hù)、110和1 20快速反應(yīng)系統(tǒng)等資源管理和城市管理領(lǐng)域。在市場(chǎng)分析、企業(yè)客戶關(guān)系管理、銀行保險(xiǎn)、人口統(tǒng)計(jì)、房地產(chǎn)開(kāi)發(fā)、個(gè)人位置服務(wù)等領(lǐng)域也正得到廣泛關(guān)注與應(yīng)用,實(shí)際上,它正在深入到人們工作和生活的各個(gè)方面。

3 空間數(shù)據(jù)挖掘面臨的問(wèn)題

(1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來(lái),并沒(méi)有考慮空間數(shù)據(jù)存儲(chǔ)、處理及空間數(shù)據(jù)本身的特點(diǎn)。空間數(shù)據(jù)不同于關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪問(wèn)方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往不能很好地分析復(fù)雜的空間現(xiàn)象和空間對(duì)象。

(2) 空間數(shù)據(jù)挖掘算法的效率不高,發(fā)現(xiàn)模式不精練。面對(duì)海量的數(shù)據(jù)庫(kù)系統(tǒng),在空間數(shù)據(jù)挖掘過(guò)程中出現(xiàn)不確定性、錯(cuò)誤模式的可能性和待解決問(wèn)題的維數(shù)都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領(lǐng)域知識(shí)發(fā)現(xiàn)、去除與任務(wù)無(wú)關(guān)的數(shù)據(jù),有效地降低問(wèn)題的維數(shù),設(shè)計(jì)出更有效的知識(shí)發(fā)現(xiàn)算法。

(3) 沒(méi)有公認(rèn)的標(biāo)準(zhǔn)化空間數(shù)據(jù)挖掘查詢語(yǔ)言。數(shù)據(jù)庫(kù)技術(shù)飛速發(fā)展的原因之一就是數(shù)據(jù)庫(kù)查詢語(yǔ)言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間數(shù)據(jù)挖掘查詢語(yǔ)言。為高效的空間數(shù)據(jù)挖掘奠定基礎(chǔ)。

(4) 空間數(shù)據(jù)挖掘知識(shí)發(fā)現(xiàn)系統(tǒng)交互性不強(qiáng),在知識(shí)發(fā)現(xiàn)過(guò)程中很難充分有效地利用領(lǐng)域?qū)<抑R(shí),用戶不能很好掌控空間數(shù)據(jù)挖掘過(guò)程。

(5) 空間數(shù)據(jù)挖掘方法和任務(wù)單一,基本上都是針對(duì)某個(gè)特定的問(wèn)題,因而能夠發(fā)現(xiàn)的知識(shí)有限。

(6) 空間數(shù)據(jù)挖掘與其他系統(tǒng)的集成不夠,忽視了GIS在空間知識(shí)發(fā)現(xiàn)過(guò)程中的作用。一個(gè)方法和功能單一的空間數(shù)據(jù)挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開(kāi)發(fā)的知識(shí)系統(tǒng)僅局限于數(shù)據(jù)庫(kù)領(lǐng)域,如果要在更廣闊的領(lǐng)域發(fā)現(xiàn)知識(shí),知識(shí)發(fā)現(xiàn)系統(tǒng)就應(yīng)該是數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、專家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多項(xiàng)技術(shù)集成的系統(tǒng)。

上述問(wèn)題使得從空間數(shù)據(jù)庫(kù)中提取知識(shí)比從傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)中提取知識(shí)更為困難,這給空間數(shù)據(jù)挖掘研究帶來(lái)了挑戰(zhàn)。因此,空間數(shù)據(jù)挖掘在未來(lái)的發(fā)展中,還有很多理論和方法有待深入研究。

4 空間數(shù)據(jù)挖掘的發(fā)展趨勢(shì)

(1)空間數(shù)據(jù)挖掘算法和技術(shù)的研究。空間關(guān)聯(lián)規(guī)則挖掘算法、時(shí)間序列挖掘技術(shù)、空間同位算法、空間分類技術(shù)、空間離群算法等是空間數(shù)據(jù)挖掘研究的熱點(diǎn),同時(shí)提高空間數(shù)據(jù)挖掘算法的效率也很重要。

(2) 多源空間數(shù)據(jù)的預(yù)處理。空間數(shù)據(jù)內(nèi)容包括數(shù)字線劃數(shù)據(jù)、影像數(shù)據(jù)、數(shù)字高程模型和地物的屬性數(shù)據(jù),由于其本身的復(fù)雜性與數(shù)據(jù)采集的困難,空間數(shù)據(jù)中不可避免地存在著空缺值、噪聲數(shù)據(jù)及不一致數(shù)據(jù),多源空間數(shù)據(jù)的預(yù)處理就顯得格外重要。

(3)其他各種空間數(shù)據(jù)挖掘及其相關(guān)技術(shù)研究。如網(wǎng)絡(luò)環(huán)境下的空間數(shù)據(jù)挖掘、可視化數(shù)據(jù)挖掘、柵格矢量-體化空間數(shù)據(jù)挖掘、背景知識(shí)概念樹(shù)的自動(dòng)生成、基于空間不確定性(位置、屬性、時(shí)問(wèn)等) 的數(shù)據(jù)挖掘、遞增式數(shù)據(jù)挖掘、多分辨率及多層次數(shù)據(jù)挖掘、并行數(shù)據(jù)挖掘、遙感圖像數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘、多媒體空間數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)等。

篇(2)

【關(guān)鍵詞】數(shù)據(jù)挖掘 數(shù)據(jù)分類算法

在當(dāng)前的時(shí)代背景下,很多的行業(yè)都引入了大數(shù)據(jù)挖掘的理念,這既給計(jì)算機(jī)產(chǎn)業(yè)帶來(lái)了發(fā)展機(jī)遇,也帶來(lái)了挑戰(zhàn)。因?yàn)橄胍龊么髷?shù)據(jù)挖掘的相關(guān)工作,就一定要掌握數(shù)據(jù)分類算法,而數(shù)據(jù)分類算法可稱得上是數(shù)據(jù)挖掘中的一道難關(guān)。隨著數(shù)據(jù)分析的研究不斷深入,人們開(kāi)發(fā)了多種多樣的分類算法,用以不斷減輕其難度。通常都是以數(shù)據(jù)分類器為基準(zhǔn),進(jìn)行相應(yīng)的數(shù)據(jù)分類,包括決策樹(shù)類、Bayes類、基于關(guān)聯(lián)規(guī)則類以及利用數(shù)據(jù)庫(kù)技術(shù)類,本文將對(duì)它們進(jìn)行簡(jiǎn)單的闡述。

1 決策樹(shù)分類算法

1.1 傳統(tǒng)算法

C4.5算法作為傳統(tǒng)的數(shù)據(jù)分類算法,有著很明顯的優(yōu)點(diǎn),如規(guī)則簡(jiǎn)單易懂,實(shí)際操作易于上手。但是隨著計(jì)算機(jī)的不斷普及,數(shù)據(jù)的規(guī)模變的越來(lái)越龐大,其復(fù)雜程度也是日漸增長(zhǎng)。C4.5已經(jīng)逐漸無(wú)法滿足新時(shí)期的數(shù)據(jù)分類處理工作了。并且由于決策樹(shù)分類算法的規(guī)則,決定了在數(shù)據(jù)分類的過(guò)程中,要對(duì)數(shù)據(jù)進(jìn)行多次重復(fù)的掃描和排序。特別是在構(gòu)造樹(shù)的時(shí)候,這種缺點(diǎn)更加明顯。這不僅會(huì)影響數(shù)據(jù)分析的速度,也浪費(fèi)了更多的系統(tǒng)資源。對(duì)于大數(shù)據(jù)挖掘來(lái)說(shuō),C4.5更加無(wú)法勝任,因?yàn)镃4.5算法的適用范圍十分有限,只能夠處理小于系統(tǒng)內(nèi)存數(shù)量的數(shù)據(jù),對(duì)于內(nèi)存無(wú)法保留的過(guò)于龐大的數(shù)據(jù)集,C4.5甚至?xí)霈F(xiàn)無(wú)法運(yùn)行的情況。

1.2 衍生算法

(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而來(lái),在其基礎(chǔ)上做了一些技術(shù)性的完善,例如增強(qiáng)了數(shù)據(jù)的排序技術(shù),并采取了廣度優(yōu)先的處理策略。這使得SLIQ算法能夠很好地記錄數(shù)據(jù)處理的個(gè)數(shù),并具有相當(dāng)優(yōu)秀的可擴(kuò)展性,為處理大數(shù)據(jù)提供了基礎(chǔ)條件。但是SLIQ算法也存在一些缺點(diǎn),由于它是以C4.5算法為基礎(chǔ)的,因此在進(jìn)行數(shù)據(jù)處理時(shí),仍需要將數(shù)據(jù)集保留在內(nèi)存中,這就導(dǎo)致SLIQ算法的可處理數(shù)據(jù)集的大小受到了限制。即數(shù)據(jù)記錄的長(zhǎng)度一旦超過(guò)了排序的預(yù)定長(zhǎng)度,SLIQ算法就很難完成數(shù)據(jù)處理和排序的工作。

(2)SPRINT 算法是為了解決SLIQ算法中數(shù)據(jù)集大小受到內(nèi)存限制的問(wèn)題而開(kāi)發(fā)出來(lái)的。SPRINT 算法重新定義了決策樹(shù)算法的數(shù)據(jù)分析結(jié)構(gòu),改變了傳統(tǒng)算法將數(shù)據(jù)集停留在內(nèi)存中的做法。值得一提的是,它沒(méi)有像SLIQ 算法那樣講數(shù)據(jù)列表存儲(chǔ)在內(nèi)存當(dāng)中,而是將其融合到了每個(gè)數(shù)據(jù)集的屬性列表中,這樣既避免了數(shù)據(jù)查詢時(shí)重復(fù)掃描造成的速度緩慢,又釋放了內(nèi)存的壓力。特別是在進(jìn)行大數(shù)據(jù)挖掘時(shí),由于數(shù)據(jù)的基數(shù)過(guò)大,在每個(gè)數(shù)據(jù)集的屬性列表內(nèi)尋找所需數(shù)據(jù)能夠大大節(jié)省分析的時(shí)間,對(duì)數(shù)據(jù)進(jìn)行分類的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點(diǎn),對(duì)于不具有可分裂屬性的數(shù)據(jù)列表,由于它只能在數(shù)據(jù)集內(nèi)進(jìn)行分析,結(jié)果可能不是十分準(zhǔn)確,導(dǎo)致其拓展性受到了限制。

2 其他分類算法

2.1 Bayes分類算法

Bayes分類算法是利用概率統(tǒng)計(jì)學(xué)而開(kāi)發(fā)出來(lái)的一種算法,在目前數(shù)據(jù)分類中應(yīng)用比較廣泛。但是其缺點(diǎn)也比較明顯,由于Bayes分類算法需要在分析之前對(duì)數(shù)據(jù)的特性做出一定的假設(shè),而這種假設(shè)往往缺少實(shí)際數(shù)據(jù)的理論支持,因此在數(shù)據(jù)分析過(guò)程中就很難做到準(zhǔn)確有效。在此之上,TAN算法又被開(kāi)發(fā)出來(lái),它是為了提高Bayes分類算法的假設(shè)命題的準(zhǔn)確率,也就是降低了NB任意屬性之間獨(dú)立的假設(shè)。

2.2 CBA分類數(shù)據(jù)算法

基于關(guān)聯(lián)規(guī)則的分類算法就是CBA分類數(shù)據(jù)算法。這種算法一般需要用到數(shù)據(jù)構(gòu)造分類器,在數(shù)據(jù)分析的過(guò)程中,先搜索到所有的右部為類別的類別關(guān)聯(lián)規(guī)則,這被稱為CAR;然后再?gòu)腃AR中選擇合適的數(shù)據(jù)集。CBA算法中主要用到的是Apriori算法技術(shù),它能夠使?jié)撛诘臄?shù)據(jù)關(guān)聯(lián)規(guī)則呈現(xiàn)到表面,方便進(jìn)行歸納整理。但是由于其在進(jìn)行數(shù)據(jù)分類時(shí)容易出現(xiàn)疏漏,因此經(jīng)常采用設(shè)置最小支持度為0的辦法來(lái)減少遺漏的數(shù)據(jù),這就造成了算法的優(yōu)化作用不能完全發(fā)揮,降低了運(yùn)行效率。

2.3 MIND和GAC-RDB算法分類算法

在大數(shù)據(jù)挖掘的背景下,未來(lái)數(shù)據(jù)分類算法的發(fā)展方向應(yīng)當(dāng)是以數(shù)據(jù)庫(kù)技術(shù)為基礎(chǔ)的的分類算法。盡管很久之前就已經(jīng)有一些專門研究數(shù)據(jù)庫(kù)的人員發(fā)現(xiàn)并提出了基于數(shù)據(jù)庫(kù)技術(shù)的分類算法,但是并沒(méi)有得到實(shí)際運(yùn)用。因?yàn)樵谶M(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析的時(shí)候,很難將其與數(shù)據(jù)庫(kù)的系統(tǒng)集成,目前來(lái)說(shuō),MIND和GAC-RDB算法還能夠較好地解決這個(gè)問(wèn)題。

2.3.1 MIND算法

MIND算法與決策樹(shù)算法有些相似,都是通過(guò)構(gòu)造數(shù)據(jù)分類器來(lái)進(jìn)行數(shù)據(jù)分析。但是MIND算法采用了UDF方法和SQL語(yǔ)句來(lái)與數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)關(guān)聯(lián)。在進(jìn)行數(shù)據(jù)分析時(shí),UDF方法能夠大大縮短對(duì)每個(gè)節(jié)點(diǎn)的數(shù)據(jù)特性進(jìn)行分析的時(shí)間,這樣就在為數(shù)據(jù)庫(kù)的集成提供了理論基礎(chǔ)。SQL語(yǔ)句是通過(guò)對(duì)數(shù)據(jù)集的屬性進(jìn)行分析,以便從中選擇出最合適的分裂屬性,然后給數(shù)據(jù)排序,這樣就節(jié)省了數(shù)據(jù)分類的時(shí)間。但是MIND算法還不能直接在數(shù)據(jù)庫(kù)系統(tǒng)中實(shí)現(xiàn)查詢功能,更重要的是,該算法的維護(hù)成本過(guò)高,不利于普及。

2.3.2 GAR-RDB算法

GAR-RDB算法在MIND算法的基礎(chǔ)上進(jìn)行了更多的改進(jìn),能夠充分利用數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行聚集運(yùn)算,也就是實(shí)現(xiàn)了數(shù)據(jù)庫(kù)系統(tǒng)的集成。該算法擁有分類準(zhǔn)確,分析迅速,執(zhí)行更快的優(yōu)點(diǎn),同時(shí)可拓展性也比較出色。更重要的是,它可以充分利用數(shù)據(jù)庫(kù)提供的查詢功能,從而避免了重復(fù)掃描數(shù)據(jù)集的現(xiàn)象,縮短了分析的時(shí)間,節(jié)約了系統(tǒng)資源。只要在自動(dòng)確定參數(shù)取值的技術(shù)上進(jìn)行一些改進(jìn),該算法就能很好地勝任大數(shù)據(jù)挖掘的數(shù)據(jù)處理工作。

3 總結(jié)

大數(shù)據(jù)挖掘是時(shí)展的潮流,因此數(shù)據(jù)分類算法的重要性也將隨著顯現(xiàn)。通過(guò)分析幾種不同的算法,能夠在數(shù)據(jù)分析速度、可擴(kuò)展性和結(jié)果的準(zhǔn)確性上進(jìn)行比較,從而選擇最適合的數(shù)據(jù)分類算法。它們都在不同程度上有著各自的優(yōu)缺點(diǎn),因此要繼續(xù)深入研究以開(kāi)發(fā)出更好的分類算法。

參考文獻(xiàn)

[1]錢雙艷.關(guān)于數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法的綜述,2014(13).

[2]劉紅巖.數(shù)據(jù)挖掘中的數(shù)據(jù)分類算法綜述,2002(06).

篇(3)

關(guān)鍵詞:電子商務(wù);數(shù)據(jù)挖掘;應(yīng)用

1概述

電子商務(wù)是指企業(yè)或個(gè)人以網(wǎng)絡(luò)為載體,應(yīng)用電子手段,利用現(xiàn)代信息技術(shù)進(jìn)行商務(wù)數(shù)據(jù)交換和開(kāi)展商務(wù)業(yè)務(wù)的活動(dòng)。隨著互聯(lián)網(wǎng)的迅速發(fā)展,電子商務(wù)比傳統(tǒng)商務(wù)具有更明顯的優(yōu)勢(shì),由于電子商務(wù)具有方便、靈活、快捷的特點(diǎn),使它已逐漸成為人們生活中不可缺少的活動(dòng)。目前電子商務(wù)平臺(tái)網(wǎng)站多,行業(yè)競(jìng)爭(zhēng)強(qiáng),為了獲得更多的客戶資源,電子商務(wù)網(wǎng)站必須加強(qiáng)客戶關(guān)系管理、改善經(jīng)營(yíng)理念、提升售后服務(wù)。數(shù)據(jù)挖掘是從數(shù)據(jù)集中識(shí)別出隱含的、潛在有用的、有效的,新穎的、能夠被理解的信息和知識(shí)的過(guò)程。由數(shù)據(jù)集合做出歸納推理,從中挖掘并進(jìn)行商業(yè)預(yù)判,能夠幫助電子商務(wù)企業(yè)決策層依據(jù)預(yù)判,對(duì)市場(chǎng)策略調(diào)整,將企業(yè)風(fēng)險(xiǎn)降低,從而做出正確的決策,企業(yè)利潤(rùn)將最大化。隨著電子商務(wù)的應(yīng)用日益廣泛,電子商務(wù)活動(dòng)中會(huì)產(chǎn)生大量有用的數(shù)據(jù),如何能夠數(shù)據(jù)挖掘出數(shù)據(jù)的參考價(jià)值?研究客戶的興趣和愛(ài)好,對(duì)客戶分門別類,將客戶心儀的商品分別推薦給相關(guān)客戶。因此,如何在電子商務(wù)平臺(tái)上進(jìn)行數(shù)據(jù)挖掘成為研究的熱點(diǎn)問(wèn)題。

2數(shù)據(jù)挖掘技術(shù)概述

數(shù)據(jù)挖掘(DataMining),也稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowl⁃edgeDiscoveryinDatabase,KDD)。數(shù)據(jù)挖掘一般是指從海量數(shù)據(jù)中應(yīng)用算法查找出隱藏的、未知的信息的過(guò)程。數(shù)據(jù)挖掘是一個(gè)在大數(shù)據(jù)資源中利用分析工具發(fā)現(xiàn)模型與數(shù)據(jù)之間關(guān)系的一個(gè)過(guò)程,數(shù)據(jù)挖掘?qū)Q策者尋找數(shù)據(jù)間潛在的某種關(guān)聯(lián),發(fā)現(xiàn)隱藏的因素起著關(guān)鍵作用。這些模式是有潛在價(jià)值的、并能夠被理解的。數(shù)據(jù)挖掘?qū)⑷斯ぶ悄?、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)、統(tǒng)計(jì)、可視化、信息檢索、并行計(jì)算等多個(gè)領(lǐng)域的理論與技術(shù)融合在一起的一門多學(xué)科交叉學(xué)問(wèn),這些學(xué)科也對(duì)數(shù)據(jù)挖掘提供了很大的技術(shù)支撐。

3Web數(shù)據(jù)挖掘特點(diǎn)

Web數(shù)據(jù)挖掘就是數(shù)據(jù)挖掘在Web中的應(yīng)用。Web數(shù)據(jù)挖掘的目的是從萬(wàn)維網(wǎng)的網(wǎng)頁(yè)的內(nèi)容、超鏈接的結(jié)構(gòu)及使用日志記錄中找到有價(jià)值的數(shù)據(jù)或信息。依據(jù)挖掘過(guò)程中使用的數(shù)據(jù)類別,Web數(shù)據(jù)挖掘任務(wù)可分為:Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘、Web使用記錄挖掘。

1)Web內(nèi)容挖掘指從網(wǎng)頁(yè)中提取文字、圖片或其他組成網(wǎng)頁(yè)內(nèi)容的信息,挖掘?qū)ο笸ǔ0谋尽D形、音視頻、多媒體以及其他各種類型數(shù)據(jù)。

2)Web結(jié)構(gòu)挖掘是對(duì)Web頁(yè)面之間的結(jié)構(gòu)進(jìn)行挖掘,挖掘描述內(nèi)容是如何組織的,從Web的超鏈接結(jié)構(gòu)中尋找Web結(jié)構(gòu)和頁(yè)面結(jié)構(gòu)中的有價(jià)值模式。例如從這些鏈接中,我們可以找出哪些是重要的網(wǎng)頁(yè),依據(jù)網(wǎng)頁(yè)的主題,進(jìn)行自動(dòng)的聚類和分類,為了不同的目的從網(wǎng)頁(yè)中根據(jù)模式獲取有用的信息,從而提高檢索的質(zhì)量及效率。

3)Web使用記錄挖掘是根據(jù)對(duì)服務(wù)器上用戶訪問(wèn)時(shí)的訪問(wèn)記錄進(jìn)行挖掘的方法。Web使用挖掘?qū)⑷罩緮?shù)據(jù)映射為關(guān)系表并采用相應(yīng)的數(shù)據(jù)挖掘技術(shù)來(lái)訪問(wèn)日志數(shù)據(jù),對(duì)用戶點(diǎn)擊事件的搜集和分析發(fā)現(xiàn)用戶導(dǎo)航行為。它用來(lái)提取關(guān)于客戶如何瀏覽和使用訪問(wèn)網(wǎng)頁(yè)的鏈接信息。如訪問(wèn)了哪些頁(yè)面?在每個(gè)頁(yè)面中所停留的時(shí)間?下一步點(diǎn)擊了什么?在什么樣的路線下退出瀏覽的?這些都是Web使用記錄挖掘所關(guān)心要解決的問(wèn)題。

4電子商務(wù)中Web挖掘中技術(shù)的應(yīng)用分析

1)電子商務(wù)中序列模式分析的應(yīng)用

序列模式數(shù)據(jù)挖掘就是要挖掘基于時(shí)間或其他序列的模式。如在一套按時(shí)間順序排列的會(huì)話或事務(wù)中一個(gè)項(xiàng)目有存在跟在另一個(gè)項(xiàng)目后面。通過(guò)這個(gè)方法,WEB銷售商可以預(yù)測(cè)未來(lái)的訪問(wèn)模式,以幫助針對(duì)特定用戶組進(jìn)行廣告排放設(shè)置。發(fā)現(xiàn)序列模式容易使客戶的行為被電子商務(wù)的組織者預(yù)測(cè),當(dāng)用戶瀏覽站點(diǎn)時(shí),盡可能地迎合每個(gè)用戶的瀏覽習(xí)慣并根據(jù)用戶感興趣的內(nèi)容不斷調(diào)整網(wǎng)頁(yè),盡可能地使每個(gè)用戶滿意。使用序列模式分析挖掘日志,可以發(fā)現(xiàn)客戶的訪問(wèn)序列模式。在萬(wàn)維網(wǎng)使用記錄挖掘應(yīng)用中,序列模式挖掘可以用于捕捉用戶路徑之中常用的導(dǎo)航路徑。當(dāng)用戶訪問(wèn)電子商務(wù)網(wǎng)站時(shí),網(wǎng)站管理員能夠搜索出這個(gè)訪問(wèn)者的對(duì)該網(wǎng)站的訪問(wèn)序列模式,將訪問(wèn)者感興趣但尚未瀏覽的頁(yè)面推薦給他。序列模式分析還能分析出商品購(gòu)買的前后順序,從而向客戶提出推薦。例如在搜索引擎是發(fā)出查詢請(qǐng)求、瀏覽網(wǎng)頁(yè)信息等,會(huì)彈出與這些信息相關(guān)的廣告。例如購(gòu)買了打印機(jī)的用戶,一般不久就會(huì)購(gòu)買如打印紙、硒鼓等打印耗材。優(yōu)秀的推薦系統(tǒng)將為客戶建立一個(gè)專屬商店,由每個(gè)客戶的特征來(lái)調(diào)整網(wǎng)站的內(nèi)容。也能由挖掘出的一些序列模式分析網(wǎng)站及產(chǎn)品促銷的效果。

2)電子商務(wù)中關(guān)聯(lián)規(guī)則的應(yīng)用

關(guān)聯(lián)規(guī)則是揭示數(shù)據(jù)之間隱含的相互關(guān)系,關(guān)聯(lián)分析的任務(wù)是發(fā)現(xiàn)事物間的關(guān)聯(lián)規(guī)則或相關(guān)程序。關(guān)聯(lián)規(guī)則挖掘的目標(biāo)是在數(shù)據(jù)項(xiàng)目中找出每一個(gè)數(shù)據(jù)信息的內(nèi)在關(guān)系。關(guān)聯(lián)規(guī)則挖掘就是要搜索出用戶在服務(wù)器上訪問(wèn)的內(nèi)容、頁(yè)面、文件之間的聯(lián)系,從而改進(jìn)電子商務(wù)網(wǎng)站設(shè)計(jì)??梢愿迷诮M織站點(diǎn),減少用戶過(guò)濾網(wǎng)站信息的負(fù)擔(dān),哪些商品顧客會(huì)可能在一次購(gòu)物時(shí)同時(shí)購(gòu)買?關(guān)聯(lián)規(guī)則技術(shù)能夠通過(guò)購(gòu)物籃中的不同商品之間的聯(lián)系,分析顧客的購(gòu)物習(xí)慣。例如購(gòu)買牛奶的顧客90%會(huì)同時(shí)還購(gòu)買面包,這就是一條關(guān)聯(lián)規(guī)則,如果商店或電子商務(wù)網(wǎng)站將這兩種商品放在一起銷售,將會(huì)提高它們的銷量。關(guān)聯(lián)規(guī)則挖掘目標(biāo)是利用工具分析出顧客購(gòu)買商品間的聯(lián)系,也即典型購(gòu)物籃數(shù)據(jù)分析應(yīng)用。關(guān)聯(lián)規(guī)則是發(fā)現(xiàn)同類事件中不同項(xiàng)目的相關(guān)性,例如手機(jī)加充電寶,鼠標(biāo)加鼠標(biāo)墊等購(gòu)買習(xí)慣就屬于關(guān)聯(lián)分析。關(guān)聯(lián)規(guī)則挖掘技術(shù)可以用相應(yīng)算法找出關(guān)聯(lián)規(guī)則,例如在上述例子中,商家可以依據(jù)商品間的關(guān)聯(lián)改進(jìn)商品的擺放,如果顧客購(gòu)買了手機(jī)則將充電寶放入推薦的商品中,如果一些商品被同時(shí)購(gòu)買的概率較大,說(shuō)明這些商品存在關(guān)聯(lián)性,商家可以將這些有關(guān)聯(lián)的商品鏈接放在一起推薦給客戶,有利于商品的銷售,商家也根據(jù)關(guān)聯(lián)有效搭配進(jìn)貨,提升商品管理水平。如買了燈具的顧客,多半還會(huì)購(gòu)買開(kāi)關(guān)插座,因此,一般會(huì)將燈具與開(kāi)關(guān)插座等物品放在一個(gè)區(qū)域供顧客選購(gòu)。依據(jù)分析找出顧客所需要的商品的關(guān)聯(lián)規(guī)則,由挖掘分析結(jié)果向顧客推薦所需商品,也即向顧客提出可能會(huì)感興趣的商品推薦,將會(huì)大大提高商品的銷售量。

3)電子商務(wù)中路徑分析技術(shù)的應(yīng)用

路徑分析技術(shù)通過(guò)對(duì)Web服務(wù)器的日志文件中客戶訪問(wèn)站點(diǎn)的訪問(wèn)次數(shù)的分析,用來(lái)發(fā)現(xiàn)Web站點(diǎn)中最經(jīng)常訪問(wèn)的路徑來(lái)調(diào)整站點(diǎn)結(jié)構(gòu),從而幫助使用用戶以最快的速度找到其所需要的產(chǎn)品或是信息。例如在用戶訪問(wèn)某網(wǎng)站時(shí),如果有很多用戶不感興趣的頁(yè)面存在,就會(huì)影響用戶的網(wǎng)頁(yè)瀏覽速度,從而降低用戶的瀏覽興趣,同時(shí)也會(huì)使整個(gè)站點(diǎn)的維護(hù)成本提高。而利用路徑分析技術(shù)能夠全面地掌握網(wǎng)站各個(gè)頁(yè)面之間的關(guān)聯(lián)以及超鏈接之間的聯(lián)系,通過(guò)分析得出訪問(wèn)頻率最高的頁(yè)面,從而改進(jìn)網(wǎng)站結(jié)構(gòu)及頁(yè)面的設(shè)計(jì)。

4)電子商務(wù)中分類分析的應(yīng)用

分類技術(shù)在根據(jù)各種預(yù)定義規(guī)則進(jìn)行用戶建模的Web分析應(yīng)用中扮演著很重要的角色。例如,給出一組用戶事務(wù),可以計(jì)算每個(gè)用戶在某個(gè)期間內(nèi)購(gòu)買記錄總和?;谶@些數(shù)據(jù),可以建立一個(gè)分類模型,將用戶分成有購(gòu)買傾向和沒(méi)有購(gòu)買傾向兩類,考慮的特征如用戶統(tǒng)計(jì)屬性以及他們的導(dǎo)航活動(dòng)。分類技術(shù)既可以用于預(yù)測(cè)哪些購(gòu)買客戶對(duì)于哪類促銷手段感興趣,也可以預(yù)測(cè)和劃分顧客類別。在電子商務(wù)中通過(guò)分類分析,可以得知各類客戶的興趣愛(ài)好和商品購(gòu)買意向,因而發(fā)現(xiàn)一些潛在的購(gòu)買客戶,從而為每一類客戶提供個(gè)性化的網(wǎng)絡(luò)服務(wù)及開(kāi)展針對(duì)性的商務(wù)活動(dòng)。通過(guò)分類定位模型輔助決策人員定位他們的最佳客戶和潛在客戶,提高客戶滿意度及忠誠(chéng)度,最大化客戶收益率,以降低成本,增加收入。

5)電子商務(wù)中聚類分析的應(yīng)用

聚類技術(shù)可以將具有相同特征的數(shù)據(jù)項(xiàng)聚成一類。聚類分析是對(duì)數(shù)據(jù)庫(kù)中相關(guān)數(shù)據(jù)進(jìn)行對(duì)比并找出各數(shù)據(jù)之間的關(guān)系,將不同性質(zhì)特征的數(shù)據(jù)進(jìn)行分類。聚類分析的目標(biāo)是在相似的基礎(chǔ)上收集數(shù)據(jù)來(lái)分類。根據(jù)具有相同或相似的顧客購(gòu)買行為和顧客特征,利用聚類分析技術(shù)將市場(chǎng)有效地細(xì)分,細(xì)分后應(yīng)可每類市場(chǎng)都制定有針對(duì)性的市場(chǎng)營(yíng)銷策略。聚類分別有頁(yè)面聚類和用戶聚類兩種。用戶聚類是為了建立擁有相同瀏覽模式的用戶分組,可以在電子中商務(wù)中進(jìn)行市場(chǎng)劃分或給具有相似興趣的用戶提供個(gè)性化的Web內(nèi)容,更多在用戶分組上基于用戶統(tǒng)計(jì)屬性(如年齡、性別、收入等)的分析可以發(fā)現(xiàn)有價(jià)值的商業(yè)智能。在電子商務(wù)中將市場(chǎng)進(jìn)行細(xì)化的區(qū)分就是運(yùn)用聚類分析技術(shù)。聚類分析可根據(jù)顧客的購(gòu)買行為來(lái)劃分不同顧客特征的不同顧客群,通過(guò)聚類具有類似瀏覽行為的客戶,讓市場(chǎng)人員對(duì)顧客進(jìn)行類別細(xì)分,能夠給顧客提供更人性化的貼心服務(wù)。比如通過(guò)聚類技術(shù)分析,發(fā)現(xiàn)一些顧客喜歡訪問(wèn)有關(guān)汽車配件網(wǎng)頁(yè)內(nèi)容,就可以動(dòng)態(tài)改變站點(diǎn)內(nèi)容,讓網(wǎng)絡(luò)自動(dòng)地給這些顧客聚類發(fā)送有關(guān)汽車配件的新產(chǎn)品信息或郵件。分類和聚類往往是相互作用的。在電子商務(wù)中通過(guò)聚類行為或習(xí)性相似的顧客,給顧客提供更滿意的服務(wù)。技術(shù)人員在分析中先用聚類分析將要分析的數(shù)據(jù)進(jìn)行聚類細(xì)分,然后用分類分析對(duì)數(shù)據(jù)集合進(jìn)行分類標(biāo)記,再將該標(biāo)記重新進(jìn)行分類,一直如此循環(huán)兩種分析方法得到相對(duì)滿意的結(jié)果。

5結(jié)語(yǔ)

隨著互聯(lián)網(wǎng)的飛速發(fā)展,大數(shù)據(jù)分析應(yīng)用越來(lái)越廣。商業(yè)貿(mào)易中電子商務(wù)所占比例越來(lái)越大,使用web挖掘技術(shù)對(duì)商業(yè)海量數(shù)據(jù)進(jìn)行挖掘處理,分析客戶購(gòu)買喜好、跟蹤市場(chǎng)變化,調(diào)整銷售策略,對(duì)決策者做出有效決策及提高企業(yè)的市場(chǎng)競(jìng)爭(zhēng)力有重要意義。

參考文獻(xiàn):

[1]龐英智.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].情報(bào)科學(xué),2011,29(2):235-240.

[2]馬宗亞,張會(huì)彥.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究[J].現(xiàn)代經(jīng)濟(jì)信息,2014(6):23-24.

[3]徐劍彬.Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用[J].時(shí)代金融,2013(4):234-235.208

[4]周世東.Web數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用研究[D].北京交通大學(xué),2008.

篇(4)

關(guān)鍵詞:數(shù)據(jù)挖掘;信息系統(tǒng)集成;K均值算法;聚類算法;BOM系統(tǒng)

中圖分類號(hào):TP391

文獻(xiàn)標(biāo)識(shí)碼:A

文章編號(hào):16727800(2017)004018503

0引言

充分利用企I信息系統(tǒng)集成中所產(chǎn)生的生產(chǎn)業(yè)務(wù)信息數(shù)據(jù)成為企業(yè)的關(guān)鍵技術(shù),數(shù)據(jù)挖掘技術(shù)則是企業(yè)系統(tǒng)中使用的技術(shù)之一。數(shù)據(jù)挖掘指對(duì)數(shù)據(jù)庫(kù)中的海量數(shù)據(jù)進(jìn)行過(guò)程復(fù)雜的數(shù)據(jù)分析,從而獲得其中隱含信息的過(guò)程。根據(jù)用戶需求,選擇比較切合的數(shù)據(jù)挖掘算法,成為挖掘技術(shù)成功的關(guān)鍵。通過(guò)研究各種數(shù)據(jù)挖掘算法,筆者在眾多算法中選擇了K均值算法作為本文數(shù)據(jù)挖掘的基礎(chǔ)算法。

1K均值算法概述

1.1K均值算法概念

聚類問(wèn)題是將給定的數(shù)據(jù)集合D劃分成一組聚類:{C1,C2,…},Ci∈D,使不同種類中的數(shù)據(jù)盡可能不相似(或距離較遠(yuǎn)),同一種類中的數(shù)據(jù)盡可能相似(或距離較近)。聚類是一種無(wú)監(jiān)督的學(xué)習(xí),所謂無(wú)監(jiān)督學(xué)習(xí)指事先并不知道要找的內(nèi)容,即沒(méi)有目標(biāo)變量,它將相似的對(duì)象歸到同一個(gè)簇中[13]。K均值(Kmeans)算法在聚類算法中使用最為廣泛。首先根據(jù)分類的個(gè)數(shù)k,隨機(jī)地選取k個(gè)初始的聚類中心,當(dāng)然這個(gè)k值是難以確定的,并把每個(gè)對(duì)象分配給離它最近的中心,分別得到起始的聚類點(diǎn)。然后,將當(dāng)前每個(gè)聚類的中心作為新的聚類中心,并把每個(gè)對(duì)象重新分配到最近的中心。不斷地循環(huán)迭代,直到目標(biāo)函數(shù)的最小值,即最終的聚類中心點(diǎn)沒(méi)有移動(dòng)。其中,目標(biāo)函數(shù)通常采用平方誤差準(zhǔn)則,即:其中,E表示所有聚類對(duì)象的平方誤差和,S是聚類對(duì)象,Mi是類Ci的各聚類對(duì)象的平均值,即:

其中,|Ci|表示類Ci的聚類對(duì)象數(shù)目。每一次迭代時(shí),每一個(gè)點(diǎn)都要計(jì)算一遍它和各聚類中心的距離,并取最短距離的類作為該點(diǎn)所屬的類。直到E獲取最小值,最終表現(xiàn)為最后的聚類中心無(wú)法移動(dòng)。一般k的典型取值為2~10。

1.2K均值算法計(jì)算模型

假設(shè)在一片小區(qū)域中有若干數(shù)據(jù)點(diǎn),如圖1所示。先假設(shè)k=2,即最終這些數(shù)據(jù)點(diǎn)會(huì)聚類成兩個(gè)類。K均值算法具體解釋如下: (1)由于k=2,任意的兩個(gè)數(shù)據(jù)點(diǎn)被選作初始類的聚類中心(圖中用點(diǎn)F、G表示),如圖1(a)所示。 (2)將其余的各個(gè)點(diǎn)分配到距離最近的聚類中心點(diǎn)(本例中為F點(diǎn)、G點(diǎn))所代表的類中,即求圖中所有點(diǎn)到各個(gè)聚類中心的距離。如果Si距離Ci近, 則Si屬于Ci聚類。如圖1(b)所示,A、B點(diǎn)與F點(diǎn)的距離相對(duì)G點(diǎn)更近,所以屬于F點(diǎn)聚類,C、D、E點(diǎn)與G點(diǎn)相對(duì)F點(diǎn)距離更近,所以屬于G點(diǎn)聚類。 (3)將聚類中心點(diǎn)F點(diǎn)、G點(diǎn)移動(dòng)到“自己”的聚類中心,如圖1(c)、圖1(d)所示。 (4)重復(fù)步驟(2)、(3),直到每個(gè)類中的聚類對(duì)象(如圖1(e)中的點(diǎn))不再重新分布為止,第一個(gè)點(diǎn)聚合了A、B、C,第二個(gè)點(diǎn)聚合了D、E,此時(shí)重復(fù)循環(huán)的迭代過(guò)程結(jié)束。

2.1系統(tǒng)概述

通過(guò)對(duì)K均值算法的介紹及其算法處理模型,筆者結(jié)合某制造型企業(yè)的信息化系統(tǒng)平臺(tái)用戶實(shí)際需求建立數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上使用數(shù)據(jù)挖掘中的K均值算法對(duì)大量數(shù)據(jù)進(jìn)行潛在信息的挖掘,并開(kāi)發(fā)出基于K均值算法的挖掘器,輔助決策者進(jìn)行決策。假如數(shù)據(jù)庫(kù)中的數(shù)據(jù)關(guān)于產(chǎn)品信息生成了k個(gè)聚類中心,即k個(gè)中心點(diǎn)point,將其余的各個(gè)點(diǎn)分配到距離最近的聚類中心點(diǎn)所代表的類中,距離為distance,并獲取距聚類中心距離最小的距離min2,將該元素歸類于距離聚類中心點(diǎn)最近的那個(gè)聚類中,核心代碼如下:

private void clusterSet() { float[] distance = new float[m]; for (int l = 0; l < length; l++) { for (int e = 0; e < m; e++) { distance[e] = distance(data.get(l), point.get(e)); } int min2 = min1(distance); cluster.get(min2).add(data.get(l)); } } //將聚類中心點(diǎn)移動(dòng)到自己的聚類中心,求兩點(diǎn)誤差平方 private float result(float[] point1, float[] point) { float x = point1[0] - point[0]; float y = point1[1] - point[1]; float result1 = x * x + y * y; return result1; } //利用上述“求兩點(diǎn)誤差平方”的方法,計(jì)算誤差平方和準(zhǔn)則 private void result2() { float a1 = 0; for (int r = 0; r < cluster.size(); r++) { for (int j = 0; j < cluster.get(r).size(); j++) { a1 += result(cluster.get(r).get(j), point.get(r)); } } sum.add(a1); } //設(shè)置新的聚類中心 private void setNewPoint() { for (int h = 0; h < m; h++) { int n = cluster.get(h).size(); if (n != 0) { float[] newpoint = { 0, 0 }; for (int k = 0; k < n; k++) { newpoint[0] += cluster.get(h).get(k)[0]; newpoint[1] += cluster.get(h).get(k)[1]; } newpoint[0] = newpoint[0] / n; newpoint[1] = newpoint[1] / n; point.set(h, newpoint); } } } //對(duì)第2、3步進(jìn)行重復(fù)迭代,直至得到算法最終結(jié)果 private void kmeans() { init(); while (true) { clusterSet(); result2(); if (n != 0) { if (sum.get(n) - sum.get(n - 1) == 0) { break; } } setNewPoint(); n++; cluster.clear(); cluster = cluster1(); } }

2.2零部件市場(chǎng)需求分析

在銷售系統(tǒng)“零部件市場(chǎng)需求分析”模塊,主要針對(duì)銷售信息以及產(chǎn)品信息所建立的數(shù)據(jù)倉(cāng)庫(kù)中的信息進(jìn)行數(shù)據(jù)挖掘。合同中記載了所銷售的產(chǎn)品圖號(hào)、數(shù)量、客戶相關(guān)信息等,同時(shí)根據(jù)產(chǎn)品圖號(hào)可以得到產(chǎn)品BOM信息。 產(chǎn)品BOM信息即該產(chǎn)品的設(shè)計(jì)信息,包括零件信息、物料進(jìn)貨方式及加工作業(yè)方式、工藝信息、圖紙信息、層次碼、總數(shù)量等。其中零件信息主要有:零件圖號(hào)、零件名稱、材料、牌號(hào)、外形尺寸等;物料進(jìn)貨方式及加工作業(yè)方式主要包括:物料類別(如:配套件、緊固件)、物料進(jìn)場(chǎng)狀態(tài)(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工內(nèi)容(如:金工、電工);工藝信息即零部件加工的工藝信息;圖紙信息包括圖紙幅面等;層次碼主要用來(lái)標(biāo)注該零部件在產(chǎn)品中的所處位置;總數(shù)量即表明該零部件在產(chǎn)品中該層次碼下的個(gè)數(shù)。 相同產(chǎn)品可能會(huì)有處于不同層次的相同零部件,不同產(chǎn)品可能會(huì)有相同零部件。因此,在所建立的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上,使用數(shù)據(jù)挖掘技術(shù)挖掘出查詢條件,從銷售的產(chǎn)品中具體細(xì)化到銷售需求較多的零部件,從而在企業(yè)決策時(shí)察覺(jué)出該情況。通過(guò)針對(duì)性地制定預(yù)投生產(chǎn)計(jì)劃、增加庫(kù)存,能夠幫助企業(yè)提高生產(chǎn)效率,對(duì)于市場(chǎng)快速反應(yīng),以提高市場(chǎng)占有率。 對(duì)于該部分功能,首先可以進(jìn)行條件查詢。查詢屬性有:產(chǎn)品圖號(hào)、產(chǎn)品型號(hào)、代號(hào)、名稱、規(guī)格尺寸、長(zhǎng)度寬度、材料、牌號(hào)、年份和客戶編號(hào)。 從查詢屬性看,這是多種搜索條件的組合;從數(shù)據(jù)挖掘角度看,這是在K-均值聚類算法設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上開(kāi)發(fā)出來(lái)的一個(gè)數(shù)據(jù)挖掘工具。此項(xiàng)功能設(shè)計(jì)時(shí)是從月份出發(fā),將每年的銷量按照月份呈現(xiàn),因此“年份”是必選項(xiàng),其余條件用戶可以自由組合。例如:選擇“2012年”,查詢結(jié)果如圖2所示。

該圖表示在2012年的銷售產(chǎn)品里對(duì)零部件數(shù)量進(jìn)行匯總的結(jié)果。通過(guò)該數(shù)據(jù)挖掘器,提出了銷量最領(lǐng)先的4個(gè)零部件。曲線代表其在各月的銷售總數(shù)及市場(chǎng)需求總數(shù),單位以“百”計(jì)。每條曲線代表的零部件圖號(hào)在圖右側(cè)進(jìn)行了說(shuō)明。該表示方法直觀、清晰,可以給決策者提供明確的零部件市場(chǎng)需求變化曲線圖。通過(guò)聚類結(jié)果可知,“零件圖號(hào)”為“8UE.016.0211”的零件,從八月開(kāi)始銷量減少,并且其它3種零件在六月開(kāi)始需求量變大,從而可使決策者在來(lái)年制定更合理的方案,以提高企業(yè)競(jìng)爭(zhēng)力。

2.3廢料統(tǒng)計(jì)情況分析

廢料統(tǒng)計(jì)情況分析主要是針對(duì)生產(chǎn)中由于工人誤操作、材料劣質(zhì)、機(jī)器故障等各種原因造成所領(lǐng)物料報(bào)廢,需要重新領(lǐng)料進(jìn)行加工的情況進(jìn)行統(tǒng)計(jì)分析。 物料是一個(gè)統(tǒng)稱,它包括可以直接領(lǐng)的成品、需要再加工的半成品,以及需要加工的原材料。因此,對(duì)于物料有一個(gè)物料編碼,專門對(duì)所有可領(lǐng)的成品、半成品、原材料進(jìn)行唯一標(biāo)示。物料編碼根據(jù)零件圖號(hào)、零件名稱、材料、牌號(hào)、外形尺寸、物料進(jìn)場(chǎng)狀態(tài)、物料類別、加工方式8個(gè)字段進(jìn)行唯一性區(qū)分。根據(jù)編碼方式,產(chǎn)生唯一的物料碼,例如“A00B021”。該企業(yè)的物料有“定額”和“非定額”兩種情況?!岸~”即可以用個(gè)數(shù)來(lái)統(tǒng)計(jì)的零部件物料;“非定額”指無(wú)法用個(gè)數(shù)來(lái)統(tǒng)計(jì)的物料,如:5米長(zhǎng)的銅線等。具體而言,本文主要研究針對(duì)某個(gè)工作令從生產(chǎn)開(kāi)始到生產(chǎn)結(jié)束,所有定額物料的生產(chǎn)料廢情況。在工作令系統(tǒng)和領(lǐng)料單系統(tǒng)的基礎(chǔ)數(shù)據(jù)庫(kù)上建立數(shù)據(jù)倉(cāng)庫(kù)。工作令系統(tǒng)的數(shù)據(jù)庫(kù)中存有工作令號(hào)、起始生產(chǎn)日期、結(jié)束生產(chǎn)日期及其它工作令的基本信息。領(lǐng)料單系統(tǒng)數(shù)據(jù)庫(kù)中的廢料表中存有料廢的物料編碼、材料、數(shù)量等信息。查詢屬性有:工作令號(hào)、合同號(hào)、起始時(shí)間和終止時(shí)間。 填入工作令號(hào)“2B7-1D044205”,點(diǎn)擊“查詢”按鈕,會(huì)通過(guò)數(shù)據(jù)挖掘方法統(tǒng)計(jì)該工作令下的所有零件材料料廢情況,如表1所示。

表1清晰表明了該工作令號(hào)“2B7-1D044205”中各個(gè)物料損失的比重。從表中可以看出,以廢料“A03B004”、

“D03E334”和“E17B231”為聚類中心的廢料占多數(shù),從而可以使企業(yè)決策者從這些材料損失中發(fā)現(xiàn)問(wèn)題,分析物料損耗原因,如:采購(gòu)質(zhì)量問(wèn)題、工人操作失誤,還是其它可避免的各類原因。因此,該基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)掘挖掘器,有利于輔助企業(yè)決策者從實(shí)際生產(chǎn)中找出各類潛在問(wèn)題,從而制定合理的政策,降低生產(chǎn)損失,提高企業(yè)競(jìng)爭(zhēng)力。

3結(jié)語(yǔ)

本文采用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)庫(kù)中積累的大量數(shù)據(jù)進(jìn)行了分析處理,系統(tǒng)雖然實(shí)現(xiàn)了將基于K均值算法的數(shù)據(jù)挖掘技術(shù)應(yīng)用于信息化系統(tǒng)集成平臺(tái)中,但也只是實(shí)現(xiàn)了部分輔助決策功能。根據(jù)企業(yè)的具體使用情況,決策者肯定不會(huì)滿足于系統(tǒng)中已經(jīng)提供的決策支持功能,如何更近一步地發(fā)揮系統(tǒng)集成能力,開(kāi)發(fā)更多決策支持功能,提高數(shù)據(jù)倉(cāng)庫(kù)查詢速度,以滿足企業(yè)決策者更多需求,是下一階段研究的主要方向。

參考文獻(xiàn):

[1]王欣,徐騰飛,唐連章,等.SQL Server2005數(shù)據(jù)挖掘?qū)嵗治鯷M].北京:中國(guó)水利水電出版社,2008:15.

[2]李銳,,曲亞?wèn)|,等.機(jī)器學(xué)習(xí)實(shí)踐[M].北京:人民郵電出社,2013:184199.

[3]彭木根.數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2002:321.

[4]陳文偉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程[M].第2版.北京:清華大學(xué)出版社,2011:190.

[5]孫水華,趙釗林,劉建華.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京:清華大學(xué)出版社,2012:122.

[6]李晶,陳驥.數(shù)據(jù)挖掘技術(shù)對(duì)ERP實(shí)施的重要性[J].福建電腦,2008(8):6061.

篇(5)

>> Web數(shù)據(jù)挖掘中XML技術(shù)應(yīng)用研究 XML在Web數(shù)據(jù)挖掘中的應(yīng)用 XML 在Web 數(shù)據(jù)挖掘中的應(yīng)用探討 基于XML的Web挖掘技術(shù)在電子商務(wù)中的應(yīng)用研究 基于XML數(shù)據(jù)庫(kù)的Web應(yīng)用研究 數(shù)據(jù)挖掘在Web中的應(yīng)用研究 XML語(yǔ)言在Web開(kāi)發(fā)中的應(yīng)用研究 基于XML的Web數(shù)據(jù)挖掘模型的設(shè)計(jì)研究 基于XML+Web Service的異構(gòu)數(shù)據(jù)交換技術(shù)應(yīng)用研究 Web數(shù)據(jù)挖掘在智能選課系統(tǒng)中的應(yīng)用研究 Web數(shù)據(jù)挖掘技術(shù)在數(shù)字圖書館中的應(yīng)用研究 數(shù)據(jù)挖掘技術(shù)在Web預(yù)取中的應(yīng)用研究 Web數(shù)據(jù)挖掘及其在微博話題檢測(cè)中的應(yīng)用研究 Web數(shù)據(jù)挖掘技術(shù)在個(gè)性化網(wǎng)絡(luò)教學(xué)中的應(yīng)用研究 WEB數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究 基于XML技術(shù)的電子政務(wù)WEB數(shù)據(jù)挖掘研究 基于XML的Web分布式數(shù)據(jù)挖掘系統(tǒng)研究 基于xml的web數(shù)據(jù)挖掘技術(shù)研究與實(shí)現(xiàn) Web數(shù)據(jù)挖掘在校園網(wǎng)搜索引擎系統(tǒng)中的應(yīng)用研究 電子商務(wù)中Web數(shù)據(jù)挖掘與應(yīng)用研究 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:L,XHTML and CSS Bible[M].4版.北京:人民郵電出版社,2009

[3] Bing Liu.Web DATA MINING[M].北京:清華大學(xué)出版社,2009(4).

[4] 孟小峰.XML數(shù)據(jù)管理概念技術(shù)[M].北京:清華大學(xué)出版社.2009(10).

[5] 王建麗,丁振國(guó).一種基于XML的Web數(shù)據(jù)挖掘技術(shù)[J].西安科技學(xué)院學(xué)報(bào),2002,33(3).

[6] 沈潔,薛貴榮.一種基于XML的WEB數(shù)據(jù)挖掘模型[J].系統(tǒng)工程理論與實(shí)踐,2002(9).

篇(6)

>> 基于云計(jì)算的大數(shù)據(jù)挖掘平臺(tái) 云計(jì)算技術(shù)在醫(yī)療大數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)中的應(yīng)用 大數(shù)據(jù)+云計(jì)算 SAP倡導(dǎo)構(gòu)建實(shí)時(shí)云 基于云計(jì)算及大數(shù)據(jù)的移動(dòng)數(shù)字教育平臺(tái)建設(shè)研究 Web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)際運(yùn)用 基于云計(jì)算平臺(tái)的物聯(lián)網(wǎng)數(shù)據(jù)挖掘研究 Web數(shù)據(jù)挖掘在云計(jì)算平臺(tái)的實(shí)現(xiàn) 基于云計(jì)算和大數(shù)據(jù)的智慧農(nóng)業(yè)平臺(tái) 試論大數(shù)據(jù)和云計(jì)算平臺(tái)應(yīng)用 大數(shù)據(jù)和云計(jì)算平臺(tái)與應(yīng)用研究 大數(shù)據(jù)和云計(jì)算平臺(tái)應(yīng)用研究 云計(jì)算物聯(lián)網(wǎng)數(shù)據(jù)挖掘模式的構(gòu)建方式 云計(jì)算時(shí)代的出國(guó)留學(xué)大數(shù)據(jù)構(gòu)建策略 大數(shù)據(jù)和云計(jì)算 基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)研究 基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)及其關(guān)鍵技術(shù)探討 一種基于云計(jì)算的數(shù)據(jù)挖掘平臺(tái)架構(gòu)設(shè)計(jì)與實(shí)現(xiàn) 協(xié)同云計(jì)算下的差異區(qū)域數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì)與實(shí)現(xiàn) 一種基于云計(jì)算數(shù)據(jù)挖掘平臺(tái)架構(gòu)的設(shè)計(jì)與實(shí)現(xiàn) 基于分布式思維的云計(jì)算數(shù)據(jù)挖掘平臺(tái)設(shè)計(jì) 常見(jiàn)問(wèn)題解答 當(dāng)前所在位置:.

[5]康莉.“云計(jì)算”環(huán)境下電子商務(wù)安全問(wèn)題及對(duì)策研究[J].信息技術(shù),2012(8):283284.

[6]李衛(wèi),李濟(jì)漢,張?jiān)朴?,?電信運(yùn)營(yíng)商云業(yè)務(wù)發(fā)展現(xiàn)狀分析與建議[J].互聯(lián)網(wǎng)天地, 2013(3):715.

[7]曲悅.淺談云計(jì)算在圖書館建設(shè)中的價(jià)值及問(wèn)題[J].價(jià)值工程,2012(9):203204.

[8]馬錫坤,于京杰.醫(yī)院數(shù)據(jù)中心存在的問(wèn)題及對(duì)策[J].中國(guó)醫(yī)學(xué)教育技術(shù),2013,4(27):215217.

[9]鄔賀銓.大數(shù)據(jù)時(shí)代的機(jī)遇與挑戰(zhàn)[J].信息化參考,2013(2):16.

[10]趙金明.大數(shù)據(jù)時(shí)代的高清視頻監(jiān)控存儲(chǔ)[J].中國(guó)鐵路,2013(4):8182.

篇(7)

[關(guān)鍵詞] 并行數(shù)據(jù)挖掘 體系結(jié)構(gòu) 商業(yè)智能 模式庫(kù)

引言

企業(yè)為迎接市場(chǎng)的挑戰(zhàn),必須對(duì)市場(chǎng)運(yùn)作有準(zhǔn)確的分析。商業(yè)流通領(lǐng)域積累的大量交易數(shù)據(jù)中隱含著許多對(duì)商業(yè)決策有益的知識(shí),傳統(tǒng)的分析方法很難從中提取出這些知識(shí),利用數(shù)據(jù)挖掘技術(shù)可以得到準(zhǔn)確、及時(shí)的信息,決策人員以企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)為基礎(chǔ),通過(guò)聯(lián)機(jī)分析處理(OLAP)、數(shù)據(jù)挖掘和決策規(guī)劃人員的專業(yè)知識(shí),借助商務(wù)智能的核心技術(shù),利用企業(yè)中長(zhǎng)期積累的海量數(shù)據(jù)可以實(shí)現(xiàn)四方面的應(yīng)用:客戶分類和特征分析、市場(chǎng)營(yíng)銷策略分析、經(jīng)營(yíng)成本與收入分析、欺詐行為分析和預(yù)防,數(shù)據(jù)挖掘技術(shù)可以發(fā)現(xiàn)這些隱藏的模式和關(guān)系。

并行數(shù)據(jù)挖掘體系結(jié)構(gòu)是并行數(shù)據(jù)挖掘技術(shù)研究的重要內(nèi)容,是實(shí)現(xiàn)并行數(shù)據(jù)挖掘的基礎(chǔ),選擇適當(dāng)?shù)?、高效的、具有較高性價(jià)比的商用并行體系結(jié)構(gòu)是整個(gè)研究工作的基礎(chǔ)。

一、通用數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)

特定領(lǐng)域的數(shù)據(jù)挖掘工具主要針對(duì)某個(gè)特定領(lǐng)域的問(wèn)題提供解決方案。在進(jìn)行數(shù)據(jù)挖掘算法設(shè)計(jì)時(shí),設(shè)計(jì)者需要充分考慮特定領(lǐng)域的數(shù)據(jù)特點(diǎn)和挖掘需求等特殊性,并有針對(duì)性地對(duì)數(shù)據(jù)挖掘算法進(jìn)行優(yōu)化。

通用的數(shù)據(jù)挖掘應(yīng)用系統(tǒng)大都以數(shù)據(jù)倉(cāng)庫(kù)或大型關(guān)系數(shù)據(jù)庫(kù)為基礎(chǔ),且具有查詢、分析、表示等功能,它是企業(yè)決策支持系統(tǒng)的核心組成部分,可以將這些現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)的共同特點(diǎn)抽象成圖1所示的結(jié)構(gòu)。

二、通用的數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)的不足及改進(jìn)思路

通用的數(shù)據(jù)挖掘系統(tǒng)己經(jīng)在一定程度上滿足用戶的需要,但是在應(yīng)用實(shí)施過(guò)程中也存在著一些問(wèn)題和不足。主要有以下幾點(diǎn):數(shù)據(jù)挖掘的效率有待進(jìn)一步提高;歷史模式不能得到有效利用;不同系統(tǒng)之間的互操作性差;面向不同應(yīng)用對(duì)象的針對(duì)性不強(qiáng)。

數(shù)據(jù)挖掘往往面對(duì)的是巨大的數(shù)據(jù)集,即GB甚至TB數(shù)量級(jí)的數(shù)據(jù)集,數(shù)據(jù)挖掘技術(shù)研究的核心問(wèn)題之一就是如何提高數(shù)據(jù)挖掘的效率,提高數(shù)據(jù)挖掘效率的途徑主要有以下幾個(gè)方面:

1.對(duì)數(shù)據(jù)集進(jìn)行預(yù)處理,去除噪音數(shù)據(jù),按照挖掘要求對(duì)數(shù)據(jù)進(jìn)行清理和遷移,盡可能減少挖掘的數(shù)據(jù)量。

2.針對(duì)各種數(shù)據(jù)挖掘和數(shù)據(jù)分析要求,研究、設(shè)計(jì)效率更高的各類數(shù)據(jù)挖掘算法。

3.提高數(shù)據(jù)挖掘系統(tǒng)應(yīng)用的硬件性能或者采用并行處理技術(shù)提高數(shù)據(jù)挖掘的速度。

4.借用緩存的概念,對(duì)挖掘結(jié)果進(jìn)行存儲(chǔ)再利用,以提高用戶挖掘請(qǐng)求的響應(yīng)速度。

針對(duì)一般商業(yè)智能應(yīng)用領(lǐng)域的實(shí)際情況和需要,以提高數(shù)據(jù)挖掘應(yīng)用的效率為目標(biāo),本文將主要從并行處理技術(shù)和體系結(jié)構(gòu)方面對(duì)現(xiàn)有數(shù)據(jù)挖掘系統(tǒng)進(jìn)行改進(jìn)和提高。

三、并行數(shù)據(jù)挖掘體系結(jié)構(gòu)設(shè)計(jì)及特點(diǎn)

為解決通用數(shù)據(jù)挖掘系統(tǒng)中存在的一些問(wèn)題和針對(duì)商業(yè)智能的特點(diǎn),面向商業(yè)智能應(yīng)用的并行數(shù)據(jù)挖掘體系結(jié)構(gòu)如圖2所示,由6部分組成:

1.高性能并行計(jì)算環(huán)境:并行數(shù)據(jù)挖掘體系結(jié)構(gòu)中采用了高性價(jià)比的并行體系結(jié)構(gòu)COW(Cluster of Workstations)、數(shù)據(jù)挖掘算法由串行算法改為并行算法以及采用“緩存”概念將數(shù)據(jù)挖掘結(jié)果保存在模式庫(kù)中。并行處理技術(shù)的運(yùn)用無(wú)疑對(duì)于數(shù)據(jù)挖掘效率的提高具有重要意義和實(shí)用價(jià)值,為數(shù)據(jù)挖掘效率的提高奠定了堅(jiān)實(shí)的基礎(chǔ),對(duì)于商業(yè)智能應(yīng)用的推廣也具有重要作用。

2.數(shù)據(jù)源:數(shù)據(jù)倉(cāng)庫(kù)和其他數(shù)據(jù)源是數(shù)據(jù)挖掘的基礎(chǔ),商業(yè)智能應(yīng)用系統(tǒng)應(yīng)具有多種數(shù)據(jù)來(lái)源的處理能力,例如普通文件(電子郵件等)、關(guān)系數(shù)據(jù)庫(kù)、數(shù)據(jù)倉(cāng)庫(kù)、數(shù)據(jù)集市等。

3.模式庫(kù):為了提高數(shù)據(jù)挖掘的效率以及商業(yè)邏輯的處理速度,借助硬件內(nèi)存的“緩存”概念,將最近數(shù)據(jù)挖掘或者數(shù)據(jù)分析的結(jié)果(模式也許只是一個(gè)簡(jiǎn)單的規(guī)則描述)保存在模式庫(kù)中,以便再次發(fā)生類似或者相同操作請(qǐng)求時(shí)能先在模式庫(kù)中查找挖掘結(jié)果,從而盡量避免每次都從海量數(shù)據(jù)中進(jìn)行挖掘操作,這樣可以較大幅度提高處理速度。因此,模式庫(kù)的建立為歷史模式的有效利用提供了可能和基礎(chǔ)

另外,由于模式庫(kù)中存儲(chǔ)的是歷次挖掘出來(lái)的模式,可以從分析模式的變化來(lái)進(jìn)行趨勢(shì)預(yù)測(cè),從而為決策支持提供了更多的分析手段。

4.學(xué)習(xí)和推薦Agent:增加了一個(gè)用戶興趣分析檔案庫(kù),由學(xué)習(xí)Agent進(jìn)行更新維護(hù),供推薦Agent分析使用。學(xué)習(xí)Agent將根據(jù)權(quán)值的計(jì)算方法對(duì)用戶興趣檔案中沒(méi)有出現(xiàn)過(guò)的關(guān)鍵字進(jìn)行加權(quán)操作。推薦Agent根據(jù)已有的用戶興趣檔案,分析用戶可能感興趣的模式,并推薦給用戶。

5.并行數(shù)據(jù)挖掘工具/多維分析工具:數(shù)據(jù)挖掘是商業(yè)智能的核心,并行數(shù)據(jù)挖掘算法對(duì)于提高數(shù)據(jù)挖掘效率具有重要意義。為了適應(yīng)商業(yè)智能應(yīng)用的需要,僅提供多維分析工具是遠(yuǎn)遠(yuǎn)不夠的,應(yīng)盡可能多的提供對(duì)多種模式的支持。商業(yè)智能涉及關(guān)聯(lián)、分類、聚類、時(shí)序等模式,并行數(shù)據(jù)挖掘工具盡能包含對(duì)這些模式的支持,這也是衡量并行數(shù)據(jù)挖掘工具好壞的標(biāo)準(zhǔn)之一。

6.可視化工具:為用戶提供數(shù)據(jù)挖掘結(jié)果的自觀表示方法。

除上述特點(diǎn)外,通過(guò)對(duì)并行數(shù)據(jù)挖掘體系結(jié)構(gòu)的設(shè)計(jì)與改進(jìn)在以下兩個(gè)方面取得了較好的效果:

(1)提高了系統(tǒng)之間的互操作性:現(xiàn)有的數(shù)據(jù)挖掘產(chǎn)品,對(duì)挖掘結(jié)果都有各自特殊的存儲(chǔ)格式,不同挖掘工具之間要共享挖掘的結(jié)果非常困難。然而,對(duì)模式的集中存儲(chǔ)就可以有效地解決上述問(wèn)題,即設(shè)計(jì)類似SQL的查詢語(yǔ)言,或設(shè)計(jì)通用的模式庫(kù)接口。不同的挖掘工具通過(guò)使用模式查詢語(yǔ)言或調(diào)用模式庫(kù)接口的功能函數(shù)就可以共享模式庫(kù)中存儲(chǔ)的模式。

(2)并行處理能力強(qiáng)、可擴(kuò)展性好、可用性高:改進(jìn)后的并行數(shù)據(jù)挖掘體系結(jié)構(gòu)建立在可擴(kuò)展機(jī)群之上,除了具有較高的.可伸縮的并行處理能力之外,系統(tǒng)的可擴(kuò)展性也非常好,可以通過(guò)增加或者減少處理結(jié)點(diǎn)數(shù)調(diào)整系統(tǒng)的處理能力,從而適應(yīng)不同數(shù)據(jù)規(guī)模的處理需要,除此之外,系統(tǒng)的可用性高也是其顯著特點(diǎn),一般情況下COW的可用性指標(biāo)都在99.9%以上,為商業(yè)智能應(yīng)用系統(tǒng)的穩(wěn)定運(yùn)行提供了可靠保證。

四、結(jié)束語(yǔ)

并行數(shù)據(jù)挖掘體系結(jié)構(gòu)具有較高的并行處理能力和性價(jià)比,以及方便靈活的并行程序設(shè)計(jì)環(huán)境,對(duì)于實(shí)施商業(yè)智能應(yīng)用的客戶和應(yīng)用領(lǐng)域來(lái)講,具有可操作性。大多商業(yè)智能應(yīng)用客戶已經(jīng)或者容易獲得本文給出的并行處理環(huán)境,不需要投入大量的經(jīng)費(fèi)購(gòu)置專用的并行處理系統(tǒng)。

模式庫(kù)的提出是一種新的有益的探索。由于模式庫(kù)中存儲(chǔ)了歷史挖掘模式,如果其中的模式接近挖掘請(qǐng)求的時(shí)間,則可用這些模式自接作為挖掘的結(jié)果,不用再進(jìn)行新的數(shù)據(jù)挖掘,在模式庫(kù)中進(jìn)行查詢操作的響應(yīng)會(huì)明顯加快,大大提高了數(shù)據(jù)挖掘的效率。

參考文獻(xiàn):

[1]熊忠陽(yáng):面向商業(yè)智能的并行數(shù)據(jù)挖掘技術(shù)及應(yīng)用研究[學(xué)位論文].重慶大學(xué),2004