期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊 購物車(0)

首頁 > 精品范文 > 數(shù)據(jù)挖掘技術(shù)論文

數(shù)據(jù)挖掘技術(shù)論文精品(七篇)

時間:2023-03-17 18:06:50

序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇數(shù)據(jù)挖掘技術(shù)論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。

數(shù)據(jù)挖掘技術(shù)論文

篇(1)

數(shù)據(jù)挖掘技術(shù)是一種新型的技術(shù),在現(xiàn)代數(shù)據(jù)存儲以及測量技術(shù)的迅猛發(fā)展過程中,人們可以進(jìn)行信息的大量測量并進(jìn)行存儲。但是,在大量的信息背后卻沒有一種有效的手段和技術(shù)進(jìn)行直觀的表達(dá)和分析。而數(shù)據(jù)挖掘技術(shù)的出現(xiàn),是對目前大數(shù)據(jù)時代的一種應(yīng)急手段,使得有關(guān)計(jì)算機(jī)數(shù)據(jù)處理技術(shù)得到加快發(fā)展。數(shù)據(jù)挖掘技術(shù)最早是從機(jī)器學(xué)習(xí)的概念中而產(chǎn)生的,在對機(jī)器的學(xué)習(xí)過程中,一般不采用歸納或者較少使用這種方法,這是一種非常機(jī)械的操作辦法。而沒有指導(dǎo)性學(xué)習(xí)的辦法一般不從這些環(huán)境得出反饋,而是通過沒有干預(yù)的情況下進(jìn)行歸納和學(xué)習(xí),并建立一種理論模型。數(shù)據(jù)挖掘技術(shù)是屬于例子歸納學(xué)習(xí)的一種方式,這種從例子中進(jìn)行歸納學(xué)習(xí)的方式是介于上述無指導(dǎo)性學(xué)習(xí)以及較少使用歸納學(xué)習(xí)這兩種方式之間的一種方式。因此,可以說,數(shù)據(jù)挖掘技術(shù)的特征在出自于機(jī)器學(xué)習(xí)的背景下,與其相比機(jī)器主要關(guān)心的是如何才能有效提高機(jī)器的學(xué)習(xí)能力,但數(shù)據(jù)挖掘技術(shù)主要關(guān)心如何才能找到有用、有價值的信息。其第二個特征是,與機(jī)器學(xué)習(xí)特點(diǎn)相比較而言,機(jī)器關(guān)心的是小數(shù)據(jù),而數(shù)據(jù)挖掘技術(shù)所面臨的對象則是現(xiàn)實(shí)中海量規(guī)模的數(shù)據(jù)庫,其作用主要是用來處理一些異常現(xiàn)象,特別是處理殘缺的、有噪音以及維數(shù)很高的數(shù)據(jù)項(xiàng),甚至是一些不同類型數(shù)據(jù)。以往的數(shù)據(jù)處理方法和現(xiàn)代的數(shù)據(jù)挖掘技術(shù)相比較而言,其不同點(diǎn)是以往的傳統(tǒng)數(shù)據(jù)處理方法前提是把理論作為一種指導(dǎo)數(shù)據(jù)來進(jìn)行處理,在現(xiàn)代數(shù)據(jù)挖掘技術(shù)的出發(fā)角度不同,主要運(yùn)用啟發(fā)式的歸納學(xué)習(xí)進(jìn)行理論以及假設(shè)來處理的。

2、數(shù)據(jù)挖掘技術(shù)主要步驟

數(shù)據(jù)挖掘技術(shù)首先要建立數(shù)據(jù)倉庫,要根據(jù)實(shí)際情況而定,在易出現(xiàn)問題的有關(guān)領(lǐng)域建立有效的數(shù)據(jù)庫。主要是用來把數(shù)據(jù)庫中的所有的存儲數(shù)據(jù)進(jìn)行分析,而目前的一些數(shù)據(jù)庫雖然可以進(jìn)行大量的存儲數(shù)據(jù),同時也進(jìn)行了一系列的技術(shù)發(fā)展。比如,系統(tǒng)中的在線分析處理,主要是為用戶查詢,但是卻沒有查詢結(jié)果的分析能力,而查詢的結(jié)果仍舊由人工進(jìn)行操作,依賴于對手工方式進(jìn)行數(shù)據(jù)測試并建模。其次,在數(shù)據(jù)庫中存儲的數(shù)據(jù)選一數(shù)據(jù)集,作為對數(shù)據(jù)挖掘算法原始輸入。此數(shù)據(jù)集所涉及到數(shù)據(jù)的時變性以及統(tǒng)一性等情況。然后,再進(jìn)行數(shù)據(jù)的預(yù)處理,在處理中主要對一些缺損數(shù)據(jù)進(jìn)行補(bǔ)齊,并消除噪聲,此外還應(yīng)對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化的處理。隨后,再對數(shù)據(jù)進(jìn)行降維和變換。如果數(shù)據(jù)的維數(shù)比較高,還應(yīng)找出維分量高的數(shù)據(jù),對高維數(shù)數(shù)據(jù)空間能夠容易轉(zhuǎn)化為檢點(diǎn)的低維數(shù)數(shù)據(jù)空間進(jìn)行處理。下一步驟就是確定任務(wù),要根據(jù)現(xiàn)實(shí)的需要,對數(shù)據(jù)挖掘目標(biāo)進(jìn)行確定,并建立預(yù)測性的模型、數(shù)據(jù)的摘要等。隨后再決定數(shù)據(jù)挖掘的算法,這一步驟中,主要是對當(dāng)前的數(shù)據(jù)類型選擇有效的處理方法,此過程非常重要,在所有數(shù)據(jù)挖掘技術(shù)中起到較大作用。隨后再對數(shù)據(jù)挖掘進(jìn)行具體的處理和結(jié)果檢驗(yàn),在處理過程中,要按照不同的目的,選擇不同的算法,是運(yùn)用決策樹還是分類等的算法,是運(yùn)用聚類算法還是使用回歸算法,都要認(rèn)真處理,得出科學(xué)的結(jié)論。在數(shù)據(jù)挖掘結(jié)果檢驗(yàn)時,要注意幾個問題,要充分利用結(jié)論對照其他的信息進(jìn)行校核,可對圖表等一些直觀的信息和手段進(jìn)行輔助分析,使結(jié)論能夠更加科學(xué)合理。需要注意的是要根據(jù)用戶來決定結(jié)論有用的程度。最后一項(xiàng)步驟是把所得出的結(jié)論進(jìn)行應(yīng)用到實(shí)際,要對數(shù)據(jù)挖掘的結(jié)果進(jìn)行仔細(xì)的校驗(yàn),重點(diǎn)是解決好以前的觀點(diǎn)和看法有無差錯,使目前的結(jié)論和原先看法的矛盾有效解除。

3、數(shù)據(jù)挖掘技術(shù)的方法以及在電力營銷系統(tǒng)中的應(yīng)用和發(fā)展

數(shù)控挖掘技術(shù)得到了非常廣泛的應(yīng)用,按照技術(shù)本身的發(fā)展出現(xiàn)了較多方法。例如,建立預(yù)測性建模方法,也就是對歷史數(shù)據(jù)進(jìn)行分析并歸納總結(jié),從而建立成預(yù)測性模型。根據(jù)此模型以及當(dāng)前的其他數(shù)據(jù)進(jìn)行推斷相關(guān)聯(lián)的數(shù)據(jù)。如果推斷的對象屬于連續(xù)型的變量,那么此類的推斷問題可屬回歸問題。根據(jù)歷史數(shù)據(jù)來進(jìn)行分析和檢測,再做出科學(xué)的架設(shè)和推定。在常用的回歸算法以及非線性變換進(jìn)行有效的結(jié)合,能夠使許多問題得到解決。電力營銷系統(tǒng)中的數(shù)據(jù)挖掘技術(shù)應(yīng)用中關(guān)聯(lián)規(guī)則是最為關(guān)鍵的技術(shù)應(yīng)用之一。這種應(yīng)用可以有效地幫助決策人員進(jìn)行當(dāng)前有關(guān)數(shù)據(jù)以及歷史數(shù)據(jù)的規(guī)律分析,最后預(yù)測出未來情況。把關(guān)聯(lián)規(guī)則成功引入電力營銷分析,通過FP-Growth算法對電力營銷的有關(guān)數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則分析,從中得出各種電量銷售的影響因素以及外部因素、手電水平等的關(guān)聯(lián)信息,以便更好地為電力的市場營銷策略提供參謀和決策。對電力營銷系統(tǒng)的應(yīng)用中,時間序列挖掘以及序列挖掘非常經(jīng)典、系統(tǒng),是應(yīng)用最為廣泛的一種預(yù)測方法。這種方法的應(yīng)用中,對神經(jīng)網(wǎng)絡(luò)的研究非常之多。因此,在現(xiàn)實(shí)中應(yīng)用主要把時間序列挖掘以及神經(jīng)網(wǎng)絡(luò)兩者進(jìn)行有效地結(jié)合,然后再分析有關(guān)電力營銷數(shù)據(jù)。此外,有關(guān)專家還提出應(yīng)用一種時間窗的序列挖掘算法,這種方式可以進(jìn)行有效地報(bào)警處理,使電力系統(tǒng)中的故障能夠準(zhǔn)確的定位并診斷事故。此算法對電力系統(tǒng)的分析和挖掘能力的提高非常有效,還可判定電力系統(tǒng)的運(yùn)行是否穩(wěn)定,對錯誤模型的分析精度達(dá)到一定的精確度。

4、結(jié)語

篇(2)

(1)確定業(yè)務(wù)對象:做好業(yè)務(wù)對象的明確是數(shù)據(jù)域挖掘的首要步驟,挖掘的最后結(jié)構(gòu)是不可預(yù)測的,但是探索的問題必須是有預(yù)見的,明確業(yè)務(wù)對象可以避免數(shù)據(jù)挖掘的盲目性,從而大大提高成功率。

(2)數(shù)據(jù)準(zhǔn)備:首先,對于業(yè)務(wù)目標(biāo)相關(guān)的內(nèi)部和外部數(shù)據(jù)信息進(jìn)行查找,從中找出可以用于數(shù)據(jù)挖掘的信息;其次,要對數(shù)據(jù)信息的內(nèi)容進(jìn)行全面細(xì)致分析,確定需要進(jìn)行挖掘操作的類型;然后,結(jié)合相應(yīng)的挖掘算法,將數(shù)據(jù)轉(zhuǎn)化稱為相應(yīng)的分析模型,以保證數(shù)據(jù)挖掘的順利進(jìn)行。

(3)數(shù)據(jù)挖掘:在對數(shù)據(jù)進(jìn)行轉(zhuǎn)化后,就可以結(jié)合相應(yīng)的挖掘算法,自動完成相應(yīng)的數(shù)據(jù)分析工作。

(4)結(jié)果分析:對得到的數(shù)據(jù)分析結(jié)果進(jìn)行評價,結(jié)合數(shù)據(jù)挖掘操作明確分析方法,一般情況下,會用到可視化技術(shù)。

(5)知識同化:對分析得到的數(shù)據(jù)信息進(jìn)行整理,統(tǒng)一到業(yè)務(wù)信息系統(tǒng)的組成結(jié)構(gòu)中。這個步驟不一定能夠一次完成,而且其中部分步驟可能需要重復(fù)進(jìn)行。

二、數(shù)據(jù)挖掘技術(shù)在水利工程管理中的實(shí)施要點(diǎn)

水利工程在經(jīng)濟(jì)和社會發(fā)展中是非常重要的基礎(chǔ)設(shè)施,做好水利工程管理工作,確保其功能的有效發(fā)揮,是相關(guān)管理人員需要重點(diǎn)考慮的問題。最近幾年,隨著社會經(jīng)濟(jì)的飛速發(fā)展,水利工程項(xiàng)目的數(shù)量和規(guī)模不斷擴(kuò)大,產(chǎn)生的水利科學(xué)數(shù)據(jù)也在不斷增加,這些數(shù)據(jù)雖然繁瑣,但是在許多科研生產(chǎn)活動和日常生活中都是不可或缺的。例如,在對洪澇、干旱的預(yù)防以及對生態(tài)環(huán)境問題的處理方面,獲取完整的水利科學(xué)數(shù)據(jù)是首要任務(wù)。那么,針對日益繁雜的海量水利科學(xué)數(shù)據(jù),如何對有用的信息知識進(jìn)行提取呢?數(shù)據(jù)挖掘技術(shù)的應(yīng)用有效的解決了這個問題,可以從海量的數(shù)據(jù)信息中,挖掘出潛在的、有利用價值的知識,為相關(guān)決策提供必要的支持。

1.強(qiáng)化數(shù)據(jù)庫建設(shè)

要想對各類數(shù)據(jù)進(jìn)行科學(xué)有效的收集和整理,就必須建立合理完善的數(shù)據(jù)庫。對于水利工程而言,應(yīng)該建立分類數(shù)據(jù)庫,如水文、河道河情、水量調(diào)度、防洪、汛情等,確保數(shù)據(jù)的合理性、全面性和準(zhǔn)確性,選擇合適的方法,對有用數(shù)據(jù)進(jìn)行挖掘。

2.合理選擇數(shù)據(jù)挖掘算法

(1)關(guān)聯(lián)規(guī)則挖掘算法:關(guān)聯(lián)規(guī)則挖掘問題最早提出于1993年,在當(dāng)前數(shù)據(jù)挖掘領(lǐng)域,從事務(wù)數(shù)據(jù)庫中發(fā)現(xiàn)關(guān)聯(lián)規(guī)則,已經(jīng)成為一個極其重要的研究課題。關(guān)聯(lián)規(guī)則挖掘的主要目的,是尋找和挖掘隱藏在各種數(shù)據(jù)之間的相互關(guān)系,通過量化的數(shù)據(jù),來描述事務(wù)A的出現(xiàn)對于事務(wù)B出現(xiàn)可能產(chǎn)生的影響,關(guān)聯(lián)規(guī)則挖掘就是給定一組Item以及相應(yīng)的記錄組合,通過對記錄組合的分析,推導(dǎo)出Item間存在的相關(guān)性。當(dāng)前對于關(guān)聯(lián)規(guī)則的描述,一般是利用支持度和置信度,支出度是指產(chǎn)品集A、B同時出現(xiàn)的概率,置信度則是在事務(wù)集A出現(xiàn)的前提下,B出現(xiàn)的概率。通過相應(yīng)的關(guān)聯(lián)分析,可以得出事務(wù)A、B同時出現(xiàn)的簡單規(guī)則,以及每一條規(guī)則的支持度和置信度,支持度高則表明規(guī)則被經(jīng)常使用,置信度高則表明規(guī)則相對可靠,通過關(guān)聯(lián)分析,可以明確事務(wù)A、B的關(guān)聯(lián)程度,決定兩種事務(wù)同時出現(xiàn)的情況。

(2)自頂而下頻繁項(xiàng)挖掘算法:對于長頻繁項(xiàng),如果采用關(guān)聯(lián)規(guī)則挖掘算法,需要進(jìn)行大量的計(jì)算分析,不僅耗時耗力,而且影響計(jì)算的精準(zhǔn)度,這時,就可以采用自頂而下頻繁項(xiàng)挖掘算法,這種算法是一種相對優(yōu)秀的長頻繁項(xiàng)挖掘算法,利用了事務(wù)項(xiàng)目關(guān)聯(lián)信息表、項(xiàng)目約簡、關(guān)鍵項(xiàng)目以及投影數(shù)據(jù)庫等新概念與投影、約簡等新方法,在對候選集進(jìn)行生成的過程中,應(yīng)該對重復(fù)分支進(jìn)行及時修剪,提升算法的實(shí)際效率,從而有效解決了長頻繁項(xiàng)的挖掘問題。結(jié)合計(jì)算機(jī)實(shí)驗(yàn)以及算法分析,可以看出,這種方法是相對完善的,同時也是十分有效的。不過需要注意的是,當(dāng)支持度較大、頻繁項(xiàng)相對較短時,利用關(guān)聯(lián)規(guī)則挖掘中典型的Apriori方法,可以起到更好的效果。

(3)頻繁項(xiàng)雙向挖掘算法:這種算法是一種融合了自頂向下以及自底向上的雙向挖掘算法,可以較好的解決長頻繁項(xiàng)以及段頻繁項(xiàng)的挖掘問題,主挖掘方向是利用自頂向下挖掘策略,但是結(jié)合自底向上方法生成的非頻繁項(xiàng)集,可以對候選集進(jìn)行及時修剪,提升算法的實(shí)際效率。

三、結(jié)語

篇(3)

[參考文獻(xiàn)]

[1]董西明.客戶關(guān)系管理及其應(yīng)用[J].學(xué)術(shù)交流,2004(8)

[2]王光玲.CRM—企業(yè)管理理念新發(fā)展[J].經(jīng)濟(jì)論壇,2003(9)

[3]崔京波,陳穎.論CRM及應(yīng)用[J].科學(xué)與管理,2005(6)

[4]田丹.淺析供應(yīng)鏈環(huán)境下的客戶關(guān)系管理(CRM)[J].商情(教育經(jīng)濟(jì)研究),2008(3)

[5]左臻.淺談客戶關(guān)系管理[J].科技情報(bào)開發(fā)與經(jīng)濟(jì),2005(5)

[6]徐輝.淺析客戶關(guān)系管理[J].商業(yè)經(jīng)濟(jì),2008(10)

[7]姚德全,于冬梅.客戶關(guān)系管理在企業(yè)發(fā)展中的重要性[J].科技創(chuàng)新與應(yīng)用,2013(8)

參考文獻(xiàn)

[1]郭愈強(qiáng),樊瑋.數(shù)據(jù)挖掘技術(shù)在民航CRM中的應(yīng)用[J],計(jì)算機(jī)工程,2005(31):169-171.

[2]劉彬,白萬民.淺析數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用[J].電子世界,2014,01(17):16-17.

[3]楊虎猛,朱汝岳.金融業(yè)分型CRM系統(tǒng)探索與應(yīng)用[J].計(jì)算機(jī)應(yīng)用與軟件,2013,07(30):259-261.

[4]徐國慶,段春梅.數(shù)據(jù)挖掘技術(shù)在CRM中的應(yīng)用研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2012,02(12):38-40.

[5]王一鴻.體檢中心CRM構(gòu)建及數(shù)據(jù)挖掘的應(yīng)用研究[D].華東理工大學(xué),2011.

[6]潘光強(qiáng).基于數(shù)據(jù)挖掘的CRM設(shè)計(jì)與應(yīng)用研究[D].安徽工業(yè)大學(xué),2011.

參考文獻(xiàn):

[1]廖雯.基于客戶生命周期的CRM策略研究[J].商,2015(17):15-15.

[2]陳杭.電子商務(wù)的營銷資源在CRM策略中有效分配探討[J].現(xiàn)代商業(yè),2015(11):42-43.

[3]金子琦.紛享銷客中國式CRM商業(yè)邏輯大復(fù)盤[J].創(chuàng)業(yè)邦,2015(10):90-91.

篇(4)

[關(guān)鍵詞]數(shù)據(jù)挖掘 風(fēng)險評估 集裝箱

一、引言

隨著我國對外貿(mào)易的快速發(fā)展,進(jìn)境箱量顯著增長?!笆晃濉逼陂g,檢出攜帶疫情及有毒有害物質(zhì)箱數(shù)呈持續(xù)增長趨勢。僅2010年度,共受理進(jìn)境集裝箱申報(bào)3699.06萬箱,同比增長14.04%,檢出攜帶疫情或有毒有害物質(zhì)的43.66萬箱,比去年同期提高了28.20%。進(jìn)境檢出疫情箱數(shù)占查驗(yàn)箱數(shù)的比例(即查驗(yàn)檢出率)為3.26%,同比提高0.43個百分點(diǎn)。這反映出進(jìn)境集裝箱攜帶疫情及有毒有害物質(zhì)情況十分普遍,進(jìn)境集裝箱檢疫面臨形勢十分嚴(yán)峻。

目前,在進(jìn)境集裝箱檢疫工作中主要采用以人工判斷為主的經(jīng)驗(yàn)式方法,效率比較低,工作量繁重,經(jīng)驗(yàn)知識傳承性差。但是在多年來的實(shí)踐過程中,我們已經(jīng)積累了大量的經(jīng)驗(yàn)和數(shù)據(jù)。通過數(shù)據(jù)挖掘技術(shù)在已有的數(shù)據(jù)中發(fā)現(xiàn)未知的模式和知識可以為入境集裝箱風(fēng)險進(jìn)行評估,并為檢疫業(yè)務(wù)決策提供輔助支持。

二、數(shù)據(jù)挖掘技術(shù)

數(shù)據(jù)挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。簡而言之,數(shù)據(jù)挖掘其實(shí)是一類深層次的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘已廣泛應(yīng)用于生物醫(yī)學(xué)、金融、零售業(yè)、電信業(yè)、海關(guān)監(jiān)管等領(lǐng)域,并產(chǎn)生了巨大的效益。數(shù)據(jù)挖掘技術(shù)同樣能夠?qū)⒋罅康臋z疫數(shù)據(jù)提煉、轉(zhuǎn)化為可以理解和應(yīng)用的模式和知識來指導(dǎo)檢疫業(yè)務(wù)。

數(shù)據(jù)分類(DataClassification)是數(shù)據(jù)挖掘技術(shù)的一個重要分支。從根本上說,數(shù)據(jù)分類就是通過對源數(shù)據(jù)的特點(diǎn)進(jìn)行歸納和描述。要進(jìn)行數(shù)據(jù)分類,必須使用特定的分類工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。數(shù)據(jù)分類是數(shù)據(jù)挖掘的基本功能、重要功能,目前在商業(yè)、工業(yè)、軍事、生活、海關(guān)監(jiān)管上應(yīng)用最多,具有非常高的使用價值。

三、數(shù)據(jù)概念模型

根據(jù)從進(jìn)境集裝箱中檢出疫情及有毒有害物質(zhì)情況的不同,將檢出問題分為7類,分別是:①人類傳染病和動物傳染病病原體;②植物危性病、蟲、雜草以及其它有害生物;③嚙齒動物、蚊、蠅、蟑螂等病媒生物;④土壤、動物尸體等禁止進(jìn)境物;⑤動植物殘留物;⑥生活垃圾及其他有毒有害物質(zhì);⑦其他問題——7類問題,對應(yīng)每一類問題需要建立一個可用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型,其主要包括:

(1)7大類問題集裝箱同諸如:①來源地;②箱主公司;③承運(yùn)人;④貨運(yùn)方式等特征數(shù)據(jù)存在哪些未知的、潛在有用的模式和知識,明確對每類問題集裝箱產(chǎn)生影響的特征數(shù)據(jù),建立一套對應(yīng)各類問題集裝箱的風(fēng)險數(shù)據(jù)字典;

(2)CIQ數(shù)據(jù)庫中并不包含所有的特征數(shù)據(jù),一些重要的特征數(shù)據(jù)需要通過與場站、貨運(yùn)公司的比對才能獲得。同時,要對數(shù)據(jù)進(jìn)行采集、清洗、轉(zhuǎn)換等步驟,建立可以用于數(shù)據(jù)挖掘的數(shù)據(jù)概念模型。

四、風(fēng)險評估模型

對進(jìn)境集裝箱進(jìn)行風(fēng)險評估主要用到數(shù)據(jù)挖掘中的重要分支——分類技術(shù),建立和完善風(fēng)險評估模型關(guān)系到風(fēng)險評估系統(tǒng)研究的成敗,主要研究內(nèi)容如下:

(1)分類技術(shù)有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,結(jié)合檢疫工作實(shí)際選擇合適的算法進(jìn)行數(shù)據(jù)挖掘,并在實(shí)踐中對模型進(jìn)行修正和完善;

(2)選擇和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模塊化分析工具對7類問題集裝箱進(jìn)行逐類數(shù)據(jù)挖掘、建模。

五、典型系統(tǒng)應(yīng)用開發(fā)

基于上述的研究成果,設(shè)計(jì)實(shí)現(xiàn)一個基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險評估管理系統(tǒng),重點(diǎn)關(guān)注下面系統(tǒng),如圖1所示:

(1)面向檢疫查驗(yàn)人員設(shè)計(jì)并實(shí)現(xiàn)一個基于Web技術(shù)的軟件系統(tǒng),通過此軟件,檢疫管理人員可以將已有風(fēng)險評估模型軟件化,系統(tǒng)接收進(jìn)境集裝箱特征數(shù)據(jù),自動對風(fēng)險進(jìn)行預(yù)評估。同時,將用于風(fēng)險評估的數(shù)據(jù)獨(dú)立于CIQ數(shù)據(jù)庫存在,為以后進(jìn)一步完善風(fēng)險評估模型提供數(shù)據(jù)庫支持。

(2)面向檢疫查驗(yàn)人員設(shè)計(jì)并實(shí)現(xiàn)一個軟件終端,考慮到檢疫查驗(yàn)一線人員工作環(huán)境分散、移動的特點(diǎn),重點(diǎn)面向主流嵌入式系統(tǒng)(Apple、Angel、Symban、Windows-Mobile等)和移動終端(如手機(jī)、PDA、iPOD等)展開研發(fā)。

圖 基于數(shù)據(jù)挖掘技術(shù)的風(fēng)險評估系統(tǒng)

六、結(jié)論

針對出入境檢驗(yàn)檢疫部門在對進(jìn)境集裝箱檢疫查驗(yàn)中盲目性大、工作效率低等客觀實(shí)際,研究一個基于數(shù)據(jù)挖掘技術(shù)的進(jìn)境集裝箱風(fēng)險評估模型,并將其軟件化、實(shí)用化,通過軟件自動對進(jìn)境集裝箱進(jìn)行風(fēng)險等級評估,指導(dǎo)日常檢疫查驗(yàn)工作,降低檢驗(yàn)查驗(yàn)的盲目性,提升檢疫查驗(yàn)人員的工作效率,提高把關(guān)成效。

參考文獻(xiàn):

[1]舒軍生.數(shù)據(jù)挖掘技術(shù)在企業(yè)信用分類管理系統(tǒng)中的應(yīng)用.安徽:安徽大學(xué)碩士論文.2010

[2]高燕. 基于數(shù)據(jù)挖掘技術(shù)的海關(guān)執(zhí)法評估系統(tǒng)的研究與開發(fā).武漢:武漢理工大學(xué)碩士論文.2002

篇(5)

論文摘要:隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,作為當(dāng)前計(jì)算機(jī)信息技術(shù)中的一項(xiàng)較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、模式識別、計(jì)算智能、人工智能等多項(xiàng)先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,本文主要講了數(shù)據(jù)挖掘技術(shù)的概念、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法以及數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能等問題。

數(shù)據(jù)挖掘技術(shù)作為當(dāng)前計(jì)算機(jī)信息技術(shù)中的一項(xiàng)較為新興的技術(shù),綜合運(yùn)用了數(shù)理統(tǒng)計(jì)、模式識別、計(jì)算智能、人工智能等多項(xiàng)先進(jìn)技術(shù),主要是從大量的數(shù)據(jù)中來發(fā)現(xiàn)和挖掘一些隱含的有價值的知識,也就是從大型的數(shù)據(jù)庫數(shù)據(jù)中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,數(shù)據(jù)挖掘技術(shù)也是現(xiàn)在智能理論系統(tǒng)的重要研究內(nèi)容,已經(jīng)開始被應(yīng)用于行政管理、醫(yī)學(xué)、金融、商業(yè)、工業(yè)等不同的領(lǐng)域當(dāng)中,在保護(hù)設(shè)備故障信息管理方面發(fā)揮出了積極的作用。

一、數(shù)據(jù)挖掘技術(shù)的概念

隨著數(shù)據(jù)庫技術(shù)和人工智能技術(shù)的不斷進(jìn)步,數(shù)據(jù)挖掘技術(shù)逐步發(fā)展起來,主要是指從大量的數(shù)據(jù)中發(fā)現(xiàn)和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現(xiàn)為模式、規(guī)律、規(guī)則和概念,將數(shù)據(jù)挖掘的所有對象定義成數(shù)據(jù)庫或者是文件系統(tǒng)以及其他的一些組織在一起的數(shù)據(jù)集合,當(dāng)前數(shù)據(jù)挖掘技術(shù)已經(jīng)逐漸被應(yīng)用于了醫(yī)藥業(yè)、保險業(yè)、制造業(yè)、電信業(yè)、銀行業(yè)、市場營銷等不同的領(lǐng)域,隨著計(jì)算技術(shù)、網(wǎng)絡(luò)技術(shù)以及信息技術(shù)的不斷進(jìn)步,在故障診斷過程中所采集到的數(shù)據(jù)可以被廣泛地存儲在不同的數(shù)據(jù)庫當(dāng)中,如果依然采用傳統(tǒng)的數(shù)據(jù)處理方法來對這些海量的信息數(shù)據(jù)進(jìn)行分析處理,不僅會浪費(fèi)大量的實(shí)踐而且也很難挖掘到有效的信息數(shù)據(jù),同時,盡管智能診斷以及專家系統(tǒng)等方式在故障的診斷過程中已經(jīng)被得到了廣泛的應(yīng)用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數(shù)據(jù)挖掘技術(shù)就可以比較有效地來解決這些難題,在故障診斷的過程中發(fā)揮其獨(dú)特的優(yōu)勢。從不同的角度進(jìn)行分析,數(shù)據(jù)挖掘技術(shù)可以分為不同的方法,就目前的發(fā)展現(xiàn)狀來看,常用的數(shù)據(jù)挖掘技術(shù)方法主要有遺傳算法、粗集方法、神經(jīng)網(wǎng)絡(luò)方法以及決策樹方法等。

二、數(shù)據(jù)挖掘技術(shù)在保護(hù)設(shè)備故障信息中的實(shí)現(xiàn)方法

1.基本原理。在設(shè)備出現(xiàn)故障時采用數(shù)據(jù)挖掘技術(shù)對設(shè)備進(jìn)行一系列的故障診斷,也就是說根據(jù)這一設(shè)備的運(yùn)行記錄,對其運(yùn)行的趨勢進(jìn)行預(yù)測,并對其可能存在的運(yùn)行狀態(tài)進(jìn)行分類,故障診斷的實(shí)質(zhì)就是一種模式識別方式,對機(jī)器設(shè)備的故障進(jìn)行診斷的過程也就是該模式匹配和獲取的過程。

2.對故障診斷的數(shù)據(jù)挖掘方法建模。針對機(jī)械故障的診斷來說,首先就應(yīng)當(dāng)獲取一些關(guān)于本機(jī)組的一些運(yùn)行參數(shù),既要包括機(jī)器在正常運(yùn)行以及平穩(wěn)工作時的信息數(shù)據(jù),也應(yīng)當(dāng)包括機(jī)器在出現(xiàn)故障時的一些信息數(shù)據(jù),在現(xiàn)場的監(jiān)控系統(tǒng)中往往就會存在著相應(yīng)的正常工作狀態(tài)下以及出現(xiàn)故障時的不同運(yùn)行參數(shù),而數(shù)據(jù)挖掘的任務(wù)就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內(nèi)在規(guī)律,并且從中提取各自故障的不同特征,在對故障的模式進(jìn)行劃分時,我們通??梢越柚怕式y(tǒng)計(jì)的方式,在對故障模式進(jìn)行識別時可以采用較為成熟的關(guān)聯(lián)規(guī)則理論,實(shí)現(xiàn)變量之間的關(guān)聯(lián)關(guān)系,并最終得到分類所需要用到的一些規(guī)則,從而最終達(dá)到分類的目的,依據(jù)這些規(guī)則,就可以對一些新來的數(shù)據(jù)進(jìn)行判斷,而且可以準(zhǔn)確地對故障進(jìn)行分類,找出故障所產(chǎn)生的原因和解決故障的正確方法。

三、數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理的基本功能

1.數(shù)據(jù)傳輸功能。數(shù)據(jù)挖掘技術(shù)保護(hù)設(shè)備故障信息管理與分析系統(tǒng)的主要數(shù)據(jù)來源就是故障信息的分站系統(tǒng),而分站系統(tǒng)中的數(shù)據(jù)是各個子站的一個數(shù)據(jù)匯總,而保護(hù)設(shè)備故障信息管理與分析系統(tǒng)所采用的獲取數(shù)據(jù)的主要方式就是一些專門的通信程序構(gòu)建起系統(tǒng)與分站之間的聯(lián)系,將分站上的一些匯總數(shù)據(jù)傳輸?shù)焦收闲畔⑾到y(tǒng)的數(shù)據(jù)庫中,分析系統(tǒng)所具有的數(shù)據(jù)傳輸功能,在進(jìn)行數(shù)據(jù)的處理時又能做到不影響原先分站數(shù)據(jù)庫的正常運(yùn)行,并且具備抗干擾能力強(qiáng)、計(jì)算效率高的優(yōu)點(diǎn)。

2.數(shù)據(jù)的分析功能。系統(tǒng)在正常運(yùn)行時,會從故障信息子站或者是分站采集相關(guān)的數(shù)據(jù)并且對這些采集到的數(shù)據(jù)進(jìn)行分析整理,最終得到有用的數(shù)據(jù)信息,利用數(shù)據(jù)挖掘技術(shù)對龐大的故障數(shù)據(jù)進(jìn)行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進(jìn)行有效地存儲和分類。另外,數(shù)據(jù)挖掘技術(shù)還具有信息查詢的功能,可以進(jìn)行不同條件下的查詢,例如按時間段、報(bào)告類型、設(shè)備型號以及單位等進(jìn)行查詢,實(shí)現(xiàn)查詢后的備份轉(zhuǎn)存等,根據(jù)故障信息系統(tǒng)所提供高的數(shù)據(jù)信息以及本系統(tǒng)庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產(chǎn)繼電保護(hù)動作的分析報(bào)告,主要包括對故障過程的簡述、故障切除情況以及保護(hù)動作情況等,可以便于繼電保護(hù)人員直觀的對保護(hù)裝置的動作情況進(jìn)行分析。

四、結(jié)語

隨著企業(yè)自動化程度的不斷提高以及數(shù)據(jù)庫技術(shù)的迅速發(fā)展,很多企業(yè)在一些重要的設(shè)備方面都安裝了監(jiān)測系統(tǒng),對設(shè)備運(yùn)行過程中的一些重要參數(shù)和數(shù)據(jù)進(jìn)行采集,采用數(shù)據(jù)挖掘技術(shù)可以有效地解決設(shè)備故障診斷中的一些知識獲取瓶頸,將數(shù)據(jù)挖掘系統(tǒng)充分應(yīng)用到監(jiān)控系統(tǒng)中,有效解決故障診斷中的一些困難,事實(shí)證明,將數(shù)據(jù)挖掘技術(shù)應(yīng)用到故障診斷中是非常有效的,也是值得研究和學(xué)習(xí)的新型技術(shù)手段。

參考文獻(xiàn):

[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數(shù)據(jù)挖掘技術(shù)的保護(hù)設(shè)備故障信息管理與分析系統(tǒng)[j].電力自動化設(shè)備,2011,9

[2]李建業(yè),劉志遠(yuǎn),蔡乾,趙洪波.基于web的故障信息系統(tǒng)[j].電力信息化,2007,s1

篇(6)

>> 基于網(wǎng)絡(luò)數(shù)據(jù)挖掘的個性化電子商務(wù)推薦系統(tǒng)研究 基于大數(shù)據(jù)的社團(tuán)個性化推薦系統(tǒng) 基于swarm平臺和社交網(wǎng)絡(luò)的電子商務(wù)個性化推薦系統(tǒng)仿真模型的理論構(gòu)建 網(wǎng)絡(luò)數(shù)據(jù)挖掘在圖書館個性化推薦中的應(yīng)用研究 基于個性化推薦的網(wǎng)絡(luò)營銷 基于數(shù)據(jù)挖掘的電子政務(wù)個性化推薦服務(wù)框架研究 基于數(shù)據(jù)挖掘的個性化智能推薦系統(tǒng)應(yīng)用研究 基于社交網(wǎng)絡(luò)的個性化知識服務(wù)模型研究 基于免疫進(jìn)化的網(wǎng)絡(luò)教學(xué)資源個性化推薦系統(tǒng)研究 移動社會網(wǎng)絡(luò)中基于位置的個性化餐館推薦建模研究 基于IPTV的個性化推薦技術(shù)的研究 個性化好友推薦系統(tǒng)在社交網(wǎng)站上的應(yīng)用研究 基于社交網(wǎng)絡(luò)的社會化推薦算法研究 基于個性化混合推薦算法的網(wǎng)絡(luò)推薦系統(tǒng) 基于數(shù)據(jù)挖掘的個性化推薦在SNS中的應(yīng)用 基于Web使用數(shù)據(jù)挖掘的個性化推薦系統(tǒng)設(shè)計(jì) 基于小數(shù)據(jù)的高校圖書館個性化推薦 基于個性化推薦學(xué)習(xí)的網(wǎng)絡(luò)培訓(xùn)教學(xué)課程平臺的設(shè)計(jì)與實(shí)現(xiàn) 基于網(wǎng)絡(luò)學(xué)習(xí)行為的個性化評價研究 社會化標(biāo)簽系統(tǒng)中基于本體的個性化推薦方法研究 常見問題解答 當(dāng)前所在位置:l

[2]張婷婷. 社會化網(wǎng)絡(luò)中人際關(guān)系與人際傳播研究[D].長沙:湖南大學(xué),碩士學(xué)位論文,2012

[3]王萍. 社會化網(wǎng)絡(luò)的信息擴(kuò)散研究[J]. 情報(bào)雜志,2009,28(10):39-42

篇(7)

南京大學(xué)的周志華教授曾專門撰文論述了數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)以及數(shù)據(jù)庫之間的關(guān)系,他提出:數(shù)據(jù)挖掘可以視為機(jī)器學(xué)習(xí)和數(shù)據(jù)庫的交叉,主要利用機(jī)器學(xué)習(xí)界提供的技術(shù)來分析海量數(shù)據(jù),利用數(shù)據(jù)庫界提供的技術(shù)來管理海量數(shù)據(jù)。

組成數(shù)據(jù)挖掘的三大支柱包括統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)和數(shù)據(jù)庫領(lǐng)域內(nèi)的研究成果,其他還包含了可視化、信息科學(xué)等內(nèi)容。不同的教材從不同的方面結(jié)合其基礎(chǔ)學(xué)科知識講述數(shù)據(jù)挖掘技術(shù),不同專業(yè)和技術(shù)背景的學(xué)生或數(shù)據(jù)挖掘研究人員和應(yīng)用人員可以根據(jù)自身的專業(yè)方向選擇不同的數(shù)據(jù)挖掘切入點(diǎn)。下面簡單歸納目前比較主流的數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)方面的教材。

數(shù)據(jù)挖掘:概念與技術(shù)

原書名:Data Mining:Concepts and techniques

作者:Jiawei Han

本書主要從數(shù)據(jù)庫的角度(數(shù)據(jù)管理和數(shù)據(jù)計(jì)算的角度)講解數(shù)據(jù)挖掘,作者Jiawei Han現(xiàn)任UIUC CS Dept.教授。本書第2版在豐富和全面的第1版基礎(chǔ)上進(jìn)行了更新和改進(jìn),并增添了新的重要課題,例如挖掘流數(shù)據(jù)、挖掘社會網(wǎng)絡(luò)和挖掘空間、多媒體和其他復(fù)雜數(shù)據(jù)。本書對數(shù)據(jù)挖掘基本概念、算法及其相關(guān)技術(shù)有比較全面的闡述,是國內(nèi)大多數(shù)高校指定教材,它不要求太高的數(shù)學(xué)基礎(chǔ),非常適合數(shù)學(xué)功底一般的學(xué)生使用。

數(shù)據(jù)挖掘:實(shí)用機(jī)器學(xué)習(xí)技術(shù)(原書第2版)

原書名:Data Mining: Practical Machine Learning Tools and Techniques

作者:Ian H. Witten, Eibe Frank

本書主要從機(jī)器學(xué)習(xí)的角度,也有稱從數(shù)據(jù)挖掘的應(yīng)用實(shí)現(xiàn)角度來講解數(shù)據(jù)挖掘,描述了各種算法、模型及其Java實(shí)現(xiàn),重點(diǎn)是以應(yīng)用的觀點(diǎn)利用案例來說明數(shù)據(jù)挖掘的算法模型,對于具體算法的原理介紹不是非常詳細(xì)。它對數(shù)據(jù)挖掘的Java軟件包Weka有比較深的介紹。該書作者都是Weka項(xiàng)目組主要成員。圖靈獎獲得者Jim Gray如此評價:假如你需要對數(shù)據(jù)進(jìn)行分析和應(yīng)用,本書以及相關(guān)的Weka工具包是一個絕佳的起步。

數(shù)據(jù)挖掘原理

原書名:Principles of Data Mining

作者:David J. Hand

很多學(xué)科都面臨著一個普遍問題,即如何存儲、訪問異常龐大的數(shù)據(jù)集,并用模型來描述和理解它們。這些問題使得人們對數(shù)據(jù)挖掘技術(shù)的興趣不斷增強(qiáng)。長期以來,很多相互獨(dú)立的不同學(xué)科分別致力于數(shù)據(jù)挖掘的各個方面。本書把信息科學(xué)、計(jì)算科學(xué)和統(tǒng)計(jì)學(xué)在數(shù)據(jù)挖掘方面的應(yīng)用融合在一起,是第一本真正跨學(xué)科的教材。主要從統(tǒng)計(jì)學(xué)的角度來解析數(shù)據(jù)挖掘以及其與統(tǒng)計(jì)的關(guān)系。其中如建模、測量、評分函數(shù)、模型等術(shù)語都是從統(tǒng)計(jì)者的角度出發(fā)。書中并沒有具體說明KDD與DM之間的關(guān)系,比較適于統(tǒng)計(jì)系和數(shù)學(xué)系的學(xué)生采用。

機(jī)器學(xué)習(xí)

原書名:Machine Learning

作者:Tom Mitchell

本書是CMU等許多國際知名大學(xué)機(jī)器學(xué)習(xí)課程的教材。目前發(fā)表的各種機(jī)器學(xué)習(xí)專著或論文基本都會引用這本書的內(nèi)容。作者Tom Mitchell是CMU的教授,美國人工智能協(xié)會的主席,《機(jī)器學(xué)習(xí)》雜志和“國際機(jī)器學(xué)習(xí)”年度會議的創(chuàng)始人,他在ML領(lǐng)域久負(fù)盛名。本書也是最經(jīng)典和采用率最高的機(jī)器學(xué)習(xí)教材。本書需要的數(shù)學(xué)基礎(chǔ)也很少,但對必要的背景介紹相當(dāng)豐富,非常適合初學(xué)者。

模式分類(原書第2版)

原書名:Pattern classification