期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊 購物車(0)

首頁 > 精品范文 > 數(shù)據(jù)分析設(shè)計

數(shù)據(jù)分析設(shè)計精品(七篇)

時間:2023-05-24 17:22:44

序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇數(shù)據(jù)分析設(shè)計范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。

數(shù)據(jù)分析設(shè)計

篇(1)

關(guān)鍵詞:習(xí)題設(shè)計;發(fā)展 ;數(shù)據(jù)分析觀念

【中圖分類號】G 【文獻(xiàn)標(biāo)識碼】B 【文章編號】1008-1216(2016)12C-0029-02

簡單的數(shù)據(jù)統(tǒng)計重在讓學(xué)生經(jīng)歷數(shù)據(jù)的收集、整理和分析過程,掌握一些簡單的數(shù)據(jù)處理技能,感受數(shù)據(jù)蘊(yùn)含著的信息,培養(yǎng)初步的數(shù)據(jù)分析觀念。在課堂教學(xué)中,這一核心知識受到教師的足夠重視,然而我們的課堂時間有限,僅僅依靠教材提供的有限的統(tǒng)計活動還不足以發(fā)展學(xué)生的數(shù)據(jù)分析觀念。如果能夠依托統(tǒng)計教學(xué)的核心,靈活設(shè)計習(xí)題,從不同側(cè)重點(diǎn)進(jìn)行有針對性的訓(xùn)練,有意識地讓學(xué)生運(yùn)用數(shù)據(jù)分析解決問題,將能發(fā)展學(xué)生的數(shù)據(jù)分析觀念,使習(xí)題成為教材的有益補(bǔ)充。

一、豐富統(tǒng)計素材,主動收集整理數(shù)據(jù)

培養(yǎng)數(shù)據(jù)分析觀念的首要方面是引導(dǎo)學(xué)生有意識地從數(shù)據(jù)的角度思考有關(guān)問題,就是遇到有關(guān)問題時能夠想到通過設(shè)計簡單的數(shù)據(jù)收集計劃收集所需數(shù)據(jù),解決所求問題,從而體會到數(shù)據(jù)是有用的,數(shù)據(jù)中蘊(yùn)含著我們想要的信息。教師在進(jìn)行練習(xí)設(shè)計時,要考慮不同年齡學(xué)生生活經(jīng)驗(yàn)和認(rèn)知水平的差異,賦予習(xí)題鮮活的背景,激勵學(xué)生主動收集整理數(shù)據(jù)。

在學(xué)習(xí)了簡單的統(tǒng)計圖表之后,我設(shè)計如下統(tǒng)計練習(xí):

夏天到了,吃冰激凌成為很多孩子的愛好,學(xué)校門前的張老板想通過一個調(diào)查來了解哪種口味的冰激凌在我們學(xué)校最流行。

(1)小組討論:要完成這項任務(wù),你們需要做哪些工作?請在下面的表格中,圈出需要的選項。

1 確定調(diào)查時間,設(shè)計調(diào)查用的統(tǒng)計表。

2 以小組為單位,每班隨機(jī)抽取15名學(xué)生,對他們最喜歡的冰激凌進(jìn)行調(diào)查統(tǒng)計。

3 以小組為單位,對我校學(xué)生的年齡進(jìn)行調(diào)查統(tǒng)計。

4 匯總統(tǒng)計表,繪制條形統(tǒng)計圖。

(2)小組合理分工,展開調(diào)查統(tǒng)計。

(3)根據(jù)分析結(jié)果給張老板提出一些建議。對愛吃冰激凌的同學(xué)又會提出什么建議?

吃冰激凌是孩子們的最愛,與學(xué)生的生活密切相關(guān),很容易引起他們的共鳴。學(xué)生意識到要想幫張老板解決這一問題,調(diào)查收集數(shù)據(jù)是必需的,有用的,激發(fā)學(xué)生熱情投身學(xué)習(xí)活動。真實(shí)的統(tǒng)計數(shù)據(jù),會幫助張老板解決現(xiàn)實(shí)的問題。而對愛吃冰激凌的同學(xué)提建議,又有意識地對學(xué)生進(jìn)行健康常識教育。由扶到放的習(xí)題設(shè)計,幫助學(xué)生逐步提高開展實(shí)際調(diào)查的能力。

二、精心設(shè)計問題提高分析數(shù)據(jù)信息能力

從不同角度分析數(shù)據(jù),以便從數(shù)據(jù)中獲得盡可能多的信息,并發(fā)現(xiàn)蘊(yùn)含其中的一些規(guī)律,是數(shù)據(jù)分析觀念的基本內(nèi)涵之一。練習(xí)中通過精心設(shè)計問題串,引導(dǎo)學(xué)生從不同角度理解和分析數(shù)據(jù)信息,感受數(shù)據(jù)分析方法的多樣性,并為發(fā)現(xiàn)和提出更有意義的問題提供機(jī)會。

小明家每兩個月交一次水費(fèi),每次用水的噸數(shù)如下表:

月份 1~2月 3~4月 5~6月 7~8月 9~10月 11~12月

用水量(噸) 8 5 6 16 7 6

根據(jù)上表回答以下問題:

(1)從上表中知道,用水量最多的是哪兩個月份?最少呢?分別占全年總用水量的百分之幾?

(2)全年平均每個月用水多少噸?

(3)根據(jù)生活常識,你能解釋一下為什么7~8月份的用水量最多嗎?

(4)如果想說明7~8月份的用水量比全年的1/4還多,選( )統(tǒng)計圖表示最容易使人明白。

本題中前兩題從一組數(shù)據(jù)的極值入手,大致了解數(shù)據(jù)的分布范圍,對于家庭用水量有個初步了解。然后通過計算解決其中一個月份與全年之間的關(guān)系,并通過平均數(shù)分析用水情況,對于出現(xiàn)的極端情況,嘗試?yán)蒙畛WR進(jìn)行解釋,使學(xué)生體會極端數(shù)據(jù)出現(xiàn)的原因,最后通過選擇統(tǒng)計圖,加深對各種統(tǒng)計圖的特征的把握,進(jìn)一步增強(qiáng)學(xué)生根據(jù)解決問題需要靈活選擇統(tǒng)計圖分析數(shù)據(jù)的能力。

三、連貫使用數(shù)據(jù)提高收集整理數(shù)據(jù)意識

對于同樣的數(shù)據(jù),由于背景和目標(biāo)不同可以有多種分析的方法,需要根據(jù)問題背景選擇合適的方法。每年學(xué)校都會組織學(xué)生進(jìn)行體檢,我將學(xué)生的身高情況及時收集,保存。在解決“ 鐵道部門規(guī)定,兒童身高在120厘米以下乘火車免票,120~150厘米之間享受半價。我們班有多少人乘火車可以享受免票?有多少人需要購買全價票?”這一習(xí)題時,我組織學(xué)生討論并形成一些可行的收集學(xué)生身高的方法,將最近學(xué)生體檢的身高數(shù)據(jù)及時呈現(xiàn)在大屏幕上,學(xué)生感到非常驚訝,感到老師真是個有心人,根據(jù)提供的數(shù)據(jù)學(xué)生很快列表整理信息,順利解決問題,老師這種收集和整理重要數(shù)據(jù)的習(xí)慣,使學(xué)生也受到潛移默化的影響。這時,我進(jìn)一步追問,看到這些身高的數(shù)據(jù),它們還能幫助我們解決什么問題。學(xué)生想到可以了解自己身高在班級處于什么情況,學(xué)??梢愿鶕?jù)身高給我們定做課桌椅,可以定做校服……這時我又呈現(xiàn),定做校服時大號、中號、小號和特號相關(guān)的身高要求,然后讓學(xué)生根據(jù)需要重新對剛才的數(shù)據(jù)進(jìn)行分組整理。通過變換問題情境,使學(xué)生體驗(yàn)到同一數(shù)據(jù)由于要解決的問題不同,整理、分析的方法往往會不同。

到了五年級學(xué)習(xí)了折線統(tǒng)計圖,我再一次將學(xué)生身高情況呈現(xiàn)給學(xué)生,不同的是這次我將每個同學(xué)1~5年級的身高情況都呈現(xiàn)出來,學(xué)生感到非常興奮,“你能將自己這5年的身高情況繪制成折線統(tǒng)計圖嗎?”,學(xué)生繪制非常用心,在組內(nèi)交流近5年身高增長情況時更是積極主動,分析得頭頭是道。這時我又引導(dǎo)學(xué)生根據(jù)自己身高增長情況對六年級的身高進(jìn)行預(yù)測,并學(xué)習(xí)老師,做一個“數(shù)據(jù)收藏家”,記住自己的身高,到時看看自己預(yù)測得準(zhǔn)不準(zhǔn)。

等到六年級復(fù)習(xí)時,我再次呈現(xiàn),學(xué)生將六年來的身高增長情況繪制完整,并檢驗(yàn)自己的預(yù)測,同時對自己15歲時的身高情況再次進(jìn)行預(yù)測,此時,給學(xué)生增加了我市近年來男、女生平均身高增長統(tǒng)計圖,發(fā)現(xiàn)男女生13~15歲身高增長的一些規(guī)律,很多同學(xué)又調(diào)整了預(yù)測。同樣的身高數(shù)據(jù)由于解決的問題不同,分析方法大不相同,對數(shù)據(jù)進(jìn)行橫向及縱向的比較,會使我們的判斷和預(yù)測更準(zhǔn)一些。

四、巧設(shè)矛盾沖突促進(jìn)動手實(shí)驗(yàn)?zāi)芰μ嵘?/p>

游戲是激發(fā)學(xué)生主動參與統(tǒng)計活動的很好方式,在游戲?qū)嶒?yàn)活動中通過數(shù)據(jù)體會概率事件的隨機(jī)性,在教學(xué)可能性時,我設(shè)計這樣一題:

小明和小軍兩人玩游戲,袋子里放有2個和1個,每次任意從中摸出兩個圖形,摸完后放回,如果摸到的兩個圖形能拼成平行四邊形為小明贏,如果能拼成小房子圖形,則是小軍贏。你認(rèn)為這樣的游戲公平嗎?同桌的同學(xué)玩一玩,看看拼成哪種圖形的人贏的次數(shù)多?想想為什么?

游戲中的三個圖形中有兩個是相同的,任意從中摸兩個,結(jié)果只有2種情況,學(xué)生很容易認(rèn)為游戲是公平的,實(shí)際上兩種情況出現(xiàn)的可能性大小不同,極易引發(fā)學(xué)生爭辯,促使學(xué)生主動通過實(shí)驗(yàn)活動求證結(jié)論。動手實(shí)驗(yàn)正是學(xué)生體會隨機(jī)現(xiàn)象的最佳路徑,通過學(xué)生的實(shí)驗(yàn),認(rèn)識到游戲的設(shè)計是不公平的,與原有猜測產(chǎn)生沖突,學(xué)生急于一探究竟,發(fā)現(xiàn)小軍贏的可能性會大一些。當(dāng)然,游戲試驗(yàn)中,也會出現(xiàn)拼成平行四邊形的次數(shù)等于或超過小軍的現(xiàn)象,這一非常規(guī)情形的出現(xiàn)也是體會隨機(jī)現(xiàn)象的重要資源,使學(xué)生深刻體會小軍贏的可能性大一些,游戲是不公平的,但是小軍不會一定贏,更有利于學(xué)生感悟隨機(jī)現(xiàn)象的特點(diǎn)。

五、適度綜合運(yùn)用,全面感受分析數(shù)據(jù)的意義

統(tǒng)計與概率的內(nèi)容和其他數(shù)學(xué)領(lǐng)域的內(nèi)容有著緊密的聯(lián)系。這部分課程的教學(xué),應(yīng)為發(fā)展和運(yùn)用比、分?jǐn)?shù)、百分?jǐn)?shù)、度量、圖像等概念提供活動背景,為培養(yǎng)學(xué)生綜合運(yùn)用知識解決問題能力提供機(jī)會。

王阿姨在汽車銷售公司上班,工資由基本工資和銷售獎金組成,即每銷售1輛汽車給予一定數(shù)量的獎金。下表顯示王阿姨今年3~6月份銷售汽車的輛數(shù)與工資情況:

銷售汽車輛數(shù) 8 10 11 12

月工資(元) 3000 3300 3450 3600

根據(jù)上表提供的信息你能算出王阿姨的基本工資是多少,每銷售1輛汽車的獎金是多少元嗎?

本題緊密聯(lián)系社會生活實(shí)際問題,學(xué)生需要在認(rèn)真理解題意的基礎(chǔ)上,借助計算分析題中的數(shù)量關(guān)系,發(fā)現(xiàn)不同信息之間的聯(lián)系,從而得出正確的計算方法,提升學(xué)生數(shù)據(jù)分析能力,在綜合解決問題的過程中全面感受分析數(shù)據(jù)的意義。

篇(2)

關(guān)鍵詞:數(shù)據(jù)分析;數(shù)據(jù)挖掘;大數(shù)據(jù);云計算

0引言

商業(yè)銀行作為經(jīng)營信用、貨幣的企業(yè),面向的客戶是幾乎全方位的,同時銀行業(yè)的競爭也是異常殘酷的[1]。從網(wǎng)點(diǎn)、ATM、POS、網(wǎng)銀、手機(jī)銀行乃至其他網(wǎng)絡(luò)信息等各類渠道數(shù)據(jù)信息中,挖掘、分析出有效的數(shù)據(jù),可以增加營銷效率、加快產(chǎn)品創(chuàng)新,快人一步擴(kuò)大業(yè)務(wù)發(fā)展空間和市場份額[2]。大數(shù)據(jù)可以使商業(yè)銀行決策由經(jīng)驗(yàn)依賴到數(shù)據(jù)依賴的轉(zhuǎn)變,實(shí)時、深入地把握業(yè)務(wù)和市場動態(tài),從而更加科學(xué)、有效地決策,讓商業(yè)銀行能夠穩(wěn)健、可持續(xù)發(fā)展[3]。大數(shù)據(jù)的挖掘、分析可以有效地提高商業(yè)銀行精細(xì)化管理水平,在風(fēng)險控制、成本核算、資本管理、績效考核等各個方面發(fā)揮出巨大作用,讓經(jīng)營管理能力大幅提升,更理性、更高效、更精確[4]。

1大數(shù)據(jù)技術(shù)

1.1HadoopMapReduce技術(shù)

Hadoop是一種分布式系統(tǒng)的平臺,通過它可以很輕松地搭建一個高效、高質(zhì)量的分布系統(tǒng)[5]。Hadoop的最核心的設(shè)計思想:MapReduce是Hadoop的核心組件之一,Hadoop主要包括2部分:一是分布式文件系統(tǒng)HDFS,HDFS為海量的數(shù)據(jù)提供了存儲;二是分布式計算框MapReduce,為海量的數(shù)據(jù)提供了計算。MapReduce是大規(guī)模數(shù)據(jù)計算的利器,Map和Reduce是它的主要思想,Map負(fù)責(zé)將數(shù)據(jù)打散,Reduce負(fù)責(zé)對數(shù)據(jù)進(jìn)行聚集。Hadoop采用并行工作模式,同時維護(hù)多個工作數(shù)據(jù)副本,確保失敗的節(jié)點(diǎn)能夠重新分布處理,具有可靠、高效、可伸縮、低成本的優(yōu)點(diǎn)。

1.2NOSQL數(shù)據(jù)庫技術(shù)

NOSQL(NotOnlySQL)數(shù)據(jù)庫是指非關(guān)系數(shù)據(jù)庫。這是相對于傳統(tǒng)關(guān)系數(shù)據(jù)庫提出的概念,隨著Web2.0網(wǎng)站的興起,數(shù)據(jù)量越來越大,傳統(tǒng)關(guān)系型數(shù)據(jù)在處理大數(shù)據(jù)、實(shí)時讀寫以及多表聯(lián)查已經(jīng)越來越力不從心,而NOSQL以鍵值對存儲,機(jī)構(gòu)不固定,每個元組可以根據(jù)需要增加、減少鍵值對,減少了時間和空間的開銷,同時NOSQL可以處理大數(shù)據(jù),能夠良好地運(yùn)行在廉價的PC服務(wù)器機(jī)器上,便于擴(kuò)展[7]。

1.3內(nèi)存分析技術(shù)

內(nèi)存分析(In-memoryAnalytics)技術(shù)是在內(nèi)存中直接獲取分析數(shù)據(jù)。隨著64位操作系統(tǒng)的普及,系統(tǒng)可用內(nèi)存大幅度提升,同時由于工藝不斷成熟,內(nèi)存容量不斷,價格不斷下降。由于內(nèi)存容量暴增,人們開始直接將數(shù)據(jù)預(yù)讀到內(nèi)存中,對內(nèi)存中的數(shù)據(jù)進(jìn)行分析加工,而不用如傳統(tǒng)的那樣將數(shù)據(jù)反復(fù)不斷地讀入內(nèi)存、寫入磁盤,從而極大地提升了數(shù)據(jù)分析效率。

2商業(yè)銀行數(shù)據(jù)應(yīng)用現(xiàn)狀

目前,商業(yè)銀行對于大數(shù)據(jù)的挖掘還處于起步階段,沒有一個在設(shè)計之初就目標(biāo)明確的定位于大數(shù)據(jù)挖掘、分析的系統(tǒng)[8]。現(xiàn)有的幾個與數(shù)據(jù)挖掘相關(guān)的管理信息系統(tǒng)有PCRM系統(tǒng)(個人優(yōu)質(zhì)客戶系統(tǒng))、RPTS系統(tǒng)(綜合報表系統(tǒng))、GDP系統(tǒng)(基礎(chǔ)數(shù)據(jù)平臺系統(tǒng))等,這些系統(tǒng)在設(shè)計之初就具有先天的局限性,它們僅僅是針對某個或者某幾個業(yè)務(wù)部門的應(yīng)用開發(fā)的,遠(yuǎn)遠(yuǎn)還談不上大數(shù)據(jù)分析。同時這些系統(tǒng)由于沒有統(tǒng)一的規(guī)劃設(shè)計,物理架構(gòu)大致相同,一些重要數(shù)據(jù),如定期、活期主檔及明細(xì)表全部重復(fù)加工,造成人力、財力的浪費(fèi),效率較低[9]。在上面提到的幾個管理信息系統(tǒng)中,GDP系統(tǒng)是相對比較典型的應(yīng)用,現(xiàn)在對GDP系統(tǒng)物理架構(gòu)和邏輯架構(gòu)進(jìn)行分析。如圖1所示的GDP物理架構(gòu)圖,采用成熟的3層B/S架構(gòu),2臺乃至多臺PC服務(wù)器部署WEB前置服務(wù),做表示層;由1臺小型機(jī)部署應(yīng)用服務(wù)程序,做邏輯層;1臺小型機(jī)上運(yùn)行數(shù)據(jù)庫系統(tǒng),做數(shù)據(jù)訪問層。數(shù)據(jù)庫由控制庫和日終庫組成,其中控制庫使用SYBASEASE庫,將不同的處理任務(wù)劃分成一個個的作業(yè)鏈,作業(yè)鏈中包含不同的作業(yè),通過對作業(yè)和作業(yè)鏈調(diào)度次序進(jìn)行控制;日終庫采用SYBASEIQ庫,對日終數(shù)據(jù)進(jìn)行高效處理??刂茙炫c日終庫可在同一臺小型機(jī)上。2臺PC服務(wù)器使用IBMWebSphere部署高可用集群,提供WEB服務(wù),包含作業(yè)調(diào)度服務(wù)和前臺展示。

3構(gòu)建商業(yè)銀行數(shù)據(jù)分析

系統(tǒng)模型商業(yè)銀行作為傳統(tǒng)金融企業(yè),與新興的互聯(lián)網(wǎng)企業(yè)不同之處在于:行內(nèi)的數(shù)據(jù)中含有許多機(jī)密、隱私的信息,同時無論媒體還是客戶都關(guān)心銀行數(shù)據(jù)的安全性。在數(shù)據(jù)挖掘、分析包括使用的時候,效率與安全的選擇需要慎重考量。為了避免資源的浪費(fèi),本文在設(shè)計模型前,必須對現(xiàn)有數(shù)據(jù)進(jìn)行詳盡分析,剔除重復(fù)、無效的數(shù)據(jù),將有效數(shù)據(jù)進(jìn)行分類。商業(yè)銀行數(shù)據(jù)應(yīng)用中大致可以分為2種類型:一類是高可靠數(shù)據(jù),以數(shù)據(jù)的準(zhǔn)確性為主,需要提供給統(tǒng)計部門、核算部門及監(jiān)管部門,對于這類數(shù)據(jù)我們必須在使用前進(jìn)行數(shù)據(jù)清洗、篩選后,才能夠真正使用;另一類則不需要很精確,只需要一個大致數(shù)量級或者一個大的方向,主要供決策層、管理經(jīng)營層及產(chǎn)品研發(fā)、營銷等部門使用,對于這類數(shù)據(jù)其實(shí)才是真正符合現(xiàn)今大數(shù)據(jù)的概念,無需對數(shù)據(jù)進(jìn)行清洗,可以直接進(jìn)行挖掘。針對側(cè)重于安全可靠和快速高效這2種不同的需求,以及結(jié)合商業(yè)銀行現(xiàn)有技術(shù)發(fā)展,本文設(shè)計出下面2種模型。

3.1高可靠模型

基于商業(yè)銀行對數(shù)據(jù)的精度要求較高,在設(shè)計模型時首先考慮的是數(shù)據(jù)的完整性和安全性,其次才考慮效率等其他的問題。因此,本文對現(xiàn)有成熟和完備的商業(yè)銀行GDP系統(tǒng)3層架構(gòu)和業(yè)務(wù)定位深入分析的基礎(chǔ)上,進(jìn)行了一些改進(jìn),克服現(xiàn)有GDP系統(tǒng)3層結(jié)構(gòu)的不足。

3.2高效率模型

對于商業(yè)銀行精度要求不高,但是非常具有時效性和海量的數(shù)據(jù),不需要考慮數(shù)據(jù)的完整性、安全性。為此,本文使用一些互聯(lián)網(wǎng)的新技術(shù)以及開源的軟件,拋棄原有3層架構(gòu),引入大數(shù)據(jù)挖掘新技術(shù),實(shí)現(xiàn)大數(shù)據(jù)的挖掘需求。

4數(shù)據(jù)分析

當(dāng)將海量的數(shù)據(jù)挖掘出來后,怎樣使用這些數(shù)據(jù)?投入這么多人力、物力當(dāng)然是希望它能帶來更多的收益,怎樣將數(shù)據(jù)變成收益?這就需要對數(shù)據(jù)進(jìn)行分析,結(jié)合自身以及行業(yè)的現(xiàn)狀進(jìn)行分析。在傳統(tǒng)的數(shù)據(jù)中,以少量的數(shù)據(jù)為依據(jù),以數(shù)據(jù)的準(zhǔn)確性為目標(biāo)進(jìn)行的統(tǒng)計工作,其實(shí)這樣的統(tǒng)計是有偏差和片面的。而大數(shù)據(jù)則以海量數(shù)據(jù)為依托,強(qiáng)調(diào)數(shù)據(jù)的完整性、綜合性和復(fù)雜性,通過答題輪廓,捕捉發(fā)展脈絡(luò),確定未來發(fā)展方向。從決策層出發(fā),大數(shù)據(jù)可以為我們更快地找出未來銀行的發(fā)展方向,最大限度地避免在決策方向上出現(xiàn)偏差。一直以來商業(yè)銀行的決策是由個人或小團(tuán)隊進(jìn)行的,但是在這些決策中往往有很多依靠過往的經(jīng)驗(yàn)、主管判斷的,這就帶來決策缺少扎實(shí)的依據(jù),很多決策適合一些地方,但在另外一些地方卻未必很適合。特別是現(xiàn)在科技發(fā)展日新月異,對傳統(tǒng)銀行業(yè)帶來了巨大的沖擊,原來的很多經(jīng)驗(yàn)不但不能帶來幫助,甚至?xí)萍s決策層的思維,決策遠(yuǎn)遠(yuǎn)滿足不了前瞻性、有效性和針對性的要求。

而大數(shù)據(jù)的分析則可以更準(zhǔn)確、更快捷地幫助決策層把握脈絡(luò),從而做出具有前瞻性、及時的、精準(zhǔn)的決策。從管理執(zhí)行層來看,通過大數(shù)據(jù)的分析可以更快捷地推出精品產(chǎn)品,更有效地營銷客戶,更高效的使用行內(nèi)各種資源,提高管理能力,創(chuàng)造更多利潤。通過大數(shù)據(jù)的分析,管理層能夠分析出哪些產(chǎn)品受哪些客戶的喜好,分析各類客戶都有什么需求,可以根據(jù)這些有針對性地開發(fā)一些受客戶歡迎的產(chǎn)品。可以對一些高質(zhì)量的VIP客戶進(jìn)行分析,對他們的資金利用進(jìn)行跟蹤,盡量將資金鏈鎖定在行內(nèi),利用資金空閑時段進(jìn)行中間業(yè)務(wù)的營銷,可以對這些客戶在貸款的利率上進(jìn)行一定幅度的優(yōu)惠等等。可以對基層行、網(wǎng)點(diǎn)人員效率進(jìn)行分析、優(yōu)化,對行內(nèi)的電子設(shè)備,如ATM、POS機(jī)等進(jìn)行分析,在使用量龐大的地方可以加大投放,收回一些效率低下的設(shè)備等等。從監(jiān)管層來看,通過大數(shù)據(jù)的分析可以更加直觀、有效地對商業(yè)銀行的合規(guī)經(jīng)營做出監(jiān)管??梢詮拇髷?shù)據(jù)中對各地的經(jīng)營、營銷費(fèi)用、采購招標(biāo)等需要進(jìn)行監(jiān)管的地方進(jìn)行分析,一旦發(fā)現(xiàn)某個地方有異常情況,就可以進(jìn)行重點(diǎn)關(guān)注、重點(diǎn)監(jiān)管,而不是像以前那樣無差別的監(jiān)管,或者靠經(jīng)驗(yàn)去進(jìn)行監(jiān)管,從而能夠更快、更有效地進(jìn)行監(jiān)管,提前去發(fā)現(xiàn)問題,制止問題事件的擴(kuò)大,為商業(yè)銀行減少損失,更有效保障商業(yè)銀行的利益。

5結(jié)語

大數(shù)據(jù)在商業(yè)銀行決策、生產(chǎn)運(yùn)行和經(jīng)營管理中越來越重要,構(gòu)建商業(yè)銀行自身的大數(shù)據(jù)挖掘、分析系統(tǒng)已經(jīng)迫在眉睫了,如何構(gòu)建大數(shù)據(jù)分析系統(tǒng)、利用分析系統(tǒng)實(shí)現(xiàn)數(shù)據(jù)到價值、利潤的轉(zhuǎn)化,這需要不斷的研究。本文通過深入分析商業(yè)銀行的數(shù)據(jù)分析現(xiàn)狀,總結(jié)其數(shù)據(jù)分析的優(yōu)、缺點(diǎn)。并針對側(cè)重于安全可靠和快速高效2種不同需求,以及結(jié)合商業(yè)銀行現(xiàn)有技術(shù)發(fā)展,設(shè)計了商業(yè)銀行數(shù)據(jù)分析系統(tǒng),使商業(yè)銀行從珍貴數(shù)據(jù)中分析、挖掘?qū)ζ鋺?zhàn)略發(fā)展和業(yè)務(wù)經(jīng)營有巨大推動作用的信息。

參考文獻(xiàn):

[1]薛良飛.云計算在新型信息化系統(tǒng)中的綜合研究[D].濟(jì)南:山東大學(xué),2013.

[2]李斌,黃治國,彭星.利率市場化會降低城市商業(yè)銀行投融資水平嗎?——基于中國24家城市商業(yè)銀行數(shù)據(jù)的實(shí)證研究[J].中南財經(jīng)政法大學(xué)學(xué)報,2015(1):40-47.

[3]方先明,蘇曉珺,孫利.我國商業(yè)銀行競爭力水平研究——基于2010—2012年16家上市商業(yè)銀行數(shù)據(jù)的分析[J].中央財經(jīng)大學(xué)學(xué)報,2014(3):31-38.

[4]劉曉茜.云計算數(shù)據(jù)中心結(jié)構(gòu)及其調(diào)度機(jī)制研究[D].北京:中國科學(xué)技術(shù)大學(xué),2011.[5]陸嘉恒.Hadoop實(shí)戰(zhàn)[M].北京:機(jī)械工業(yè)出版社,2012.

[6]張世明,徐和祥,錢冬明,等.云架構(gòu)模式下“網(wǎng)絡(luò)學(xué)習(xí)空間人人通”體系探析[J].華東師范大學(xué)學(xué)報(自然科學(xué)版),2014(2):30-39.

[7]江務(wù)學(xué),張璟,王志明.云計算及其架構(gòu)模式[J].遼寧工程技術(shù)大學(xué)學(xué)報(自然科學(xué)版),2011(4):575-579.

[8]韓浩.大數(shù)據(jù)技術(shù)在商業(yè)銀行中的運(yùn)用探討[M].蘇州:蘇州大學(xué),2014.

篇(3)

供電服務(wù)是供電企業(yè)的一項重要綜合管理指標(biāo)。在供電服務(wù)管理實(shí)踐活動中,可以發(fā)現(xiàn)供電服務(wù)與營銷業(yè)務(wù)管控、電網(wǎng)運(yùn)行、設(shè)備運(yùn)維、供電能力、電建施工、員工素質(zhì)、工作標(biāo)準(zhǔn)、管理者思維等諸多因素有關(guān),如何將供電服務(wù)管理中存在著的諸多變化和離散因素,運(yùn)用系統(tǒng)的科學(xué)的方法進(jìn)行分析,尋求管理上的精細(xì)化和實(shí)現(xiàn)風(fēng)險最小化,是各級供電企業(yè)所面臨的最迫切最現(xiàn)實(shí)的亟待解決的問題,最終實(shí)現(xiàn)客戶服務(wù)智能化、優(yōu)質(zhì)高效。

【關(guān)鍵詞】互聯(lián)網(wǎng)+ 大數(shù)據(jù)分析 供電服務(wù) 管控系統(tǒng) 設(shè)計與應(yīng)用

目前,供電公司系統(tǒng)中存在著龐大的數(shù)據(jù)分析工作,利用數(shù)據(jù)分析結(jié)果進(jìn)行有效的診斷分析,以更好地指導(dǎo)營銷服務(wù),提升客戶服務(wù)功能,是供電公司必選的最佳途徑和手段,開發(fā)《基于互聯(lián)網(wǎng)+大數(shù)據(jù)分析模式創(chuàng)建供電服務(wù)管控系統(tǒng)》( The design and application of electricity system managing which is basing on ten huge data analysis ),其核心依托設(shè)計是創(chuàng)建大數(shù)據(jù)分析模式的供電服務(wù)管控應(yīng)用系統(tǒng),融合拓展開發(fā)《開放式用電信息服務(wù)平臺的應(yīng)用系統(tǒng)》{《開放式用電信息服務(wù)平臺》(The Opening Electricity Service Platform――簡稱:OEEP系統(tǒng))}是基于互聯(lián)網(wǎng)模式、計算機(jī)通信技術(shù)、GIS地理信息系統(tǒng)、用電信息服務(wù)的開放式面向客戶端的信息平臺,通過開發(fā)利用計算機(jī)、手機(jī)智能式服務(wù)系統(tǒng),在確保電網(wǎng)和營銷管理系統(tǒng)的安全前提下,鏈接供電生產(chǎn)系統(tǒng)、營銷服務(wù)系統(tǒng)與客戶端服務(wù)大數(shù)據(jù)系統(tǒng)信息共享,實(shí)現(xiàn)互聯(lián)網(wǎng)+多媒體的一體化開放式管控系統(tǒng)和公共服務(wù)平臺。

1 供電服務(wù)管控系統(tǒng)設(shè)計思路

1.1 供電服務(wù)管控應(yīng)用系統(tǒng)設(shè)計

(1)建立與營銷系統(tǒng)完整鏈接的營銷服務(wù)主系統(tǒng),基礎(chǔ)數(shù)據(jù)來源和依賴于營銷系統(tǒng)數(shù)據(jù),分類建立不同功能模塊,設(shè)定客觀的量化指標(biāo),加入賽馬博弈競賽評分功能,客觀真實(shí)的反映出各層級供電單位供電服務(wù)業(yè)績,通過營銷服務(wù)在線管控系統(tǒng)實(shí)現(xiàn)綜合評價。

(2)搭建供電服務(wù)應(yīng)用系統(tǒng),實(shí)時實(shí)現(xiàn)首端與末端、縱向與橫向、分級管控的全方位管控和應(yīng)用,開發(fā)手機(jī)客戶端APP下載到每個員工手機(jī)上,達(dá)到供電服務(wù)全天候、全過程的在線操作。

(3)主要實(shí)現(xiàn)功能:供電服務(wù)法規(guī)及政策、信息公開及、工單受理與流轉(zhuǎn)、服務(wù)指標(biāo)體系、競賽積分系統(tǒng)、工作動態(tài)與經(jīng)驗(yàn)推介、綜合評價與獎懲。

(4)供電服務(wù)管控系統(tǒng)設(shè)計上,重點(diǎn)突出系統(tǒng)工程管理思維,力求規(guī)范化、標(biāo)準(zhǔn)化和可操作化,建立相應(yīng)人性化管理的信息保障機(jī)制,對供電服務(wù)提升將會起到很好促進(jìn)作用。

1.2 開放式用電信息服務(wù)平臺

(1)依托互聯(lián)網(wǎng)和計算機(jī)軟件技術(shù),建立GIS地理和供電設(shè)備集成系統(tǒng),實(shí)現(xiàn)模糊查詢實(shí)時鏈接。

(2)采用互聯(lián)網(wǎng)+模式,將95598客戶服務(wù)系統(tǒng)和營銷服務(wù)系統(tǒng)嵌入,經(jīng)過數(shù)據(jù)研判分析,建立開放式的客戶端即時使用和交換界面。

(3)建設(shè)依托計算機(jī)通信系統(tǒng)拓展的電力多樣化、智能化的服務(wù),通過多媒體系統(tǒng)、掌上APP、微信等客戶端系統(tǒng),實(shí)時與金融、氣象、交通等其他資訊系統(tǒng)融合的通訊交換功效。

(4)借助電力系統(tǒng)的調(diào)度D5000系統(tǒng)、生產(chǎn)PMS系統(tǒng)、營銷MIS系統(tǒng)、用電信息采集系統(tǒng)等以及拓展的營配調(diào)貫通系統(tǒng),實(shí)現(xiàn)全方位全天候的停電信息實(shí)時、設(shè)備故障查詢、客戶報修服務(wù)系統(tǒng)合一功能。

2 系統(tǒng)功能性設(shè)計界面

2.1 大數(shù)據(jù)系統(tǒng)性分析

(1)應(yīng)用數(shù)理統(tǒng)計學(xué)原理和解析法開展供電服務(wù)大數(shù)據(jù)分析、篩選、研判操作,通過數(shù)據(jù)分析結(jié)論,以系統(tǒng)的管理理念、科學(xué)的管理方法揭示業(yè)務(wù)管控、運(yùn)行過程、管理現(xiàn)象內(nèi)在規(guī)律性問題,拓展供電服務(wù)領(lǐng)域措施和更大的提升空間。

(2)對供電服務(wù)管理的歸類統(tǒng)計和分析,可以達(dá)到過程清晰,由整體、局部到個性離散元素之間邏輯關(guān)系和關(guān)聯(lián)鏈接實(shí)現(xiàn)了閉環(huán),便于發(fā)現(xiàn)問題,從而改進(jìn)供電服務(wù)管理的統(tǒng)計方法和分析思路。

(3)在供電服務(wù)管理中,能把影響供電服務(wù)指標(biāo)變化的因素,以及諸多因素影響的程度,進(jìn)行量化和篩選出來,有效的解決了投訴事件分析的盲目性和無序性,增強(qiáng)了投訴事件分析和管理流程的針對性、目的性和規(guī)律性,提高了精細(xì)化管理水平和工作效率。

(4)把營銷服務(wù)活動過程中,具有規(guī)律性和關(guān)聯(lián)性的諸多離散因素及物理現(xiàn)象,以及過程化的實(shí)踐控制流程,建立數(shù)據(jù)分析的邏輯鏈接,進(jìn)行分類歸納和運(yùn)算分析,展現(xiàn)不同的管控對象所需要的應(yīng)用界面、過程管控以及個性需求。

2.2 客戶信息服務(wù)平臺

(1)基于互聯(lián)網(wǎng)+模式與計算機(jī)網(wǎng)絡(luò)通信規(guī)約,將GIS地理系統(tǒng)為基本內(nèi)核,實(shí)時進(jìn)行導(dǎo)航鏈接,運(yùn)用多媒體功能界面,在計算機(jī)終端和手機(jī)端加載運(yùn)行。

(2)建立一個個不同數(shù)據(jù)結(jié)構(gòu)的模型,設(shè)計若干程序模塊和接口,實(shí)現(xiàn)內(nèi)置固化和跟蹤嵌入的方式,實(shí)時數(shù)據(jù)鏈接相關(guān)功能模塊,在不同的支撐界面進(jìn)行靈活交互。

(3)鑒于信息安全管控要求,在確保電力網(wǎng)物理隔離和邏輯隔離滿足安全運(yùn)行的情況下,在設(shè)計入口時設(shè)置唯一身份驗(yàn)證和電子鑰匙,有條件的開放調(diào)度、生產(chǎn)和營銷系統(tǒng)數(shù)據(jù)接口,防止發(fā)生數(shù)據(jù)破壞和病毒侵害。

2.3 系統(tǒng)設(shè)計構(gòu)架圖

如圖1、2、3所示。

3 系統(tǒng)功能及性價比

3.1 實(shí)現(xiàn)功能

(1)該系統(tǒng)實(shí)現(xiàn)跨專業(yè)海量的信息資源共享,系統(tǒng)公共管理和專業(yè)個性的管理,實(shí)現(xiàn)專業(yè)融合、互動和協(xié)同,可滿足各級供電公司和不同管理層級的人員管理需求。

(2)該系統(tǒng)可實(shí)現(xiàn)實(shí)時的在線研判、指揮和分析,實(shí)現(xiàn)各層級供電服務(wù)在線實(shí)時跟蹤管控,提升了工作時效性、針對性和真實(shí)性。

(3)開放式的用電信息服務(wù)突破傳統(tǒng)服務(wù)技術(shù)瓶頸,建立了客戶與供公司自由、方便、快捷的服務(wù)通道,對客戶訴求和業(yè)務(wù)辦理實(shí)現(xiàn)在時間和空間上的即時響應(yīng)和一對一服務(wù)。

(4)該系統(tǒng)開發(fā)使用可實(shí)現(xiàn)供電公司各種系統(tǒng)資源的縱橫協(xié)同和拓展延伸,實(shí)現(xiàn)內(nèi)部資源有效應(yīng)用,最大限度的發(fā)揮各系統(tǒng)管理效益和經(jīng)濟(jì)效益,資源高效利用提升了企業(yè)資產(chǎn)良性運(yùn)行成效。

(5)該系統(tǒng)應(yīng)用可提高工作效率,減輕和降低了人員繁重和重復(fù)的工作量,解放了一線人員勞動資源。

3.2 性價比分析

3.2.1 軟硬件投資

一次性投資該系統(tǒng)的開發(fā)費(fèi)用較低,基本上是用于已有的各類系統(tǒng)的接口技術(shù)處理,實(shí)現(xiàn)諸多系統(tǒng)和平臺之間的鏈接,該系統(tǒng)軟件運(yùn)維成本較低,除了已有的各類系統(tǒng)自身的運(yùn)維費(fèi)用外,該系統(tǒng)只需解決接口費(fèi)用即可。

主系統(tǒng)需配置較高標(biāo)準(zhǔn)的新設(shè)備,各級工作站現(xiàn)按照統(tǒng)一標(biāo)準(zhǔn)配置計算機(jī)和交換機(jī)等設(shè)備,即可滿足使用。建議各級供電服務(wù)指揮中心建設(shè)不同規(guī)格的大屏幕監(jiān)控工作室。

3.2.2 應(yīng)用效益分析

(1)該系統(tǒng)開發(fā)后,實(shí)現(xiàn)了全省供電系統(tǒng)技術(shù)服務(wù)資源的整合高效利用,精細(xì)了管控過程和環(huán)節(jié),評價客觀真實(shí),公司的管理效益十分顯著。

篇(4)

【關(guān)鍵詞】智慧倉儲 物聯(lián)網(wǎng) 大數(shù)據(jù)平臺

大型供應(yīng)鏈管理服務(wù)商通常具備多條成熟的運(yùn)輸線路以及遍布全國的貨物倉庫,企業(yè)日益擴(kuò)大的交易規(guī)模和業(yè)務(wù)范圍,各地倉儲和物流運(yùn)輸每日可采集豐富的交易、物流、倉儲、供應(yīng)商等數(shù)據(jù),單一的企業(yè)ERP系統(tǒng)只能完成資源管理,對于海量數(shù)據(jù)的分析和企業(yè)更高要求的數(shù)據(jù)分析能力有限,于是,企業(yè)智慧倉儲大數(shù)據(jù)平臺應(yīng)運(yùn)而生。

本文提出的智慧倉儲運(yùn)營支撐平臺,運(yùn)用了先進(jìn)的RFID技術(shù)、視頻分析技術(shù)及大數(shù)據(jù)分析技術(shù),不僅解決了分散在各處的倉庫智慧化管理,還可將倉庫和物流各類運(yùn)營及管理基礎(chǔ)數(shù)據(jù)同步上傳至大數(shù)據(jù)平臺,實(shí)現(xiàn)倉庫運(yùn)營和管理信息資源的整合與共享,并依托各類基礎(chǔ)信息庫,為企業(yè)管理者提供智能決策支持。

1 智慧倉儲運(yùn)營支撐平臺

智慧倉儲運(yùn)營支撐平臺是一個功能完備的基礎(chǔ)平臺,系統(tǒng)架構(gòu)如下圖所示,分五層結(jié)構(gòu):感知層、傳輸層、數(shù)據(jù)層、服務(wù)層和應(yīng)用層。

1.1 感知層

包括RFID讀寫器、激光雷達(dá)、視頻終端、門禁對講、溫濕度傳感器和警報器。

1.2 傳輸層

采用有線局域網(wǎng)或WIFI無線通信方式與支撐平臺連接并傳輸數(shù)據(jù)。

1.3 數(shù)據(jù)層

包括設(shè)備信息庫、業(yè)務(wù)信息庫、監(jiān)控信息庫和人員信息庫。

1.4 服務(wù)層

包括RFID中間件、ESB總線和第三方接口等模塊,為整個系統(tǒng)的運(yùn)行提供服務(wù)支撐。

1.5 應(yīng)用層

包括倉庫的業(yè)務(wù)管理、安防管理、人員管理、報表分析和系統(tǒng)管理等功能。

通過智慧倉儲運(yùn)營支撐平臺可實(shí)現(xiàn)對貨物入庫、出庫、移庫、盤點(diǎn)等基本業(yè)務(wù)的智能化處理,其中,視頻分析技術(shù)還可實(shí)現(xiàn)倉儲的安防管理、人員管理等功能,不僅實(shí)現(xiàn)了對倉庫的智能化管理,還能夠收集物流和倉儲的各個生產(chǎn)過程和任務(wù)執(zhí)行中產(chǎn)生的運(yùn)營數(shù)據(jù),作為大數(shù)據(jù)分析平臺數(shù)據(jù)源的重要組成部分,為企業(yè)實(shí)現(xiàn)智能分析提供了基礎(chǔ)。

2 智慧倉儲大數(shù)據(jù)應(yīng)用

智慧倉儲運(yùn)營支撐平臺將各地的倉儲運(yùn)營數(shù)據(jù)統(tǒng)一上傳至企業(yè)大數(shù)據(jù)平臺,進(jìn)行分類和對分散及重復(fù)數(shù)據(jù)進(jìn)行篩選、匯總、抽取、挖掘、分析形成物流與倉儲有價值的大數(shù)據(jù),便可應(yīng)用于企業(yè)管控和管理全過程的協(xié)調(diào)、管理、協(xié)同、決策。大數(shù)據(jù)平臺架構(gòu)如下圖所示,分為數(shù)據(jù)源、大數(shù)據(jù)獲取、大數(shù)據(jù)處理、大數(shù)據(jù)服務(wù)四層。

數(shù)據(jù)源層主要實(shí)現(xiàn)采集前端各類感知設(shè)備以及各倉儲運(yùn)營平臺數(shù)據(jù)。

大數(shù)據(jù)獲取層實(shí)現(xiàn)結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)的導(dǎo)入導(dǎo)出。

大數(shù)據(jù)處理層實(shí)現(xiàn)數(shù)據(jù)的分布式存儲和并行計算,并統(tǒng)一提供資源的調(diào)度服務(wù)、訪問服務(wù)、管理監(jiān)控服務(wù)和權(quán)限控制服務(wù)等。

大數(shù)據(jù)應(yīng)用層實(shí)現(xiàn)物流運(yùn)輸調(diào)度、儲位管理、可追溯管理、精準(zhǔn)營銷等各類智慧化應(yīng)用。

2.1 運(yùn)輸調(diào)度

通過大數(shù)據(jù)優(yōu)化任務(wù)發(fā)運(yùn)計劃,使運(yùn)輸任務(wù)最大程度地銜接起來,達(dá)到整個運(yùn)輸網(wǎng)絡(luò)任務(wù)協(xié)調(diào)排程,合理組織運(yùn)輸工作和車輛調(diào)配,提高運(yùn)輸調(diào)度水平。

2.2 儲位管理

通過對產(chǎn)品的進(jìn)出貨數(shù)據(jù)進(jìn)行分析、整理、分類,深度挖掘不同類別之間的相關(guān)關(guān)系,再配合波次作業(yè)手段,優(yōu)化揀貨單,提高倉儲工作效率。

2.3 可追溯管理

借助大數(shù)據(jù)平臺智能分析及智慧倉儲前端采集信息,建立產(chǎn)品檔案,全面直觀地展示品牌形象,借助供應(yīng)鏈系統(tǒng)與電子商務(wù)交易平臺,實(shí)時監(jiān)督產(chǎn)品生產(chǎn)、交易和運(yùn)輸全過程。

2.4 精準(zhǔn)營銷

通過收集各個電子商務(wù)平臺上同類產(chǎn)品的銷售價格、數(shù)量、潛力,以及老客戶的個人資料、交易行為、忠誠度等信息,同時深度挖掘潛在客戶,制定一些優(yōu)惠政策,激發(fā)購買的積極性,定向推送產(chǎn)品信息,實(shí)現(xiàn)精準(zhǔn)營銷。

3 結(jié)束語

基于大數(shù)據(jù)分析的智慧倉儲運(yùn)營支撐平臺,適用于擁有多個分散倉庫的大型企業(yè),不僅使倉庫管理者能夠及時掌握倉庫運(yùn)行情況,更將大數(shù)據(jù)技術(shù)應(yīng)用到物流領(lǐng)域,對于建設(shè)智能倉儲體系,優(yōu)化物流運(yùn)作流程,提升物流倉儲的自動化、智能化水平有著積極的推進(jìn)作用。

參考文獻(xiàn)

[1]肖建輝.淺談倉儲管理[J].物流工程與管理,2010,32(06):130-132.

[2]張仁彬,李玉民.基于物聯(lián)網(wǎng)技術(shù)倉儲管理系統(tǒng)研究[J].物流科技,2011(06):35-38.

[3]宮夏屹,李伯虎,柴旭東,等.大數(shù)據(jù)平臺技術(shù)綜述[J].系統(tǒng)仿真學(xué)報,2014, 26(03):489-496.

篇(5)

關(guān)鍵詞:大數(shù)據(jù) 交易平臺 數(shù)據(jù)資源 數(shù)據(jù)分析服務(wù) 融合

1.引言

目前發(fā)展大數(shù)據(jù)產(chǎn)業(yè)已經(jīng)上升為國家戰(zhàn)略,大數(shù)據(jù)的價值也得到了社會的廣泛認(rèn)可。眾多研究[1-5]表明,大數(shù)據(jù)不僅為政府治理開辟了新思路,還是企業(yè)創(chuàng)新的重要源泉和高??蒲械闹匾巍4髷?shù)據(jù)交易平臺是整個大數(shù)據(jù)產(chǎn)業(yè)的基礎(chǔ)與核心,它使得數(shù)據(jù)資源可以在不同組織之間流動,從而讓單個組織能夠獲得更多、更全面的數(shù)據(jù)。這樣不僅提高了數(shù)據(jù)資源的利用效率,更重要的是,當(dāng)一個組織擁有的數(shù)據(jù)資源不斷豐富和立體化,有助于其通過數(shù)據(jù)分析發(fā)現(xiàn)更多的潛在規(guī)律,從而對內(nèi)提高自身的效率,對外促進(jìn)整個社會的不斷進(jìn)步。

在現(xiàn)有的大數(shù)據(jù)交易平臺上,數(shù)據(jù)供應(yīng)方和需求方各自供需信息,交易雙方瀏覽這些信息,如果發(fā)現(xiàn)合適的交易對象,則進(jìn)行大數(shù)據(jù)資源的買賣,交易平臺只作為信息中介存在。這類大數(shù)據(jù)交易的本質(zhì),其實(shí)是單獨(dú)的大數(shù)據(jù)資源交易,現(xiàn)有平臺可以統(tǒng)稱為第一代大數(shù)據(jù)交易平臺。第一代大數(shù)據(jù)交易平臺在供需平衡、數(shù)據(jù)定價和時效性三個方面都存在較大的不足。本文針對這些不足進(jìn)行改進(jìn),設(shè)計了一種全新的第二代大數(shù)據(jù)交易平臺,命名為:融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺,該平臺將數(shù)據(jù)資源交易與數(shù)據(jù)分析服務(wù)進(jìn)行深度融合,實(shí)現(xiàn)了數(shù)據(jù)與服務(wù)的一體化交易。本研究不僅為當(dāng)下正在建設(shè)的各類大數(shù)據(jù)交易平臺提供有益的借鑒,也豐富了大數(shù)據(jù)交易的基礎(chǔ)理論體系。

2.相關(guān)研究

目前大數(shù)據(jù)交易的相關(guān)研究中,比較有代表性的有:

(1)大數(shù)據(jù)的財產(chǎn)屬性和所有權(quán)。王玉林等[6]對大數(shù)據(jù)的財產(chǎn)屬性展開研究,認(rèn)為大數(shù)據(jù)的法律屬性會直接影響大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,而大數(shù)據(jù)交易實(shí)踐本身就反映出大數(shù)據(jù)具有財產(chǎn)屬性。但大數(shù)據(jù)與傳統(tǒng)的財產(chǎn)權(quán)客體存在較大不同,它符合信息財產(chǎn)的特征,是信息財產(chǎn)權(quán)的客體,應(yīng)受到相關(guān)法律的保護(hù)。齊愛民等[7]從宏觀的角度分析了國家對于其主權(quán)范圍內(nèi)數(shù)據(jù)的所有權(quán),剖析了個人擁有的數(shù)據(jù)權(quán)以及數(shù)據(jù)的財產(chǎn)權(quán)。

(2)大數(shù)據(jù)的定價問題。劉朝陽[8]對大數(shù)據(jù)的定價問題展開研究,首先分析了大數(shù)據(jù)的基本特征、價值特征等定價基礎(chǔ)。接著討論了效用價格論、成本價格論等定價模式。最后分析了大數(shù)據(jù)的定價策略,并對大數(shù)據(jù)定價的雙向不確定問題進(jìn)行了詳細(xì)論述。劉洪玉等[9]認(rèn)為在大數(shù)據(jù)交易過程中,由于缺乏足夠的歷史參考,其數(shù)據(jù)資源的交易價格很難確定,因此提出一種基于競標(biāo)機(jī)制的魯賓斯坦模型,用于大數(shù)據(jù)交易雙方進(jìn)行討價還價,以求達(dá)成一個交易的均衡價格。翟麗麗等[10]從資產(chǎn)的期權(quán)價值角度來評估大數(shù)據(jù)資源的價值,并指出數(shù)據(jù)在不斷變化和更新,加上數(shù)據(jù)的非獨(dú)占性等情況的出現(xiàn),數(shù)據(jù)資產(chǎn)的價值可能會下降,最后綜合這些因素構(gòu)建了一個評估模型來計算數(shù)據(jù)資產(chǎn)的價值。

(3)大數(shù)據(jù)交易的安全與隱私保護(hù)。史宇航[11]認(rèn)為非法的數(shù)據(jù)交易會對個人數(shù)據(jù)等高價值信息的安全造成影響,對非法數(shù)據(jù)交易的購買方和協(xié)助方都應(yīng)進(jìn)行處罰。提出應(yīng)先明確數(shù)據(jù)的法律屬性,再以數(shù)據(jù)交易所為平臺進(jìn)行交易,并對數(shù)據(jù)交易所的法律地位進(jìn)行了分析。殷建立等[12]為應(yīng)對大數(shù)據(jù)時代數(shù)據(jù)采集、交易等過程中的安全問題,綜合考慮技術(shù)、政策和管理平臺等方面的因素,構(gòu)建了一種個人數(shù)據(jù)溯源管理體系,該體系可在數(shù)據(jù)應(yīng)用時實(shí)現(xiàn)個人數(shù)據(jù)的追蹤溯源,從而保護(hù)其個人隱私。王忠[13]認(rèn)為大數(shù)據(jù)環(huán)境下強(qiáng)大的數(shù)據(jù)需求會導(dǎo)致個人數(shù)據(jù)的非法交易,為應(yīng)對這種情況,應(yīng)該建立個人數(shù)據(jù)交易許可機(jī)制,通過發(fā)放交易許可證、拍賣授予等措施實(shí)現(xiàn)隱私保護(hù)。

(4)大數(shù)據(jù)交易的發(fā)展現(xiàn)狀與問題。楊琪等[14]認(rèn)為我國的大數(shù)據(jù)交易還處于行業(yè)發(fā)展的早期,大量數(shù)據(jù)源未被激活,原因是大數(shù)據(jù)產(chǎn)業(yè)價值鏈的各個專業(yè)環(huán)節(jié)發(fā)展滯后,并且對數(shù)據(jù)交易中的安全問題和隱私泄露等有較大的擔(dān)憂。應(yīng)該對數(shù)據(jù)產(chǎn)品進(jìn)行改造,使其更商品化,并且通過政府開放公共數(shù)據(jù)等措施逐漸消除數(shù)據(jù)流通中的安全顧慮。唐斯斯等[15]首先分析了我國大數(shù)據(jù)交易的發(fā)展特點(diǎn)、交易類型等現(xiàn)狀,接著指出目前大數(shù)據(jù)交易存在法律法規(guī)相對滯后、行業(yè)標(biāo)準(zhǔn)不完善、交易平臺定位不明確、數(shù)據(jù)質(zhì)量不高等問題,最后提出應(yīng)加快相關(guān)法律和標(biāo)準(zhǔn)建設(shè),并推動數(shù)據(jù)開放,加強(qiáng)交易方式的創(chuàng)新。

除了上述四個主要研究方向以外,李國杰等[16]從理論的角度分析了大數(shù)據(jù)研究在行業(yè)應(yīng)用和科學(xué)研究方面的重要作用,這從客觀上反映了大數(shù)據(jù)流通的必要性。涂永前等[17]認(rèn)為大數(shù)據(jù)時代企業(yè)管理和運(yùn)用數(shù)據(jù)資源的相關(guān)成本會成為企業(yè)的主要交易成本,這會改變企業(yè)的組織結(jié)構(gòu),并導(dǎo)致企業(yè)邊界的變化,企業(yè)會進(jìn)行多方向的擴(kuò)張,這為促進(jìn)大數(shù)據(jù)產(chǎn)業(yè)發(fā)展的相關(guān)法律的制定提供了理論支持??偟膩砜矗捎诖髷?shù)據(jù)交易本身屬于較新的領(lǐng)域,因此相關(guān)研究總體上較少,已有研究也大多集中在上述幾個研究方向上。實(shí)際上,大數(shù)據(jù)交易平臺是實(shí)現(xiàn)大數(shù)據(jù)交易的重要載體,是大數(shù)據(jù)資源流通轉(zhuǎn)換的主要節(jié)點(diǎn),交易平臺本身需要隨著整個大數(shù)據(jù)產(chǎn)業(yè)的發(fā)展,不斷的改進(jìn)和升級,而現(xiàn)有研究中恰恰缺少對大數(shù)據(jù)交易平臺本身進(jìn)行創(chuàng)新的研究。由此,本文針對現(xiàn)有大數(shù)據(jù)交易平臺的不足,結(jié)合實(shí)際設(shè)計了一種全新的融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺,為實(shí)踐和科研提供借鑒和參考。

3.現(xiàn)有大數(shù)據(jù)交易平臺的不足

大數(shù)據(jù)本身作為一種新興事物,當(dāng)把它作為一種商品進(jìn)行交易時,其交易平臺的設(shè)計很自然會參照傳統(tǒng)的商品交易模式,即:交易雙方先供求信息,再經(jīng)過討價還價,達(dá)到一個均衡的價格則成交,賣方將大數(shù)據(jù)資源經(jīng)過脫敏處理后,交付給買方。目前無論是政府主導(dǎo)的大數(shù)據(jù)交易所,還是企業(yè)或者高校創(chuàng)建的大數(shù)據(jù)交易平臺,都是采用類似的交易模式,這也是第一代大數(shù)據(jù)交易平臺的突出特點(diǎn)。實(shí)際上大數(shù)據(jù)與傳統(tǒng)商品有很大的區(qū)別,照搬傳統(tǒng)商品的交易模式會出現(xiàn)很多問題。本文將從供需平衡、數(shù)據(jù)定價和時效性三個方面分析現(xiàn)有大數(shù)據(jù)交易平臺的不足。

3.1 數(shù)據(jù)供需的錯配

現(xiàn)有大數(shù)據(jù)交易平臺的第一點(diǎn)不足就是數(shù)據(jù)供需的錯配,即:供應(yīng)方提供的數(shù)據(jù)資源往往不是需求方所需要的,而需求方需要的數(shù)據(jù)在交易平臺上找不到,即使有相近的數(shù)據(jù)資源,也存在很大的數(shù)據(jù)缺失或冗余,買回去也無法使用。對數(shù)據(jù)供應(yīng)方來說,由于無法準(zhǔn)確預(yù)知數(shù)據(jù)買方多樣性的需求,它只能從自身角度出發(fā),將可以公開的、并且自認(rèn)為有價值的數(shù)據(jù)資源放到平臺上待售。對需求各異的買方來說,供應(yīng)方提供的標(biāo)準(zhǔn)數(shù)據(jù)很難與自己的應(yīng)用方向精準(zhǔn)匹配,這也是目前大數(shù)據(jù)交易還不夠活躍的原因。當(dāng)然,當(dāng)供需雙方建立初步聯(lián)系以后,供應(yīng)方甚至可以為需求方個性化定制大數(shù)據(jù)資源,但即使這樣,供需錯配的問題仍然無法解決,原因就在于單個的數(shù)據(jù)供應(yīng)方無法提供多維的數(shù)據(jù)資源,只有多維的數(shù)據(jù)資源才具有較高的分析價值。

3.2 大數(shù)據(jù)資源定價困難

大數(shù)據(jù)資源定價困難是現(xiàn)有大數(shù)據(jù)交易平臺的第二點(diǎn)不足。大數(shù)據(jù)資源和普通商品不同,普通商品可以直接消費(fèi)或者作為再加工的原材料,其價值都可以通過最終的消費(fèi)品價格得到體現(xiàn)。而大數(shù)據(jù)本身的價值無法直接衡量,需求方購買它的目的是作為數(shù)據(jù)分析的信息源,但是否能發(fā)現(xiàn)潛在的規(guī)律還未可知。因此無法在購買前,準(zhǔn)確判斷出待售數(shù)據(jù)資源的價值大小。此外,需求方在不確定某大數(shù)據(jù)資源是否能真正能給組織帶來收益情況下,很難給出一個較高的價格,這在客觀上會影響數(shù)據(jù)供應(yīng)方的交易積極性,加大了供需雙方達(dá)成交易的難度。

3.3 數(shù)據(jù)的時效性不強(qiáng)

現(xiàn)有大數(shù)據(jù)交易平臺的第三點(diǎn)不足,就是數(shù)據(jù)資源的時效性不強(qiáng)。目前很多大數(shù)據(jù)交易平臺上待售的數(shù)據(jù)資源都以歷史數(shù)據(jù)為主,這是因?yàn)閿?shù)據(jù)資源在交易前需要經(jīng)歷脫敏處理,將涉及政府信息安全、企業(yè)商業(yè)機(jī)密和個人隱私等敏感信息進(jìn)行變換和替代。此外,供應(yīng)方還需要對原始數(shù)據(jù)進(jìn)行初步的清洗,整理成一定的數(shù)據(jù)格式集中存貯和交付,方便需求方進(jìn)行數(shù)據(jù)分析。由于一般的數(shù)據(jù)供應(yīng)方并不具備對大數(shù)據(jù)進(jìn)行實(shí)時脫敏和清洗的能力,只能將采集到的數(shù)據(jù)資源,經(jīng)過一段時間的離線處理后,再放到交易平臺上,所以只能供應(yīng)歷史數(shù)據(jù)。隨著社會節(jié)奏的不斷加快,歷史數(shù)據(jù)很可能并不能反映當(dāng)下的真實(shí)情況,越來越多的數(shù)據(jù)分析都需要用到實(shí)時數(shù)據(jù)作為信息源,這是未來大數(shù)據(jù)交易必須克服的一個短板。

4.融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺設(shè)計

本文提出將數(shù)據(jù)分析服務(wù)融合到目前的大數(shù)據(jù)交易中,以此來克服現(xiàn)有交易平臺的不足,本節(jié)將首先對數(shù)據(jù)分析服務(wù)進(jìn)行概念界定,再依次介紹平臺設(shè)計的總體思路和核心模塊的設(shè)計,具體如下。

4.1 數(shù)據(jù)分析服務(wù)的概念界定

數(shù)據(jù)分析是指運(yùn)用各類數(shù)據(jù)處理模型和信息技術(shù)手段,對數(shù)據(jù)資源進(jìn)行深度的挖掘,從而發(fā)現(xiàn)其中蘊(yùn)含的規(guī)律,作為管理決策的依據(jù)。數(shù)據(jù)分析本身是一種能力,如果一個組織將其數(shù)據(jù)分析能力提供給其他組織或個人,并收取一定的費(fèi)用,這就是數(shù)據(jù)分析服務(wù)。在大數(shù)據(jù)環(huán)境下,數(shù)據(jù)資源不僅體量巨大而且種類多,對數(shù)據(jù)分析能力的要求不斷提高。在這種情況下,只有少數(shù)組織具備獨(dú)立處理大數(shù)據(jù)的能力,其他的組織比如大量的中小企業(yè),都需要從組織外部尋求專業(yè)的數(shù)據(jù)分析服務(wù),來滿足自身的需要。因此,數(shù)據(jù)分析服務(wù)和大數(shù)據(jù)資源一樣存在巨大的市場需求。

4.2 平臺設(shè)計的總體思路

本文將提出的融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺,定位為第二代大數(shù)據(jù)交易平臺,它將大數(shù)據(jù)資源交易與數(shù)據(jù)分析服務(wù)兩者進(jìn)行深度融合,在交易平臺上實(shí)現(xiàn)數(shù)據(jù)與服務(wù)的一體化交易。大數(shù)據(jù)交易平臺的角色也從原來的數(shù)據(jù)資源買賣的信息中介,轉(zhuǎn)變?yōu)榇髷?shù)據(jù)綜合服務(wù)商。在融合后的大數(shù)據(jù)交易平臺上,數(shù)據(jù)需求方不再提交數(shù)據(jù)資源的需求信息,而是直接提出自己的應(yīng)用方向和想要得到的結(jié)果,交易平臺再根據(jù)需求方的應(yīng)用方向,反向匹配數(shù)據(jù)資源和數(shù)據(jù)分析服務(wù)。這個匹配的過程不是單一的數(shù)據(jù)集或服務(wù)的查找,而是對全平臺的數(shù)據(jù)資源進(jìn)行有效整合,形成高價值的多維數(shù)據(jù),再結(jié)合復(fù)合型的數(shù)據(jù)分析技術(shù),得到最終的分析結(jié)果,最后將分析結(jié)果與基礎(chǔ)數(shù)據(jù)一同交付給需求方。交付基礎(chǔ)數(shù)據(jù)的目的,一是方便需求方進(jìn)行分析結(jié)果的對照,為決策提供更精準(zhǔn)的參考。二是需求方可以根據(jù)基礎(chǔ)數(shù)據(jù)進(jìn)行衍生挖掘,進(jìn)一步提高數(shù)據(jù)的利用效率。平臺設(shè)計的總體思路繪制成圖1。

圖1 平臺設(shè)計的總體思路

4.3 核心模塊的設(shè)計

融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺共劃分為四大模塊,具體如圖2所示。

圖2 融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺的主要模塊

系統(tǒng)管理模塊具體又分為用戶管理、系統(tǒng)維護(hù)和安全管理。安全管理是系統(tǒng)管理模塊的重點(diǎn),主要包含三個方面的功能:第一,負(fù)責(zé)整個交易平臺的系統(tǒng)安全,通過對交易平臺進(jìn)行實(shí)時監(jiān)控,阻止外部的非法入侵行為,保障平臺的正常運(yùn)行。第二,對數(shù)據(jù)供應(yīng)方提交的數(shù)據(jù)資源進(jìn)行審核,如果發(fā)現(xiàn)是非法數(shù)據(jù),則阻止其交易,并及時將有關(guān)情況反饋給相關(guān)的政府監(jiān)管部門,由它們進(jìn)行調(diào)查處理。第三,檢查所有數(shù)據(jù)是否經(jīng)過脫敏處理。如果發(fā)現(xiàn)部分?jǐn)?shù)據(jù)存在未脫敏或者脫敏不合格的情況,交易平臺將負(fù)責(zé)對該數(shù)據(jù)資源進(jìn)行脫敏處理,從而保護(hù)數(shù)據(jù)中的隱私不被泄露。

大數(shù)據(jù)資源池模塊、數(shù)據(jù)分析服務(wù)模塊和協(xié)同模塊是交易平臺的三大核心模塊,是數(shù)據(jù)與服務(wù)兩者融合并實(shí)現(xiàn)一體化交易的關(guān)鍵,本文接下來將對這三個核心模塊的功能進(jìn)行詳細(xì)設(shè)計。

4.3.1 大數(shù)據(jù)資源池模塊

大數(shù)據(jù)資源池模塊主要包含三個方面的功能:數(shù)據(jù)資源格式的整理、數(shù)據(jù)的多維度整合、大數(shù)據(jù)資源的云存貯。具體如下。

(1)數(shù)據(jù)資源格式的整理。由于大數(shù)據(jù)交易平臺上的數(shù)據(jù)資源來自不同的數(shù)據(jù)供應(yīng)方,因此其數(shù)據(jù)資源的格式會有較大的差異。如果不經(jīng)過格式整理就直接進(jìn)行數(shù)據(jù)分析,很可能會因部分?jǐn)?shù)據(jù)無法準(zhǔn)確讀取,而影響數(shù)據(jù)處理的效率,嚴(yán)重者還會導(dǎo)致數(shù)據(jù)分析中斷。數(shù)據(jù)資源格式整理的主要任務(wù)是將同一類型數(shù)據(jù)的格式進(jìn)行統(tǒng)一,對部分缺失的數(shù)據(jù)屬性進(jìn)行補(bǔ)充,對錯誤的數(shù)據(jù)格式進(jìn)行修正。

(2)數(shù)據(jù)的多維度整合。在上文3.1中提到供需錯配的一個重要原因,就是單個數(shù)據(jù)供應(yīng)方無法提供高價值的多維數(shù)據(jù)。所謂多維數(shù)據(jù)是包含用戶或者行業(yè)多個背景和情境的大數(shù)據(jù)資源,這些多維數(shù)據(jù)使用戶或行業(yè)多個側(cè)面的信息產(chǎn)生了關(guān)聯(lián),有利于發(fā)現(xiàn)深層次的潛在規(guī)律。融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺應(yīng)該作為數(shù)據(jù)整合的主體,將單個數(shù)據(jù)供應(yīng)方提供的零散的數(shù)據(jù)資源,進(jìn)行多維度的整合,當(dāng)缺少某一個維度的數(shù)據(jù)時,再向相應(yīng)的數(shù)據(jù)供應(yīng)方進(jìn)行定向的采集,最后得到相對完整的多維數(shù)據(jù),具有很高的分析價值。

(3)大數(shù)據(jù)資源的云存貯。大數(shù)據(jù)資源經(jīng)過格式整理和多維度整合以后,已經(jīng)可以作為數(shù)據(jù)分析服務(wù)的信息源。下一步就是將這些數(shù)據(jù)資源進(jìn)行統(tǒng)一的云存貯,以便數(shù)據(jù)分析服務(wù)調(diào)用。以往部分大數(shù)據(jù)資源由于體量巨大或?qū)崟r更新的需要,無法上傳到交易平臺上,或者只提供部分調(diào)用接口。融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺通過建立云存貯中心,將整合后的多維數(shù)據(jù)進(jìn)行統(tǒng)一存放和調(diào)用,有助于提高數(shù)據(jù)資源的存取效率。

4.3.2 數(shù)據(jù)分析服務(wù)模塊

數(shù)據(jù)分析服務(wù)模塊首先根據(jù)數(shù)據(jù)需求方的應(yīng)用方向,匹配出合適的多維數(shù)據(jù)資源,再選擇相應(yīng)的數(shù)據(jù)分析模型分配所需的計算能力,最后將得到的分析結(jié)果反饋給需求方。本文將數(shù)據(jù)分析服務(wù)劃分為三個大類:基礎(chǔ)性分析服務(wù)、高級分析服務(wù)、深度定制的分析服務(wù)。具體如下。

(1)基礎(chǔ)性分析服務(wù)?;A(chǔ)性分析服務(wù)是指那些常規(guī)的數(shù)據(jù)統(tǒng)計,比如:總體中不同對象的占比分析,基于不同屬性的關(guān)聯(lián)分析或相關(guān)性分析等。這些分析服務(wù)耗時較短,分析技術(shù)較為簡單,只要數(shù)據(jù)資源本身完備,就可以迅速得到結(jié)果?;A(chǔ)性分析服務(wù)由大數(shù)據(jù)交易平臺本身來提供,可以面對不同的需求方,實(shí)現(xiàn)快速交付。

(2)高級分析服務(wù)。高級分析服務(wù)是指那些較為復(fù)雜的數(shù)據(jù)分析服務(wù),比如:精準(zhǔn)的趨勢預(yù)測、全面的用戶興趣畫像、非結(jié)構(gòu)化的信息挖掘等。這些分析服務(wù)需要大量專業(yè)的數(shù)據(jù)處理技術(shù),比如:興趣建模、視頻分析,音頻分析、深度語義分析等,必須由大數(shù)據(jù)交易平臺對接第三方的數(shù)據(jù)分析服務(wù)商,由它們來提供高級分析服務(wù)。大數(shù)據(jù)交易平臺在同一數(shù)據(jù)分析領(lǐng)域,應(yīng)引入多家數(shù)據(jù)分析服務(wù)商,通過動態(tài)的競爭,來保證服務(wù)的質(zhì)量。

(3)深度定制的分析服務(wù)。大數(shù)據(jù)分析目前還處在快速發(fā)展階段,很多前瞻性的技術(shù)還在試驗(yàn)當(dāng)中,應(yīng)該說數(shù)據(jù)分析技術(shù)的發(fā)展相對于旺盛的現(xiàn)實(shí)需求來說是滯后的。當(dāng)需要用的某一數(shù)據(jù)分析技術(shù),在目前的市場上還找不到現(xiàn)成的提供方時,就需要大數(shù)據(jù)交易平臺為其進(jìn)行深度的定制,交易平臺通過多方位的研發(fā)能力評估,尋找合適的技術(shù)主體來進(jìn)行專門的技術(shù)攻關(guān)。

4.3.3 協(xié)同模塊

協(xié)同模塊主要包含兩個方面的功能:數(shù)據(jù)分析服務(wù)之間的技術(shù)協(xié)同、交易各方的管理協(xié)同。具體如下。

(1)數(shù)據(jù)分析服務(wù)之間的技術(shù)協(xié)同。在面臨較為復(fù)雜的數(shù)據(jù)分析任務(wù)時,可能需要用到多個領(lǐng)域的數(shù)據(jù)分析技術(shù),這時單個的數(shù)據(jù)分析服務(wù)商可能無法獨(dú)立完成。因?yàn)椴煌男袠I(yè)領(lǐng)域,都有其行業(yè)技術(shù)的獨(dú)特性,需要長時間的專業(yè)積累。在這種情況下,就需要多個數(shù)據(jù)分析服務(wù)商相互合作才能完成。數(shù)據(jù)分析服務(wù)之間的技術(shù)協(xié)同,就是通過一定的技術(shù)標(biāo)準(zhǔn)和操作規(guī)范,讓多個數(shù)據(jù)分析技術(shù)提供方,能夠在完成同一任務(wù)時,在技術(shù)上不沖突,能夠相互并行的完成對數(shù)據(jù)資源的處理,按時按質(zhì)的交付最終的分析結(jié)果。

(2)交易各方的管理協(xié)同。在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,交易的參與者一共有四類,分別是數(shù)據(jù)資源的供應(yīng)方、數(shù)據(jù)分析服務(wù)商、需求方和交易平臺自身。數(shù)據(jù)需求方在提交自己的應(yīng)用方向和預(yù)期結(jié)果的同時,提交自己的交易預(yù)算。交易平臺根據(jù)需求方提交的應(yīng)用方向和預(yù)期結(jié)果,對數(shù)據(jù)資源和數(shù)據(jù)分析服務(wù)進(jìn)行反向的選擇。如果數(shù)據(jù)分析任務(wù)中只用到了基礎(chǔ)性分析服務(wù),則整個交易為平臺方、需求方、數(shù)據(jù)資源供應(yīng)方的三方交易。如果某數(shù)據(jù)分析任務(wù),平臺自身無法完成,需要用到第三方的數(shù)據(jù)分析服務(wù)商,則整個交易包含了全部四類參與者,是一個四方交易。交易的基本原則是實(shí)現(xiàn)參與各方的利益共享。交易各方的具體利益分配如圖3所示。

圖3 交易各方的利益分配

需求方希望在獲得預(yù)期結(jié)果的同時,其支付的成本在可接受的范圍內(nèi)。交易平臺在對數(shù)據(jù)和服務(wù)進(jìn)行反向匹配后,會出現(xiàn)兩種不同的情況:第一種情況是在原交易預(yù)算下,可以達(dá)到需求方預(yù)期的結(jié)果,則可成交。第二種情況是,原交易預(yù)算較低,在該預(yù)算下無法達(dá)到需求方要求的結(jié)果,這時交易平臺會和需求方溝通,提出新的報價,需求方經(jīng)過考慮后,與平臺進(jìn)行討價還價,它們在價格上達(dá)成一致時才能完成交易。由于交易數(shù)據(jù)是整合后的多維數(shù)據(jù),因此原始數(shù)據(jù)資源供應(yīng)方的收益,由平臺從總交易價中支付,具體的支付方式可分為平臺一次性買斷或按次數(shù)支付。同一數(shù)據(jù)資源對于不同的需求者來說,其價值是不一樣的,融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺根據(jù)最終的一體化交易成交價,反向?qū)?shù)據(jù)資源進(jìn)行定價,相對于現(xiàn)有的大數(shù)據(jù)交易平臺來說,是一種進(jìn)步。交易平臺的深度參與,會使數(shù)據(jù)交易的頻率加快,原始數(shù)據(jù)資源供應(yīng)方會獲得更多的收益。數(shù)據(jù)分析服務(wù)商根據(jù)具體的數(shù)據(jù)分析任務(wù),直接參與由平臺發(fā)起的競價,達(dá)成交易后由平臺支付。交易平臺本身的收益則是需求方支付額減去其他各方收益的差價。

5.融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺的優(yōu)勢

本文3.1到3.3中指出現(xiàn)有大數(shù)據(jù)交易平臺存在數(shù)據(jù)供需錯配、大數(shù)據(jù)資源定價困難、數(shù)據(jù)的時效性不強(qiáng)三大不足。融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺作為改進(jìn)后的第二代大數(shù)據(jù)交易平臺,可以很好地克服上述三點(diǎn)不足。除了這三個方面的優(yōu)勢以外,由于融合后可實(shí)現(xiàn)數(shù)據(jù)與服務(wù)的一體化交易,這將擴(kuò)大交易對象的覆蓋范圍,提升交易的活力,具體如下。

5.1 直接面向應(yīng)用,從根本上避免了數(shù)據(jù)供需的錯配

在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,需求方對交易平臺直接提出應(yīng)用方向和預(yù)期結(jié)果。交易平臺對全平臺的數(shù)據(jù)進(jìn)行多維度整合,如果缺失某個維度的數(shù)據(jù),可以進(jìn)行定向的采集和補(bǔ)充,最后形成高價值的多維數(shù)據(jù)。這些多維數(shù)據(jù)才是真正具有分析價值的數(shù)據(jù)資源,這是單個數(shù)據(jù)供應(yīng)方無法提供的。在得到多維數(shù)據(jù)后,結(jié)合平臺自身和第三方數(shù)據(jù)服務(wù)商的分析能力,得到最終的分析結(jié)果。交易平臺最后交付給需求方的是數(shù)據(jù)分析結(jié)果和基礎(chǔ)數(shù)據(jù),這種直接面向最終應(yīng)用的大數(shù)據(jù)交易方式,從根本上避免了數(shù)據(jù)供需的錯配。

5.2 融合后定價更有根據(jù)

在現(xiàn)有的大數(shù)據(jù)平臺上,數(shù)據(jù)需求方是將數(shù)據(jù)資源買回去以后自己分析,而在購買數(shù)據(jù)資源之前,不能預(yù)知數(shù)據(jù)分析效果的好壞,因此無法進(jìn)行有效的價值判斷,這是定價困難的關(guān)鍵點(diǎn)。在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,需求方不再直接對數(shù)據(jù)資源付費(fèi),而是對最終的數(shù)據(jù)分析結(jié)果付費(fèi),并且數(shù)據(jù)分析結(jié)果是根據(jù)需求方的要求反向定制的,是符合需求方利益的。需求方可以通過評估預(yù)期結(jié)果對自身的重要性或收益的改進(jìn)程度,給出適當(dāng)?shù)慕灰最A(yù)算。交易平臺以該預(yù)算為參照,對數(shù)據(jù)和服務(wù)進(jìn)行選擇,若出現(xiàn)原預(yù)算約束下無法實(shí)現(xiàn)預(yù)期結(jié)果的情況,交易平臺再與需求方進(jìn)行溝通,雙方討價還價后達(dá)成交易。這樣相對于現(xiàn)有的大數(shù)據(jù)交易平臺來說,融合后定價更有依據(jù)。

5.3 融合后可提供實(shí)時數(shù)據(jù)

在融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺上,數(shù)據(jù)資源采用云存貯的模式,由平臺進(jìn)行統(tǒng)一管理,這提高了數(shù)據(jù)資源的安全性。在數(shù)據(jù)安全有保障的前提下,由交易平臺出面和數(shù)據(jù)資源供應(yīng)方進(jìn)行實(shí)時數(shù)據(jù)的對接,將實(shí)時數(shù)據(jù)納入大數(shù)據(jù)資源池中。對于單個的數(shù)據(jù)資源供應(yīng)方來說,實(shí)時的數(shù)據(jù)脫敏難度太大。但大數(shù)據(jù)交易平臺不一樣,它可以利用規(guī)模優(yōu)勢,組建強(qiáng)大的計算能力,對大數(shù)據(jù)資源進(jìn)行實(shí)時的脫敏和清洗,極大地提高了數(shù)據(jù)資源的時效性。

5.4 融合后將擴(kuò)大交易對象的覆蓋范圍,提升交易的活力

融合后可實(shí)現(xiàn)數(shù)據(jù)和服務(wù)的一體化交易,讓很多自身不具備數(shù)據(jù)分析能力的組織和個人,也能方便地利用大數(shù)據(jù),特別是大量的中小企業(yè),這將大大增加交易對象的覆蓋范圍。

交易對象的增多會促進(jìn)交易頻率的增長,從而為數(shù)據(jù)資源供應(yīng)方帶來更多的收益,這樣會提升它們參與交易的積極性,鼓勵它們供應(yīng)更多的數(shù)據(jù)資源,從而提升交易的活力,整個大數(shù)據(jù)交易行業(yè)就形成了正向循環(huán)的良好發(fā)展態(tài)勢。

6結(jié)語

本文對大數(shù)據(jù)交易平臺本身進(jìn)行了改進(jìn)與創(chuàng)新,設(shè)計了一種全新的第二代大數(shù)據(jù)交易平臺,即:融合數(shù)據(jù)分析服務(wù)的大數(shù)據(jù)交易平臺。該交易平臺可以直接面向需求方的應(yīng)用方向,實(shí)現(xiàn)數(shù)據(jù)和服務(wù)的一體化交易,不僅從根本上避免了數(shù)據(jù)供需的錯配,還使大數(shù)據(jù)交易的定價更有依據(jù),平臺的深度參也讓提供實(shí)時數(shù)據(jù)成為可能,這些將從整體上提升大數(shù)據(jù)交易的效率。融合后數(shù)據(jù)和服務(wù)的一體化交易降低了大數(shù)據(jù)應(yīng)用的技術(shù)門檻,鼓勵更多組織和個人參與,增加了交易活力。未來筆者將繼續(xù)關(guān)注大數(shù)據(jù)交易平臺的創(chuàng)新研究,為實(shí)際應(yīng)用和學(xué)術(shù)科研提供更多有益的參考。

參考文獻(xiàn)

[1]趙強(qiáng),單煒.大數(shù)據(jù)政府創(chuàng)新:基于數(shù)據(jù)流的公共價值創(chuàng)造[J].中國科技論壇,2014(12):23-27.

[2]徐繼華,馮啟娜,陳貞汝.智慧政府:大數(shù)據(jù)治國時代的來臨[M].北京:中信出版社,2014.

[3]李文蓮,夏健明.基于“大數(shù)據(jù)”的商業(yè)模式創(chuàng)新[J].中國工業(yè)經(jīng)濟(jì),2013(5):83-95.

[4]侯錫林,李天柱,馬佳,等.大數(shù)據(jù)環(huán)境下企業(yè)創(chuàng)新機(jī)會研究[J].科技進(jìn)步與對策,2014,31(24):82-86.

[5]張峰,張迪.論大數(shù)據(jù)時代科研方法新特征及其影響[J].科學(xué)學(xué)研究,2016,34(2):166-170,202.

[6]王玉林,高富平.大數(shù)據(jù)的財產(chǎn)屬性研究[J]。圖書與情報,2016(1):29-35,43.

[7]齊愛民,盤佳.數(shù)據(jù)權(quán)、數(shù)據(jù)主權(quán)的確立與大數(shù)據(jù)保護(hù)的基本原則[J].蘇州大學(xué)學(xué)報:哲學(xué)社會科學(xué)版,2015(1):64-70.

[8]劉朝陽.大數(shù)據(jù)定價問題分析[J].圖書情報知識,2016(1):57-64.

[9]劉洪玉,張曉玉,侯錫林.基于討價還價博弈模型的大數(shù)據(jù)交易價格研究[J].中國冶金教育,2015(6):86-91.

[10]翟麗麗,王佳妮,何曉燕.移動云計算聯(lián)盟企業(yè)數(shù)據(jù)資產(chǎn)評估方法研究[J].價格理論與實(shí)踐,2016(2):153-156.

[11]史宇航.個人數(shù)據(jù)交易的法律規(guī)制[J].情報理論與實(shí)踐,2016,39(5):34-39.

[12]殷建立,王忠.大數(shù)據(jù)環(huán)境下個人數(shù)據(jù)溯源管理體系研究[J].情報科學(xué),2016,34(2):139-143.

[13]王忠.大數(shù)據(jù)時代個人數(shù)據(jù)交易許可機(jī)制研究[J].理論月刊,2015(6):131-135.

[14]楊琪,龔南寧 .我國大數(shù)據(jù)交易的主要問題及建議[J].大數(shù)據(jù),2015(2):38-48.

篇(6)

· 為什么要做數(shù)據(jù)分析?

· 數(shù)據(jù)分析的目的是什么?

· 數(shù)據(jù)分析的一般過程是怎樣的?

· 有哪些數(shù)據(jù)分析方法?

· 在服務(wù)性行業(yè)里,數(shù)據(jù)分析方法有哪些需要特別注意的地方?

· 在國內(nèi)最容易犯哪些數(shù)據(jù)分析的錯誤?

因筆者能力和精力有限,文章中存在錯誤或沒有詳盡之處,還望各位讀者見諒并懇請及時指正,大家相互學(xué)習(xí)。

(一)數(shù)據(jù)分析的核心作用

根據(jù)國際標(biāo)準(zhǔn)的定義,“數(shù)據(jù)分析是有組織、有目的地收集并分析數(shù)據(jù),通過將數(shù)據(jù)信息化、可視化,使之成為信息的過程,其目的在于把隱藏在看似雜亂無章的數(shù)據(jù)背后的信息集中和提煉出來,從而總結(jié)研究對象的內(nèi)在規(guī)律?!痹趯?shí)際工作中,數(shù)據(jù)分析能夠幫助管理者進(jìn)行判斷和決策,以便采取適當(dāng)策略與行動。

這里需引起關(guān)注的是任何沒有目的或結(jié)果的分析報告都是“忽悠”,都僅僅是沒有靈魂的軀殼!我們經(jīng)??吹絿鴥?nèi)的同事們忙于各種所謂的“數(shù)據(jù)分析報告”,堆砌了大量的圖表和文字,顯得“專業(yè)”、“美觀”,但認(rèn)真研讀后卻發(fā)現(xiàn)缺乏最關(guān)鍵的“分析”過程,更別說什么分析結(jié)果了。顯然大家只是把對事實(shí)的原始描述當(dāng)成了數(shù)據(jù)分析,而實(shí)際上描述原始事實(shí)只是數(shù)據(jù)分析過程的一項內(nèi)容而非全部。數(shù)據(jù)分析不能僅有報表沒有分析,因?yàn)椤坝袌蟊聿坏扔谟蟹治觯蟹治霾淮碛行?zhí)行”,報表只是數(shù)據(jù)的展現(xiàn)形式;數(shù)據(jù)分析也不能僅有分析沒有結(jié)論,沒有結(jié)論的分析無疑“差了一口氣”,對實(shí)際業(yè)務(wù)工作無法產(chǎn)生價值,唯有通過分析得出結(jié)論并提出解決方案才能體現(xiàn)數(shù)據(jù)分析協(xié)助管理者輔助決策的核心作用。因此數(shù)據(jù)分析來源于業(yè)務(wù),也必須反饋到業(yè)務(wù)中去,沒有前者就不存在數(shù)據(jù)分析的基礎(chǔ),沒有后者也就沒有數(shù)據(jù)分析的價值了。

(二)數(shù)據(jù)分析的分類

最常見也是最標(biāo)準(zhǔn)的數(shù)據(jù)分析可分為三大類:描述性數(shù)據(jù)分析、探索性數(shù)據(jù)分析以及驗(yàn)證性數(shù)據(jù)分析。

所謂描述性分析是對一組數(shù)據(jù)的各種特征進(jìn)行分析,以便于描述測量樣本的各種特征及其所代表的總體特征。這種分析要對調(diào)查總體所有變量的有關(guān)數(shù)據(jù)做統(tǒng)計性描述,主要包括數(shù)據(jù)的頻數(shù)分析、數(shù)據(jù)的集中趨勢分析、數(shù)據(jù)離散程度分析、數(shù)據(jù)的分布以及一些基本的統(tǒng)計圖形,比如上個月的平均通話時長是多少,員工離職率是多少等等。

探索性數(shù)據(jù)分析是指對已有數(shù)據(jù)(特別是調(diào)查或觀察得來的原始數(shù)據(jù))在盡量少的先驗(yàn)假定下進(jìn)行探索,通過作圖、制表、方程擬合、計算特征量等手段探索數(shù)據(jù)的結(jié)構(gòu)和規(guī)律的一種數(shù)據(jù)分析方法,側(cè)重于在數(shù)據(jù)之中發(fā)現(xiàn)新的特征,比如呼叫中心的一次解決率和哪些因素相關(guān)?他們背后的驅(qū)動因素又有哪些?哪些因素是“因”、哪些又是“果”等等。

而驗(yàn)證性分析是依據(jù)一定的理論對潛在變量與觀察變量間關(guān)系做出合理的假設(shè),并對這種假設(shè)進(jìn)行統(tǒng)計檢驗(yàn)的現(xiàn)代統(tǒng)計方法,側(cè)重于驗(yàn)證已有假設(shè)的真?zhèn)涡?。?yàn)證性分析是在對研究問題有所了解的基礎(chǔ)上進(jìn)行的,這種了解可建立在理論研究、實(shí)驗(yàn)研究或兩者結(jié)合的基礎(chǔ)上,比如從調(diào)研的結(jié)果來看本月的客戶滿意度比上個月高出2%,是否真是如此;男性客戶的滿意度是否高于女性客戶等等。

(三)數(shù)據(jù)分析的一般過程

通常來講完整的數(shù)據(jù)分析過程可分為以下幾步:明確數(shù)據(jù)分析的目的、采集并處理數(shù)據(jù)、分析及展現(xiàn)數(shù)據(jù)、撰寫分析報告。

現(xiàn)實(shí)情況中人們往往在做數(shù)據(jù)分析時陷入一大堆雜亂無章的數(shù)據(jù)中而忘記了分析數(shù)據(jù)的目的,數(shù)據(jù)分析第一步就是要明確數(shù)據(jù)分析的目的,然后根據(jù)目的選擇需要分析的數(shù)據(jù),明確數(shù)據(jù)分析的產(chǎn)出物,做到有的放矢、一擊即中!

其次,在做數(shù)據(jù)分析時要根據(jù)特定需求采集數(shù)據(jù),有目的地采集數(shù)據(jù)是確保數(shù)據(jù)分析過程有效的基礎(chǔ),采集后的數(shù)據(jù)(包括數(shù)值的和非數(shù)值的)要對其進(jìn)行整理、分析、計算、編輯等一系列的加工和處理,即數(shù)據(jù)處理,數(shù)據(jù)處理的目的是從大量的、可能是難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對于某些特定人群來說是有價值、有意義的數(shù)據(jù)。

接著是對處理完畢的數(shù)據(jù)進(jìn)行分析和展現(xiàn),分析數(shù)據(jù)是將收集的數(shù)據(jù)通過加工、整理和分析、使其轉(zhuǎn)化為信息,數(shù)據(jù)展現(xiàn)的方式有兩類:列表方式、圖形方式。

最后,整個數(shù)據(jù)分析過程要以“分析報告”的形式呈現(xiàn)出來,分析報告應(yīng)充分展現(xiàn)數(shù)據(jù)分析的起因、過程、結(jié)果及相關(guān)建議,需要有分析框架、明確的結(jié)論以及解決方案。數(shù)據(jù)分析報告一定要有明確的結(jié)論,沒有明確結(jié)論的分析稱不上分析,同時也失去了報告的意義,因?yàn)檎麄€數(shù)據(jù)分析過程就是為尋找或者求證一個結(jié)論才進(jìn)行的。最后,分析報告要有建議或解決方案,以供管理者在決策時作參考。

(四)客戶中心常用的數(shù)據(jù)分析工具及簡介1 Excel

Excel是微軟辦公套裝軟件的一個重要組成部分,它可以進(jìn)行各種數(shù)據(jù)的處理、統(tǒng)計分析和輔助決策操作,廣泛地應(yīng)用于管理、統(tǒng)計財經(jīng)、金融等眾多領(lǐng)域。Excel提供了強(qiáng)大的數(shù)據(jù)分析處理功能,利用它們可以實(shí)現(xiàn)對數(shù)據(jù)的排序、分類匯總、篩選及數(shù)據(jù)透視等操作。

2 SPC

SPC(Statistical Process Control)即統(tǒng)計過程控制,是一種借助數(shù)理統(tǒng)計方法的過程控制工具。實(shí)施SPC的過程一般分為兩大步驟:首先用SPC工具對過程進(jìn)行分析,如繪制分析用控制圖等;根據(jù)分析結(jié)果采取必要措施:可能需要消除過程中的系統(tǒng)性因素,也可能需要管理層的介入來減小過程的隨機(jī)波動以滿足過程能力的需求。第二步則是用控制圖對過程進(jìn)行監(jiān)控。

3 SAS

SAS是用于決策支持的大型集成信息系統(tǒng),但該軟件系統(tǒng)最早的功能限于統(tǒng)計分析,時至今日,統(tǒng)計分析功能仍是它的重要組成部分和核心功能。在數(shù)據(jù)處理和統(tǒng)計分析領(lǐng)域,SAS系統(tǒng)被譽(yù)為國際上的標(biāo)準(zhǔn)軟件系統(tǒng),SAS提供多個統(tǒng)計過程,用戶可以通過對數(shù)據(jù)集的一連串加工實(shí)現(xiàn)更為復(fù)雜的統(tǒng)計分析,此外 SAS還提供了各類概率分析函數(shù)、分位數(shù)函數(shù)、樣本統(tǒng)計函數(shù)和隨機(jī)數(shù)生成函數(shù),使用戶能方便地實(shí)現(xiàn)特殊統(tǒng)計要求。

4 JMP

JMP是SAS(全球最大的統(tǒng)計學(xué)軟件公司)推出的一種交互式可視化統(tǒng)計發(fā)現(xiàn)軟件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等強(qiáng)大的產(chǎn)品線,主要用于實(shí)現(xiàn)統(tǒng)計分析。其算法源于SAS,特別強(qiáng)調(diào)以統(tǒng)計方法的實(shí)際應(yīng)用為導(dǎo)向,交互性、可視化能力強(qiáng),使用方便。JMP的應(yīng)用非常廣泛,業(yè)務(wù)領(lǐng)域包括探索性數(shù)據(jù)分析、六西格瑪及持續(xù)改善(可視化六西格瑪、質(zhì)量管理、流程優(yōu)化)、試驗(yàn)設(shè)計、統(tǒng)計分析與建模、交互式數(shù)據(jù)挖掘、分析程序開發(fā)等。 SPSS(Statistical Product and Service Solutions)“統(tǒng)計產(chǎn)品與服務(wù)解決方案”軟件,是世界上最早的統(tǒng)計分析軟件,基本功能包括數(shù)據(jù)管理、統(tǒng)計分析、圖表分析、輸出管理等等。SPSS統(tǒng)計分析過程包括描述性統(tǒng)計、均值比較、一般線性模型、相關(guān)分析、回歸分析、對數(shù)線性模型、聚類分析、數(shù)據(jù)簡化、生存分析、時間序列分析、多重響應(yīng)等幾大類,每類中又分好幾個統(tǒng)計過程,比如回歸分析中又分線性回歸分析、曲線估計、Logistic回歸、Probit回歸、加權(quán)估計、兩階段最小二乘法、非線性回歸等多個統(tǒng)計過程,而且每個過程中又允許用戶選擇不同的方法及參數(shù),SPSS也有專門的繪圖系統(tǒng),可以根據(jù)數(shù)據(jù)繪制各種圖形。

6 Minitab

Minitab軟件是為質(zhì)量改善、教育和研究應(yīng)用領(lǐng)域提供統(tǒng)計軟件和服務(wù)的先導(dǎo),是全球領(lǐng)先的質(zhì)量管理和六西格瑪實(shí)施軟件工具,具有無可比擬的強(qiáng)大功能和簡易的可視化操作,對一般的數(shù)據(jù)分析和圖形處理都可以應(yīng)付自如。

篇(7)

【關(guān)鍵詞】 大數(shù)據(jù) HDFS MapReduce CIMS

一、研究背景

工業(yè)化和計算機(jī)技術(shù)的發(fā)展,使制造系統(tǒng)每天產(chǎn)生的數(shù)據(jù)量不斷增加,整個制造業(yè)產(chǎn)生的數(shù)據(jù)量遠(yuǎn)高于其他行業(yè)[1]。面對日益復(fù)雜的制造業(yè)生產(chǎn)系統(tǒng),通過保存其運(yùn)行過程中的中間數(shù)據(jù),并對數(shù)據(jù)進(jìn)行研究,能夠解決當(dāng)前的系統(tǒng)建模手段無法解決的問題。傳統(tǒng)的數(shù)據(jù)分析方案一般先將數(shù)據(jù)保存到關(guān)系型數(shù)據(jù)庫中,然后借助聯(lián)機(jī)分析、處理等手段為決策提供支持[2]。

當(dāng)面對制造業(yè)的海量數(shù)據(jù)時,可能會有如下缺陷[3]:

(1)數(shù)據(jù)來自不同地區(qū)的工作站、傳感器等,而且數(shù)據(jù)格式不統(tǒng)一,既有結(jié)構(gòu)化數(shù)據(jù),也有非結(jié)構(gòu)化數(shù)據(jù),不利于處理;

(2)聯(lián)機(jī)分析處理過程中會有大量的數(shù)據(jù)移動操作,當(dāng)數(shù)據(jù)量達(dá)到PB級時,大量數(shù)據(jù)移動造成的開銷變得難以接受。

因此,有必要研究并實(shí)現(xiàn)一個能夠合并存儲異構(gòu)數(shù)據(jù)、并且可以完成基于大數(shù)據(jù)的CIMS數(shù)據(jù)分析處理的平臺。本文將Hadoop大數(shù)據(jù)技術(shù)引入到CIMS海量工業(yè)數(shù)據(jù)的監(jiān)測和分析中。

二、研究現(xiàn)狀

范劍青[4]闡述了大數(shù)據(jù)獨(dú)有的特點(diǎn),說明大數(shù)據(jù)提供的海量數(shù)據(jù)給統(tǒng)計、處理以及統(tǒng)計估算和檢驗(yàn)帶來的問題。Jiang 等人[5]對電子商務(wù)網(wǎng)站的大量商品數(shù)據(jù)進(jìn)行分析處理,提出了基于Hadoop的協(xié)同過濾算法。

Duke能源公司模擬大數(shù)據(jù)解決方案,使維護(hù)專家遠(yuǎn)程觀看設(shè)備和記錄異常指數(shù),甚至可以及時采取糾正操作,但還不能真正實(shí)現(xiàn)大數(shù)據(jù)分析和處理平臺。通用電氣(GE)于2013年推出其大數(shù)據(jù)分析平臺,用以將云平臺中的工業(yè)機(jī)器產(chǎn)生的海量數(shù)據(jù)轉(zhuǎn)化為實(shí)時信息,此平臺可以認(rèn)為是第一個能夠真正管理工業(yè)海量數(shù)據(jù)的平臺,但是難以處理來自多個數(shù)據(jù)源的數(shù)據(jù)。美國國家儀器公司和IBM聯(lián)手推出InfoSphereStreams大數(shù)據(jù)解決方案,能夠以很高的數(shù)據(jù)吞吐率分析來自多個數(shù)據(jù)源的信息,但其處理帶有一定的數(shù)據(jù)延時,實(shí)時性不佳。

為解決海量數(shù)據(jù)處理時的實(shí)時性問題,本文擬采用開源的Storm流處理技術(shù),并借助類SQL和Piglatin等過程化語言擴(kuò)展,以實(shí)時監(jiān)控整個大數(shù)據(jù)平臺。

三、大數(shù)據(jù)技術(shù)在CIMS監(jiān)測與分析平臺中的設(shè)計

工業(yè)應(yīng)用數(shù)據(jù)在數(shù)據(jù)量上遠(yuǎn)超普通應(yīng)用,其海量數(shù)據(jù)存儲的要求超過了傳統(tǒng)的關(guān)系型數(shù)據(jù)庫的存儲能力。另外,工業(yè)應(yīng)用數(shù)據(jù)也由傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)擴(kuò)展到結(jié)構(gòu)化、半結(jié)構(gòu)化以及非結(jié)構(gòu)化數(shù)據(jù)并存,對這些數(shù)據(jù)格式以及數(shù)據(jù)類型都存在不同的工業(yè)數(shù)據(jù)進(jìn)行采集、分析和處理的方式有別于傳統(tǒng)方式,因此需要對監(jiān)測和分析平臺進(jìn)行設(shè)計,從軟件結(jié)構(gòu)、通信方式以及數(shù)據(jù)存儲方式等各個方面進(jìn)行分析。

3.1 CIMS海量數(shù)據(jù)監(jiān)測與分析平臺的設(shè)計

在將大數(shù)據(jù)技術(shù)應(yīng)用于CIMS海量數(shù)據(jù)的監(jiān)測與分析時,海量的工業(yè)數(shù)據(jù)不再存放在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫,而是存放到HDFS分布式文件系統(tǒng)上。因此,軟件結(jié)構(gòu)設(shè)計要與Hadoop的HDFS文件系統(tǒng)相對應(yīng)。

3.1.1 軟件結(jié)構(gòu)

本文設(shè)計的CIMS海量工業(yè)數(shù)據(jù)監(jiān)測和分析平臺(以下簡稱“平臺”)采用Master-slave主從架構(gòu),Hadoop集群的NameNode節(jié)點(diǎn)作為監(jiān)測和分析平臺的管理節(jié)點(diǎn),完成數(shù)據(jù)采集、數(shù)據(jù)分析等各功能的功能模塊是工作節(jié)點(diǎn)。管理節(jié)點(diǎn)管理整個集群的相關(guān)信息,并維護(hù)包括節(jié)點(diǎn)的主機(jī)名、IP地址等機(jī)器狀態(tài)。工作節(jié)點(diǎn)可以根據(jù)工業(yè)應(yīng)用的需求進(jìn)行靈活的配置,也可以動態(tài)增加或減少。

平臺主要分為如下部分[6]:客戶端、消息中間件、數(shù)據(jù)查詢模塊、數(shù)據(jù)分析模塊、數(shù)據(jù)采集模塊以及Hadoop集群??蛻舳私邮沼脩粽埱?,向平臺發(fā)出任務(wù)請求;數(shù)據(jù)采集模塊、數(shù)據(jù)查詢模塊以及數(shù)據(jù)分析模塊是平臺的功能組件,分別提供工業(yè)大數(shù)據(jù)分析流程中的對應(yīng)功能[7]:數(shù)據(jù)采集模塊對外提供數(shù)據(jù)的訪問接口,其功能是從不同的數(shù)據(jù)源獲取數(shù)據(jù),并將這些數(shù)據(jù)存儲到Hadoop的HDFS文件系統(tǒng)上。

數(shù)據(jù)查詢模塊從HDFS文件系統(tǒng)中查詢數(shù)據(jù)的存儲索引,并返回給數(shù)據(jù)分析模塊;數(shù)據(jù)分析模塊中實(shí)現(xiàn)不同的數(shù)據(jù)分析配置方法,并交由MapReduce框架分布式地實(shí)現(xiàn)數(shù)據(jù)分析任務(wù)。

3.1.2 系統(tǒng)功能模塊

平臺中監(jiān)測和分析的數(shù)據(jù)一般都是離散數(shù)據(jù),所以選擇消息中間件作為通信管理模塊,消息中間件實(shí)現(xiàn)平臺中各個模塊間的通信。

以功能節(jié)點(diǎn)上線為例,由于管理節(jié)點(diǎn)存儲了所有節(jié)點(diǎn)的狀態(tài)信息,所以為保證整個集群信息的一致性,功能節(jié)點(diǎn)上線時需要先向管理節(jié)點(diǎn)注冊其信息,管理節(jié)點(diǎn)會向消息中間件訂閱“注冊”這一主題,消息中間件接收到訂閱請求后會創(chuàng)建相應(yīng)的隊列,并持續(xù)監(jiān)聽此隊列的消息情況。消息隊列中的消息是以文本格式存在的,本文的消息傳遞方式采用XML。平臺中的操作請求都會發(fā)送給任務(wù)管理模塊,由其解析后,再發(fā)送給相應(yīng)的功能模塊執(zhí)行。

數(shù)據(jù)采集模塊從基于HDFS文件系統(tǒng)的Hbase數(shù)據(jù)庫中獲取來自客戶端的數(shù)據(jù),由于工業(yè)數(shù)據(jù)的采集并發(fā)量可能比較大,因此要在采集端部署大量數(shù)據(jù)庫;除此之外,ETL工具負(fù)責(zé)將異構(gòu)數(shù)據(jù)源的數(shù)據(jù)抽取處理進(jìn)行數(shù)據(jù)清洗。Hadoop上的數(shù)據(jù)分析模塊能夠完成多維分析,由于MapReduce的具備很強(qiáng)的并行處理能力,因此分析維度的增加并不會使數(shù)據(jù)分析的開銷顯著增加,這無疑是傳統(tǒng)的數(shù)據(jù)分析平臺所無可比擬的。

3.1.3 數(shù)據(jù)存儲方式

傳統(tǒng)的關(guān)系型數(shù)據(jù)庫不能很好的支持結(jié)構(gòu)化和半結(jié)構(gòu)化的數(shù)據(jù),HDFS分布式文件系統(tǒng)克服了這一缺陷,將非結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)都以文件形式存放,實(shí)現(xiàn)了廉價而又可靠數(shù)據(jù)存儲。

工業(yè)數(shù)據(jù)可能來自多個不同的數(shù)據(jù)源,平臺借助中間件屏蔽了它們之間的異構(gòu)性,然后將這些原本異構(gòu)的數(shù)據(jù)存儲到HDFS文件系統(tǒng)中。這種異構(gòu)數(shù)據(jù)存儲方式不需要昂貴的存儲設(shè)備,廉價的服務(wù)器即可組成可靠的存儲集群;另外,存儲集群節(jié)點(diǎn)同時還是Hadoop集群的工作節(jié)點(diǎn),提高了數(shù)據(jù)存儲節(jié)點(diǎn)的利用率[8]。

四、大數(shù)據(jù)技術(shù)在CIMS監(jiān)測與分析平臺的性能優(yōu)化

軟件工程思想中,不能只設(shè)計軟件的結(jié)構(gòu),同時要對軟件進(jìn)行不斷優(yōu)化。平臺集中了多個數(shù)據(jù)來源的數(shù)據(jù),因此平臺間的數(shù)據(jù)傳遞吞吐量比較大;另外,平臺各個組件間的網(wǎng)絡(luò)依賴關(guān)系比較復(fù)雜,合理分配網(wǎng)絡(luò)資源對提升平臺性能有重要的影響。

系統(tǒng)動力學(xué)研究復(fù)雜系統(tǒng)的結(jié)構(gòu)、功能以及動態(tài)行為模式,可以利用系統(tǒng)動力學(xué)的相關(guān)原理和方法,對本文設(shè)計的平臺進(jìn)行模擬仿真研究。

在進(jìn)行實(shí)際的大數(shù)據(jù)平臺仿真分析時,為搭建Hadoop集群本文配置4臺服務(wù)器,其中一臺作為NameNode,其他服務(wù)器作為DataNode。具體的配置信息如表1所示:

系統(tǒng)動力學(xué)分析軟件系統(tǒng)的基本思路是把與系統(tǒng)相關(guān)的網(wǎng)絡(luò)變量轉(zhuǎn)換為因果圖及流圖,因果圖表征了變量間的相互影響關(guān)系,流圖說明了變量的反饋積累;然后利用DYNAMO方程描述變量間的關(guān)系。因果圖反應(yīng)了平臺中的反饋回路的正負(fù)極性,表示出系統(tǒng)元素間基本的相互影響關(guān)系。

基于以上分析,對本文設(shè)計的平臺進(jìn)行系統(tǒng)動力學(xué)分析如下:由于平臺是一個非線性時變系統(tǒng),影響其性能的因素不僅包括管理節(jié)點(diǎn)、消息中間件、Hadoop集群等,還包含網(wǎng)絡(luò)帶寬、服務(wù)器配置等客觀因素。根據(jù)系統(tǒng)建模目的,可以知道系統(tǒng)邊界應(yīng)該包括如下因素:用戶請求數(shù)目、數(shù)據(jù)采集模塊采集到的輸入數(shù)據(jù)、消息中間件隊列中的消息數(shù)量、消息中間件路由消息的延遲、Hadoop集群的性能等。

平臺的系統(tǒng)邊界確定后,接下來需要分析系統(tǒng)邊界內(nèi)的元素間的影響關(guān)系,以及它們之間是否有因果關(guān)系。經(jīng)分析可知,用戶請求的增加會導(dǎo)致消息中間件隊列中的消息增加,而消息中間件路由消息的延遲降低會降低系統(tǒng)中消息傳遞的整體時延。

消息中間件的工作性能和系統(tǒng)各個模塊的工作時延組成正反饋回路,說明消息中間件和系統(tǒng)模塊是正相關(guān)的,所以平臺整體性能的提升依賴于消息中間件和系統(tǒng)模塊的合理資源配置。

消息中間件的各種配置參數(shù),比如響應(yīng)速度、吞吐量等參數(shù)對提升平臺的分析性能影響很大,在優(yōu)化消息中間件的各種參數(shù)后,比較本文設(shè)計的基于大數(shù)據(jù)的數(shù)據(jù)分析平臺和傳統(tǒng)的工業(yè)數(shù)據(jù)平臺的性能,在同時對PB級別的工業(yè)數(shù)據(jù)進(jìn)行分析時,當(dāng)CPU數(shù)目相同時,響應(yīng)速度的結(jié)果如表2所示:

對于不同的數(shù)據(jù)級別,兩種大數(shù)據(jù)平臺的處理效果如表3所示:

由結(jié)果可知,在處理相同的數(shù)據(jù)量時,在響應(yīng)速度的性能上,本文設(shè)計的工業(yè)數(shù)據(jù)分析平臺要優(yōu)于傳統(tǒng)的數(shù)據(jù)分析平臺。

當(dāng)處理不同的數(shù)據(jù)量時,隨著數(shù)據(jù)量的增加,傳統(tǒng)的大數(shù)據(jù)處理平臺的處理時間也呈現(xiàn)顯著增加,而本文設(shè)計的大數(shù)據(jù)處理平臺處理時間是線性的,明顯優(yōu)于傳統(tǒng)大數(shù)據(jù)處理平臺。

五、總結(jié)與展望

本文首先介紹了Hadoop大數(shù)據(jù)技術(shù),分析了其HDFS文件系統(tǒng)和MapReduce計算框架;

接下來對基于大數(shù)據(jù)技術(shù)的CIMS海量工業(yè)數(shù)據(jù)監(jiān)測和分析平臺進(jìn)行設(shè)計,從軟件結(jié)構(gòu)、通信方式以及數(shù)據(jù)存儲方式等各個方面進(jìn)行了分析。最后利用系統(tǒng)動力學(xué)的原理,對影響平臺性能的因素進(jìn)行了研究。

與Duke能源公司模擬的大數(shù)據(jù)解決方案相比,本文設(shè)計的平臺已經(jīng)能夠采集、分析并處理海量數(shù)據(jù),真正意義上在工業(yè)領(lǐng)域引入了大數(shù)據(jù)技術(shù);而且此平臺還能夠處理來自多個數(shù)據(jù)源的數(shù)據(jù),比通用電氣的大數(shù)據(jù)分析平臺具備一定的優(yōu)勢。

參 考 文 獻(xiàn)

[1] 韓燕波,趙卓峰.面向大規(guī)模感知數(shù)據(jù)的實(shí)時數(shù)據(jù)流處理方法及關(guān)鍵技術(shù)[J].計算機(jī)集成制造系統(tǒng).2013,19(3):641-653.

[2] 鄧華鋒,劉云生,肖迎元. 分布式數(shù)據(jù)流處理系統(tǒng)的動態(tài)負(fù)載平衡技術(shù)[J]. 計算機(jī)科學(xué). 2007(07)

[3] 胡茂勝.基于數(shù)據(jù)中心模式的分布式異構(gòu)空間數(shù)據(jù)無縫集成技術(shù)研究[D].武漢:中國地質(zhì)大學(xué),2012.

[4] 楊林青,李湛,牟雁超等.面向大規(guī)模數(shù)據(jù)集的并行化Top-k Skyline查詢算法[J].計算機(jī)科學(xué)與探索.2014, 12(26).

[5] J.Jiang, J. Lu, G. Zhang, and G. Long. Scaling-up item-based collaborative filtering recommendation algorithm based on hadoop. SERVICES, pp. 490 -497, 2011.

[6] 王黎維,黃澤謙,羅敏,彭智勇. 集成對象數(shù)據(jù)庫的科學(xué)工作流服務(wù)框架中的數(shù)據(jù)跟蹤[J]. 計算機(jī)學(xué)報. 2008(05)