期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊(cè) 購(gòu)物車(chē)(0)

首頁(yè) > 精品范文 > 數(shù)據(jù)分析方向

數(shù)據(jù)分析方向精品(七篇)

時(shí)間:2023-06-27 15:55:25

序論:寫(xiě)作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來(lái)了七篇數(shù)據(jù)分析方向范文,愿它們成為您寫(xiě)作過(guò)程中的靈感催化劑,助力您的創(chuàng)作。

數(shù)據(jù)分析方向

篇(1)

根據(jù)不完全統(tǒng)計(jì),2016年1D6月,全球大數(shù)據(jù)領(lǐng)域共計(jì)發(fā)生157起投融資事件,其中中國(guó)發(fā)生了97起,超過(guò)總量的一半,其次為美國(guó),發(fā)生41起,其他國(guó)家在大數(shù)據(jù)領(lǐng)域的投融資事件數(shù)量遠(yuǎn)遠(yuǎn)落后于中國(guó)和美國(guó)。

2016年1D6月,中國(guó)大數(shù)據(jù)領(lǐng)域投融資金額規(guī)模達(dá)到503.70億元,排名第二的美國(guó),投融資金額規(guī)模為111.38億元。其他上億元投資的國(guó)家分別為以色列5.35億元、英國(guó)4.32億元、德國(guó)2.24億元、加拿大1.06億元。

中美大數(shù)據(jù)領(lǐng)域投融資對(duì)比

從2016年上半年的整體投融資狀況來(lái)看,中國(guó)和美國(guó)的投融資事件占全球絕大多數(shù)的比例,中美兩國(guó)大數(shù)據(jù)業(yè)務(wù)的發(fā)展基本代表了大數(shù)據(jù)在全球的發(fā)展?fàn)顩r。深入對(duì)比中美大數(shù)據(jù)領(lǐng)域的投資,對(duì)掌握大數(shù)據(jù)的應(yīng)用方向和技術(shù)方向具有較大的意義。

從圖3可以看出,在大數(shù)據(jù)行業(yè)應(yīng)用方面,中美都有涉及的行業(yè)有醫(yī)療、營(yíng)銷(xiāo)、物流、娛樂(lè)、體育和教育。其中,醫(yī)療領(lǐng)域是2016年上半年行業(yè)中發(fā)生投融資事件最多的領(lǐng)域,中國(guó)發(fā)生18起,美國(guó)發(fā)生5起;其次為營(yíng)銷(xiāo)領(lǐng)域,中國(guó)發(fā)生6起,美國(guó)發(fā)生3起。

相比美國(guó),大數(shù)據(jù)的應(yīng)用行業(yè)在中國(guó)更加廣泛和活躍,2016年上半年中國(guó)有大數(shù)據(jù)投資而美國(guó)尚未涉及的領(lǐng)域比較多,如媒體、交通、金融、汽車(chē)、物聯(lián)網(wǎng)、藝術(shù)、招聘、旅游、農(nóng)業(yè)和租房等領(lǐng)域。其中媒體行業(yè)發(fā)生10起投融資事件,交通行業(yè)發(fā)生6起,金融行業(yè)發(fā)生6起。

在大數(shù)據(jù)技術(shù)應(yīng)用方面,2016年上半年涉及的投融資方向有數(shù)據(jù)分析、數(shù)據(jù)應(yīng)用、數(shù)據(jù)安全和數(shù)據(jù)工具。其中數(shù)據(jù)分析方向投融資事件最多,美國(guó)15起,中國(guó)14起;其次為數(shù)據(jù)工具方向,美國(guó)8起,中國(guó)5起;數(shù)據(jù)應(yīng)用方向,中國(guó)6起,美國(guó)3起;數(shù)據(jù)安全方向,中國(guó)5起,美國(guó)3起。

從投融資的金額規(guī)模上看,2016年上半年,中國(guó)和美國(guó)的側(cè)重點(diǎn)各不相同,中國(guó)偏重于大數(shù)據(jù)行業(yè)領(lǐng)域的應(yīng)用,而美國(guó)側(cè)重于大數(shù)據(jù)技術(shù)領(lǐng)域的應(yīng)用。2016年上半年中國(guó)在大數(shù)據(jù)行業(yè)應(yīng)用的投資總規(guī)模達(dá)到485.1億元,在大數(shù)據(jù)技術(shù)應(yīng)用領(lǐng)域只有18.6億元;美國(guó)在大數(shù)據(jù)行業(yè)應(yīng)用領(lǐng)域的總投資規(guī)模為26.9億元,在大數(shù)據(jù)技術(shù)應(yīng)用領(lǐng)域達(dá)到84.4億元。

中國(guó)投融資規(guī)模的TOP3均為行業(yè)領(lǐng)域,分別為交通、物流和醫(yī)療,投融資規(guī)模分別為305.4億元、105.0億元和50.7億元。而美國(guó)投融資規(guī)模的TOP3中有兩個(gè)為技術(shù)領(lǐng)域,分別為數(shù)據(jù)工具44.2億元、數(shù)據(jù)分析31.3億元;有一個(gè)為行業(yè)領(lǐng)域――醫(yī)療16.6億元。在行業(yè)應(yīng)用方面,中美投資事件最多的均為醫(yī)療領(lǐng)域。

中美數(shù)據(jù)分析領(lǐng)域投融資市場(chǎng)對(duì)比

可以看出,美國(guó)比較側(cè)重發(fā)展大數(shù)據(jù)的技術(shù)應(yīng)用,而數(shù)據(jù)分析是大數(shù)據(jù)技術(shù)應(yīng)用領(lǐng)域投融資最多的技術(shù)方向。2016年上半年,中國(guó)在數(shù)據(jù)分析方向的投融資事件達(dá)到14起,美國(guó)15起,高于中國(guó)。在金額方面美國(guó)更是遠(yuǎn)遠(yuǎn)超過(guò)中國(guó),投融資金額高達(dá)31.3億元,而中國(guó)只有7.3億元。

2016年上半年,數(shù)據(jù)分析領(lǐng)域的投融資事件主要集中在分析平臺(tái)、用戶(hù)分析和商業(yè)智能方向,分別發(fā)生投融資事件12起、10起和3起,各自占比為41%、35%和10%;其他幾個(gè)方向的占比都比較小。從金額分布上看,分析平臺(tái)占比最大,達(dá)到61%,其次為用戶(hù)分析16%,可視化分析13%。

篇(2)

關(guān)鍵詞:大數(shù)據(jù);數(shù)據(jù)倉(cāng)庫(kù);數(shù)據(jù)分析;校園卡;教務(wù)

中圖分類(lèi)號(hào):G434 文獻(xiàn)標(biāo)志碼:B 文章編號(hào):1673-8454(2015)10-0013-03

隨著大數(shù)據(jù)時(shí)代的到來(lái),各行各業(yè)都在利用大數(shù)據(jù)推動(dòng)本領(lǐng)域的發(fā)展。常熟理工學(xué)院自2009年開(kāi)展教育信息化建設(shè)以來(lái),在數(shù)據(jù)分析方面進(jìn)行了不斷地探索與實(shí)踐,目前廣泛應(yīng)用于教學(xué)和管理中。

一、數(shù)據(jù)分析的必要性和可行性

高校內(nèi)部一般都建有:教務(wù)系統(tǒng)、科研系統(tǒng)、學(xué)工管理系統(tǒng)、人事管理系統(tǒng)、資產(chǎn)管理系統(tǒng)等獨(dú)立業(yè)務(wù)系統(tǒng)。這些系統(tǒng)都各自記錄著學(xué)校方方面面的數(shù)據(jù),卻都靜靜地躺在服務(wù)器硬盤(pán)里,猶如埋藏在地下的金礦,不能為高校全局決策提供支撐。

數(shù)據(jù)分析的目的就是要讓數(shù)據(jù)發(fā)聲,通過(guò)直觀的數(shù)據(jù)圖表來(lái)為高校管理提供輔助決策。例如:對(duì)教師的專(zhuān)業(yè)與學(xué)校開(kāi)設(shè)專(zhuān)業(yè)的統(tǒng)計(jì)分析可以為人才引進(jìn)提供參考;對(duì)學(xué)生的校園卡使用記錄和校內(nèi)上網(wǎng)認(rèn)證記錄結(jié)合起來(lái),可以為判斷學(xué)生的行為指明方向;對(duì)各二級(jí)學(xué)院的資產(chǎn)數(shù)據(jù)統(tǒng)計(jì)分析有助于學(xué)校對(duì)二級(jí)學(xué)院進(jìn)行成本核算。

二、數(shù)據(jù)倉(cāng)庫(kù)的建立

數(shù)據(jù)庫(kù)是數(shù)據(jù)分析的源頭,數(shù)據(jù)倉(cāng)庫(kù)的建立是數(shù)據(jù)分析的基礎(chǔ)。

建設(shè)過(guò)程中,首先要統(tǒng)一數(shù)據(jù)標(biāo)準(zhǔn),只有準(zhǔn)確的數(shù)據(jù)才是有價(jià)值的,如果各系統(tǒng)的數(shù)據(jù)標(biāo)準(zhǔn)不統(tǒng)一,就會(huì)造成不準(zhǔn)確的數(shù)據(jù)分析結(jié)果,也就無(wú)法為高校管理提供真實(shí)有效的統(tǒng)計(jì)數(shù)據(jù);

其次要建立公共數(shù)據(jù)平臺(tái),公共數(shù)據(jù)平臺(tái)是指實(shí)現(xiàn)校園內(nèi)各種信息系統(tǒng)的互通互連和數(shù)據(jù)共享,包括多個(gè)系統(tǒng)業(yè)務(wù)數(shù)據(jù)集中存儲(chǔ)、備份、數(shù)據(jù)共享和數(shù)據(jù)管理的公共平臺(tái),為學(xué)校各應(yīng)用系統(tǒng)提供基礎(chǔ)數(shù)據(jù);

三是要規(guī)范數(shù)據(jù)流程,把各業(yè)務(wù)系統(tǒng)中形形的數(shù)據(jù)按標(biāo)準(zhǔn)定期抽取到學(xué)校公共數(shù)據(jù)平臺(tái)中。確保任何業(yè)務(wù)系統(tǒng)的添加和修改不影響其他系統(tǒng)的正常運(yùn)行,同時(shí)新建應(yīng)用系統(tǒng)應(yīng)建立在統(tǒng)一的數(shù)據(jù)規(guī)范基礎(chǔ)和統(tǒng)一身份認(rèn)證基礎(chǔ)上,調(diào)用公共數(shù)據(jù)平臺(tái)的基礎(chǔ)數(shù)據(jù)(如部門(mén)、教工、學(xué)生等基礎(chǔ)信息),應(yīng)用系統(tǒng)產(chǎn)生的數(shù)據(jù)也應(yīng)成為公共數(shù)據(jù)平臺(tái)的基礎(chǔ)數(shù)據(jù),可供數(shù)據(jù)平臺(tái)共享訪(fǎng)問(wèn)。確保提供反映學(xué)校全面情況的數(shù)據(jù)信息,為整個(gè)學(xué)校提供決策支持所需的數(shù)據(jù)信息,為今后應(yīng)用系統(tǒng)的建設(shè)和信息服務(wù)奠定良好的數(shù)據(jù)基礎(chǔ)。

圖1為數(shù)據(jù)架構(gòu)圖,最底層的是各業(yè)務(wù)系統(tǒng),他們產(chǎn)生的數(shù)據(jù)按編碼標(biāo)準(zhǔn)經(jīng)過(guò)抽取、轉(zhuǎn)換、加載到數(shù)據(jù)中心,數(shù)據(jù)中心再按需要把相關(guān)數(shù)據(jù)同步給相應(yīng)的應(yīng)用數(shù)據(jù)庫(kù)或各數(shù)據(jù)集市,最后形成各類(lèi)主題數(shù)據(jù)分析或綜合決策系統(tǒng)。

三、基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)據(jù)分析

在統(tǒng)一數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上,我們利用數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(ETL、OLAP、REPORT)和數(shù)據(jù)挖掘技術(shù),對(duì)多種數(shù)據(jù)集市進(jìn)行數(shù)據(jù)分析,建立了校情綜合統(tǒng)計(jì)分析系統(tǒng)。該系統(tǒng)從學(xué)?;厩闆r、教職工信息、學(xué)生信息、教學(xué)信息、科研信息、資產(chǎn)與設(shè)備信息、圖書(shū)資料信息與師生消費(fèi)等方面進(jìn)行統(tǒng)計(jì)分析,為學(xué)校管理提供輔助決策支撐數(shù)據(jù)。

該系統(tǒng)從學(xué)校全局出發(fā),通過(guò)多元主題展開(kāi)分析,以文字、報(bào)表、圖表等多種形式展現(xiàn)分析成果。

該系統(tǒng)的推出實(shí)現(xiàn)了教學(xué)質(zhì)量、學(xué)生學(xué)習(xí)、生活行為等各種信息的監(jiān)控與分析,對(duì)高校資源配置優(yōu)化、提高高校管理科學(xué)化等方面具有不可估量的重要意義。這里筆者將以校園卡和教務(wù)數(shù)據(jù)分析功能為例進(jìn)行闡述。隨著校園卡在校園生活中使用范圍的日益擴(kuò)大,在應(yīng)用過(guò)程中產(chǎn)生了大量數(shù)據(jù)。校園卡僅僅一年的交易數(shù)據(jù)就有大約1000萬(wàn)條記錄。

校園卡數(shù)據(jù)分析主要實(shí)現(xiàn)以下五大類(lèi)的分析功能:

(1)各時(shí)間段消費(fèi)情況分析

①?gòu)摹霸?、季度、半年、年”的角度?lái)查詢(xún)消費(fèi)總額、消費(fèi)用戶(hù)數(shù)和人均消費(fèi)等,反映出用戶(hù)消費(fèi)支出的趨勢(shì),也可反映出物價(jià)的變化情況。

②從“幾點(diǎn)幾分”的角度查詢(xún)消費(fèi)人數(shù)可反映用戶(hù)在時(shí)間點(diǎn)上的消費(fèi)習(xí)慣,對(duì)于各營(yíng)業(yè)部門(mén)來(lái)說(shuō)可以合理地調(diào)整工作時(shí)間、工作人員等,以加強(qiáng)服務(wù)。還可根據(jù)教職工就餐時(shí)間點(diǎn)來(lái)分析他們是否嚴(yán)格遵守學(xué)校作息時(shí)間。

③從“早、中、晚”的角度統(tǒng)計(jì)分析學(xué)生早餐、中餐、晚餐的就餐率。

(2)各類(lèi)消費(fèi)人群消費(fèi)情況分析

①對(duì)于學(xué)生工作管理層來(lái)說(shuō),從“個(gè)人、班級(jí)、院系”的角度來(lái)查詢(xún)消費(fèi)金額作為發(fā)放貧困補(bǔ)助的依據(jù)。

②通過(guò)查詢(xún)一個(gè)時(shí)間周期內(nèi)(三天)學(xué)生消費(fèi)人數(shù),起到了解學(xué)生是否在校的危機(jī)預(yù)警作用。

③從學(xué)生所屬院系、專(zhuān)業(yè)、年級(jí)等角度來(lái)查詢(xún)消費(fèi)人數(shù)、消費(fèi)金額和分布情況。

④從學(xué)生性別、來(lái)源地區(qū)(省、市、區(qū))、年齡等人的自然屬性來(lái)查詢(xún)消費(fèi)人數(shù)、消費(fèi)金額和分布情況。

⑤分析教職工的消費(fèi)水平。

(3)各營(yíng)業(yè)單位消費(fèi)情況分析

從各個(gè)營(yíng)業(yè)單位角度來(lái)查詢(xún)校園用戶(hù)消費(fèi)人數(shù),消費(fèi)金額和分布情況。

(4)各交易類(lèi)型消費(fèi)情況

從消費(fèi)類(lèi)型角度來(lái)查詢(xún)用餐、購(gòu)物、上網(wǎng)、上機(jī)、水電消費(fèi)等情況。

(5)工作站、終端個(gè)數(shù)統(tǒng)計(jì)

為直觀反映上述消費(fèi)數(shù)據(jù),我們除用表格形式將分析結(jié)果展現(xiàn)在用戶(hù)終端外,還提供了柱狀圖、餅圖、曲線(xiàn)圖、點(diǎn)圖等形式來(lái)展現(xiàn)。圖2展示了我校2010年至2014年學(xué)生早、中、晚三餐平均價(jià)格,呈逐年穩(wěn)步上升狀態(tài),這給餐飲部門(mén)提供準(zhǔn)確統(tǒng)計(jì)數(shù)據(jù)的同時(shí),也穩(wěn)定了學(xué)生就餐消費(fèi)水平的承受心理。

高校教學(xué)信息化建設(shè)積累了豐富的業(yè)務(wù)數(shù)據(jù),根據(jù)需求,教務(wù)數(shù)據(jù)分析功能主要包括三大類(lèi):教學(xué)任務(wù)、學(xué)生成績(jī)和教學(xué)評(píng)價(jià)。圖3為教務(wù)數(shù)據(jù)分析數(shù)據(jù)源視圖,圍繞教師的教學(xué)工作量、學(xué)生取得的成績(jī)以及學(xué)生對(duì)教師的評(píng)價(jià)等,我們做了一系列的報(bào)表。例如:教學(xué)場(chǎng)地信息、學(xué)生情況、任課教師情況、各學(xué)期教學(xué)任務(wù)情況、成績(jī)信息、教學(xué)評(píng)價(jià)、歷年各專(zhuān)業(yè)招生人數(shù)、各學(xué)院歷年教學(xué)情況、各學(xué)院歷年學(xué)生對(duì)教師評(píng)價(jià)。

另外,為滿(mǎn)足各二級(jí)學(xué)院要求,做了學(xué)業(yè)預(yù)警方面相關(guān)報(bào)表,各二級(jí)學(xué)院可根據(jù)年級(jí)、專(zhuān)業(yè),通過(guò)總學(xué)分排行、課程門(mén)數(shù)排行來(lái)關(guān)注排在后面的學(xué)生情況。

數(shù)據(jù)分析表明,教師平均教學(xué)任務(wù)逐年增多,教師總體比較年輕,平均年齡男教師比女教師高,年齡在30-39之間的教師平均課時(shí)最多。管理學(xué)院歷年招生數(shù)比其它學(xué)院明顯高出很多,其中財(cái)務(wù)管理專(zhuān)業(yè)的學(xué)生數(shù)百分比最高。我校學(xué)生的成績(jī)也完全符合正態(tài)分布曲線(xiàn)要求。

四、結(jié)束語(yǔ)

大數(shù)據(jù)分析是一種發(fā)展趨勢(shì),我們目前也僅僅就單項(xiàng)主題進(jìn)行了逐個(gè)分析,如果把這些主題串起來(lái),進(jìn)行關(guān)聯(lián)分析,將會(huì)得出更有趣更有價(jià)值的結(jié)果,這也是將來(lái)我們努力的方向。

參考文獻(xiàn):

[1]戴紅芳,馮翔,先曉兵等.商業(yè)智能在校園一卡通中的研究與實(shí)踐[J].微電子學(xué)與計(jì)算機(jī),2012,29(7):175-179.

[2]戴紅芳.基于多維數(shù)據(jù)模型的校園卡數(shù)據(jù)分析[D].上海:華東理工大學(xué),2011.

篇(3)

基本的大數(shù)據(jù)的處理流程可以分成數(shù)據(jù)采集、數(shù)據(jù)處理與集成、數(shù)據(jù)分析和數(shù)據(jù)解釋4個(gè)階段。首先獲取數(shù)據(jù)源的數(shù)據(jù),因?yàn)樵跀?shù)據(jù)源端的數(shù)據(jù)包含各種各樣的結(jié)構(gòu),需要使用某種方法將其進(jìn)行預(yù)處理,使數(shù)據(jù)成為某種可以用一種算法分析的統(tǒng)一數(shù)據(jù)格式,接著需要找到這種數(shù)據(jù)分析的算法,將預(yù)處理過(guò)的數(shù)據(jù)進(jìn)行算法特定的分析,并將分析的結(jié)果用可視化等手段呈現(xiàn)至用戶(hù)端。

1.1數(shù)據(jù)采集

大數(shù)據(jù)的采集是整個(gè)流程的基礎(chǔ),隨著互聯(lián)網(wǎng)技術(shù)和應(yīng)用的發(fā)展以及各種終端設(shè)備的普及,使得數(shù)據(jù)的生產(chǎn)者范圍越來(lái)越大,數(shù)據(jù)的產(chǎn)量也越來(lái)越多,數(shù)據(jù)之間的關(guān)聯(lián)也越來(lái)越復(fù)雜,這也是大數(shù)據(jù)中“大”的體現(xiàn),所以需要提高數(shù)據(jù)采集速度和精度要求。

1.2數(shù)據(jù)處理與集成

數(shù)據(jù)的處理與集成主要是對(duì)前一步采集到的大量數(shù)據(jù)進(jìn)行適當(dāng)?shù)念A(yù)處理,包括格式化、去噪以及進(jìn)一步集成存儲(chǔ)。因?yàn)閿?shù)據(jù)采集步驟采集到的數(shù)據(jù)各種各樣,其數(shù)據(jù)結(jié)構(gòu)也并不統(tǒng)一,不利于之后的數(shù)據(jù)分析,而且,一些數(shù)據(jù)屬于無(wú)效數(shù)據(jù),需要去除,否則會(huì)影響數(shù)據(jù)分析的精度和可靠性,所以,需要將數(shù)據(jù)統(tǒng)一格式并且去除無(wú)效數(shù)據(jù)。通常會(huì)設(shè)計(jì)一些過(guò)濾器來(lái)完成這一任務(wù)。

1.3數(shù)據(jù)分析

在完成了數(shù)據(jù)的采集和處理后,需要對(duì)數(shù)據(jù)進(jìn)行分析,因?yàn)樵谶M(jìn)行數(shù)據(jù)分析后才能體現(xiàn)所有大數(shù)據(jù)的重要價(jià)值。數(shù)據(jù)分析的對(duì)象是上一步數(shù)據(jù)的處理與集成后的統(tǒng)一格式數(shù)據(jù),需要根據(jù)所需數(shù)據(jù)的應(yīng)用需求和價(jià)值體現(xiàn)方向?qū)@些原始樣本數(shù)據(jù)進(jìn)一步地處理和分析。現(xiàn)有的數(shù)據(jù)分析通常指采用數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘工具對(duì)集中存儲(chǔ)的數(shù)據(jù)進(jìn)行分析,數(shù)據(jù)分析服務(wù)與傳統(tǒng)數(shù)據(jù)分析的差別在于其面向的對(duì)象不是數(shù)據(jù),而是數(shù)據(jù)服務(wù)。

1.4數(shù)據(jù)解釋

數(shù)據(jù)解釋是對(duì)大數(shù)據(jù)分析結(jié)果的解釋與展現(xiàn),在數(shù)據(jù)處理流程中,數(shù)據(jù)結(jié)果的解釋步驟是大數(shù)據(jù)分析的用戶(hù)直接面對(duì)成果的步驟,傳統(tǒng)的數(shù)據(jù)顯示方式是用文本形式體現(xiàn)的,但是,隨著數(shù)據(jù)量的加大,其分析結(jié)果也更復(fù)雜,傳統(tǒng)的數(shù)據(jù)顯示方法已經(jīng)不足以滿(mǎn)足數(shù)據(jù)分析結(jié)果輸出的需求,因此,數(shù)據(jù)分析企業(yè)會(huì)引入“數(shù)據(jù)可視化技術(shù)”作為數(shù)據(jù)解釋方式。通過(guò)可視化結(jié)果分析,可以形象地向用戶(hù)展示數(shù)據(jù)分析結(jié)果。

2云計(jì)算與大數(shù)據(jù)分析的關(guān)系

云計(jì)算是基于互聯(lián)網(wǎng)的相關(guān)服務(wù)的增加、使用和交付模式,通常涉及通過(guò)互聯(lián)網(wǎng)來(lái)提供動(dòng)態(tài)易擴(kuò)展且經(jīng)常是虛擬化的資源,是一種按使用量付費(fèi)的模式。這種模式提供可用的、便捷的、按需的網(wǎng)絡(luò)訪(fǎng)問(wèn),進(jìn)入可配置的計(jì)算資源共享池(資源包括網(wǎng)絡(luò)、服務(wù)器、存儲(chǔ)、應(yīng)用軟件、服務(wù)),這些資源能夠被快速提供,只需投入很少的管理工作,或與服務(wù)供應(yīng)商進(jìn)行很少的交互。目前,國(guó)內(nèi)外已經(jīng)有不少成熟的云計(jì)算的應(yīng)用服務(wù)。數(shù)據(jù)分析是整個(gè)大數(shù)據(jù)處理流程里最核心的部分。數(shù)據(jù)分析是以數(shù)據(jù)的價(jià)值分析為目的的活動(dòng),而基于大數(shù)據(jù)的數(shù)據(jù)分析通常表現(xiàn)為對(duì)已獲取的海量數(shù)據(jù)的分析,其數(shù)據(jù)來(lái)源可能是企業(yè)數(shù)據(jù)也可能是企業(yè)數(shù)據(jù)與互聯(lián)網(wǎng)數(shù)據(jù)的融合。從目前的趨勢(shì)來(lái)看,云計(jì)算是大數(shù)據(jù)的IT基礎(chǔ),是大數(shù)據(jù)分析的支撐平臺(tái),不斷增長(zhǎng)的數(shù)據(jù)量需要性能更高的數(shù)據(jù)分析平臺(tái)承載。所以,云計(jì)算技術(shù)的不斷發(fā)展可以為大數(shù)據(jù)分析提供更為靈活、迅速的部署方案,使得大數(shù)據(jù)分析的結(jié)果更加精確。另一方面,云計(jì)算的出現(xiàn)為大數(shù)據(jù)分析提供了擴(kuò)展性更強(qiáng),使用成本更低的存儲(chǔ)資源和計(jì)算資源,使得中小企業(yè)也可以通過(guò)云計(jì)算來(lái)實(shí)現(xiàn)屬于自己的大數(shù)據(jù)分析產(chǎn)品。大數(shù)據(jù)技術(shù)本身也是云計(jì)算技術(shù)的一種延伸。大數(shù)據(jù)技術(shù)涵蓋了從數(shù)據(jù)的海量存儲(chǔ)、處理到應(yīng)用多方面的技術(shù),包括海量分布式文件系統(tǒng)、并行計(jì)算框架、數(shù)據(jù)庫(kù)、實(shí)時(shí)流數(shù)據(jù)處理以及智能分析技術(shù),如模式識(shí)別、自然語(yǔ)言理解、應(yīng)用知識(shí)庫(kù)等等。但是,大數(shù)據(jù)分析要走向云計(jì)算還要賴(lài)于數(shù)據(jù)通信帶寬的提高和云資源的建設(shè),需要確保原始數(shù)據(jù)能遷移到云環(huán)境以及資源池可以隨需彈性擴(kuò)展。

3基于云計(jì)算環(huán)境的Hadoop

為了給大數(shù)據(jù)處理分析提供一個(gè)性能更高、可靠性更好的平臺(tái),研究者基于MapReduce開(kāi)發(fā)了一個(gè)基于云計(jì)算環(huán)境的開(kāi)源平臺(tái)Hadoop。Hadoop是一個(gè)以MapReduce算法為分布式計(jì)算框架,包括分布式文件系統(tǒng)(HDFS)、分布式數(shù)據(jù)庫(kù)(Hbase、Cassandra)等功能模塊在內(nèi)的完整生態(tài)系統(tǒng),已經(jīng)成為當(dāng)前最流行的大數(shù)據(jù)處理平臺(tái),并被廣泛認(rèn)可和開(kāi)發(fā)應(yīng)用?;贖adoop,用戶(hù)可編寫(xiě)處理海量數(shù)據(jù)的分布式并行程序,并將其運(yùn)行于由成百上千個(gè)節(jié)點(diǎn)組成的大規(guī)模計(jì)算機(jī)集群上。

4實(shí)例分析

本節(jié)以電信運(yùn)營(yíng)商為例,說(shuō)明在云計(jì)算環(huán)境中基于Hadoop的大數(shù)據(jù)分析給大數(shù)據(jù)用戶(hù)帶來(lái)的價(jià)值。當(dāng)前傳統(tǒng)語(yǔ)音和短信業(yè)務(wù)量下滑,智能終端快速增長(zhǎng),移動(dòng)互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展迅速,大數(shù)據(jù)分析可以為運(yùn)營(yíng)商帶來(lái)新的機(jī)會(huì),幫助運(yùn)營(yíng)商更好地轉(zhuǎn)型。本文數(shù)據(jù)分析樣本來(lái)自于某運(yùn)營(yíng)商的個(gè)人語(yǔ)音和數(shù)據(jù)業(yè)務(wù)清單,通過(guò)Hadoop2.6.0在Ubuntu12.04系統(tǒng)中模擬了一個(gè)大數(shù)據(jù)分析平臺(tái)來(lái)處理獲得的樣本。希望通過(guò)對(duì)樣本數(shù)據(jù)的分析與挖掘,掌握樣本本身的一些信息。以上分析只是一些很基本的簡(jiǎn)單分析,實(shí)際上樣本數(shù)據(jù)中所蘊(yùn)含的價(jià)值要遠(yuǎn)遠(yuǎn)大于本文體現(xiàn)的。以上舉例意在說(shuō)明基于云計(jì)算的大數(shù)據(jù)分析可以在數(shù)據(jù)分析上體現(xiàn)出良好的性能,為企業(yè)帶來(lái)更豐富更有效率的信息提取、分類(lèi),并從中獲益。

5結(jié)束語(yǔ)

篇(4)

關(guān)鍵詞:數(shù)據(jù)分析;移動(dòng)電子商務(wù);數(shù)據(jù)獲??;發(fā)展

一、移動(dòng)電子商務(wù)的定義

移動(dòng)電子商務(wù)(M-Commerce)是由電子商務(wù)(E-Commerce)衍生出的新生概念。隨著互聯(lián)網(wǎng)的不斷發(fā)展,移動(dòng)電子商務(wù)正在全世界范圍內(nèi)的普及和發(fā)展。移動(dòng)電子商務(wù)本質(zhì)上是電子商務(wù)技術(shù)的一種創(chuàng)新,基于移動(dòng)無(wú)線(xiàn)網(wǎng)絡(luò),依托手機(jī)等個(gè)人移動(dòng)通信設(shè)備,使用戶(hù)能夠減少時(shí)間和空間的限制并進(jìn)行活動(dòng),是電子商務(wù)的一種新形式,并改變了電子商務(wù)的傳統(tǒng)格局。

據(jù)艾瑞咨詢(xún)最新統(tǒng)計(jì)數(shù)據(jù)顯示,2016年移動(dòng)購(gòu)物市場(chǎng)交易規(guī)模約3.3萬(wàn)億元,占網(wǎng)絡(luò)購(gòu)物總交易規(guī)模的70.2%,繼2015年超過(guò)PC端之后,成為電子商務(wù)的主流渠道。同時(shí),根據(jù)最新的一季度報(bào)告預(yù)測(cè),2017年第三季度左右,全球移動(dòng)電子用戶(hù)將達(dá)50億左右。

二、移動(dòng)電子商務(wù)中的數(shù)據(jù)分析與應(yīng)用

數(shù)據(jù)分析是移動(dòng)電子商務(wù)重要的組成部分,同時(shí)也為產(chǎn)品決策提供重要參考。針對(duì)移動(dòng)產(chǎn)品,數(shù)據(jù)分析就是利用挖掘數(shù)據(jù)的分析方法與技術(shù)手段,在手機(jī)用戶(hù)大量的交易數(shù)據(jù)中總結(jié)產(chǎn)品流量和顧客轉(zhuǎn)化率之間的規(guī)律和特點(diǎn),分析消費(fèi)者的消費(fèi)特點(diǎn)。具體則是通過(guò)網(wǎng)絡(luò)和交易信息提取客戶(hù)、市場(chǎng)、產(chǎn)品環(huán)節(jié)的數(shù)據(jù),然后建立相關(guān)模型,在更加動(dòng)態(tài)化的商業(yè)環(huán)境下,能夠更有效的優(yōu)化產(chǎn)品及商業(yè)模式。

1.數(shù)據(jù)挖掘

通過(guò)自動(dòng)化或半自動(dòng)化的工具,數(shù)據(jù)挖掘可以挖掘出數(shù)據(jù)內(nèi)部隱含的模式,并從中發(fā)掘信息或知識(shí),同時(shí)從已有的數(shù)據(jù)中提取模式,提高已有數(shù)據(jù)的內(nèi)在價(jià)值,并且把數(shù)據(jù)提煉,轉(zhuǎn)化成為知識(shí)。在移動(dòng)電子商務(wù)的運(yùn)營(yíng)之中,針對(duì)大量繁雜的客戶(hù)消費(fèi)及使用稻藎需要應(yīng)用多種數(shù)據(jù)挖掘技術(shù)來(lái)分析客戶(hù)特征,獲取用戶(hù)關(guān)注點(diǎn),培養(yǎng)用戶(hù)忠誠(chéng)度,并在此基礎(chǔ)上制定有效的營(yíng)銷(xiāo)計(jì)劃來(lái)吸引優(yōu)質(zhì)用戶(hù)。

在數(shù)據(jù)挖掘中最常使用的四種分析法:分類(lèi)分析,關(guān)聯(lián)分析,序列模式分析和聚類(lèi)分析:

(1)分類(lèi)分析可以定義區(qū)分?jǐn)?shù)據(jù)類(lèi)或概念的模型和函數(shù),以便能夠使用模型預(yù)測(cè)未知類(lèi)標(biāo)記的對(duì)象類(lèi)。

(2)關(guān)聯(lián)分析通常利用數(shù)據(jù)關(guān)聯(lián)規(guī)則進(jìn)行數(shù)據(jù)挖掘,其目的是挖掘隱藏在數(shù)據(jù)間的相互關(guān)系。

(3)序列模式分析同樣也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但側(cè)重于分析數(shù)據(jù)間的前后序列關(guān)系。

(4)聚類(lèi)分析,是指根據(jù)“物以類(lèi)聚”的原理,將本身未有類(lèi)別的樣本聚合成不同的簇,并對(duì)每一個(gè)簇進(jìn)行描述的過(guò)程。

2.數(shù)據(jù)處理

(1)數(shù)據(jù)收集

一款移動(dòng)電子商務(wù)產(chǎn)品的分析團(tuán)隊(duì)在處理數(shù)據(jù)前,首先要解決的問(wèn)題是數(shù)據(jù)源的收集。數(shù)據(jù)收集可以分為二大類(lèi)。第一類(lèi)是直接能獲取的數(shù)據(jù),通常為內(nèi)部數(shù)據(jù)。第二類(lèi)則稱(chēng)為外部數(shù)據(jù),是需經(jīng)過(guò)加工整理后才能得到的數(shù)據(jù),如手機(jī)應(yīng)用平臺(tái)的下載數(shù)據(jù)。

(2)數(shù)據(jù)清洗

數(shù)據(jù)清洗是數(shù)據(jù)處理中的重要部分,通過(guò)工具或編程,如Excel,Python,對(duì)數(shù)據(jù)進(jìn)行篩選、清除、補(bǔ)充、糾正,其目的是從大量雜亂無(wú)章、難以理解的數(shù)據(jù)中抽取并推導(dǎo)出對(duì)解決問(wèn)題有價(jià)值、有意義的數(shù)據(jù)。清洗后保留真正有價(jià)值的數(shù)據(jù),為數(shù)據(jù)分析減少障礙。

(3)數(shù)據(jù)對(duì)比

對(duì)比,是數(shù)據(jù)分析的切入點(diǎn)。如果參照缺失,數(shù)據(jù)則無(wú)法確定定量的評(píng)估標(biāo)準(zhǔn)。分析過(guò)程通常采用二點(diǎn)切入法進(jìn)行數(shù)據(jù)對(duì)比分析:橫向?qū)Ρ扰c縱向?qū)Ρ?/p>

①橫向?qū)Ρ龋桥c行業(yè)平均數(shù)據(jù),以及競(jìng)爭(zhēng)對(duì)手的數(shù)據(jù)進(jìn)行比對(duì),以市場(chǎng)為軸心。

②縱向?qū)Ρ?,則是和產(chǎn)品自身的歷史數(shù)據(jù)進(jìn)行對(duì)比,以時(shí)間為軸心。

(4)數(shù)據(jù)細(xì)分

數(shù)據(jù)對(duì)比發(fā)現(xiàn)了問(wèn)題后,需要用到數(shù)據(jù)細(xì)分來(lái)確定問(wèn)題數(shù)據(jù)的范圍,根據(jù)移動(dòng)產(chǎn)品的差異對(duì)數(shù)據(jù)異常的范圍和精度進(jìn)行分析,隨后進(jìn)行測(cè)試與修正。數(shù)據(jù)細(xì)分通常情況下先分緯度,再分粒度。

三、數(shù)據(jù)分析

數(shù)據(jù)分析是指用適當(dāng)?shù)谋容^或統(tǒng)計(jì)方法對(duì)收集來(lái)的第一手和第二手資料進(jìn)行分析,以求最大化地開(kāi)發(fā)出數(shù)據(jù)資料的功能并發(fā)揮數(shù)據(jù)的作用。為了提取有效信息和形成結(jié)論,通過(guò)分析手段,可以對(duì)數(shù)據(jù)加以詳細(xì)研究和概括總結(jié)。在進(jìn)行正式的數(shù)據(jù)清洗,確保了數(shù)據(jù)可靠性與完整性后,可對(duì)所獲取的數(shù)據(jù)進(jìn)行多層面的具體分析。根據(jù)不同的數(shù)據(jù)分析層面和結(jié)果導(dǎo)向分類(lèi),在移動(dòng)電子商務(wù)的數(shù)據(jù)分析中常應(yīng)用兩種分析類(lèi)型。

第一種,傳統(tǒng)電子商務(wù)營(yíng)銷(xiāo)管理中的常用分析:SWOT、4P、PEST、5W2H、Userbehavior等;第二種是統(tǒng)計(jì)分析:描述統(tǒng)計(jì)、假設(shè)檢驗(yàn)、相關(guān)分析、方差分析、回歸分析、主成分與因子分析、決策樹(shù)等。

1.數(shù)據(jù)分析方法

對(duì)于第一種類(lèi)型的數(shù)據(jù)分析,??梢圆捎帽容^分析法來(lái)確定基本的分析方向以及產(chǎn)品導(dǎo)向。比較分析法分為兩種類(lèi)型,同比與環(huán)比。

為消除數(shù)據(jù)周期性波動(dòng)的影響,同比將移動(dòng)產(chǎn)品本周期內(nèi)的數(shù)據(jù)與之前周期中相同時(shí)間點(diǎn)的數(shù)據(jù)進(jìn)行比較,計(jì)算同比增長(zhǎng)率。而環(huán)比則反應(yīng)數(shù)據(jù)連續(xù)變化的趨勢(shì),將本期的數(shù)據(jù)與上一周期的數(shù)據(jù)進(jìn)行對(duì)比。同環(huán)比能為產(chǎn)品整體運(yùn)營(yíng)的發(fā)展?fàn)顩r提供有力的參考,但必須建立在一定的基礎(chǔ)上和環(huán)境上。

對(duì)于統(tǒng)計(jì)分析,最常用的是相關(guān)分析以及回歸分析。相關(guān)分析研究的是現(xiàn)象之間是否相關(guān)、相關(guān)的方向和密切程度,一般不區(qū)別自變量或因變量。而回歸分析則通過(guò)分析現(xiàn)象之間相關(guān)的具體形式,確定因果關(guān)系,并用數(shù)學(xué)模型來(lái)表現(xiàn)其具體關(guān)系。舉例來(lái)說(shuō),對(duì)一個(gè)移動(dòng)電子團(tuán)購(gòu)平臺(tái)的產(chǎn)品來(lái)說(shuō),從相關(guān)分析中可知“質(zhì)量”和“用戶(hù)滿(mǎn)意度”變量密切相關(guān),但只有通過(guò)回歸分析方法才能確定這一對(duì)變量之間到底是哪個(gè)變量受哪個(gè)變量的影響,以及影響程度如何。

2.數(shù)據(jù)分析應(yīng)用

在移動(dòng)端電子商務(wù)中,APP數(shù)據(jù)分析對(duì)于開(kāi)發(fā)者或運(yùn)營(yíng)者都是十分重要的環(huán)節(jié),主要數(shù)據(jù)分為4個(gè)方面:用戶(hù)來(lái)源、用戶(hù)屬性、轉(zhuǎn)化率及用戶(hù)忠誠(chéng)度。

(1)用戶(hù)來(lái)源

對(duì)于移動(dòng)產(chǎn)品平臺(tái)來(lái)說(shuō),獲取用戶(hù)的渠道很多,如CPA廣告、交叉推廣、限時(shí)免費(fèi)等等。開(kāi)發(fā)者從多個(gè)維度的數(shù)據(jù)來(lái)對(duì)比不同渠道的效果,比如從活躍用戶(hù)、次日留存率、使用頻率、使用時(shí)長(zhǎng)等角度對(duì)比不同來(lái)源的用戶(hù)。通過(guò)渠道對(duì)比,可以高效地找到最適合產(chǎn)品發(fā)展的渠道,以便不斷完善推廣策略。為了追蹤App渠道來(lái)源,可以用到兩種不同的方法:

①Android渠道追蹤方法

國(guó)內(nèi)Android市場(chǎng)被數(shù)十家應(yīng)用商店所割據(jù),Android渠道追蹤主要圍繞其中幾種渠道展開(kāi)。具體來(lái)說(shuō)就是開(kāi)發(fā)者為每一個(gè)渠道生成一個(gè)渠道安裝包,不同渠道包用不同的渠道ID來(lái)標(biāo)識(shí)。當(dāng)用戶(hù)下載了App之后,運(yùn)營(yíng)人員就可以通過(guò)渠道標(biāo)識(shí)查看各渠道的數(shù)據(jù)。

②iOS渠道追蹤方法

不同于Android的開(kāi)放生態(tài),iOS是一個(gè)完全封閉的系統(tǒng)。在蘋(píng)果的唯一性原則以及嚴(yán)格的審核制度下,Android打包的做法在此則無(wú)法生效,可以通過(guò)Cookie追蹤渠道更為高效的追蹤數(shù)據(jù)。

(2)用戶(hù)屬性分析

在吸引用戶(hù)下載使用之后,產(chǎn)品運(yùn)營(yíng)及開(kāi)放方要盡可能地詳細(xì)了解用戶(hù)的設(shè)備型號(hào)、網(wǎng)絡(luò)及運(yùn)營(yíng)商、地域、用戶(hù)性別等宏觀層面的用戶(hù)特征。這些特征數(shù)據(jù)可在產(chǎn)品改進(jìn)、應(yīng)用推廣和運(yùn)營(yíng)策略的制定上提供有力的方向性依據(jù)。

①同期群分析是一種基于同期群的核心數(shù)據(jù)及行為的對(duì)比分群方式,按用戶(hù)的新增時(shí)間將用戶(hù)分群,得到的每個(gè)群就叫同期群。

②獲取成本分析,是指獲取到一個(gè)真實(shí)的新用戶(hù)所付出的平均成本。同時(shí)也要注意用戶(hù)回報(bào)彌補(bǔ)獲取成本的速度,嘗試不同的渠道并跟蹤用戶(hù)的行為,使用如K因子傳播作為降低獲取用戶(hù)成本的手段。

③用戶(hù)終生價(jià)值分析,是指用戶(hù)平均會(huì)在平臺(tái)、產(chǎn)品上貢獻(xiàn)多少價(jià)值。最大化用戶(hù)營(yíng)收的方法就是根據(jù)用戶(hù)頻度制定不同的定價(jià)方案,針對(duì)高頻用戶(hù)通過(guò)廣告、精品內(nèi)容收費(fèi),對(duì)于低頻用戶(hù)則采用單次收M模式。

(3)轉(zhuǎn)化率

對(duì)移動(dòng)電子商務(wù)來(lái)說(shuō),產(chǎn)品轉(zhuǎn)化率至關(guān)重要,直接關(guān)系到開(kāi)發(fā)者的產(chǎn)品收入。如一款移動(dòng)電子游戲應(yīng)用,開(kāi)發(fā)者可從道具購(gòu)買(mǎi)量、關(guān)卡和付費(fèi)人群等多個(gè)維度進(jìn)行交叉分析,從而查看用戶(hù)付費(fèi)行為動(dòng)機(jī)和特征,也可以通過(guò)漏斗模型進(jìn)一步分析關(guān)鍵節(jié)點(diǎn)的轉(zhuǎn)化率,提高付費(fèi)轉(zhuǎn)化,增加收入。

(4)用戶(hù)忠誠(chéng)度

了解用戶(hù)在一個(gè)產(chǎn)品應(yīng)用內(nèi)做了什么,并確保用戶(hù)喜歡該產(chǎn)品,是移動(dòng)產(chǎn)品優(yōu)化產(chǎn)品生命周期的根本。開(kāi)發(fā)者可以從留存用戶(hù)、使用時(shí)長(zhǎng)、使用頻率、訪(fǎng)問(wèn)深度等維度評(píng)價(jià)用戶(hù)粘度,以及RFM(Requency,F(xiàn)requency,Monetary)來(lái)評(píng)估用戶(hù)系數(shù)。例如,通過(guò)檢測(cè)每月新增用戶(hù)在初次使用后某段特定時(shí)間內(nèi)的留存率來(lái)對(duì)用戶(hù)進(jìn)行評(píng)估。

統(tǒng)計(jì)留存用戶(hù)的時(shí)間粒度很細(xì),主要有次日留存、7日留存、30日留存。

四、數(shù)據(jù)分析對(duì)移動(dòng)電子商務(wù)的意義

無(wú)論是公司或個(gè)人,在這個(gè)新時(shí)代,具有數(shù)據(jù)分析思維是一種更高層次的元認(rèn)知能力。由于移動(dòng)互聯(lián)網(wǎng)的出現(xiàn),用戶(hù)數(shù)據(jù)大量積累,營(yíng)銷(xiāo)方案的制定都是基于數(shù)據(jù)分析結(jié)果來(lái)決策。作為移動(dòng)電子商務(wù)公司的數(shù)據(jù)分析師,必須有對(duì)繁雜枯燥的數(shù)據(jù)進(jìn)行數(shù)據(jù)分析的本領(lǐng),更要有商業(yè)敏感性。

隨著大數(shù)據(jù)時(shí)代的到來(lái),以數(shù)據(jù)分析為思維的經(jīng)營(yíng)和管理思路將成為移動(dòng)電子商務(wù)市場(chǎng)中消費(fèi)行為及市場(chǎng)分析的依據(jù),而在這種以數(shù)據(jù)為主體的決策制定中,企業(yè)獲取的分析數(shù)據(jù)是直觀、動(dòng)態(tài)、及時(shí)的,相比咨詢(xún)公司或調(diào)研公司的滯后分析具有大數(shù)據(jù)和全樣本的優(yōu)勢(shì)。利用數(shù)據(jù)來(lái)分析用戶(hù)的行為習(xí)慣,進(jìn)而揣測(cè)用戶(hù)的心理,深入挖掘用戶(hù)需求,可以精確得出產(chǎn)品定位及活動(dòng),進(jìn)行決策。

參考文獻(xiàn):

篇(5)

關(guān)鍵詞:大數(shù)據(jù)分析方法;企業(yè)檔案管理;檔案數(shù)據(jù)資源;企業(yè)創(chuàng)新決策

Abstract: With the gradually go deep into the research of big data, the enterprise innovation decision-makings are more and more dependent on data analysis, and the enterprise archive data resources provide the data base for enterprise’s these decisions, therefore used of big data analysis in Enterprise Archive Management has important significance. This paper detailed expounds the Data Quality Management, Visualization Analysis, Semantic Engines, Data Mining, Tendency Prediction and so on five big data analysis methods in the application of Enterprise Archive Management and problems that deserve attention.

Keywords: Big data analysis method; Enterprise Archive Management; archives data resources; enterprise innovation decision-making

2015年9月5日,我國(guó)政府了《促進(jìn)大數(shù)據(jù)發(fā)展行動(dòng)綱要》,旨在促進(jìn)大數(shù)據(jù)和云計(jì)算、物聯(lián)網(wǎng)、移動(dòng)互聯(lián)網(wǎng)等新一代信息技術(shù)的融合,探索大數(shù)據(jù)和傳統(tǒng)產(chǎn)業(yè)發(fā)展新模式,推動(dòng)傳統(tǒng)產(chǎn)業(yè)轉(zhuǎn)型升級(jí)和新興產(chǎn)業(yè)發(fā)展。正如大數(shù)據(jù)專(zhuān)家舍恩伯格所說(shuō):大數(shù)據(jù)正在改變?nèi)藗兊纳詈腿藗兝斫馐澜绲姆绞?,更多的變化正蓄?shì)待發(fā),大數(shù)據(jù)管理分析思維和方法也開(kāi)始影響到我們企業(yè)檔案管理的發(fā)展趨勢(shì)。

1 大數(shù)據(jù)分析方法在企業(yè)檔案管理中應(yīng)用的背景

1.1 大數(shù)據(jù)研究逐漸縱深化。自從2008年science雜志推出Big Data專(zhuān)刊以來(lái),國(guó)內(nèi)外對(duì)大數(shù)據(jù)的研究如火如荼。經(jīng)過(guò)一段時(shí)間的探索,“目前大數(shù)據(jù)領(lǐng)域的研究大致可以分為4個(gè)方向:大數(shù)據(jù)科學(xué)、大數(shù)據(jù)技術(shù)、大數(shù)據(jù)應(yīng)用和大數(shù)據(jù)工程。而人們對(duì)于大數(shù)據(jù)技術(shù)和應(yīng)用兩個(gè)方面的關(guān)注比較多”[1]。正如2012年奧巴馬政府投入2億美元啟動(dòng) “大數(shù)據(jù)研究和發(fā)展計(jì)劃”的目標(biāo)所顯示的那樣,目前大數(shù)據(jù)的研究逐漸向縱深化方向發(fā)展,著重從大型復(fù)雜的數(shù)據(jù)中提取知識(shí)和觀點(diǎn),幫助企業(yè)實(shí)現(xiàn)從“數(shù)據(jù)分析能力”向“數(shù)據(jù)決策能力與優(yōu)勢(shì)”的轉(zhuǎn)化。

1.2 企業(yè)創(chuàng)新決策越來(lái)越依賴(lài)于數(shù)據(jù)分析。對(duì)于企業(yè)技術(shù)創(chuàng)新者而言,目前更多的企業(yè)高層越來(lái)越依靠基于數(shù)據(jù)分析的企業(yè)技術(shù)創(chuàng)新決策??總鹘y(tǒng)的經(jīng)驗(yàn)方法去決策往往是滯后的,因此,大數(shù)據(jù)分析方法作為先進(jìn)的定量分析方法,目前出現(xiàn)的一些先進(jìn)數(shù)據(jù)分析方法與技術(shù)勢(shì)必會(huì)對(duì)企業(yè)的運(yùn)行管理、生產(chǎn)業(yè)務(wù)流程、管理決策產(chǎn)生飛躍式的影響。大數(shù)據(jù)分析方法也成為企業(yè)檔案數(shù)據(jù)分析、技術(shù)創(chuàng)新決策的有效工具。

1.3 企業(yè)檔案為企業(yè)創(chuàng)新決策提供數(shù)據(jù)基礎(chǔ)。對(duì)于一個(gè)企業(yè)而言,使用的數(shù)據(jù)資源必須具有真實(shí)性可靠性?!捌髽I(yè)檔案是在企業(yè)的各項(xiàng)活動(dòng)中直接形成并保存?zhèn)洳榈母鞣N文獻(xiàn)載體形式的歷史記錄”[2],企業(yè)檔案是企業(yè)在生產(chǎn)、經(jīng)營(yíng)、管理等活動(dòng)中形成的全部有用數(shù)據(jù)的總和。除了發(fā)揮著憑證參考維護(hù)歷史真實(shí)面貌的作用之外,企業(yè)檔案更“是企業(yè)知識(shí)資產(chǎn)和信息資源的重要組成部分”[3],具有知識(shí)創(chuàng)新性、不可替代性,為企業(yè)技術(shù)創(chuàng)新決策提供數(shù)據(jù)基礎(chǔ)?!疤貏e是在當(dāng)前大數(shù)據(jù)背景下,企業(yè)檔案數(shù)據(jù)資源的開(kāi)發(fā)與建設(shè)對(duì)企業(yè)經(jīng)營(yíng)決策的制定與適應(yīng)市場(chǎng)競(jìng)爭(zhēng)環(huán)境起到關(guān)鍵性作用?!盵4]

在上述背景下,將大數(shù)據(jù)分析方法應(yīng)用在企業(yè)檔案管理中具有重要性意義:不僅拓展企業(yè)的管理決策理論,同時(shí)幫助企業(yè)運(yùn)用所擁有的檔案數(shù)據(jù)資源洞察市場(chǎng)環(huán)境,發(fā)現(xiàn)新的競(jìng)爭(zhēng)對(duì)手,進(jìn)行自我總結(jié),做出科學(xué)決策,使企業(yè)緊緊抓住大數(shù)據(jù)時(shí)代帶來(lái)的市場(chǎng)機(jī)遇。

2 大數(shù)據(jù)分析方法在企業(yè)檔案管理中應(yīng)用的方式

大數(shù)據(jù)分析方法在企業(yè)檔案管理中的實(shí)現(xiàn)方式即是將大數(shù)據(jù)分析方法運(yùn)用在企業(yè)檔案信息分析挖掘上。它貫穿企業(yè)數(shù)據(jù)處理的整個(gè)過(guò)程,遵循數(shù)據(jù)生命周期,廣泛收集數(shù)據(jù)進(jìn)行存儲(chǔ),并對(duì)數(shù)據(jù)進(jìn)行格式化預(yù)處理,采用數(shù)據(jù)分析模型,依托強(qiáng)大的運(yùn)行分析算法支撐數(shù)據(jù)平臺(tái),發(fā)掘潛在價(jià)值和規(guī)律并進(jìn)行呈現(xiàn)的過(guò)程。常見(jiàn)的大數(shù)據(jù)分析方法“其相關(guān)內(nèi)容包括可視化分析、數(shù)據(jù)挖掘、預(yù)測(cè)分析、語(yǔ)義分析及數(shù)據(jù)質(zhì)量管理”[5]。

2.1 數(shù)據(jù)質(zhì)量管理提升企業(yè)檔案數(shù)據(jù)資源品質(zhì)。大數(shù)據(jù)時(shí)代企業(yè)檔案數(shù)據(jù)資源呈現(xiàn)出4V特點(diǎn),這使得企業(yè)檔案數(shù)據(jù)很容易出現(xiàn)不一致、不精確、不完整、過(guò)時(shí)等數(shù)據(jù)質(zhì)量問(wèn)題?;跀?shù)據(jù)生命周期對(duì)企業(yè)檔案數(shù)據(jù)資源進(jìn)行數(shù)據(jù)質(zhì)量管理分為數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)使用三個(gè)階段。在數(shù)據(jù)預(yù)處理階段,通過(guò)ETL工具即數(shù)據(jù)經(jīng)過(guò)萃?。‥xtract)、轉(zhuǎn)換(Transform)、加載(Load)至目的端這幾個(gè)預(yù)處理過(guò)程達(dá)到數(shù)據(jù)清洗和格式化的目的。目前Oracle公司的Data Integrator和Warehouse Build、微軟的Dynamics Integration及IBM的Data Integrator都是比較常見(jiàn)的ETL工具。在數(shù)據(jù)存儲(chǔ)與使用階段,針對(duì)目前企業(yè)檔案大數(shù)據(jù)呈現(xiàn)出4V的特點(diǎn),傳統(tǒng)關(guān)系型數(shù)據(jù)庫(kù)在數(shù)據(jù)存儲(chǔ)與數(shù)據(jù)管理方面已經(jīng)難以勝任,非關(guān)系型數(shù)據(jù)庫(kù)以其高吞吐量、可拓展性、高并發(fā)讀寫(xiě)、實(shí)時(shí)性等特性能夠滿(mǎn)足數(shù)據(jù)存儲(chǔ)與管理的要求。目前應(yīng)用最廣的是并行處理系統(tǒng)MapReduce和非關(guān)系型數(shù)據(jù)庫(kù)比如谷歌的Big Table和Hadoop的HBase。將ETL工具移植入云計(jì)算平臺(tái)系統(tǒng),將會(huì)大大有助于完成數(shù)據(jù)清洗、重復(fù)對(duì)象檢測(cè)、缺失數(shù)據(jù)處理、異常數(shù)據(jù)檢測(cè)、邏輯錯(cuò)誤檢測(cè)、不一致數(shù)據(jù)處理等數(shù)據(jù)質(zhì)量處理過(guò)程,從而保證企業(yè)檔案數(shù)據(jù)資源的數(shù)據(jù)質(zhì)量。

2.2 可視化分析提升企業(yè)檔案數(shù)據(jù)資源可理解性。

“大數(shù)據(jù)可視分析是指在大數(shù)據(jù)自動(dòng)分析挖掘方法的同時(shí),利用支持信息可視化的用戶(hù)界面以及支持分析過(guò)程的人機(jī)交互方式與技術(shù),有效融合計(jì)算機(jī)的計(jì)算能力和人的認(rèn)知能力,以獲得對(duì)于大規(guī)模復(fù)雜數(shù)據(jù)集的洞察力?!盵6]那么企業(yè)檔案數(shù)據(jù)資源的可視化分析可以理解為借助可視化工具把企業(yè)檔案數(shù)據(jù)資源轉(zhuǎn)化成直觀、可視、交互形式(如表格、動(dòng)畫(huà)、聲音、文本、視頻、圖形等)的過(guò)程,便于企業(yè)經(jīng)營(yíng)者的理解利用。

以2015年2月15日最新版的“百度遷徙”(全稱(chēng)“百度地圖春節(jié)人口遷徙大數(shù)據(jù)”)為例,該項(xiàng)目讓我們近距離了解到大數(shù)據(jù)可視化。它利用百度后臺(tái)每天數(shù)十億次的LBS定位獲得的數(shù)據(jù)進(jìn)行計(jì)算分析,全程展現(xiàn)中國(guó)人口遷徙軌跡,為政府部門(mén)科學(xué)決策提供科學(xué)依據(jù)。受該項(xiàng)目啟發(fā),企業(yè)可將擁有不同類(lèi)型的檔案信息進(jìn)行可視化,比如進(jìn)行企業(yè)檔案的網(wǎng)絡(luò)數(shù)據(jù)可視化、時(shí)空數(shù)據(jù)可視化、時(shí)間序列數(shù)據(jù)可視化、多維數(shù)據(jù)可視化、文本數(shù)據(jù)可視化等[7]。以文本數(shù)據(jù)可視化為例,目前典型的文本可視化技術(shù)標(biāo)簽云,可以將檔案文本中蘊(yùn)含的主題聚類(lèi)、邏輯結(jié)構(gòu)、詞頻與重要度、動(dòng)態(tài)演化規(guī)律直觀展示出來(lái),為企業(yè)決策提供依據(jù)。另外,常見(jiàn)的信息圖表類(lèi)可視化工具主要有Google chart、 IBM Many Eyes、Tableau、Spotfire、Data-Driven Documents(D3.js)等;時(shí)間線(xiàn)類(lèi)可視化工具主要是Timetoast,、Xtimeline、Timeslide、Dipity等;數(shù)據(jù)地圖類(lèi)可視化工具主要有Leaflet、Google fushion tables、Quanum GIS等。這些新技術(shù)都為企業(yè)檔案數(shù)據(jù)資源可視化提供了科學(xué)工具。

2.3 語(yǔ)義引擎實(shí)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的智能提取。大數(shù)據(jù)時(shí)代全球數(shù)據(jù)存儲(chǔ)量呈激增趨勢(shì),傳統(tǒng)的基于人工分類(lèi)目錄或關(guān)鍵詞匹配的搜索引擎(谷歌、百度等)僅僅能夠進(jìn)行簡(jiǎn)單的關(guān)鍵詞匹配,用戶(hù)無(wú)法得到非常準(zhǔn)確的信息,檢索準(zhǔn)確率并不高,而且檢索結(jié)果相關(guān)度較低,檢索結(jié)果缺乏引導(dǎo)性。為提供給用戶(hù)高質(zhì)量的檢索結(jié)果,改善用戶(hù)搜索體驗(yàn),提高效率,實(shí)現(xiàn)智能提取,語(yǔ)義搜索引擎應(yīng)運(yùn)而生?!罢Z(yǔ)義引擎是隨著語(yǔ)義網(wǎng)的發(fā)展,采用語(yǔ)義網(wǎng)的語(yǔ)義推理技術(shù)實(shí)現(xiàn)語(yǔ)義搜索的語(yǔ)義搜索引擎?!盵8]它具備從語(yǔ)義理解的角度分析檢索者的檢索請(qǐng)求,能夠理解檢索者的真正意圖,實(shí)現(xiàn)信息智能提取。對(duì)語(yǔ)義分析可以采取自然語(yǔ)言處理方法進(jìn)行概念匹配,提供與檢索者需求相同、相近或者相包含的詞語(yǔ)。目前存在基于本體的語(yǔ)義處理技術(shù),它以本體庫(kù)作為語(yǔ)義搜索引擎理解和運(yùn)用語(yǔ)義的基礎(chǔ)。對(duì)于企業(yè)而言,將語(yǔ)義引擎分析方法與協(xié)同過(guò)濾關(guān)聯(lián)規(guī)則相結(jié)合,可以挖掘用戶(hù)的需求,提供個(gè)性化的服務(wù)。比如亞馬遜公司通過(guò)對(duì)用戶(hù)檢索的語(yǔ)義進(jìn)行分析推理,結(jié)合協(xié)同過(guò)濾關(guān)聯(lián)規(guī)則,為用戶(hù)提供相近需求的產(chǎn)品,提升自己的經(jīng)濟(jì)效益。對(duì)于一份人事檔案而言,語(yǔ)義引擎也能分析出該份人事檔案中的某人的職務(wù)、級(jí)別,從中提取出姓名一職務(wù)一級(jí)別一時(shí)間等關(guān)鍵信息,提高檢索準(zhǔn)確率和效率,實(shí)現(xiàn)智能提取。

2.4 數(shù)據(jù)挖掘發(fā)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的隱性?xún)r(jià)值?!皵?shù)據(jù)挖掘又稱(chēng)數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)”[9]。簡(jiǎn)而言之,數(shù)據(jù)挖掘就是企業(yè)從數(shù)據(jù)集中發(fā)現(xiàn)知識(shí)模式,根據(jù)功能一般分為預(yù)測(cè)性模式和描述性模式,細(xì)分主要有分類(lèi)與回歸模型、聚類(lèi)分析模型、關(guān)聯(lián)規(guī)則模型、時(shí)間序列模型、偏差檢測(cè)模型等。主要挖掘方法有神經(jīng)網(wǎng)絡(luò)方法、機(jī)器學(xué)習(xí)方法數(shù)據(jù)庫(kù)方法和統(tǒng)計(jì)方法等。

數(shù)據(jù)挖掘是大數(shù)據(jù)分析方法的核心。對(duì)于企業(yè)而言,數(shù)據(jù)挖掘的檔案數(shù)據(jù)資源應(yīng)該由兩部分組成:一是企業(yè)正常運(yùn)行管理過(guò)程中所形成的檔案數(shù)據(jù)資源,通過(guò)運(yùn)用分類(lèi)、聚類(lèi)、關(guān)聯(lián)規(guī)則等方法對(duì)企業(yè)內(nèi)部的數(shù)據(jù)進(jìn)行挖掘,發(fā)現(xiàn)潛在模式,為企業(yè)技術(shù)創(chuàng)新人員決策提供支持。比如在2004年全球最大的零售商沃爾瑪在分析歷史記錄的顧客消費(fèi)數(shù)據(jù)時(shí),發(fā)現(xiàn)每次季節(jié)性颶風(fēng)來(lái)臨之前,手電筒和蛋撻的數(shù)量全部增加。根據(jù)這一關(guān)聯(lián)發(fā)現(xiàn),沃爾瑪公司會(huì)在颶風(fēng)用品的旁邊放上蛋撻,提升了企業(yè)的經(jīng)濟(jì)效益;二是企業(yè)在運(yùn)行過(guò)程中遺存在互聯(lián)網(wǎng)上的數(shù)據(jù),通過(guò)網(wǎng)絡(luò)輿情及時(shí)跟蹤可以獲取市場(chǎng)最新動(dòng)態(tài),為企業(yè)調(diào)整服務(wù)模式、市場(chǎng)策略、降低風(fēng)險(xiǎn)提供依據(jù)。比如Farecast公司運(yùn)用數(shù)據(jù)挖掘,從網(wǎng)絡(luò)抓取數(shù)據(jù)來(lái)預(yù)測(cè)機(jī)票價(jià)格以及未來(lái)發(fā)展趨勢(shì),幫助客戶(hù)把握最佳購(gòu)買(mǎi)時(shí)機(jī),獲得較大成功。

2.5 趨勢(shì)預(yù)測(cè)分析實(shí)現(xiàn)企業(yè)檔案數(shù)據(jù)資源的價(jià)值創(chuàng)造?!邦A(yù)測(cè)分析是利用統(tǒng)計(jì)、建模、數(shù)據(jù)挖掘工具對(duì)已有數(shù)據(jù)進(jìn)行研究以完成預(yù)測(cè)?!盵10]預(yù)測(cè)分析的方法分為定性與定量分析兩種方法:定性分析如德?tīng)柗品ㄒ约敖陙?lái)人工智能產(chǎn)生的Boos-ting?貝葉斯網(wǎng)絡(luò)法等;定量分析法一般從形成的歷史數(shù)據(jù)中發(fā)掘數(shù)據(jù)模型達(dá)到預(yù)測(cè)效果,如時(shí)間序列分析模型、分類(lèi)與回歸分析模型等。

企業(yè)檔案數(shù)據(jù)資源預(yù)測(cè)分析是在企業(yè)檔案數(shù)據(jù)資源數(shù)據(jù)挖掘的基礎(chǔ)之上,發(fā)現(xiàn)適合模型,將企業(yè)檔案數(shù)據(jù)輸入該模型使得企業(yè)技術(shù)創(chuàng)新人員達(dá)到預(yù)測(cè)性的判斷效果,實(shí)現(xiàn)價(jià)值的創(chuàng)造。一個(gè)典型的例子即是市場(chǎng)預(yù)測(cè)問(wèn)題,企業(yè)技術(shù)創(chuàng)新者可以根據(jù)檔案數(shù)據(jù)預(yù)測(cè)某件產(chǎn)品在未來(lái)六個(gè)月內(nèi)的銷(xiāo)售趨勢(shì)走向,進(jìn)而進(jìn)行生產(chǎn)、物流、營(yíng)銷(xiāo)等活動(dòng)安排。具體來(lái)講企業(yè)可以通過(guò)數(shù)據(jù)時(shí)間序列分析模型預(yù)測(cè)產(chǎn)品銷(xiāo)售旺季和淡季顧客的需求量,從而制定針對(duì)獨(dú)特的營(yíng)銷(xiāo)策略,減少生產(chǎn)和銷(xiāo)售的波動(dòng)性,獲得利潤(rùn)和競(jìng)爭(zhēng)優(yōu)勢(shì)。預(yù)測(cè)分析在大數(shù)據(jù)時(shí)代彰顯出企業(yè)檔案數(shù)據(jù)資源獨(dú)特的魅力。

3 大數(shù)據(jù)分析方法運(yùn)用于企業(yè)檔案管理中應(yīng)當(dāng)注意的問(wèn)題

3.1 成本問(wèn)題。大數(shù)據(jù)分析需要依靠分析工具和運(yùn)算時(shí)間,特別是在復(fù)雜的企業(yè)檔案數(shù)據(jù)資源中采用相關(guān)大數(shù)據(jù)分析工具的科技成本還是很高的,要以最少運(yùn)算成本獲得更有價(jià)值的數(shù)據(jù)內(nèi)容。合理選擇大數(shù)據(jù)分析工具不光可以節(jié)省運(yùn)算成本而且能夠更快速獲取盈利增長(zhǎng)點(diǎn),同時(shí)在大數(shù)據(jù)分析和企業(yè)檔案數(shù)據(jù)資源的存儲(chǔ)成本方面也要適當(dāng)?shù)目刂圃诤侠淼姆秶鷥?nèi)。既要保證大數(shù)據(jù)分析質(zhì)量,又要降低企業(yè)檔案存儲(chǔ)成本是大數(shù)據(jù)分析方法運(yùn)用到企業(yè)檔案管理中的重要原則。

3.2 時(shí)效問(wèn)題?!按髷?shù)據(jù)的動(dòng)態(tài)性強(qiáng),要求分析處理應(yīng)快速響應(yīng),在動(dòng)態(tài)變化的環(huán)境中快速完成分析過(guò)程,有些甚至必須實(shí)時(shí)分析,否則這些結(jié)果可能就是過(guò)時(shí)、無(wú)效的”。[11]由此可見(jiàn),影響大數(shù)據(jù)分析的重要因素就是時(shí)效性問(wèn)題?!按髷?shù)據(jù)數(shù)據(jù)分析的核心內(nèi)容之一是數(shù)據(jù)建?!保琜12]數(shù)據(jù)分析模型要不斷的更新適應(yīng)數(shù)據(jù)的動(dòng)態(tài)變化。如果模型落后于數(shù)據(jù)的變化,那數(shù)據(jù)分析只能是失效的。同時(shí)由于經(jīng)濟(jì)環(huán)境、政治生態(tài)、社會(huì)文化等因素不斷變革,企業(yè)檔案數(shù)據(jù)的收集也會(huì)產(chǎn)生新的問(wèn)題。只有不斷加強(qiáng)對(duì)這些數(shù)據(jù)的實(shí)時(shí)監(jiān)測(cè)和有效分析,才能更好的識(shí)別出數(shù)據(jù)變化中的細(xì)微之處,建立與之相適應(yīng)的數(shù)據(jù)分析新模型。

3.3 情感問(wèn)題。“大數(shù)據(jù)的另一個(gè)局限性在于它很難表現(xiàn)和描述用戶(hù)的感情?!贝髷?shù)據(jù)分析方法在處理企業(yè)檔案數(shù)據(jù)方面可以說(shuō)如魚(yú)得水,大數(shù)據(jù)分析是一種科學(xué)的機(jī)器運(yùn)算方法,無(wú)法去實(shí)現(xiàn)人文價(jià)值提取,比如如何從企業(yè)檔案數(shù)據(jù)資源中提取企業(yè)文化,這更需要人的情感直覺(jué)去實(shí)現(xiàn),而嚴(yán)謹(jǐn)?shù)目茖W(xué)數(shù)據(jù)是無(wú)法實(shí)現(xiàn)的。因此,我們?cè)跓嶂杂诖髷?shù)據(jù)分析方法的量化結(jié)果時(shí),同時(shí)也不要忽略在傳統(tǒng)企業(yè)檔案管理中的那份人文精神。

篇(6)

關(guān)鍵詞:HXN5機(jī)車(chē);曲軸箱超壓;數(shù)據(jù)特點(diǎn)

1 前言

HXN5機(jī)車(chē)自投入運(yùn)用以來(lái),頻繁發(fā)生曲軸箱超壓故障。僅2011、2012兩年間,因各種原因引起的曲軸箱超壓報(bào)警就有220余起,嚴(yán)重影響了機(jī)車(chē)的正常運(yùn)用。

導(dǎo)致曲軸箱壓力高的原因非常多,大體上可分為機(jī)械類(lèi)、電器類(lèi)(傳感器、線(xiàn)束等)兩種。因此,快速區(qū)分原因類(lèi)別,確定檢查方向,可以大幅度提高檢修效率。

2 機(jī)車(chē)數(shù)據(jù)分析軟件

2.1 數(shù)據(jù)背景

由于前期GE公司技術(shù)保密,未提供分析軟件,無(wú)法進(jìn)行數(shù)據(jù)分析。判斷故障時(shí),只能憑借經(jīng)驗(yàn),進(jìn)行整車(chē)檢查,費(fèi)時(shí)費(fèi)力。通過(guò)多次溝通后,GE同意提供數(shù)據(jù)分析軟件drconv.exe,使得運(yùn)用數(shù)據(jù)分析方法來(lái)判斷故障原因成為可能。

2.2 數(shù)據(jù)轉(zhuǎn)換

由于下載的機(jī)車(chē)數(shù)據(jù)中,ECU的數(shù)據(jù)文件(eng文件)不能直接打開(kāi),需要使用GE提供的數(shù)據(jù)分析軟件(drconv.exe)轉(zhuǎn)換成DRA文件后,才能用EXCELL軟件打開(kāi)。

2.3 數(shù)據(jù)樣式

文件打開(kāi)后,就可以對(duì)各相關(guān)參數(shù)進(jìn)行具體分析。打開(kāi)后的文件模型如表1(已做相關(guān)性處理):

3 一起典型的機(jī)械類(lèi)曲軸箱超壓故障

3.1 故障描述

HXN50323 機(jī)車(chē)自2012年9月16日發(fā)生曲軸箱超壓以來(lái),現(xiàn)場(chǎng)服務(wù)組對(duì)其進(jìn)行了各項(xiàng)檢查,一直未能查出具體原因。10月13日,曲軸箱超壓攻關(guān)組與GE工程師一道赴段調(diào)查。

3.2 故障處理

首先按照曲軸箱超壓故障作業(yè)指導(dǎo)書(shū)進(jìn)行相關(guān)檢查,發(fā)現(xiàn)一些異?,F(xiàn)象。但這些異?,F(xiàn)象程度都輕微,都不應(yīng)是超壓的真正原因。

恢復(fù)機(jī)車(chē)后,對(duì)比拆掉機(jī)油加油口蓋前后自負(fù)荷曲軸箱壓力的變化情況,進(jìn)行自負(fù)荷試驗(yàn),試驗(yàn)結(jié)果拆掉機(jī)油加油口蓋后曲軸箱壓力遠(yuǎn)低于拆除前的值,可見(jiàn)確實(shí)存在柴油機(jī)機(jī)械故障(如動(dòng)力組竄氣))。我們建議拆動(dòng)力組做進(jìn)一步詳查。

3.3 機(jī)車(chē)下載數(shù)據(jù)情況

3.3.1 Snp日志文件:

打開(kāi)snp日志文件,可見(jiàn)9月16日在線(xiàn)上有兩次超壓(表2):

① 01:00:50 機(jī)車(chē)速度36.963英里/小時(shí),柴油機(jī)檔位8檔;

② 04:39:24 機(jī)車(chē)速度19.179英里/小時(shí),柴油機(jī)檔位7檔。

最后一次10月13日19:31:02為攻關(guān)組在現(xiàn)場(chǎng)做數(shù)據(jù)采集時(shí)觸發(fā)。

3.3.2 Eng數(shù)據(jù)文件:

3是10月13日自負(fù)荷試驗(yàn)曲軸箱壓力隨功率的變化曲線(xiàn)??梢?jiàn)cop數(shù)值5檔時(shí)在0.5—1之間波動(dòng),柴油機(jī)拉6檔,曲軸箱壓力上升觸發(fā)報(bào)警。柴油機(jī)停機(jī)后cop迅速回落到0附近。

3.3.3 數(shù)據(jù)分析情況小結(jié)

(1)8檔曲軸箱壓力從9月12日開(kāi)始一直呈上升趨勢(shì),到9月16日漲至0附近觸發(fā)報(bào)警。

(2)在段內(nèi)檢修過(guò)程中,多次試驗(yàn)報(bào)警后,cop數(shù)值均快速回落。

(3)9月12日至16日曲軸箱壓力緩慢上升的過(guò)程中,機(jī)油壓力保持穩(wěn)定,沒(méi)有明顯的下降趨勢(shì)。

3.4 檢查結(jié)果

現(xiàn)場(chǎng)試驗(yàn)數(shù)據(jù)分析結(jié)果顯示該次超壓為機(jī)械類(lèi)超壓。機(jī)車(chē)后期返廠(chǎng)解體檢查的結(jié)果為:左5缸活塞的鋼頂?shù)谝坏罋猸h(huán)處存在裂紋,引起燃?xì)庀赂Z,造成曲軸箱超壓。

3.5 數(shù)據(jù)特點(diǎn)

通過(guò)檢查結(jié)果、數(shù)據(jù)分析情況和工作原理,歸結(jié)出機(jī)械類(lèi)故障的數(shù)據(jù)特點(diǎn)為:觸發(fā)報(bào)警停機(jī)后,曲軸箱壓力迅速(10秒內(nèi))回零(0.5英寸水柱以下)。

4 一起典型的電器類(lèi)曲軸箱超壓故障

4.1 故障描述

2012年9月24日50369機(jī)車(chē)擔(dān)當(dāng)85310次牽引任務(wù),編組29-2295-34.6,列車(chē)23:46分因曲軸箱超壓在扎亥薩拉站1道停車(chē),司機(jī)解鎖柴油機(jī)處理后0:09分開(kāi)車(chē),站停23分。之后在線(xiàn)上再次發(fā)生曲軸箱超壓報(bào)警影響本列運(yùn)行晚點(diǎn)。

回段后檢查柴油機(jī)各部良好,更換曲軸箱壓力傳感器,檢查并試驗(yàn)正常。

4.2 數(shù)據(jù)情況

4.2.1 Snp文件:

4.2.2 ENG數(shù)據(jù)文件

圖4為23日23點(diǎn)42分故障時(shí)曲軸箱壓力和柴油機(jī)轉(zhuǎn)速隨時(shí)間的變化曲線(xiàn)。可看出從42分45秒開(kāi)始cop就開(kāi)始超出報(bào)警保護(hù)值(1.5 in H2O),至42分55秒觸發(fā)停機(jī)。此外,隨著柴油機(jī)轉(zhuǎn)速降為0的過(guò)程中,曲軸箱一直保持在一個(gè)較高的壓力(1.55 in H2O)。

4.2.3 數(shù)據(jù)分析情況小結(jié):

兩次故障曲軸箱壓力都在柴油機(jī)低檔位轉(zhuǎn)速波動(dòng)不大的情況下自行上升,且在停機(jī)后仍然保持一個(gè)較高的數(shù)值。

4.3 數(shù)據(jù)特點(diǎn)

通過(guò)檢查結(jié)果、數(shù)據(jù)分析情況和工作原理,歸結(jié)出電器類(lèi)故障的數(shù)據(jù)特點(diǎn)為:觸發(fā)報(bào)警停機(jī)后,曲軸箱壓力可能不會(huì)迅速(10秒內(nèi))回零(0.5英寸水柱以下);或者柴油機(jī)停機(jī)后曲軸箱壓力仍然保持在一個(gè)較高值。

5 結(jié)論

本文通過(guò)介紹HXN50323和50369機(jī)車(chē)曲軸箱超壓故障的處理經(jīng)過(guò),對(duì)數(shù)據(jù)分析方法在故障原因判斷過(guò)程中的應(yīng)用進(jìn)行了研究,由此對(duì)不同類(lèi)型故障數(shù)據(jù)的特點(diǎn)進(jìn)行了歸納。機(jī)械類(lèi)故障的數(shù)據(jù)特點(diǎn)為:觸發(fā)報(bào)警停機(jī)后,曲軸箱壓力迅速(10秒內(nèi))回零(0.5英寸水柱以下)。電器類(lèi)故障的數(shù)據(jù)特點(diǎn)為:觸發(fā)報(bào)警停機(jī)后,曲軸箱壓力可能不會(huì)迅速(10秒內(nèi))回零(0.5英寸水柱以下);或者柴油機(jī)停機(jī)后曲軸箱壓力仍然保持在一個(gè)較高值。

由于之前電器的故障率太高,使得段方和現(xiàn)場(chǎng)服務(wù)人員在判斷此類(lèi)故障原因時(shí),有一種先入為主的觀念,容易優(yōu)先考慮反復(fù)更換傳感器、線(xiàn)束、ECU等電器元件,費(fèi)時(shí)費(fèi)力。依照不同故障類(lèi)型的數(shù)據(jù)特點(diǎn),通過(guò)數(shù)據(jù)分析,在查找一些疑難的超壓原因時(shí),能快速區(qū)分原因類(lèi)別,明確檢查方向,節(jié)省檢修時(shí)間,從而大幅度提高檢修效率。

參考文獻(xiàn)

[1] 主干線(xiàn)機(jī)車(chē)維修故障處理手冊(cè),2011

[2] 張松楊. GEVO16型柴油機(jī)機(jī)體的設(shè)計(jì)分析. 鐵道機(jī)車(chē)車(chē)輛,2009,(2).

[3] 薛良君,樓狄明,張松楊. 16V280ZJB型柴油機(jī)機(jī)體應(yīng)力測(cè)試與分析. 內(nèi)燃機(jī)車(chē),

2003,(9).

篇(7)

關(guān)鍵詞:道路運(yùn)輸 大數(shù)據(jù)分析 決策技術(shù)

中圖分類(lèi)號(hào):U495 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2016)12(c)-0147-02

交通運(yùn)輸業(yè)指的是在國(guó)民經(jīng)濟(jì)的發(fā)展過(guò)程中主要負(fù)責(zé)運(yùn)送貨物和旅客的社會(huì)生產(chǎn)工作,其中包括鐵路運(yùn)輸、公路運(yùn)輸、水路運(yùn)輸以及航空運(yùn)輸?shù)鹊?。該文主要將城市道路交通運(yùn)輸作為主要切入點(diǎn),分析當(dāng)前大數(shù)據(jù)分析決策技術(shù)在城市道路運(yùn)輸行業(yè)的應(yīng)用過(guò)程中所出現(xiàn)的問(wèn)題以及所帶來(lái)的重要影響。在信息技術(shù)高速發(fā)展的今天,以數(shù)據(jù)為核心的大數(shù)據(jù)技術(shù)在交通系統(tǒng)中的應(yīng)用已經(jīng)逐漸為城市交通事業(yè)的發(fā)展提供了新的方向,并打開(kāi)了新世紀(jì)的大門(mén),城市智慧交通的時(shí)代已經(jīng)逐漸到來(lái)了。

1 大數(shù)據(jù)分析決策技術(shù)概述

1.1 大數(shù)據(jù)分析決策技術(shù)的概念

大數(shù)據(jù),顧名思義是對(duì)許多大型數(shù)據(jù)進(jìn)行分析、處理和管理的數(shù)據(jù)集,數(shù)據(jù)的最大可達(dá)到10 TB左右,在大數(shù)據(jù)的日常工作中具有體量大,數(shù)據(jù)類(lèi)別多,數(shù)據(jù)處理速度快以及數(shù)據(jù)具有真實(shí)性的特點(diǎn)。

而大數(shù)據(jù)分析決策技術(shù)正是在大數(shù)據(jù)的體量大、數(shù)據(jù)類(lèi)別多、數(shù)據(jù)處理速度快以及數(shù)據(jù)具有真實(shí)性的優(yōu)勢(shì)的基礎(chǔ)上對(duì)數(shù)據(jù)進(jìn)行分析和決策的一種新興技術(shù)。這種技術(shù)多應(yīng)用于公共交通服務(wù)、交通引導(dǎo)、物流調(diào)度優(yōu)化等各個(gè)方面。大數(shù)據(jù)分析決策技術(shù)能夠通過(guò)反饋的各種交通數(shù)據(jù)和各種資源進(jìn)行分析、處理、整合,并能夠依托云計(jì)算服務(wù)平臺(tái)為使用者提供更加快捷、便利的出行服務(wù)。

1.2 大數(shù)據(jù)分析決策技術(shù)的關(guān)鍵

大數(shù)據(jù)分析決策技術(shù)的關(guān)鍵在于計(jì)算層,而計(jì)算層主要指的是利用內(nèi)存計(jì)算中的Spark,并利用R語(yǔ)言和框架來(lái)實(shí)現(xiàn)專(zhuān)業(yè)的統(tǒng)計(jì)分析功能,采用圖形的方式展現(xiàn),以保證分布式的集群和高效存儲(chǔ)方式來(lái)加快大數(shù)據(jù)集上的查詢(xún)速度。除此之外,Mahout是一個(gè)集數(shù)據(jù)挖掘、決策支持等算法于一身的工具,其中包含的都是基于Hadoop來(lái)實(shí)現(xiàn)的經(jīng)典算法,通常相關(guān)人員會(huì)使用其作為數(shù)據(jù)分析的核心算法集來(lái)進(jìn)行參考[1]。

利用大數(shù)據(jù)進(jìn)行決策和分析,就必須通過(guò)表格和圖表圖形來(lái)展示,這樣一來(lái),將使得數(shù)據(jù)的分類(lèi)更加詳細(xì),并提高了數(shù)據(jù)的權(quán)威性。另外,Tableau和Pentaho也是進(jìn)行處理的最佳選擇。

2 大數(shù)據(jù)分析決策技術(shù)在道路運(yùn)輸業(yè)的應(yīng)用分析

2.1 大數(shù)據(jù)分析決策技術(shù)在道路運(yùn)輸業(yè)的應(yīng)用現(xiàn)狀

伴隨著信息技術(shù)的快速發(fā)展和高新技術(shù)產(chǎn)業(yè)的高速推進(jìn),新科技、新技術(shù)已經(jīng)融入到了各行各業(yè)的生產(chǎn)活動(dòng)和運(yùn)營(yíng)管理當(dāng)中,并深入到了人們的生活中,使普通人也能看見(jiàn)科技,摸得著技術(shù),時(shí)時(shí)刻刻地感受著科學(xué)技術(shù)為生活帶來(lái)的美好[2]。

當(dāng)前,大數(shù)據(jù)分析決策技術(shù)在道路運(yùn)輸業(yè)應(yīng)用日漸成熟,使得大數(shù)據(jù)分析決策技術(shù)已經(jīng)成為了城市智慧交通的重要發(fā)展平臺(tái)和重要的技術(shù)載體,科學(xué)穩(wěn)定的分析決策技術(shù),便捷高效的數(shù)據(jù)處理技術(shù)使得大數(shù)據(jù)分析決策技術(shù)在城市道路運(yùn)輸業(yè)一經(jīng)應(yīng)用就得到了迅速的拓展。大數(shù)據(jù)分析決策技術(shù)對(duì)城市運(yùn)輸業(yè)所反饋的數(shù)據(jù)包、日志、資產(chǎn)數(shù)據(jù)以及諸如漏洞信息、配置信息、身份與訪(fǎng)問(wèn)信息、用戶(hù)行為信息、應(yīng)用信息、業(yè)務(wù)信息、外部情報(bào)信息等信息的分析、處理和決策帶來(lái)了極大的便捷。

2.2 大數(shù)據(jù)分析決策技術(shù)應(yīng)用面臨的挑戰(zhàn)

2.2.1 行業(yè)標(biāo)準(zhǔn)缺乏統(tǒng)一性

行業(yè)標(biāo)準(zhǔn)缺乏統(tǒng)一性是大數(shù)據(jù)分析決策技術(shù)應(yīng)用面臨的挑戰(zhàn)之一,眾所周知,地區(qū)經(jīng)濟(jì)發(fā)展不平衡是我國(guó)經(jīng)濟(jì)發(fā)展的重要現(xiàn)狀之一,在這樣的背景下,致使我國(guó)道路運(yùn)輸業(yè)發(fā)展也存在著地區(qū)發(fā)展不平衡的問(wèn)題,這樣一來(lái),很難在全國(guó)實(shí)行統(tǒng)一的行業(yè)標(biāo)準(zhǔn),致使很多地區(qū)的城市運(yùn)輸數(shù)據(jù)系統(tǒng)相對(duì)獨(dú)立,沒(méi)有在全國(guó)范圍內(nèi)形成統(tǒng)一、完整的智慧交通系統(tǒng)。

智慧交通運(yùn)輸系統(tǒng)的不完整,導(dǎo)致了各個(gè)城市之間的道路運(yùn)輸?shù)男畔⒑蛿?shù)據(jù)的銜接與配合達(dá)不到一定的標(biāo)準(zhǔn),進(jìn)而嚴(yán)重影響交通數(shù)據(jù)的收集和處理,并阻礙了城市\(zhòng)輸線(xiàn)路的分析和統(tǒng)計(jì)。

2.2.2 基礎(chǔ)設(shè)施缺乏穩(wěn)定性

基礎(chǔ)設(shè)施缺乏穩(wěn)定性也是大數(shù)據(jù)分析決策技術(shù)應(yīng)用所面臨的挑戰(zhàn)之一,大數(shù)據(jù)決策分析技術(shù)在城市道路運(yùn)輸業(yè)得以應(yīng)用的目的在于建立完整度和成熟度較高的智慧城市道路交通系統(tǒng),而這樣智慧交通系統(tǒng)必將是整合度和復(fù)雜度較高的系統(tǒng),如果想要建立這樣的智慧交通系統(tǒng)不僅僅需要成熟的大數(shù)據(jù)分析技術(shù),更需要完整、穩(wěn)定的基礎(chǔ)設(shè)施作為建立這一系統(tǒng)的平臺(tái)。但是,當(dāng)前在建立這一系統(tǒng)的過(guò)程中卻面臨著城市運(yùn)輸系統(tǒng)硬件設(shè)備功能滯后、老化的現(xiàn)狀,這些問(wèn)題都可能會(huì)引起引起數(shù)據(jù)的泄露,甚至丟失,為大數(shù)據(jù)的統(tǒng)計(jì)和處理帶來(lái)了極大的威脅。

2.2.3 數(shù)據(jù)統(tǒng)計(jì)缺乏真實(shí)性

數(shù)據(jù)統(tǒng)計(jì)缺乏真實(shí)性同樣也是大數(shù)據(jù)分析決策技術(shù)應(yīng)用所面臨的問(wèn)題和挑戰(zhàn)。作為數(shù)據(jù)統(tǒng)計(jì)和數(shù)據(jù)整合的重要技術(shù),數(shù)據(jù)的真實(shí)性和精確性是其存在的最重要的基礎(chǔ)。大數(shù)據(jù)分析決策技術(shù)在道路運(yùn)輸行業(yè)得以應(yīng)用的重要標(biāo)準(zhǔn),如果數(shù)據(jù)的真實(shí)出現(xiàn)了問(wèn)題,將使得智慧交通系統(tǒng)失去其應(yīng)用價(jià)值。目前由于道路運(yùn)輸設(shè)備老化等問(wèn)題,致使其性能得不到根本的保證,造成了信號(hào)獲取的不穩(wěn)定,由此可能會(huì)出現(xiàn)數(shù)據(jù)統(tǒng)計(jì)缺乏真實(shí)性的問(wèn)題。

3 大數(shù)據(jù)分析決策技術(shù)在道路運(yùn)輸業(yè)應(yīng)用問(wèn)題的解決措施

3.1 加強(qiáng)交通平臺(tái)資源整合,推進(jìn)數(shù)據(jù)標(biāo)準(zhǔn)化

為了解決行業(yè)標(biāo)準(zhǔn)缺乏統(tǒng)一性的問(wèn)題,相關(guān)人員應(yīng)當(dāng)加強(qiáng)交通大數(shù)據(jù)應(yīng)用基礎(chǔ)設(shè)施建設(shè)。正如上文所說(shuō)的我國(guó)經(jīng)濟(jì)發(fā)展的不平衡導(dǎo)致了城市交通運(yùn)輸業(yè)發(fā)展的不平衡,而交通運(yùn)輸系統(tǒng)又是極為復(fù)雜的系統(tǒng),如果每個(gè)城市之間交通平臺(tái)不能形成很好的銜接,將會(huì)極大地影響交通運(yùn)輸業(yè)的發(fā)展,問(wèn)題解決措施如下。

首先,需要相關(guān)部門(mén)建立完整的道路交通運(yùn)輸標(biāo)準(zhǔn),對(duì)各個(gè)城市的交通運(yùn)輸情況進(jìn)行嚴(yán)格的管理,努力建立一個(gè)統(tǒng)一度高、完整度高的現(xiàn)代化、標(biāo)準(zhǔn)化行業(yè)標(biāo)準(zhǔn)。

其次,還需要加強(qiáng)對(duì)各個(gè)交通平臺(tái)資源的分配和整合,加強(qiáng)各個(gè)地區(qū)的兼容性。

最后,還應(yīng)當(dāng)實(shí)現(xiàn)各個(gè)地區(qū)各個(gè)交通的相互合作,相互聯(lián)系,推動(dòng)交通運(yùn)輸標(biāo)準(zhǔn)化、統(tǒng)一化的實(shí)現(xiàn)。

3.2 加強(qiáng)交通大數(shù)據(jù)應(yīng)用基礎(chǔ)設(shè)施建設(shè)

為了解決基礎(chǔ)設(shè)施缺乏穩(wěn)定性的問(wèn)題,相關(guān)人員應(yīng)當(dāng)加強(qiáng)交通大數(shù)據(jù)應(yīng)用基礎(chǔ)設(shè)施建設(shè)。正如上文介紹的我國(guó)道路運(yùn)輸系統(tǒng)的設(shè)備因使用時(shí)間較長(zhǎng),設(shè)備老化度較高,這嚴(yán)重影響了大數(shù)據(jù)決策分析技術(shù)的應(yīng)用,為解決這一問(wèn)題,應(yīng)當(dāng)加強(qiáng)基礎(chǔ)設(shè)施建設(shè),及時(shí)對(duì)設(shè)備進(jìn)行更新和維護(hù),從而實(shí)現(xiàn)信息數(shù)據(jù)的安全有效。

3.3 嚴(yán)格控制交通運(yùn)輸?shù)臄?shù)據(jù)真實(shí)度

為了解決數(shù)據(jù)統(tǒng)計(jì)缺乏真實(shí)性的問(wèn)題,相關(guān)人員應(yīng)當(dāng)嚴(yán)格控制交通運(yùn)輸?shù)臄?shù)據(jù)真實(shí)度。

正如上文所介紹的因種種原因大數(shù)據(jù)決策分析技術(shù)的數(shù)據(jù)真實(shí)度有待考證,為了解決這一問(wèn)題,需要相關(guān)人員做到的是通過(guò)嚴(yán)格的監(jiān)控措施和測(cè)試手段保證數(shù)據(jù)的真實(shí)性和可靠性,嚴(yán)禁因人為原因而對(duì)數(shù)據(jù)的真實(shí)性造成影響。

4 結(jié)語(yǔ)

綜上所述,智慧交通時(shí)代的大門(mén)已經(jīng)逐漸向大家打開(kāi),在城市化速度不斷加快的今天,城市居民對(duì)舒適的交通環(huán)境和便捷快速的城市道路運(yùn)輸有著十分迫切的渴求,而在大數(shù)據(jù)分析決策技術(shù)基礎(chǔ)上智慧交通是大的發(fā)展趨勢(shì),將為解決城市道路運(yùn)輸問(wèn)題提供新的思路。智慧交通時(shí)代是高效便捷運(yùn)輸?shù)臅r(shí)代,也是現(xiàn)代化的重要標(biāo)志,通過(guò)大量數(shù)據(jù)匯集融合,能夠有效地解決城市交通存在的問(wèn)題?,F(xiàn)階段,大數(shù)據(jù)分析決策技術(shù)和智慧交通系統(tǒng)發(fā)展得還不夠成熟,需要在相關(guān)人員的不懈努力下,使城市居民能夠更早地進(jìn)入便捷的現(xiàn)代生活中,期待那一天的到來(lái)。

參考文獻(xiàn)