期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊 購物車(0)

首頁 > 公文范文 > 大數(shù)據(jù)處理論文

大數(shù)據(jù)處理論文

時間:2022-05-21 10:30:09

序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了一篇大數(shù)據(jù)處理論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。

大數(shù)據(jù)處理論文

數(shù)據(jù)處理論文:D2D通信中大數(shù)據(jù)處理關(guān)鍵技術(shù)分析與展望

【摘 要】

分析了D2D通信中大數(shù)據(jù)的特征,重點(diǎn)闡述了數(shù)據(jù)篩選、預(yù)處理、建模等大數(shù)據(jù)處理的關(guān)鍵技術(shù),并對提高大數(shù)據(jù)無線傳輸?shù)姆€(wěn)定性、可靠性和高效性進(jìn)行了探討和展望。

【關(guān)鍵詞】

5G 大數(shù)據(jù) D2D

1 引言

在當(dāng)前移動通信系統(tǒng)中,數(shù)據(jù)要經(jīng)過基站、基站控制器、網(wǎng)關(guān)和交換機(jī)。隨著大數(shù)據(jù)背景下網(wǎng)絡(luò)流量迅猛增長,基站將不堪重荷。終端直通(D2D,Device-to-Device)通信作為第五代移動通信系統(tǒng)(5G)中的關(guān)鍵技術(shù)之一[1-2],可實(shí)現(xiàn)數(shù)據(jù)不經(jīng)過基站直接傳輸(如圖1所示),借助提高空間利用率來進(jìn)一步提高無線頻譜利用率,可使移動通信在眾多場景下變得更加直接和高效[1-3]。

但面對爆炸式的業(yè)務(wù)量,僅僅依靠D2D通信技術(shù)是遠(yuǎn)遠(yuǎn)不夠的。提升如何從各種各樣的數(shù)據(jù)(包括結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)等)中快速獲取有價值的信息的能力對于大數(shù)據(jù)分析與處理來說十分關(guān)鍵。業(yè)界對大數(shù)據(jù)的特征進(jìn)行歸納,主要包括4個“V”[4],即數(shù)據(jù)體量巨大(Volumn)、數(shù)據(jù)類型繁多(Variety)、數(shù)據(jù)價值密度低(Value)、有很多實(shí)時數(shù)據(jù)要求快速處理(Velocity)。因此,傳統(tǒng)的數(shù)據(jù)表示方法不能適用于大數(shù)據(jù)的表示。如何對體量巨大、結(jié)構(gòu)繁多的數(shù)據(jù)進(jìn)行有效表示?如何通過結(jié)合D2D通信的特點(diǎn),最大程度地壓縮數(shù)據(jù)的冗余度,挖掘出隱藏在數(shù)據(jù)背后的規(guī)律,從而使數(shù)據(jù)發(fā)揮出最大的價值?是D2D通信中大數(shù)據(jù)處理技術(shù)的核心目標(biāo)。

本文首先從分析D2D通信系統(tǒng)中大數(shù)據(jù)的典型特征出發(fā),分析大數(shù)據(jù)處理過程中所面臨的挑戰(zhàn);然后具體分析了D2D通信系統(tǒng)中大數(shù)據(jù)的表示和處理方法;最后對未來研究方向做了展望。

2 D2D通信系統(tǒng)中大數(shù)據(jù)的典型特征

(1)數(shù)據(jù)量大

D2D通信為海量多媒體服務(wù)提供了一個強(qiáng)大的通信平臺,如海量文本、圖像、語音、音視頻等應(yīng)用。但是,隨著采集設(shè)備成本的降低和存儲容量的增大,訓(xùn)練樣本的數(shù)量往往非常巨大,如在很短的時間內(nèi)所采集到的數(shù)據(jù)可以輕易地達(dá)到幾百TB。由于D2D通信中終端計算及存儲能力有限,如何有效地表示采集到的大數(shù)據(jù)集十分關(guān)鍵。由于D2D大數(shù)據(jù)集中數(shù)據(jù)的分布復(fù)雜多樣,因而需要采用具有較高普適性和較大靈活性的模型和方法來對數(shù)據(jù)的特征屬性進(jìn)行表示和處理[5]。傳統(tǒng)的基于參數(shù)建立起的模型及其學(xué)習(xí)算法由于模型的結(jié)構(gòu)固定,因此限定了其可以表示的數(shù)據(jù)特征。與參數(shù)模型相比,采用具有結(jié)構(gòu)可調(diào)節(jié)的非參數(shù)模型及其學(xué)習(xí)算法在這樣的情況下具有更好的效果。

(2)數(shù)據(jù)的維度高

由于D2D通信中終端的異構(gòu)性以及用戶需求的異構(gòu)性,高維和超高維的數(shù)據(jù)不斷涌現(xiàn)。很顯然,數(shù)據(jù)維數(shù)越高(屬性越多),就可以更加全面地刻畫所描述的對象以及更好地分辨對象。然而,過高的維數(shù)不可避免地對數(shù)據(jù)的表示與處理提出了嚴(yán)峻的挑戰(zhàn)。研究表明,對于大部分觀測或采集到的高維數(shù)據(jù)而言,其主要信息存在于一個低維空間中。換句話說,該低維空間包含了高維數(shù)據(jù)中的全部或絕大部分的有用信息。因此,如何在低維空間中有效地刻畫高維數(shù)據(jù)的有用信息,也是D2D通信中大數(shù)據(jù)處理領(lǐng)域一個不容忽視并且極具挑戰(zhàn)性的問題。目前已經(jīng)有一些隱空間模型和方法,如主成分分析、因子分析、獨(dú)立成分分析等可以用于完成此項(xiàng)任務(wù),找到這樣的低維空間并將數(shù)據(jù)進(jìn)行高效表示[7]。

(3)模型的復(fù)雜度和計算時間

傳統(tǒng)的通信系統(tǒng)處理數(shù)據(jù)時,由于數(shù)據(jù)量不大,因此可以采用較為復(fù)雜的模型來描述數(shù)據(jù)的特征。而在與D2D通信大數(shù)據(jù)相關(guān)的應(yīng)用中,終端處理能力受限,如果仍然采用復(fù)雜的模型來處理大數(shù)據(jù),則計算和時間成本將大大增加;另一方面,如果采用較為簡單的模型,可能不能完全表示和挖掘出大數(shù)據(jù)的關(guān)鍵特性。解決方法是:一方面,盡可能設(shè)計簡潔的模型及高計算效率的算法,從而降低模型的復(fù)雜度和計算時間;另一方面,利用終端的靈活性,可以采用并行計算和分布式計算技術(shù),把原先一個終端上的數(shù)據(jù)表示和任務(wù)處理分?jǐn)偟蕉鄠€終端。通過設(shè)計相應(yīng)的算法,實(shí)現(xiàn)多個節(jié)點(diǎn)的信息共享和協(xié)作,從而降低每個終端上模型的復(fù)雜度和計算時間[7]。

(4)算法的實(shí)時性和可擴(kuò)展性

在D2D通信系統(tǒng)的大數(shù)據(jù)處理中,都需要對其中的大數(shù)據(jù)進(jìn)行實(shí)時性表示與處理,即當(dāng)新數(shù)據(jù)到來以及新類型出現(xiàn)時,算法能夠根據(jù)實(shí)際情況進(jìn)行自適應(yīng)的調(diào)節(jié),以適應(yīng)數(shù)據(jù)的變化。而傳統(tǒng)的學(xué)習(xí)算法偏重于離線算法,因此需要設(shè)計一些在線學(xué)習(xí)算法,對描述或表示數(shù)據(jù)的模型進(jìn)行在線學(xué)習(xí)。其中,貝葉斯技術(shù)可以很方便地用于在線學(xué)習(xí)[8]。此外,在設(shè)計模型及其學(xué)習(xí)算法時,也需要考慮其多媒體應(yīng)用的可擴(kuò)展性。

3 D2D通信系統(tǒng)中大數(shù)據(jù)處理方法

基于D2D通信中大數(shù)據(jù)處理的具體特征,本文擬從用戶的感受出發(fā),設(shè)計如下方案來高效地表示和處理D2D通信系統(tǒng)中的大數(shù)據(jù),提取其中的有效信息,具體如下:

首先,從應(yīng)用的內(nèi)容出發(fā),根據(jù)具體用戶業(yè)務(wù)需求和應(yīng)用背景對大數(shù)據(jù)進(jìn)行初步篩選。即只需要保存與所需任務(wù)相關(guān)的數(shù)據(jù),去除無關(guān)數(shù)據(jù),從而提高后續(xù)處理的效率。

其次,設(shè)計合理的算法,對大數(shù)據(jù)進(jìn)行預(yù)處理,并且依據(jù)用戶體驗(yàn)提取特征屬性。如前文所述,D2D通信中所采集到的大數(shù)據(jù)的維度(屬性)較大,因此對于大數(shù)據(jù)有效特征屬性的提取十分重要。此處可采用貝葉斯因子混合分析方法,通過該方法,可以找到一個數(shù)據(jù)有效信息相對集中的低維空間,從而可以將高維數(shù)據(jù)投影到低維空間中,最大程度地降低數(shù)據(jù)的冗余,完成數(shù)據(jù)的降維過程,從而可以在低維空間中完成后續(xù)的操作(如圖2所示)[9]。此外,該方法的另一個優(yōu)點(diǎn)在于,由于得到了高維數(shù)據(jù)的低維有效表示,從而可以在某些條件下實(shí)現(xiàn)數(shù)據(jù)的可視化。

圖2 數(shù)據(jù)冗余度降低過程

最后,設(shè)計合適的模型來精確地描述提取出的大數(shù)據(jù)屬性,從而進(jìn)一步用高效、簡約的形式來表示大數(shù)據(jù)。在現(xiàn)有的工作中,在用模型對大數(shù)據(jù)進(jìn)行表示和處理方面已經(jīng)開展了一些研究,取得了一些研究成果。具體地,選用混合模型來描述建模大數(shù)據(jù)的分布已成為主流,主要原因有兩點(diǎn):

(1)D2D通信中業(yè)務(wù)種類多、網(wǎng)絡(luò)數(shù)據(jù)的分布較為復(fù)雜,而混合模型在理論上可以建模和描述任意復(fù)雜的數(shù)據(jù)分布。

(2)混合模型及其學(xué)習(xí)算法屬于生成方式的學(xué)習(xí)范疇,只要獲得準(zhǔn)確的模型,則可以用該模型作為大數(shù)據(jù)的緊湊表示形式,因此,其比判別方式的學(xué)習(xí)具有更小的存儲、更低的傳輸和處理復(fù)雜度,并且有利于在線操作[10]。

此外,根據(jù)不同目標(biāo)場景中的不同類型的數(shù)據(jù),需要提出與之相對應(yīng)的模型和配套學(xué)習(xí)算法,用其來表示大數(shù)據(jù)。例如,對于屬性較少(數(shù)據(jù)維度較低)的數(shù)據(jù),采用所提出的無限成分t混合模型及其學(xué)習(xí)算法,估計出模型的參數(shù),在后續(xù)的處理任務(wù)中只要關(guān)注參數(shù)就可以準(zhǔn)確把握數(shù)據(jù)的特性。對于屬性較多的高維數(shù)據(jù),則采用所提出的無限成分t因子混合分析器及其學(xué)習(xí)算法,對數(shù)據(jù)進(jìn)行有效地表示。對于具有時間或空間相關(guān)性的數(shù)據(jù)而言,則可以采用所提出的具有stick-breaking先驗(yàn)分布的t隱馬爾可夫模型及其學(xué)習(xí)算法對數(shù)據(jù)進(jìn)行表示[11]。隱馬爾可夫模型的最大特點(diǎn)在于結(jié)構(gòu)較為靈活,其可以根據(jù)數(shù)據(jù)的分布自適應(yīng)確定模型的結(jié)構(gòu)(如混合成分?jǐn)?shù)目、因子維數(shù)等),并且對大數(shù)據(jù)中出現(xiàn)的離群點(diǎn)也具有較強(qiáng)的魯棒性。由于通過學(xué)習(xí)算法得到的模型精確描述了數(shù)據(jù)的分布,較好地完成了后續(xù)任務(wù),網(wǎng)絡(luò)業(yè)務(wù)流量的識別與預(yù)測的正確率有了較大的提升[6]。

進(jìn)一步考慮到大數(shù)據(jù)表示和處理中對于模型復(fù)雜度和計算時間的需求,需要設(shè)計與上述模型相關(guān)的分布式算法。通過該類算法,網(wǎng)絡(luò)中的各個終端只需要采集到部分?jǐn)?shù)據(jù),就可以通過節(jié)點(diǎn)間的協(xié)作來協(xié)同估計出反映整個數(shù)據(jù)特性的模型參數(shù)。需要注意的是,在通信網(wǎng)絡(luò)中,傳輸?shù)拇鷥r比本地終端計算的代價要高得多。因而在協(xié)作過程中,各個終端只需要和在其通信范圍內(nèi)的鄰居節(jié)點(diǎn)進(jìn)行通信,并且只傳輸用于估計最終模型參數(shù)的充分統(tǒng)計量,而無需把自己持有的那部分?jǐn)?shù)據(jù)傳輸給鄰居終端。這樣做的優(yōu)點(diǎn)在于可以將對大數(shù)據(jù)的表示和處理分?jǐn)偟礁鱾€終端上,從而最大程度降低了D2D終端的計算量。另一方面,由于充分統(tǒng)計量比原始數(shù)據(jù)量少很多,因此可以最大程度地降低傳輸代價,并且減少由于傳輸中丟包或其他錯誤、干擾等引起的系統(tǒng)性能的下降。

4 研究展望

對于未來D2D通信中大數(shù)據(jù)處理技術(shù)的研究可以從幾個方向開展:

(1)進(jìn)一步地從高維大數(shù)據(jù)特征中壓縮冗余,剔除無關(guān)無用屬性,提取與應(yīng)用目標(biāo)相關(guān)的有用特征,將核學(xué)習(xí)、流形學(xué)習(xí)方法引入,解決大數(shù)據(jù)表示問題。

(2)利用半監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)、集成學(xué)習(xí)等理論和技術(shù),最大程度地挖掘大數(shù)據(jù)間的內(nèi)在關(guān)聯(lián)信息。

(3)在現(xiàn)有模型和方法的基礎(chǔ)上,開發(fā)設(shè)計在線學(xué)習(xí)算法,實(shí)時完成大數(shù)據(jù)的處理任務(wù)。

(4)設(shè)計分布式學(xué)習(xí)以及大數(shù)據(jù)處理算法,進(jìn)一步提高網(wǎng)絡(luò)節(jié)點(diǎn)之間協(xié)同處理和通信的能力,進(jìn)一步降低網(wǎng)絡(luò)節(jié)點(diǎn)之前傳輸?shù)臄?shù)據(jù)量。

(5)針對具體應(yīng)用,設(shè)計結(jié)構(gòu)更加靈活,更具有普適性、魯棒性的模型,并且開發(fā)設(shè)計快速、高效的模型參數(shù)及結(jié)構(gòu)估計方法,從而獲得更簡潔的大數(shù)據(jù)表示形式。

5 結(jié)束語

D2D技術(shù)被廣泛認(rèn)為是5G的關(guān)鍵技術(shù)和解決無線大數(shù)據(jù)傳輸?shù)挠辛ぞ?。本文從D2D通信中大數(shù)據(jù)特征入手,分析面臨的挑戰(zhàn),提出應(yīng)對策略,展望研究方向,綜合探討了如何提高D2D大數(shù)據(jù)無線傳輸?shù)姆€(wěn)定性、可靠性和高效性的問題。

大數(shù)據(jù)處理論文:大數(shù)據(jù)時代下的電力自動化系統(tǒng)數(shù)據(jù)處理

[摘 要]計算機(jī)技術(shù)與網(wǎng)絡(luò)通信技術(shù)已經(jīng)開始逐漸廣泛應(yīng)用于電力自動化系統(tǒng),電力自動化系統(tǒng)的數(shù)據(jù)處理呈現(xiàn)多樣化趨勢,更加復(fù)雜化。筆者主要是從電力自動化系統(tǒng)數(shù)據(jù)類型角度考慮,對于電力系統(tǒng)的快速準(zhǔn)確處理進(jìn)行了分析,對電力自動化系統(tǒng)中數(shù)據(jù)處理的相關(guān)問題進(jìn)行了闡述和分析。同時探討了作為電力自動化系統(tǒng)發(fā)展方向的智能電網(wǎng),對其拓?fù)浣Y(jié)構(gòu)和通信系統(tǒng)進(jìn)行介紹。

[關(guān)鍵詞]大數(shù)據(jù)時代;電力自動化;數(shù)據(jù)處理

引言

電力系統(tǒng)是一個動態(tài)的系統(tǒng),主要包含發(fā)電、變電、輸電和配電四個部分。 電力系統(tǒng)的動態(tài)性和實(shí)時性是由于電能不能存儲的特性決定的。 正是電力系統(tǒng)的動態(tài)性和實(shí)時性使得其在具體的運(yùn)行過程中,會產(chǎn)生大量的實(shí)時數(shù)據(jù),為電力系統(tǒng)中調(diào)度部門的操作帶來了巨大的困難, 電力自動化系統(tǒng)也就應(yīng)運(yùn)而生。 電力自動化系統(tǒng)為電力系統(tǒng)運(yùn)行過程中產(chǎn)生大量實(shí)時數(shù)據(jù)的準(zhǔn)確處理創(chuàng)造了條件?!按髷?shù)據(jù)”時代最先被全球知名的咨詢公司麥肯錫提出來,其是生產(chǎn)決策的重要依據(jù)。 所謂的大數(shù)據(jù)時代,是指在互聯(lián)網(wǎng)技術(shù)下,企業(yè)的生產(chǎn)運(yùn)營過程中相關(guān)數(shù)據(jù)的積累,其在商業(yè)、經(jīng)濟(jì)和其他領(lǐng)域越來越突出,對相關(guān)決策具有十分重要的作用。

一、電力自動化系統(tǒng)的類型分類

1.基礎(chǔ)型數(shù)據(jù):主要是與電力自動化系統(tǒng)中的電力設(shè)施設(shè)備屬性相關(guān)的數(shù)據(jù),如,發(fā)電機(jī)、變壓器等電力設(shè)施設(shè)備的基礎(chǔ)數(shù)據(jù)。 對于這些數(shù)據(jù)一般是電力單位根據(jù)相關(guān)的數(shù)據(jù)規(guī)劃各自進(jìn)行管理, 并通過相關(guān)數(shù)據(jù)服務(wù)器對其數(shù)據(jù)進(jìn)行數(shù)據(jù)同步,便于調(diào)度中心對這些數(shù)據(jù)進(jìn)行集中存儲、整理和相關(guān)計算。

2.實(shí)時數(shù)據(jù):大多數(shù)是在電力系統(tǒng)運(yùn)行過程中進(jìn)行實(shí)時采集的數(shù)據(jù),其數(shù)據(jù)量很大,對存儲空間的要求比較高。 這些數(shù)據(jù)是在電力系統(tǒng)運(yùn)行過程中產(chǎn)生的, 通過對其進(jìn)行糾錯處理后,能夠?yàn)檎{(diào)度部門或市場運(yùn)營提供決策參考依據(jù)。 目前,我國電力自動化系統(tǒng)在實(shí)時數(shù)據(jù)處理方面比較成熟,對收集到的實(shí)時數(shù)據(jù)不需要進(jìn)行相關(guān)的處理,只需要在數(shù)據(jù)輸入、輸出過程中建立一個穩(wěn)定的接口即可。

3.日常管理的數(shù)據(jù):主要是在電力系統(tǒng)運(yùn)行過程中對各種相關(guān)數(shù)據(jù)進(jìn)行統(tǒng)計,各部門對在工作中遇到的問題進(jìn)行相關(guān)處理后的數(shù)據(jù)信息。 一般情況下,這些數(shù)據(jù)只需要在特定的范圍內(nèi)進(jìn)行同步和共享即可。 在電力系統(tǒng)運(yùn)行過程中,建立這一類型數(shù)據(jù)同步和共享的數(shù)據(jù)平臺是十分必要的。 主要原因表現(xiàn)在以下幾個方面: ① 這些日常管理的數(shù)據(jù)在某種程度上反映電力系統(tǒng)中電力設(shè)施設(shè)備的運(yùn)行情況; ② 方便電力系統(tǒng)中各個部門對日常管理數(shù)據(jù)的獲取,以便更好的開展部門工作。

4.市場經(jīng)濟(jì)數(shù)據(jù):隨著市場經(jīng)濟(jì)的發(fā)展,電力系統(tǒng)的經(jīng)濟(jì)效益越來越突出,電力系統(tǒng)運(yùn)行中的相關(guān)數(shù)據(jù)對電力單位的發(fā)展具有重要影響,將其作為經(jīng)濟(jì)性數(shù)據(jù)十分有必要。 市場經(jīng)濟(jì)數(shù)據(jù)對城市建設(shè)規(guī)劃中的電力規(guī)劃有很重要的決策參考依據(jù)。 市場經(jīng)濟(jì)數(shù)據(jù)具有非常大的擴(kuò)展空間,其數(shù)據(jù)規(guī)劃的重點(diǎn)將是實(shí)時數(shù)據(jù)。

二、電力自動化系統(tǒng)中的數(shù)據(jù)統(tǒng)一性

數(shù)據(jù)一致性即數(shù)據(jù)的唯一性。 電力自動化系統(tǒng)在運(yùn)行過程中,會產(chǎn)生大量的數(shù)據(jù)信息,這些數(shù)據(jù)信息大部分都是其子系統(tǒng)中特有的信息, 還有一部分是部分子系統(tǒng)中共有的數(shù)據(jù)信息,也就是各子系統(tǒng)之間的數(shù)據(jù)信息交叉現(xiàn)象。 每個子系統(tǒng)中的數(shù)據(jù)均存儲在其數(shù)據(jù)庫系統(tǒng)中,會對整個系統(tǒng)的數(shù)據(jù)存儲造成大量的數(shù)據(jù)冗余,使得電力系統(tǒng)中數(shù)據(jù)系統(tǒng)處理數(shù)據(jù)信息的效率不高,數(shù)據(jù)信息更新緩慢,甚至?xí)斐蓴?shù)據(jù)信息的混亂,很大程度上降低了電力系統(tǒng)中數(shù)據(jù)系統(tǒng)的使用效率和可信度。在實(shí)際電力自動化系統(tǒng)運(yùn)行過程中,通過對整個系統(tǒng)的數(shù)據(jù)庫系統(tǒng)進(jìn)行統(tǒng)一管理,能夠在很大程度上保證數(shù)據(jù)信息的一致性。 對于部分離線數(shù)據(jù)庫系統(tǒng)來說,其數(shù)據(jù)信息的唯一性主要是通過利用離線數(shù)據(jù)庫在數(shù)據(jù)庫系統(tǒng)的服務(wù)器上,對數(shù)據(jù)庫系統(tǒng)的服務(wù)器進(jìn)行統(tǒng)一維護(hù)。 對實(shí)時數(shù)據(jù)庫而言,主要是通過電力自動化系統(tǒng)在運(yùn)行過程中,由實(shí)時數(shù)據(jù)庫系統(tǒng)中的管理系統(tǒng)進(jìn)行統(tǒng)一、實(shí)時的管理,確保數(shù)據(jù)信息的一致性。

三、電力自動化系統(tǒng)中的數(shù)據(jù)容災(zāi)

通常情況下,需要對電力自動化系統(tǒng)中的重要數(shù)據(jù)信息進(jìn)行數(shù)據(jù)備份,再通過網(wǎng)絡(luò)通信技術(shù)將其傳輸?shù)疆惖剡M(jìn)行數(shù)據(jù)信息保存。 當(dāng)發(fā)生災(zāi)難后,可以由相關(guān)的計算機(jī)專業(yè)人員根據(jù)備份的數(shù)據(jù)對電力自動化系統(tǒng)中的數(shù)據(jù)進(jìn)行程序恢復(fù)和數(shù)據(jù)恢復(fù)。 這有利于降低電力單位在數(shù)據(jù)信息備份方面的成本,操作也相對而言較為簡單方便。當(dāng)電力自動化系統(tǒng)中需要備份的數(shù)據(jù)量逐漸增加時,就會出現(xiàn)數(shù)據(jù)信息存儲介質(zhì)不易管理的問題,在發(fā)生災(zāi)難后,也不

能夠及時的將大量的數(shù)據(jù)信息進(jìn)行恢復(fù)。

四、電力自動化系統(tǒng)數(shù)據(jù)收集過程

電力自動化系統(tǒng)運(yùn)行過程中的數(shù)據(jù),主要是通過數(shù)據(jù)信息的采集、集中、整理和轉(zhuǎn)發(fā)來實(shí)現(xiàn)的。 根據(jù)數(shù)據(jù)類型的不同,采用不同的傳輸介質(zhì)進(jìn)行傳輸。 數(shù)據(jù)信息的通信方式主要有兩種: ① 有線傳輸,如,光纖、電纜等多種介質(zhì),具有數(shù)據(jù)信息傳輸?shù)膶?shí)時性和可靠性等優(yōu)點(diǎn); ② 無線傳輸,如,微波、無線擴(kuò)頻等通信模式,具有無需鋪設(shè)通信通道、工作量少等優(yōu)點(diǎn)。在實(shí)際的電力自動化系統(tǒng)運(yùn)行過程中, 其涉及面十分廣、系統(tǒng)種類多,根據(jù)不同的部門需求的多個系統(tǒng)組成,能夠滿足每個部門在數(shù)據(jù)系統(tǒng)中獲取數(shù)據(jù)信息。 電力自動化系統(tǒng)中的設(shè)施設(shè)備的采購,可以適當(dāng)?shù)膶⒁恍┫冗M(jìn)的技術(shù)和經(jīng)濟(jì)性能的指標(biāo)進(jìn)行考慮,再在操作技術(shù)上進(jìn)行優(yōu)化處理,以最大程度的實(shí)現(xiàn)電力單位的經(jīng)濟(jì)效益和社會效益。

五、智能電網(wǎng)

1.智能電網(wǎng)中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)

智能電網(wǎng)中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)具有堅強(qiáng)、靈活的特點(diǎn),能夠有效的解決電力系統(tǒng)中能源和生產(chǎn)力分布不均勻的問題,滿足電力企業(yè)大規(guī)模生產(chǎn)運(yùn)輸過程中產(chǎn)生大規(guī)模數(shù)據(jù)的處理功能,實(shí)現(xiàn)資源的優(yōu)化配置,減少電能損耗。 同時,智能電網(wǎng)中的網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)能夠有效的應(yīng)對一些自然災(zāi)害,如雨、雪等。

2.開放、 標(biāo)準(zhǔn)、 集成的通信系統(tǒng)

智能電網(wǎng)能夠?qū)﹄娏ψ詣踊到y(tǒng)進(jìn)行及時有效的監(jiān)控,主要在其具有識別故障早期征兆的預(yù)測能力和對故障做出相關(guān)的相應(yīng)的能力。 智能電網(wǎng)是電力自動化企業(yè)的發(fā)展方向,能夠?yàn)殡娋W(wǎng)規(guī)劃、建設(shè)和運(yùn)行管理提供全面的數(shù)據(jù)信息,有利于大數(shù)據(jù)時代下電力自動化運(yùn)行系統(tǒng)的穩(wěn)定、安全和高效的運(yùn)行。

六、結(jié)語

自動化系統(tǒng)的正常運(yùn)行,一定要充分考慮到系統(tǒng)運(yùn)行中數(shù)據(jù)信息的數(shù)量信息,便于數(shù)據(jù)的維修和存儲空間的無限擴(kuò)展。文章主要是分析了自動化系統(tǒng)的數(shù)據(jù)類型,并且對其進(jìn)行了詳盡的分析,對于相關(guān)問題進(jìn)行了闡述,給電力自動化系統(tǒng)提供了更加廣闊的空間,并探究了智能電網(wǎng)在電力自動化運(yùn)行系統(tǒng)中運(yùn)行的優(yōu)勢和未來的發(fā)展方向。

大數(shù)據(jù)處理論文:智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀和面臨的挑戰(zhàn)

[摘 要]在當(dāng)前新時期環(huán)境下,智能電網(wǎng)大數(shù)據(jù)處理技術(shù)在獲得飛速發(fā)展的同時也面臨著新的挑戰(zhàn),本文首先對智能電網(wǎng)大數(shù)據(jù)的特點(diǎn)進(jìn)行了分析,并且探討了智能電網(wǎng)大數(shù)據(jù)處理技術(shù)的發(fā)展現(xiàn)狀,重點(diǎn)分析其在當(dāng)今新時期環(huán)境中面臨的挑戰(zhàn)。

[關(guān)鍵詞]智能電網(wǎng) 大數(shù)據(jù)處理技術(shù) 現(xiàn)狀 挑戰(zhàn)

隨著我國智能電網(wǎng)建設(shè)進(jìn)程的不斷推進(jìn)與深入,電網(wǎng)運(yùn)行與設(shè)備監(jiān)測過程中也產(chǎn)生了大量的數(shù)據(jù)信息,逐漸構(gòu)成了當(dāng)今信息學(xué)姐與研究人員重點(diǎn)關(guān)注的發(fā)數(shù)據(jù),但大數(shù)據(jù)時代下電網(wǎng)的高效、穩(wěn)定運(yùn)行離不開相應(yīng)的處理與存儲技術(shù)作為支撐。

1.智能電網(wǎng)大數(shù)據(jù)的應(yīng)用特征

電網(wǎng)業(yè)務(wù)數(shù)據(jù)可以大致劃分為三類:第一是數(shù)據(jù)監(jiān)測、設(shè)備檢測及電網(wǎng)運(yùn)行;第二是電力企業(yè)營銷數(shù)據(jù),如用電客戶、銷售量、交易電價等方面的信息數(shù)據(jù);第三是電力企業(yè)的管理數(shù)據(jù)。[1]數(shù)據(jù)信息量十分巨大,并且隨著電網(wǎng)數(shù)據(jù)的不斷更新升級,數(shù)據(jù)類型也變得繁雜多樣。電網(wǎng)數(shù)據(jù)種類眾多、分布較廣,主要包括多媒體數(shù)據(jù)、文本數(shù)據(jù)、實(shí)時數(shù)據(jù)、時間序列變化等半結(jié)構(gòu)化、非結(jié)構(gòu)化以及結(jié)構(gòu)化數(shù)據(jù),不同類別的數(shù)據(jù)在查詢、處理方面的性能與頻度要求也存在很大差異。智能電網(wǎng)運(yùn)行時的數(shù)據(jù)價值密度較低,例如電網(wǎng)監(jiān)控視頻,其在實(shí)際監(jiān)控管理的過程中,總數(shù)據(jù)中十分有用的信息量是非常少的,多數(shù)的數(shù)據(jù)都是正常數(shù)據(jù)。

2.智能電網(wǎng)大數(shù)據(jù)處理技術(shù)發(fā)展現(xiàn)狀分析

2.1 并行數(shù)據(jù)庫

關(guān)系數(shù)據(jù)庫主要負(fù)責(zé)對結(jié)構(gòu)化數(shù)據(jù)進(jìn)行存儲,從而提供嚴(yán)格依據(jù)規(guī)則快速處理事務(wù)的能力、邊界的數(shù)據(jù)查詢與分析能力、數(shù)據(jù)安全性保障以及多用戶并發(fā)訪問能力。應(yīng)用強(qiáng)大的數(shù)據(jù)分析能力以及SQL查詢語言以及獨(dú)特的程序優(yōu)勢獲得了廣泛的應(yīng)用。[2]經(jīng)管隨著智能電網(wǎng)建設(shè)的不斷加快,數(shù)據(jù)超出了關(guān)系型數(shù)據(jù)庫的管理范疇,地理信息圖片與音頻、圖片以及視頻等非結(jié)構(gòu)化的數(shù)據(jù)逐漸成為需要處理與存儲的信息的一項(xiàng)重要組成部分。

2.2 云計算技術(shù)

隨著云計算平臺的出現(xiàn)及完善,大數(shù)據(jù)技術(shù)的需求也相繼出現(xiàn),云計算的關(guān)鍵是數(shù)據(jù)并行處理與海量數(shù)據(jù)存儲技術(shù)。而在智能電網(wǎng)中,電力設(shè)備狀態(tài)監(jiān)測設(shè)備的數(shù)據(jù)量應(yīng)當(dāng)是最為龐大的,而狀態(tài)監(jiān)測數(shù)據(jù)不但包含了在線數(shù)據(jù),還應(yīng)當(dāng)包括缺陷記錄、實(shí)驗(yàn)記錄以及基本信息等,由于數(shù)據(jù)量極大,其對于實(shí)時性要求比企業(yè)的數(shù)據(jù)管理更高。當(dāng)前,云計算技術(shù)在電力行業(yè)的發(fā)展依然處于初級的階段,現(xiàn)行的云計算平臺能夠充分滿足職能電網(wǎng)監(jiān)控軟件運(yùn)行的可擴(kuò)展性與可靠性要求,但在數(shù)據(jù)隱私、安全性、一致性以及實(shí)時性方面存在缺陷,依然需要進(jìn)一步優(yōu)化與完善。

3. 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)面臨的挑戰(zhàn)分析

3.1 大數(shù)據(jù)傳輸與儲存技術(shù)

隨著智能化的不斷發(fā)展,電力系統(tǒng)在運(yùn)行過程中的電力設(shè)備監(jiān)測數(shù)據(jù)與其他數(shù)據(jù)都會被記錄下來,數(shù)據(jù)量不斷增加,這對于電網(wǎng)運(yùn)行監(jiān)控以及數(shù)據(jù)的傳輸、存儲造成巨大的壓力,同時在一定程度上影響了電網(wǎng)智能化的發(fā)展。在智能電網(wǎng)大數(shù)據(jù)存儲方面,通過分布式文件保存的形式可以進(jìn)行大數(shù)據(jù)存儲,然而可能對電力系統(tǒng)在數(shù)據(jù)實(shí)時處理方面產(chǎn)生影響。[3]因此,需要對電網(wǎng)大數(shù)據(jù)進(jìn)行分門別類后再存儲。而重點(diǎn)是將其中非結(jié)構(gòu)化的數(shù)據(jù)轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),對于智能大數(shù)據(jù)處理技術(shù)來說依然較為困難。

3.2 數(shù)據(jù)處理時效性技術(shù)

對于大數(shù)據(jù)來說,其數(shù)據(jù)處理的速度是非常重要的。通常而言,數(shù)據(jù)的規(guī)模越大,需要分析與處理的時間也會越長。以往的數(shù)據(jù)存儲方案針對一定要求的數(shù)據(jù)量進(jìn)行設(shè)計,其在大數(shù)據(jù)方面并不適用。[4]而在未來智能電網(wǎng)的大環(huán)境下,如何在發(fā)電、輸變電、用電等環(huán)節(jié)進(jìn)行數(shù)據(jù)實(shí)時性處理是一個非常關(guān)鍵的問題。

3.3 異構(gòu)多數(shù)據(jù)源處理技術(shù)

在未來智能電網(wǎng)要求貫通電網(wǎng)運(yùn)行的每一個環(huán)節(jié)之中,時間新信息的高效采集與處理,并且逐漸朝著業(yè)務(wù)流、信息流以及電力流高度一體化的方向進(jìn)行發(fā)展。所以,首先要做的就是如何整合大規(guī)模多源異構(gòu)信息,為智能電網(wǎng)提供一個資源高度集約化配置的數(shù)據(jù)處理中心。對于海量的異構(gòu)數(shù)據(jù)來說,如何構(gòu)建出科學(xué)的模型進(jìn)行規(guī)范表達(dá)以及如何在這個模型的基礎(chǔ)上實(shí)現(xiàn)數(shù)據(jù)的存儲、融合、查詢等是亟待解決的重要問題。

結(jié)語

我國智能電網(wǎng)系統(tǒng)的應(yīng)用廣度與深度在不斷加強(qiáng),大數(shù)據(jù)處理技術(shù)逐漸成為維護(hù)電網(wǎng)智能安全運(yùn)行的一項(xiàng)重要手段。然而隨著電網(wǎng)智能運(yùn)行的不斷發(fā)展,其在大數(shù)據(jù)處理一致性、隱私性、實(shí)時性等方面也面臨著相應(yīng)的挑戰(zhàn),未來智能電網(wǎng)的主要依托依然是大數(shù)據(jù)處理分析技術(shù),所以必須尋找出妥善應(yīng)對挑戰(zhàn)的策略,最終推動我國電力事業(yè)的長久穩(wěn)定發(fā)展。

大數(shù)據(jù)處理論文:移動互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)

【摘 要】通過大數(shù)據(jù)的研究處理將獲得的有用信息服務(wù)于企業(yè)或機(jī)構(gòu),使其在競爭中取得優(yōu)勢,來為企業(yè)提供更好的處理大數(shù)據(jù)的方法,幫助企業(yè)更深刻的理解客戶對其的需求和體驗(yàn),以利于業(yè)務(wù)的發(fā)展,用戶也可以更好地體驗(yàn)移動互聯(lián)網(wǎng)各種資源。本文首先對移動互聯(lián)網(wǎng)大數(shù)據(jù)做了概述,然后分析了移動互聯(lián)網(wǎng)大數(shù)據(jù)處理中存在的問題,最后詳細(xì)闡述了移動互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)。

【關(guān)鍵詞】移動互聯(lián)網(wǎng);大數(shù)據(jù);處理;排重;整合

一、移動互聯(lián)網(wǎng)大數(shù)據(jù)概述

移動互聯(lián)網(wǎng)大數(shù)據(jù)是指用戶使用智能終端在移動網(wǎng)絡(luò)中產(chǎn)生的數(shù)據(jù),主要包括:與網(wǎng)絡(luò)信令、協(xié)議、流量等相關(guān)的網(wǎng)絡(luò)信息數(shù)據(jù);與用戶信息相關(guān)的用戶數(shù)據(jù);與業(yè)務(wù)相關(guān)的數(shù)據(jù)。

大數(shù)據(jù)提供客戶經(jīng)歷的各種體驗(yàn)的完整信息,可以詳盡到在任何時間、地點(diǎn),結(jié)合移動客戶體驗(yàn)方案來分析相關(guān)數(shù)據(jù),從而幫助運(yùn)營商更詳細(xì)掌握客戶體驗(yàn)情況,提前預(yù)知網(wǎng)絡(luò)上可能發(fā)生的問題,及時做出合理響應(yīng),這些信息對運(yùn)營商的服務(wù)提供很大的幫助。大數(shù)據(jù)分析為整個電信產(chǎn)業(yè)帶來了前所未有的機(jī)遇與挑戰(zhàn),如何高效地發(fā)揮這些數(shù)據(jù)資源的作用,是擺在為運(yùn)營商面前的關(guān)鍵問題。

二、移動互聯(lián)網(wǎng)大數(shù)據(jù)處理中存在的問題

(一)多源數(shù)據(jù)采集問題

大數(shù)據(jù)時代的數(shù)據(jù)存在如下幾個特點(diǎn):多源異構(gòu)、分布廣泛、動態(tài)增長、先有數(shù)據(jù)后有模式。舉例來說,一個用戶的一條位置信息的價值是很小的,但是很多這樣的低價值數(shù)據(jù)可以完整刻畫出用戶的運(yùn)動軌跡,獲得本質(zhì)上的價值提升。然而,在已有的數(shù)據(jù)采集系統(tǒng)中,數(shù)據(jù)收集不全面是一個普遍的問題,如何處理來自多源的數(shù)據(jù)是移動互聯(lián)網(wǎng)大數(shù)據(jù)時代面臨的新挑戰(zhàn)。其中,迫切需要解決如下幾個問題:

1.無線移動網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,需要在網(wǎng)絡(luò)中高效地采集數(shù)據(jù)。

2.多源數(shù)據(jù)集成和多類型數(shù)據(jù)集成的技術(shù)。

3.兼顧用戶的隱私和數(shù)據(jù)的所有權(quán)和使用權(quán)等。

(二)移動互聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)管理問題

據(jù)統(tǒng)計,2003年前人類共創(chuàng)造了5艾字節(jié)(Exabytes)的數(shù)據(jù),而今天兩天的時間就可以創(chuàng)造如此大量的數(shù)據(jù)。這些數(shù)據(jù)大部分是異構(gòu)數(shù)據(jù),有些具有用戶標(biāo)注、有些沒有;有些是結(jié)構(gòu)化的(比如數(shù)值、符號)、有些是非結(jié)構(gòu)化話的(比如圖片、聲音);有些時效性強(qiáng)、有些時效性弱;有些價值度高、有些價值度低。移動互聯(lián)網(wǎng)海量異構(gòu)數(shù)據(jù)管理平臺包含以下關(guān)鍵研究和技術(shù):海量異構(gòu)大數(shù)據(jù)傳輸控制、大數(shù)據(jù)存儲、大數(shù)據(jù)質(zhì)量管理。

(三)移動互聯(lián)網(wǎng)大數(shù)據(jù)實(shí)時數(shù)據(jù)挖掘問題

傳統(tǒng)意義上的數(shù)據(jù)分析(Analysis)主要針對結(jié)構(gòu)化數(shù)據(jù)展開,且已經(jīng)形成了一整套行之有效的分析體系。首先,利用數(shù)據(jù)庫來存儲結(jié)構(gòu)化數(shù)據(jù),在此基礎(chǔ)上構(gòu)建數(shù)據(jù)倉庫,根據(jù)需要構(gòu)建數(shù)據(jù)立方體進(jìn)行聯(lián)機(jī)分析處理(OLAP,Online Analytical Processing),可以進(jìn)行多個維度的下鉆(Drill-down)或上卷(Roll-up)操作。對于從數(shù)據(jù)中提煉更深層次的知識的需求促使了數(shù)據(jù)挖掘技術(shù)的產(chǎn)生,并發(fā)明了聚類、關(guān)聯(lián)分析等一系列在實(shí)踐中行之有效的方法。這一整套處理流程在處理相對較少的結(jié)構(gòu)化數(shù)據(jù)時極為高效。但是,對于移動互聯(lián)網(wǎng)來說,涉及更多的是多模態(tài)數(shù)據(jù)挖掘,這些數(shù)據(jù)包括手機(jī)上的傳感器,包括加速度計、陀螺儀、指南針、GPS、麥克風(fēng)、攝像頭、以及各種無線信號(如GSM、WiFi)和藍(lán)牙等。這些原始數(shù)據(jù)在不同維度上刻畫被感知的對象,需要經(jīng)過不同層次的加工和提煉才能形成從數(shù)據(jù)到信息再到知識的飛躍。移動互聯(lián)網(wǎng)半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)量的迅猛增長,給傳統(tǒng)的分析技術(shù)帶來了巨大的沖擊和挑戰(zhàn)。

三、移動互聯(lián)網(wǎng)的大數(shù)據(jù)處理關(guān)鍵技術(shù)

(一)數(shù)據(jù)處理的整體框架

數(shù)據(jù)處理的整個過程如圖1所示,主要包括四個模塊:分詞(WordsAnalyze)、排重(ContentDeduplicate)、整合(Integrate)和數(shù)據(jù)。

這四個模塊的主要功能如下。

分詞:對抓取到的網(wǎng)頁內(nèi)容進(jìn)行切詞處理。

排重:對眾多的網(wǎng)頁內(nèi)容進(jìn)行排重。

整合:對不同來源的數(shù)據(jù)內(nèi)容進(jìn)行格式上的整合。

數(shù)據(jù):包含兩方面的數(shù)據(jù),Spider Data(爬蟲從網(wǎng)頁中抽取出來的數(shù)據(jù))和 Dp Data(在整個數(shù)據(jù)處理過程中產(chǎn)生的的數(shù)據(jù))。

(二)數(shù)據(jù)處理的基本流程

整個數(shù)據(jù)處理過程的基本步驟如下:

1.對抓取來的網(wǎng)頁內(nèi)容進(jìn)行分詞。

2.將分詞處理的結(jié)果寫入數(shù)據(jù)庫。

3.對抓取來的網(wǎng)頁內(nèi)容進(jìn)行排重。

4.將排重處理后的數(shù)據(jù)寫入數(shù)據(jù)庫。

5.根據(jù)之前的處理結(jié)果,對數(shù)據(jù)進(jìn)行整合。

6.將整合后的結(jié)果寫入數(shù)據(jù)庫。

(三)數(shù)據(jù)處理的關(guān)鍵技術(shù)

1.排重。

排重就是排除掉與主題相重復(fù)項(xiàng)的過程,網(wǎng)頁排重就是通過兩個網(wǎng)頁之間的相似度來排除重復(fù)項(xiàng)。Simhash算法是一種高效的海量文本排重算法,相比于余弦角、歐式距離、Jaccard相似系數(shù)等算法,Simhash避免了對文本兩兩進(jìn)行相似度比較的復(fù)雜方式,從而大大提高了效率。

采用Simhash算法來進(jìn)行抓取網(wǎng)頁內(nèi)容的排重,可以容納更大的數(shù)據(jù)量,提供更快的數(shù)據(jù)處理速度,實(shí)現(xiàn)大數(shù)據(jù)的快速處理。

Simhash算法的基本思想描述如下:輸入為一個N維向量V,比如文本的特征向量,每個特征具有一定權(quán)重。輸出是一個C位的二進(jìn)制簽名S。

(1)初始化一個C維向量Q為0,C位的二進(jìn)制簽名S為0。

(2)對向量V中的每一個特征,使用傳統(tǒng)的Hash算法計算出一個C位的散列值H。對1

(3)如果Q的第i個元素大于0,則S的第i位為1;否則為0。

(4)返回簽名S。

對每篇文檔根據(jù)SimHash算出簽名后,再計算兩個簽名的海明距離(兩個二進(jìn)制異或后1的個數(shù))即可。根據(jù)經(jīng)驗(yàn)值,對64位的SimHash,海明距離在3以內(nèi)的可以認(rèn)為相似度比較高。

2.整合。

整合就是把抓取來的網(wǎng)頁內(nèi)容與各個公司之間建立對應(yīng)關(guān)系。對于每一個公司來說,可以用一組關(guān)鍵詞來對該公司進(jìn)行描述,同樣的,經(jīng)過dp處理之后的網(wǎng)頁內(nèi)容,也可以用一組關(guān)鍵詞來進(jìn)行描述。因此,整合就變成了兩組關(guān)鍵詞(公司關(guān)鍵詞,內(nèi)容關(guān)鍵詞)之間的匹配。

對于網(wǎng)頁內(nèi)容的分詞結(jié)果來說,存在著兩個特點(diǎn):(1)分詞結(jié)果的數(shù)量很大;(2)大多數(shù)的分詞對描述該網(wǎng)頁內(nèi)容來說是沒有貢獻(xiàn)的。因此,對網(wǎng)頁的分詞結(jié)果進(jìn)行一下簡化,使用詞頻最高的若干個詞匯來描述該網(wǎng)頁內(nèi)容。

3.流處理系統(tǒng)。

移動互聯(lián)網(wǎng)的多源異構(gòu)數(shù)據(jù)每時每刻都在大量產(chǎn)生著。數(shù)據(jù)探測模塊根據(jù)這些數(shù)據(jù)處理的不同要求,將數(shù)據(jù)分別送給實(shí)時處理系統(tǒng)和批處理系統(tǒng)。很多互聯(lián)網(wǎng)公司將根據(jù)業(yè)務(wù)的需求和處理的時間將劃分為在線、近線和離線三種方式來處理業(yè)務(wù)消耗的時間。這其中,在線處理的處理時間通常在毫秒級,一般采用流處理方式;離線處理的處理時間通常以天為單位,一般采用批處理方式。這樣會最大程度地利用好輸入/輸出系統(tǒng)。近線處理對其處理模式?jīng)]有特別的要求,處理的時間一般在分鐘級或小時級,在實(shí)際情況中多采用此處理方式,可根據(jù)需求靈活選擇。

四、結(jié)語

綜上,隨著移動互聯(lián)網(wǎng)的迅猛發(fā)展,客戶處理的業(yè)務(wù)越來越復(fù)雜,與其相關(guān)的大數(shù)據(jù)正逐漸增長,大數(shù)據(jù)分析技術(shù)已經(jīng)成為各方關(guān)注的焦點(diǎn)。合理使用大數(shù)據(jù)將有效的發(fā)揮移動互聯(lián)網(wǎng)大數(shù)據(jù)的資源作用,使大數(shù)據(jù)為用戶獲得前所未有的體驗(yàn),為企業(yè)發(fā)展提供完整清晰的指引。

大數(shù)據(jù)處理論文:大數(shù)據(jù)時代下管理會計數(shù)據(jù)處理的新變革

摘要:隨著大數(shù)據(jù)時代的到來,各行各業(yè)都受到不同程度的沖擊,管理會計也面臨著前所未有的挑戰(zhàn),尤其在數(shù)據(jù)處理方面發(fā)生了巨大的變革。這些變革包括管理會計大數(shù)據(jù)的思維模式,數(shù)據(jù)的收集、存儲、加工、分析等數(shù)據(jù)處理方面的變革。

關(guān)鍵詞:管理會計 大數(shù)據(jù)時代 云計算

隨著互聯(lián)網(wǎng)時代的開啟,大數(shù)據(jù)概念開始在全球蔓延,我國也于2014年將“大數(shù)據(jù)戰(zhàn)略”上升為國家戰(zhàn)略,基于互聯(lián)網(wǎng)的大數(shù)據(jù)逐漸正改變著各行各業(yè)的傳統(tǒng)模式,作為會計重要分支的管理會計工作也遇到了前所未有的挑戰(zhàn)。

一、大數(shù)據(jù)時代的到來

(一)大數(shù)據(jù)時代的特點(diǎn)

“大數(shù)據(jù)時代”這一概念最早是由全球知名咨詢公司麥肯錫提出的,“數(shù)據(jù),已經(jīng)滲透到當(dāng)今每一個行業(yè)和業(yè)務(wù)職能領(lǐng)域,成為重要的生產(chǎn)要素。人們對于海量數(shù)據(jù)的挖掘和運(yùn)用,預(yù)示著新一波生產(chǎn)率增長和消費(fèi)者盈余浪潮的到來?!睒I(yè)界普遍認(rèn)為大數(shù)據(jù)的特點(diǎn)可以由四個“V”概括,即Volume(大量)、Variety(多樣)、Velocity(高速)、Value(價值)。大量是指相對于傳統(tǒng)的數(shù)據(jù)產(chǎn)生方式,現(xiàn)在的數(shù)據(jù)呈現(xiàn)出爆炸式增長的特點(diǎn);多樣是指數(shù)據(jù)來源多樣繁雜,如數(shù)字、文字、圖片、音頻、圖像、網(wǎng)頁、地理位置信息等五花八門的數(shù)據(jù)形式;高速是指隨著云計算等先進(jìn)技術(shù)的發(fā)展使得數(shù)據(jù)的計算能力突飛猛進(jìn),數(shù)據(jù)庫實(shí)時更新;價值是指價值密度低,比如一個小時的視頻也許只能采集到幾秒鐘有用的數(shù)據(jù)。自古以來商業(yè)的發(fā)展都是基于數(shù)據(jù)分析作出決策,但從未有一個時代像大數(shù)據(jù)時代這樣出現(xiàn)如此大規(guī)模的數(shù)據(jù),如今的企業(yè)就像是漂浮在數(shù)據(jù)海洋上的巨輪,而管理會計需要做的就是及時準(zhǔn)確地挖掘出有用的數(shù)據(jù)。

(二)大數(shù)據(jù)拉啟了管理會計新發(fā)展的序幕

1、海量數(shù)據(jù)為管理會計提供了重要的經(jīng)營管理資源

管理會計職能的有效發(fā)揮必須建立在對數(shù)據(jù)的準(zhǔn)確分析上,大數(shù)據(jù)時代數(shù)據(jù)呈現(xiàn)出樣本數(shù)據(jù)向全數(shù)據(jù)轉(zhuǎn)變的趨勢,使得管理會計的處理對象更加完整。對于任何企業(yè)來說,數(shù)據(jù)都是商業(yè)皇冠上最為耀眼奪目的寶石,在未來的商業(yè)競爭中,誰能夠占有更及時、更豐富的數(shù)據(jù),誰才有可能在瞬息多變的市場中站穩(wěn)腳跟。管理會計工作者要應(yīng)勢而動,建立數(shù)據(jù)倉庫,做好數(shù)據(jù)資源的收集、存儲、挖掘及整理分析和共享的工作。

2、傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)已無法滿足管理會計的決策需求

一直以來,結(jié)構(gòu)化數(shù)字?jǐn)?shù)據(jù)作為管理會計的主要處理對象在企業(yè)決策中發(fā)揮了重要的作用,但隨著數(shù)據(jù)的爆炸式發(fā)展,企業(yè)自身信息系統(tǒng)中產(chǎn)生的標(biāo)準(zhǔn)化、結(jié)構(gòu)化數(shù)據(jù)在企業(yè)所能獲得的數(shù)據(jù)中所占的比重越來越小,甚至不足15%,顯而易見,結(jié)構(gòu)化數(shù)據(jù)在企業(yè)決策中所發(fā)揮的作用已非常有限。據(jù)統(tǒng)計資料顯示,企業(yè)的數(shù)據(jù)資源中85%屬于廣泛存在于社交網(wǎng)絡(luò)、物聯(lián)網(wǎng)等之中的非結(jié)構(gòu)化或半結(jié)構(gòu)化數(shù)據(jù),這些數(shù)據(jù)被用來優(yōu)化生產(chǎn)流程,增強(qiáng)客戶體驗(yàn)。因此,企業(yè)管理者必須重視數(shù)據(jù)資源的全面性,特別是半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的收集,為管理決策提供完整、準(zhǔn)確的依據(jù)。

3、實(shí)時更新的動態(tài)數(shù)據(jù)促進(jìn)企業(yè)數(shù)據(jù)處理能力的提高

大數(shù)據(jù)時代下,企業(yè)每天需要處理的數(shù)據(jù)以驚人的速度不斷增長,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫已成為管理會計發(fā)展過程中的主要瓶頸,以沃爾瑪為例,通過建立數(shù)據(jù)倉庫,其每小時可以處理的交易記錄高達(dá)一百萬次,存儲數(shù)據(jù)規(guī)模多達(dá)2500TB,這是傳統(tǒng)的關(guān)系型數(shù)據(jù)庫絕對做不到的。鑒于人腦對數(shù)據(jù)處理能力的有限性,處理完的數(shù)據(jù)也需要以可視化的界面呈現(xiàn)出來,這也對管理會計提出了新的要求。

4、數(shù)據(jù)的價值取決于其及時性和預(yù)測性

大數(shù)據(jù)分析最重要的一點(diǎn)是保證數(shù)據(jù)的及時性,其次是預(yù)測性。以很多企業(yè)投入使用的臉譜識別系統(tǒng)為例,從進(jìn)門的那一刻,人臉就被快速抓拍,通過技術(shù)分析可以明確地知道這個人是誰,他將要去哪里,這些曾經(jīng)看似天方夜譚的事情已經(jīng)實(shí)實(shí)在在的發(fā)生了,這個世界正在發(fā)生改變。數(shù)據(jù)的及時性和預(yù)測性對管理會計提出了更高的要求,構(gòu)建數(shù)據(jù)倉庫、應(yīng)用數(shù)據(jù)挖掘技術(shù)已是勢在必行。

二、大數(shù)據(jù)時代引發(fā)管理會計數(shù)據(jù)處理模式的重大變革

(一)管理會計數(shù)據(jù)搜集方式與內(nèi)容的變革

傳統(tǒng)的會計核算系統(tǒng)中,數(shù)據(jù)源頭是各種紙質(zhì)原始憑證,隨著互聯(lián)網(wǎng)技術(shù)和各種電子設(shè)備的廣泛應(yīng)用,原始憑證由紙質(zhì)慢慢過渡成為電子數(shù)據(jù),并且不再由財務(wù)人員負(fù)責(zé)收集,而是廣泛分散在采購部門、生產(chǎn)車間、銷售部門、后勤部門等各業(yè)務(wù)部門,甚至是供應(yīng)商、客戶、政府機(jī)構(gòu)、中介機(jī)構(gòu)等外部相關(guān)組織中。通過管理信息系統(tǒng)和互聯(lián)網(wǎng)直接采集信息,節(jié)省時間和成本的同時,也提高了數(shù)據(jù)的準(zhǔn)確性。

大數(shù)據(jù)時代下,相對于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的運(yùn)用是越來越廣泛。大量的數(shù)據(jù)出現(xiàn)在社交平臺、新聞網(wǎng)頁、各種客戶端等,并以音頻、視頻、圖片、符號等多種多樣的形式呈現(xiàn)出來,這些數(shù)據(jù)都有別于傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù),呈現(xiàn)出非線性的特征,但對于管理決策卻發(fā)揮著日益重要的作用,管理會計如何處理這些數(shù)據(jù)已是當(dāng)務(wù)之急。如客戶在微信、微博、論壇等社交平臺中發(fā)表的對產(chǎn)品或服務(wù)的評價,如果加以處理和分析,完全可以用于管理決策支持。

(二)管理會計數(shù)據(jù)存儲方式與內(nèi)容的變革

大數(shù)據(jù)時代,如何將復(fù)雜多樣的海量數(shù)據(jù)加工提煉成有用的信息以供管理者決策之用是所有企業(yè)需要解決的首要難題。目前的數(shù)據(jù)庫市場中,傳統(tǒng)的關(guān)系型數(shù)據(jù)庫仍處于主導(dǎo)地位,這類數(shù)據(jù)庫只能夠處理結(jié)構(gòu)化數(shù)據(jù),隨著數(shù)據(jù)來源與種類形式的日益多樣化,關(guān)系型數(shù)據(jù)庫在高并發(fā)讀寫、高吞吐率和海量數(shù)據(jù)存取、高可用性和高擴(kuò)展性需求等方面越來越無法適應(yīng)新的形勢,操作復(fù)雜、成本高昂,最關(guān)鍵的是數(shù)據(jù)處理的有限性已成為制約企業(yè)發(fā)展的瓶頸,如不及時轉(zhuǎn)變思路和更新技術(shù),企業(yè)難逃被市場淘汰的命運(yùn)。大數(shù)據(jù)倉庫是世界各國普遍采用的一種管理系統(tǒng),包括數(shù)據(jù)的收集、預(yù)處理、存儲、整合、分析、數(shù)據(jù)挖掘和價值再造等多種功能模塊,保證數(shù)據(jù)被充分提煉和處理。企業(yè)也可以根據(jù)自己的實(shí)際需要,將大數(shù)據(jù)倉庫分為不同功能模塊,如存貨管理模塊、生產(chǎn)計劃模塊、銷售管理模塊等,明晰的模塊分類有利于數(shù)據(jù)的管理和使用,在這個基礎(chǔ)上,企業(yè)可以利用數(shù)據(jù)挖掘技術(shù)尋找能為企業(yè)創(chuàng)造價值的潛在信息。

(三)管理會計數(shù)據(jù)加工分析方式的變革

大數(shù)據(jù)時代下,數(shù)據(jù)挖掘已經(jīng)成為一項(xiàng)應(yīng)對海量數(shù)據(jù)必不可少的技術(shù)?!捌【坪湍虿粷瘛币呀?jīng)成為了數(shù)據(jù)挖掘中最經(jīng)典的案例,零售連鎖舉頭沃爾瑪公司擁有世界上最大的數(shù)據(jù)倉庫系統(tǒng)之一,在這里集合了其所有門店的詳細(xì)原始交易數(shù)據(jù),在這些原始交易數(shù)據(jù)的基礎(chǔ)上,沃爾瑪利用數(shù)據(jù)挖掘工具對這些數(shù)據(jù)進(jìn)行分析和挖掘,最后得出結(jié)論:跟尿不濕一起購買最多的商品竟是啤酒。在數(shù)據(jù)挖掘過程中需要用到回歸分析、趨勢分析、決策樹分析、時間序列分析等算法,而這些對于管理會計工作者來說顯得相當(dāng)陌生。

以企業(yè)常見的投資決策為例,傳統(tǒng)的投資決策分析方法有內(nèi)含報酬率法、凈現(xiàn)值法等,這些方法通常是依據(jù)單一渠道取得的相對準(zhǔn)確的歷史數(shù)據(jù)進(jìn)行分析,通過這種方法分析得出的結(jié)論相對滯后、單一,對于管理者決策只能發(fā)揮有限的參考作用。大數(shù)據(jù)時代下,企業(yè)投資決策通過搜集線上和線下數(shù)據(jù)、歷史資料和現(xiàn)時的業(yè)務(wù)數(shù)據(jù)、技術(shù)數(shù)據(jù)、企業(yè)上下游供應(yīng)鏈數(shù)據(jù)、用戶數(shù)據(jù)、競爭對手?jǐn)?shù)據(jù)、相關(guān)政策法規(guī)等一系列相關(guān)的完整數(shù)據(jù)后,再運(yùn)用先進(jìn)的數(shù)據(jù)挖掘技術(shù)做出最為可行的選擇。

(四)管理會計信息共享模式的變革

數(shù)據(jù)挖掘技術(shù)得以有效使用的前提是“信息孤島”現(xiàn)象的消失。傳統(tǒng)的數(shù)據(jù)庫模式下,不同業(yè)務(wù)部門之間都有自己獨(dú)享的數(shù)據(jù)中心,局部意識嚴(yán)重阻礙了信息共享觀念的普及,這種封閉的“信息孤島”管理模式在大數(shù)據(jù)時代下逐漸瓦解,在企業(yè)價值鏈甚至企業(yè)間價值鏈上正在逐步實(shí)現(xiàn)信息共享。如生產(chǎn)部門可以直接查詢庫存管理部門原材料的存儲情況,并根據(jù)生產(chǎn)需要及時通知采購部門,甚至在企業(yè)與供應(yīng)商及客戶之間都可以實(shí)現(xiàn)信息共享,增強(qiáng)彼此間合作的親密度,形成穩(wěn)固的伙伴關(guān)系以共同應(yīng)對瞬息萬變的市場競爭,實(shí)現(xiàn)共贏的戰(zhàn)略合作局面。

三、積極應(yīng)對大數(shù)據(jù)時代管理會計面臨的挑戰(zhàn)

(一)正確認(rèn)識大數(shù)據(jù)時代對管理會計造成的沖擊

統(tǒng)計資料顯示,目前我國企業(yè)中約有50%的管理者并未對大數(shù)據(jù)戰(zhàn)略及互聯(lián)網(wǎng)時代對企業(yè)的影響引起重視,而且有38%的被調(diào)查者并不清楚大數(shù)據(jù)的概念,25%的被調(diào)查者對于大數(shù)據(jù)的理解存在偏差,甚至有些管理者認(rèn)為大數(shù)據(jù)時代對其所在的企業(yè)不會產(chǎn)生任何影響。而對于中小企業(yè)來說,大數(shù)據(jù)戰(zhàn)略更是遙不可及,單是人才的培養(yǎng)就需要一筆不菲的投資,完全不符合成本效益原則。因此,大數(shù)據(jù)時代雖然已大踏步來到,并對很多傳統(tǒng)行業(yè)造成了巨大的沖擊,卻并未引起管理者的足夠重視,或者因?yàn)楦鞣N條件的限制而選擇了視而不見,這勢必會影響到大數(shù)據(jù)在管理會計中的應(yīng)用。

(二)構(gòu)建基于云計算的管理信息系統(tǒng)

大數(shù)據(jù)時代信息的存儲量相當(dāng)可觀,據(jù)統(tǒng)計,百度每天新增的數(shù)據(jù)就有10TB,系統(tǒng)每天需要處理的數(shù)據(jù)則超過1PB,而完全顛覆傳統(tǒng)銷售模式的淘寶商城每天需要處理的數(shù)據(jù)高達(dá)50TB。隨著物聯(lián)網(wǎng)、互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)的廣泛使用,不同形式的數(shù)據(jù)鋪天蓋地,同樣需要巨大的存儲空間,而現(xiàn)有的數(shù)據(jù)庫幾乎無法存儲TB級別的數(shù)據(jù),分析整理更無從談起。因此,能否對現(xiàn)有數(shù)據(jù)存儲系統(tǒng)更新?lián)Q代,建立巨大的TB級的數(shù)據(jù)倉庫,將直接決定企業(yè)能否實(shí)現(xiàn)對數(shù)據(jù)的及時、完整的收集、存儲、分析、整理,最終決定企業(yè)的成敗與否。云計算模式應(yīng)運(yùn)而生,借助互聯(lián)網(wǎng)這一平臺提供快速、動態(tài)、虛擬、規(guī)?;男畔①Y源,滿足用戶結(jié)構(gòu)化、半結(jié)構(gòu)化乃至非結(jié)構(gòu)化信息的多種分析需求。

(三)完善信息安全技術(shù)制度

如何保障信息安全是大數(shù)據(jù)時代及互聯(lián)網(wǎng)廣泛應(yīng)用過程中必須要重視的一個問題。企業(yè)收集的數(shù)據(jù)中常常包含著其他企業(yè)、組織或者個人的隱私,這些信息一旦泄露,會給當(dāng)事人、客戶、供應(yīng)商等造成難以挽回的損失。在拉斯維加斯每年夏天舉辦的全球性的“黑客大會”上,讓人眼花繚亂的黑客技術(shù)輪番上演,這也為各大企業(yè)、組織、政府部門等敲響了警鐘,信息安全技術(shù)的發(fā)展和維護(hù)任重而道遠(yuǎn),如何保證信息安全成為了擺在每一個人面前的重大課題。

(四)注重適應(yīng)大數(shù)據(jù)時代要求的管理人才的培養(yǎng)

目前,世界各國的大數(shù)據(jù)專業(yè)人才都面臨巨大的缺口。一項(xiàng)預(yù)測顯示,在未來六年內(nèi),僅美國一國就可能面臨14 萬至 19 萬擁有扎實(shí)分析技能的人才缺口,面臨的懂得使用相應(yīng)工具分析大數(shù)據(jù)、作出合理決策的管理和分析人員的人才缺口更是高達(dá) 150 萬。人才的短缺勢必會阻礙企業(yè)開發(fā)、利用管理會計信息工作的進(jìn)程。因此,能否及時培養(yǎng)掌握此類分析所需知識與技術(shù)的管理會計人才,對企業(yè)的發(fā)展至關(guān)重要。

大數(shù)據(jù)處理論文:智能電網(wǎng)大數(shù)據(jù)處理技術(shù)現(xiàn)狀與挑戰(zhàn)

大數(shù)據(jù)是人們認(rèn)知世界的一種新的渠道和新的方法。大數(shù)據(jù)的應(yīng)用可以看做是知識在計算機(jī)網(wǎng)絡(luò)上的新呈現(xiàn),本文詳盡闡述了智能電網(wǎng)中大數(shù)據(jù)的特點(diǎn),智能電網(wǎng)中大數(shù)據(jù)處理技術(shù)現(xiàn)狀和智能電網(wǎng)大數(shù)據(jù)處理技術(shù)面臨的挑戰(zhàn)等方面進(jìn)行了深入的探討。

【關(guān)鍵詞】智能電網(wǎng) 大數(shù)據(jù) 云計算 并行數(shù)據(jù)庫 應(yīng)用現(xiàn)狀

隨著智能電網(wǎng)建設(shè)的不斷深入和推進(jìn),電網(wǎng)運(yùn)行和設(shè)備檢、監(jiān)測產(chǎn)生的數(shù)據(jù)量呈指數(shù)級增長,使電力企業(yè)進(jìn)入了大數(shù)據(jù)時代,對目前的數(shù)據(jù)存儲和處理技術(shù)提出了更高的要求。同時也對智能電網(wǎng)大數(shù)據(jù)的處理效率提出了更加嚴(yán)苛的要求,本文以現(xiàn)階段智能電網(wǎng)大數(shù)據(jù)處理的技術(shù)應(yīng)用為出發(fā)點(diǎn),基于大數(shù)據(jù)處理目前的技術(shù)水平,分別從傳輸性、存儲性、時效性、集成性和可視性等方面探討新技術(shù)背景下智能電網(wǎng)大數(shù)據(jù)處理面臨的機(jī)遇與挑戰(zhàn)。

1 智能電網(wǎng)中大數(shù)據(jù)的特點(diǎn)

智能電網(wǎng)業(yè)務(wù)中的基本數(shù)據(jù)按內(nèi)容可以劃分成三大類。

(1)運(yùn)行數(shù)據(jù)、設(shè)備檢測數(shù)據(jù)、設(shè)備實(shí)時狀態(tài)參數(shù)數(shù)據(jù)。

(2)電力企業(yè)營銷數(shù)據(jù)(用電客戶、電量報價等)。

(3)電力企業(yè)管理數(shù)據(jù)。

在上述類目可以再次細(xì)化為結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)兩大類。但無論基于何種分類方式,大數(shù)據(jù)在智能電網(wǎng)中體現(xiàn)出來的特點(diǎn)是不變的,簡單概括為體量大、類型多,具體如下:

(1)數(shù)據(jù)體量大:即數(shù)據(jù)的數(shù)量和體積較為龐大。在智能時代的推動下,電網(wǎng)在數(shù)據(jù)吞吐量的級別已經(jīng)從以往的TB級飆升為PB級。

(2)數(shù)據(jù)類型繁雜:由于電力企業(yè)自身存在的特殊性,加之其地理分布情況在區(qū)域上的差異性,電網(wǎng)企業(yè)涉及到的數(shù)據(jù)有著極為復(fù)雜的類別劃分,細(xì)分后的子類和子項(xiàng)同樣在數(shù)量上非常龐大,也正是由于這一特點(diǎn),不同的數(shù)據(jù)類別對服務(wù)器端硬件設(shè)備及用戶端的系統(tǒng)平臺均有不同程度的配置、性能及處理需求,從而更是增加了電網(wǎng)企業(yè)內(nèi)網(wǎng)及外設(shè)雙重建設(shè)項(xiàng)目的難度。

(3)數(shù)據(jù)價值密度低:異常數(shù)據(jù)出現(xiàn)的頻率低,同時也是對電網(wǎng)軟、硬件設(shè)備維修和檢測最有價值的。

2 智能電網(wǎng)中大數(shù)據(jù)處理技術(shù)現(xiàn)狀

2.1 并行數(shù)據(jù)庫

關(guān)系數(shù)據(jù)庫常用于結(jié)構(gòu)化數(shù)據(jù)的存儲、整合及維護(hù),可以實(shí)現(xiàn)的具體功能如下:

(1)可實(shí)現(xiàn)數(shù)據(jù)查詢及邏輯分析的快捷化、靈活性操作。

(2)可提供高標(biāo)準(zhǔn)規(guī)則強(qiáng)制下業(yè)務(wù)事項(xiàng)的高效處理。

(3)可承載一定數(shù)量的用戶同時發(fā)起數(shù)據(jù)訪問的系統(tǒng)壓力。

(4)可執(zhí)行高級別安全機(jī)制。

得益于SQL嚴(yán)謹(jǐn)?shù)臄?shù)據(jù)查詢語言、高效率的數(shù)據(jù)分析層級以及脫離對程序依賴的高效率獨(dú)立化協(xié)同運(yùn)行等絕對優(yōu)勢,關(guān)系數(shù)據(jù)庫得到了業(yè)界的一致認(rèn)可和推廣。但是智能電網(wǎng)的開發(fā)和組建已經(jīng)今非昔比,其進(jìn)展的速度早已將關(guān)系型數(shù)據(jù)庫的能力范圍甩在了身后,僅在非結(jié)構(gòu)化數(shù)據(jù)存儲這一點(diǎn)能力上的局限,就使得目前多種主流數(shù)據(jù)類型如地理信息、高像素圖片以及各種音、視頻等格式文件無法滿足電力企業(yè)在數(shù)據(jù)存儲方面提出的全新的、更高標(biāo)準(zhǔn)的需求。

2.2 云計算技術(shù)

云計算平臺的誕生使得大數(shù)據(jù)技術(shù)尤為必要,能夠存儲海量數(shù)據(jù)并具備數(shù)據(jù)并行處理功能等核心技術(shù),因此為電力設(shè)備實(shí)時狀態(tài)數(shù)據(jù)提供了強(qiáng)大的技術(shù)支持。實(shí)時狀態(tài)數(shù)據(jù)不僅類目眾多,數(shù)據(jù)量龐大,可靠性和實(shí)時性的標(biāo)準(zhǔn)高,使基于云計算技術(shù)的海量數(shù)據(jù)研究仍處在起步階段,即便能夠確保監(jiān)控程序的延展性和可靠性,但更高標(biāo)準(zhǔn)的性能如安全和數(shù)據(jù)隱私等并未實(shí)現(xiàn),仍需不斷探索。

3 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)面臨的挑戰(zhàn)

3.1 大數(shù)據(jù)傳輸及存儲技術(shù)

智能時代數(shù)據(jù)量的日漸增多極大程度影響了電網(wǎng)智能化的發(fā)展,并在存儲系統(tǒng)、電網(wǎng)運(yùn)行監(jiān)控設(shè)備以及數(shù)據(jù)傳輸方面形成了諸多負(fù)擔(dān)。因此要進(jìn)行分類存儲和分析系統(tǒng)中現(xiàn)有的大數(shù)據(jù)性能。非結(jié)構(gòu)化數(shù)據(jù)在智能電網(wǎng)中存有的百分比較大,將此類非結(jié)構(gòu)化數(shù)據(jù)演變成結(jié)構(gòu)化數(shù)據(jù),是當(dāng)前智能大數(shù)據(jù)在存儲方面處理技術(shù)上存在的難題。

3.2 數(shù)據(jù)處理的時效性技術(shù)

大數(shù)據(jù)重點(diǎn)在于處理速度。一般情況下,處理時間與數(shù)據(jù)規(guī)模成正比,規(guī)模大的數(shù)據(jù)集處理的時間就越長。傳統(tǒng)的存儲方案僅能夠處理能力范圍內(nèi)的一定量的數(shù)據(jù),對大數(shù)據(jù)卻難以駕馭。隨著智能電網(wǎng)的不斷應(yīng)用,實(shí)時數(shù)據(jù)處理將需貫穿于用電、輸變電和發(fā)電等各項(xiàng)關(guān)鍵環(huán)節(jié)中。

3.3 異構(gòu)多數(shù)據(jù)源處理技術(shù)

未來智能電網(wǎng)能夠?qū)⒇炌òl(fā)電、調(diào)度以及變電、輸電、配電等幾項(xiàng)環(huán)節(jié)得以滿足,能夠?qū)⑿畔⒌娜娌杉?、高效處理、流暢傳輸以及業(yè)務(wù)流、信息流和支撐電力流實(shí)現(xiàn)高度的一體化。因此,其主要功能是能夠整合出規(guī)模較大的多源異構(gòu)信息,可以由資源集約化配置的數(shù)據(jù)中心提供給智能電網(wǎng)。目前海量異構(gòu)數(shù)據(jù)需首要處理的問題在于,怎樣構(gòu)建出一個能夠規(guī)范表達(dá)的模型,同時何以才能以該模型為基礎(chǔ)將數(shù)據(jù)融合以及查詢存儲同時高效進(jìn)行。

3.4 大數(shù)據(jù)可視化化分析技術(shù)

針對難以量化的智能電網(wǎng)數(shù)據(jù),在屏幕空間自身局限的顯示情況下,面向用戶提供一種更為簡便直觀的方式,是跨越性較大、難度較高的一項(xiàng)工作。在實(shí)踐中,可視化方法能夠分析規(guī)模較大的數(shù)據(jù),將數(shù)據(jù)繪制為分辨率和精度較高的圖片,同時輔以交互工具,結(jié)合人的視覺系統(tǒng),對算法參數(shù)和實(shí)時處理做出決定,并通過數(shù)據(jù)展開定量、定性的分析和觀察。

4 結(jié)語

智能電網(wǎng)系統(tǒng)在我國的應(yīng)用日漸廣泛,大數(shù)據(jù)處理技術(shù)已然是智能電網(wǎng)安全運(yùn)行的有利武器。但在電網(wǎng)智能化的發(fā)展進(jìn)程中,實(shí)時、隱私等方面的性能需求對大數(shù)據(jù)技術(shù)本身提出了更嚴(yán)峻的挑戰(zhàn),為了向全景實(shí)時電網(wǎng)時期邁進(jìn),我們必須制定有針對性的解決方案,為電力事業(yè)得以持續(xù)穩(wěn)定發(fā)展貢獻(xiàn)出力量;推動我國社會主義現(xiàn)代化建設(shè)的步伐更快的向前邁進(jìn)。

大數(shù)據(jù)處理論文:基于云計算的大數(shù)據(jù)處理技術(shù)探討

信息爆炸時代,大數(shù)據(jù)超大體量、離散性和非(半)結(jié)構(gòu)化的特點(diǎn)已經(jīng)遠(yuǎn)遠(yuǎn)超出了傳統(tǒng)數(shù)據(jù)管理方式所能夠承載的范疇。大數(shù)據(jù)要求全面革新原有的數(shù)據(jù)處理架構(gòu)和有關(guān)技術(shù),實(shí)現(xiàn)超大體量和復(fù)雜數(shù)據(jù)的存儲、高效傳輸和有用信息提取。圍繞大數(shù)據(jù),云計算技術(shù)營運(yùn)而生。云計算的出現(xiàn)為大數(shù)據(jù)的存儲和處理提供了可能,也為數(shù)據(jù)處理系統(tǒng)的功能擴(kuò)展提供了重要保障。本文主要分析了大數(shù)據(jù)和云計算之間的關(guān)系,以及云計算環(huán)境下大數(shù)據(jù)處理技術(shù)。

【關(guān)鍵詞】云計算技術(shù) 大數(shù)據(jù) 數(shù)據(jù)處理

隨著物聯(lián)網(wǎng)、網(wǎng)絡(luò)、移動通信等的快速發(fā)展,特別是互聯(lián)網(wǎng)的普及使得信息傳播的規(guī)模和速度呈現(xiàn)幾何增長,人們獲取信息的途徑和方式開始變得異常豐富,人們事實(shí)上已經(jīng)進(jìn)入了“信息大爆炸”時代。與此同時信息傳播的大容量、高效性和準(zhǔn)確性也對現(xiàn)有的數(shù)據(jù)處理體系提出了更高要求。根據(jù)大數(shù)據(jù)摩爾定律,人類世界的數(shù)據(jù)產(chǎn)生量將按照每兩年一倍的速率增長,預(yù)計2020年世界數(shù)據(jù)量將超過35億GB,“大數(shù)據(jù)”時代迫在眉睫。“大數(shù)據(jù)”具有離散型、隨機(jī)性、發(fā)散性、爆發(fā)性等特點(diǎn)。近年來,隨著云技術(shù)的興起全面革新了傳統(tǒng)的數(shù)據(jù)技術(shù),大容量、多樣化、快速處理、信息價值性和準(zhǔn)確性為了云技術(shù)背景下大數(shù)據(jù)處理的五大主要特征。如何利用云計算技術(shù)對大數(shù)據(jù)進(jìn)行高效處理已經(jīng)成為了信息技術(shù)發(fā)展亟待解決的關(guān)鍵問題。

1 大數(shù)據(jù)和云計算的關(guān)系

云計算技術(shù)是指利用集中式遠(yuǎn)程計算資源池,通過按需分配的方式,為終端用戶提供強(qiáng)大而廉價的計算服務(wù)技術(shù)。云計算技術(shù)作為一種數(shù)據(jù)處理方式,其技術(shù)特點(diǎn)包括:一是資源池在物理上是對終端用戶完全透明的;二是能夠?yàn)槿魏涡袠I(yè)提供規(guī)模化計算服務(wù),其服務(wù)能力可看做是“無限”的;三是其應(yīng)用部署快速便捷,服務(wù)能力和方式是可以完全按照終端客戶要求定制的,具有極強(qiáng)的彈性伸縮能力;四是云端數(shù)據(jù)獲取方便,能夠資源共享,用戶使用成本低廉。

云計算技術(shù)是目前最強(qiáng)大的數(shù)據(jù)存儲、傳輸和處理平臺,它是大數(shù)據(jù)處理的最優(yōu)選擇。云計算能夠?yàn)榇髷?shù)據(jù)提供幾乎“無限”的存儲空間和處理能力,滿足其超大容量存儲和超級復(fù)雜的處理需求,也是傳統(tǒng)存儲方式無法實(shí)現(xiàn)的。云計算側(cè)重數(shù)據(jù)的計算處理,而大數(shù)據(jù)需要強(qiáng)大數(shù)據(jù)處理能力,因而它是云計算的處理對象。此外大數(shù)據(jù)所產(chǎn)生的業(yè)務(wù)需求也為云計算的實(shí)現(xiàn)提供了更多的形式。

2 基于云計算的大數(shù)據(jù)處理技術(shù)

2.1 大數(shù)據(jù)的采集技術(shù)

目前數(shù)據(jù)采集方式主要分為集中式和分布式兩大類。其中分布式的靈活性較強(qiáng),而集中式的全局性較好。實(shí)際上大數(shù)據(jù)采集的對象通常包括組織內(nèi)部和相互獨(dú)立組織間的各類數(shù)據(jù),而云計算恰好具有并行處理的優(yōu)勢,因而可采取混合式采集方式能夠更加有效地完成數(shù)據(jù)采集任務(wù)。即在各個組織內(nèi)部采用集中式數(shù)據(jù)采集方式,通過在組織內(nèi)配置中心服務(wù)器,作為集中式數(shù)據(jù)注冊機(jī)構(gòu),用于存儲和共享內(nèi)部的數(shù)據(jù)。在相互獨(dú)立組織間,采用云計算的集群技術(shù)、虛擬化技術(shù)等在各獨(dú)立組織中心服務(wù)器間采用分布式采集方式實(shí)現(xiàn)數(shù)據(jù)采集、組織間對接和共享。大數(shù)據(jù)結(jié)構(gòu)類型包括結(jié)構(gòu)化、半結(jié)構(gòu)和非結(jié)構(gòu)化數(shù)據(jù),因而在應(yīng)用云計算技術(shù)進(jìn)行分布式采集時,可依托其超強(qiáng)的擴(kuò)展性和容錯力,將數(shù)據(jù)池內(nèi)數(shù)據(jù)進(jìn)行同構(gòu)化,從而實(shí)現(xiàn)數(shù)據(jù)進(jìn)行分類存儲。

2.2 大數(shù)據(jù)的存儲技術(shù)

由于超大體量、離散、復(fù)雜的數(shù)據(jù)特點(diǎn),傳統(tǒng)數(shù)據(jù)存儲模式已經(jīng)難以滿足大數(shù)據(jù)存儲要求。一方面單結(jié)點(diǎn)的數(shù)據(jù)倉庫在容量上難以滿足呈幾何增長的數(shù)據(jù)量,在運(yùn)行效率上也難以滿足大數(shù)據(jù)的分析處理需求。另一方面?zhèn)鹘y(tǒng)數(shù)據(jù)倉庫按行存儲模式,雖然可以實(shí)現(xiàn)大容量索引和視圖,但實(shí)際操作中其時間和空間過高。而云計算主要采取列式存儲模式,即區(qū)分?jǐn)?shù)據(jù)不同屬性,不同屬性列都單獨(dú)存放。云計算中列式存儲的優(yōu)勢在于在投影數(shù)據(jù)時只需查詢其屬性列,系統(tǒng)處理量和處理效率顯著提升。此外按數(shù)據(jù)屬性進(jìn)行列式存儲,數(shù)據(jù)倉庫中相鄰列數(shù)據(jù)的相似性更高,因而能夠得到更高的數(shù)據(jù)壓縮率,進(jìn)一步減少存儲所需空間。

2.3 大數(shù)據(jù)的挖掘技術(shù)

聯(lián)機(jī)分析能夠完成數(shù)據(jù)的復(fù)雜處理,得到直觀結(jié)果,實(shí)現(xiàn)決策性分析。云計算并行模式下聯(lián)機(jī)分析能夠基于數(shù)據(jù)全局,建立多維分析模型對數(shù)據(jù)進(jìn)行多維度分析,從而盡可能獲得全面的分析結(jié)構(gòu)。由此可見多維度分析是聯(lián)機(jī)分析的重要特征,而云計算技術(shù)下數(shù)據(jù)倉庫正好是通過多維數(shù)據(jù)組織的。

聯(lián)機(jī)分析對數(shù)據(jù)的處理僅僅只是表面的,其獲取的信息價值并不高,難以得到數(shù)據(jù)深層次的含義與內(nèi)在關(guān)聯(lián)。而數(shù)據(jù)挖掘正是在聯(lián)機(jī)分析的基礎(chǔ)上,從超大體量的數(shù)據(jù)倉庫中提取數(shù)據(jù)所蘊(yùn)含的隱性信息,并將這些信息用規(guī)律、概念或是模型等表現(xiàn)出來?;谠朴嬎愕臄?shù)據(jù)挖掘主要采用分布式并行挖掘技術(shù)。與其他串行方式相比,云計算技術(shù)下并行數(shù)據(jù)挖掘能夠利用機(jī)器集群拆分分布式系統(tǒng)中的并行任務(wù),并將拆分后的各個任務(wù)分別交由不同的機(jī)器去處理,從而實(shí)現(xiàn)大規(guī)模數(shù)據(jù)處理,其時間成本也大大降低。

2.4 大數(shù)據(jù)的可視化技術(shù)

上文所述數(shù)據(jù)挖掘可實(shí)現(xiàn)大數(shù)據(jù)的深層次、多維度分析,獲取更多有用信息。而云計算平臺下可視化技術(shù)則能夠?qū)⑸鲜鲂畔⒕唧w化,從而使數(shù)據(jù)及其有關(guān)結(jié)構(gòu)的相關(guān)信息能夠更直觀地表現(xiàn)出來,更容易被發(fā)覺和理解。可視化技術(shù)是指在存儲空間中,將數(shù)據(jù)庫及其中數(shù)據(jù)以圖像(圖形)的形式表示出來,并在其中再采用其他的分析手段獲取圖像中所蘊(yùn)含的未知信息。而原有的數(shù)據(jù)處理僅僅只能夠從數(shù)據(jù)本身入手,分析和觀察數(shù)據(jù)中的內(nèi)在信息。云計算下的可視化技術(shù)不但能夠?qū)崿F(xiàn)非空間數(shù)據(jù)的多維度圖像顯示,而且能夠?qū)崿F(xiàn)檢索過程的直觀圖形顯示,從而幫助人們更好地挖掘和理解信息,信息檢索效率也大大提升。

3 結(jié)語

在數(shù)據(jù)爆炸時代,云計算的出現(xiàn)為大數(shù)據(jù)的存儲和處理提供了可能,也為數(shù)據(jù)處理系統(tǒng)的功能擴(kuò)展提供了重要保障。以往的數(shù)據(jù)管理將收集和存儲作為重點(diǎn),而在云計算模式下,大數(shù)據(jù)管理將更多地側(cè)重數(shù)據(jù)分析、挖掘及管理模式的創(chuàng)新。目前數(shù)據(jù)采集和統(tǒng)計技術(shù)已經(jīng)較為成熟,利用云計算進(jìn)一步豐富大數(shù)據(jù)的存儲和處理方式,實(shí)現(xiàn)更高層次的數(shù)據(jù)挖掘和可視化將是今后需要解決的問題之一。

大數(shù)據(jù)處理論文:投資統(tǒng)計大數(shù)據(jù)處理關(guān)鍵技術(shù)

摘 要

大數(shù)據(jù)主要包括結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)兩部分,目前已具備應(yīng)用價值大、數(shù)據(jù)量大、速度快等特點(diǎn),這些特點(diǎn)對今后投資統(tǒng)計數(shù)據(jù)處理技術(shù)將帶來顛覆性變化,為此,本人結(jié)合從事多年統(tǒng)計數(shù)據(jù)處理經(jīng)驗(yàn),重點(diǎn)闡述投資統(tǒng)計大數(shù)據(jù)在數(shù)據(jù)采集、存儲和分析涉及的主要關(guān)鍵技術(shù)。

【關(guān)鍵詞】投資統(tǒng)計 大數(shù)據(jù)處理 關(guān)鍵技術(shù)

本人從事多年統(tǒng)計工作,對投資統(tǒng)計大數(shù)據(jù)有著天然的親近感,投資統(tǒng)計就是搜集、整理、分析、應(yīng)用數(shù)據(jù)。目前投資統(tǒng)計改革正在有序開展,我們要抓住改革契機(jī),充分利用投資統(tǒng)計大數(shù)據(jù)具有海量、實(shí)時、多元處理特點(diǎn),深刻解讀數(shù)據(jù),創(chuàng)新研究思路,提高投資統(tǒng)計數(shù)據(jù)處理能力,提供投資統(tǒng)計分析具有數(shù)據(jù)全、分析深、研究透、成果新、有理有據(jù)的可行建議,成為黨政府、部門決策的重要參謀。

1 概述

1.1 大數(shù)據(jù)

投資系統(tǒng)中數(shù)據(jù)有三種類型分別是項(xiàng)目投資管理數(shù)據(jù)、聯(lián)網(wǎng)直報房地產(chǎn)投資數(shù)據(jù)、規(guī)下投資抽樣數(shù)據(jù)。根據(jù)投資數(shù)據(jù)內(nèi)在結(jié)構(gòu),可以分為兩類,一類是結(jié)構(gòu)化數(shù)據(jù),統(tǒng)計系統(tǒng)的企業(yè)原始數(shù)據(jù)可以通過二維表形式反映的數(shù)據(jù);另一類是非結(jié)構(gòu)化數(shù)據(jù),不能以二維表的形式來反映的數(shù)據(jù),如文本、圖片、音頻、視頻等產(chǎn)生的數(shù)據(jù)。

與傳統(tǒng)投資統(tǒng)計不同,投資統(tǒng)計大數(shù)據(jù)可利用遙感技術(shù)和GIS技術(shù)進(jìn)行動態(tài)監(jiān)測,能夠獲取定期數(shù)據(jù),對現(xiàn)有投資統(tǒng)計業(yè)務(wù)系統(tǒng)進(jìn)行分析,主要表現(xiàn)在:一是為了能夠?qū)ν顿Y統(tǒng)計系統(tǒng)運(yùn)行獲取定期數(shù)據(jù),要對投資項(xiàng)目進(jìn)行定位,每個月節(jié)點(diǎn)都會產(chǎn)生大量的數(shù)據(jù)。二是PDA設(shè)備對投資統(tǒng)計項(xiàng)目樣本點(diǎn)的經(jīng)常性變化。三是為了能夠把握重大項(xiàng)目投資進(jìn)度,要求對投資統(tǒng)計系統(tǒng)運(yùn)行中相關(guān)信息定期變樣采集。四是投資統(tǒng)計數(shù)據(jù)能夠定期與發(fā)改、住建、稅務(wù)等部門數(shù)據(jù)共享和數(shù)據(jù)比對。

1.2 特點(diǎn)

投資統(tǒng)計大數(shù)據(jù)具有以下特點(diǎn):一是數(shù)據(jù)量大。隨著大數(shù)據(jù)的發(fā)展,投資統(tǒng)計數(shù)據(jù)TB級逐步上升到PB級。二是類型種類多。現(xiàn)在黨政領(lǐng)導(dǎo)對投資統(tǒng)計數(shù)據(jù)需求越來越準(zhǔn),要進(jìn)行處理結(jié)構(gòu)化和非結(jié)構(gòu)化投資統(tǒng)計也越來越多,才能夠滿足需求。三是利用率低。如在定期監(jiān)測重大投資項(xiàng)目過程中, 大部分監(jiān)測過程中的數(shù)據(jù)在正常范圍之內(nèi),而非常少的監(jiān)測異常數(shù)據(jù)是非常有用的,特別是投資項(xiàng)目數(shù)據(jù)異常值(如極大、極小值),要通過這些數(shù)據(jù)對比驗(yàn)證,數(shù)據(jù)是否正確,因此有利用價值的數(shù)據(jù)占總數(shù)據(jù)的比例少。四是處理要快。處理投資統(tǒng)計大數(shù)據(jù)速度要求快,可以利用小型計算機(jī)和云技術(shù)在非常短時間內(nèi)能夠分析數(shù)據(jù),為黨政領(lǐng)導(dǎo)決策提供高質(zhì)量的數(shù)據(jù)作為依據(jù)。

2 關(guān)鍵技術(shù)

2.1 采集技術(shù)

大數(shù)據(jù)的采集指利用很多個數(shù)據(jù)庫同時接收,從客戶端的傳輸來的數(shù)據(jù),一般用戶可以通過這些數(shù)據(jù)庫,在客戶端能夠達(dá)到一般查詢和處理過程。 但是在大數(shù)據(jù)的采集過程中,最大的難點(diǎn)數(shù)據(jù)并發(fā)高,很有可能會同時成千上萬的用戶來進(jìn)行訪問和操作,采用在采集端部署大量數(shù)據(jù)庫作為支持,能夠有效、科學(xué)地在投資數(shù)據(jù)庫之間進(jìn)行負(fù)載均衡和分片,是數(shù)據(jù)采集技術(shù)的關(guān)鍵環(huán)節(jié)。

各類大數(shù)據(jù)分部不同的部門或項(xiàng)目,給數(shù)據(jù)的收集帶來一定難度,采用關(guān)系數(shù)據(jù)管理模型,運(yùn)用Google 文件系統(tǒng)GFS 技術(shù),具有縱向擴(kuò)展功能,應(yīng)對數(shù)據(jù)采集并發(fā)數(shù)高,也是確保實(shí)現(xiàn)高效獲取大數(shù)據(jù)的核心。

2.2 傳輸、存儲技術(shù)

投資統(tǒng)計系統(tǒng)采用聯(lián)網(wǎng)直報平臺,運(yùn)行時會實(shí)時產(chǎn)生各式各樣的原始數(shù)據(jù),特別定期用投資遙感監(jiān)測中數(shù)據(jù)也會產(chǎn)生更多的數(shù)據(jù),經(jīng)過日月積累海量的數(shù)據(jù),會給投資監(jiān)控設(shè)備及數(shù)據(jù)傳輸、存儲系統(tǒng)造成沉重的負(fù)擔(dān),并對投資統(tǒng)計系統(tǒng)發(fā)展造成很大的影響。

目前投資統(tǒng)計系統(tǒng)數(shù)據(jù)的傳輸,為了減輕數(shù)據(jù)傳輸量,大部分采用數(shù)據(jù)壓縮的方式,可以應(yīng)用到投資統(tǒng)計數(shù)據(jù)傳輸,大大提速整個系統(tǒng)數(shù)據(jù)的傳輸,從而有效降低數(shù)據(jù)儲存的空間。若沒有建立有效批處理模型,在壓縮、解壓過程中仍然占用系統(tǒng)資源較大,浪費(fèi)也很大,因此更急需建立有效的批處理模型是重要的?,F(xiàn)在普遍采用MapReduce批處理模型,能夠在平常配置的計算機(jī)上實(shí)現(xiàn)并行化處理,且能夠分割輸入數(shù)據(jù),在計算機(jī)組成的集群上統(tǒng)一調(diào)度,確保計算機(jī)的集群之間順暢的通信。

投資統(tǒng)計大數(shù)據(jù)存儲一般采用分布式保存方式,具有性能可靠性,可以解決海量數(shù)據(jù)的存儲問題,可有局限性,如投資統(tǒng)計系統(tǒng)運(yùn)行時,隨時產(chǎn)生實(shí)時性數(shù)據(jù),處理過程中還是不能夠全面應(yīng)對,最好要根據(jù)不同類型的大數(shù)據(jù)性能先分析,然后再進(jìn)行實(shí)時分類存儲。特別是投資遙感監(jiān)測系統(tǒng)中非結(jié)構(gòu)化數(shù)據(jù)占大數(shù)據(jù)比重非常大,需要解決大量非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù)處理能力,是投資統(tǒng)計系統(tǒng)在大數(shù)據(jù)處理技術(shù)解決的關(guān)鍵問題。采用GFS的分布式文件系統(tǒng)主要對海量大文件而設(shè)計,而海量小文件可以用Haystack系統(tǒng),可以用多個邏輯文件共同使用一個文件,解決小文件存儲的問題。

2.3 實(shí)時處理技術(shù)

解決投資統(tǒng)計大數(shù)據(jù)處理速度是至關(guān)重要,數(shù)據(jù)處理范圍越來越大,數(shù)據(jù)處理時間就越長,假如數(shù)據(jù)量處理的范圍超過了數(shù)據(jù)本來的處理能力,缺乏整個系統(tǒng)穩(wěn)定運(yùn)行,就會對投資統(tǒng)計系統(tǒng)運(yùn)行產(chǎn)生不可估量的影響。雖然可以利用云計算系統(tǒng),能夠提供投資統(tǒng)計系統(tǒng)服務(wù),但是對特別聯(lián)網(wǎng)直報時間高峰期,現(xiàn)在也經(jīng)常出現(xiàn)堵塞事件,造成企業(yè)統(tǒng)計人員無法準(zhǔn)時上報數(shù)據(jù),也對投資統(tǒng)計系統(tǒng)運(yùn)行提出更高要求。

大數(shù)據(jù)產(chǎn)生的過程比較復(fù)雜,對有投資統(tǒng)計數(shù)據(jù)(結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù))進(jìn)行基于各種統(tǒng)計算法的計算,必然存在數(shù)據(jù)的內(nèi)涵不一致、記錄重復(fù)、或者感興趣擬處理的屬性指標(biāo)不完整、或者含有噪聲(數(shù)據(jù)中存在錯誤和異常值)等各種問題,必須實(shí)時進(jìn)行清洗和預(yù)處理,去掉噪聲和無關(guān)數(shù)據(jù),便于后續(xù)的分析、分析處理。使用Sector廣域網(wǎng)的分布式系統(tǒng),利用Sphere基本數(shù)據(jù)處理模型,針對不同的數(shù)據(jù),能夠統(tǒng)一輸入數(shù)據(jù)流方式,進(jìn)行實(shí)時大規(guī)模并行計算,在對數(shù)據(jù)進(jìn)行分割,分割后數(shù)據(jù)轉(zhuǎn)交給SPE(具有處理引擎功能),能夠起到負(fù)載平衡。

2.4 分析技術(shù)

投資大數(shù)據(jù)分析主要通過分布式數(shù)據(jù)庫或者分布式計算集群,對現(xiàn)有已存儲的大量數(shù)據(jù)庫,分步驟能夠簡單的分類匯總、統(tǒng)計分析等,能夠?qū)崿F(xiàn)普遍常見的分析需求,但是對于一些需要批處理基于半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù),利用可視化分析技術(shù)、高度集成技術(shù),對圖像和投資原始數(shù)據(jù)及專業(yè)的大數(shù)據(jù)分析工具,進(jìn)行與部門數(shù)據(jù)之間統(tǒng)計分析或比對。統(tǒng)計與分析這環(huán)節(jié)的主要特點(diǎn)涉及的面廣、量大,運(yùn)行系統(tǒng)資源占用也非常高,特別是輸入輸出資源占用率高。隨著大數(shù)據(jù)的發(fā)展,用Bigtable分布式、按列存儲、多維表結(jié)構(gòu)的實(shí)時分布式數(shù)據(jù)庫,可以對大數(shù)據(jù)結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)讀寫操作,使用SQL 語言進(jìn)行大量數(shù)據(jù)的統(tǒng)計、查詢和分析操作,解決了可視化分析技術(shù)的擴(kuò)展性,能夠有效提取重要數(shù)據(jù)、顯示合成圖像。用LOD技術(shù)采用策略處理大數(shù)據(jù)量的實(shí)時傳輸與可視化,實(shí)現(xiàn)按等級組織分塊,平常稱為“金字塔”結(jié)構(gòu)。

大數(shù)據(jù)的分析技術(shù)與傳統(tǒng)的統(tǒng)計數(shù)據(jù)匯總分析方法有較大的差別,不能將原來的統(tǒng)計系統(tǒng)數(shù)據(jù)處理經(jīng)驗(yàn)簡單的移植到大數(shù)據(jù)的數(shù)據(jù)處理中去,需要針對不同的大數(shù)據(jù)對象,部署相應(yīng)的數(shù)據(jù)采集環(huán)境,建立平值法、平滑法、預(yù)測法和頻率統(tǒng)計法等統(tǒng)計數(shù)據(jù)相關(guān)模型或算法,對投資統(tǒng)計大數(shù)據(jù)進(jìn)行深度和廣度的對比分析或核查。

3 結(jié)束語

伴隨現(xiàn)代信息技術(shù)的迅猛發(fā)展,傳統(tǒng)的投資統(tǒng)計知識、理論、技術(shù)、方法等正處于大變革、大跨越、大發(fā)展之中,投資統(tǒng)計也面臨良好機(jī)遇。特別大數(shù)據(jù)時代的到來,投資統(tǒng)計大數(shù)據(jù)處理在遙感地理信息系統(tǒng)、全球定位系統(tǒng)等空間信息技術(shù)中應(yīng)用,極大豐富了投資統(tǒng)計的數(shù)據(jù)來源,使投資統(tǒng)計工作如虎添翼,同時也對投資統(tǒng)計理念、數(shù)據(jù)來源和數(shù)據(jù)生產(chǎn)方式提出全新挑戰(zhàn),繼續(xù)尋求有效的解決辦法,更要廣泛深入與國際、國內(nèi)科研機(jī)構(gòu)合作交流,不斷創(chuàng)新探索,有助于繁榮投資統(tǒng)計科學(xué),傳播先進(jìn)投資統(tǒng)計理念和方法,提升投資統(tǒng)計能力和水平。

大數(shù)據(jù)處理論文:對大數(shù)據(jù)處理技術(shù)的分析研究

摘要:隨著信息化技術(shù)的不斷發(fā)展,大數(shù)據(jù)處理技術(shù)給人們的生活和工作帶來了很多改變,要充分發(fā)揮大數(shù)據(jù)處理技術(shù)的作用,就要求深入、全面研究大數(shù)據(jù)處理技術(shù),摸索出大數(shù)據(jù)處理技術(shù)的改進(jìn)與完善對策?;诖?,本文首先分析大數(shù)據(jù)的特征,然后探討大數(shù)據(jù)處理技術(shù)的Hadoop架構(gòu)和Storm架構(gòu),并對比分析兩種架構(gòu)的優(yōu)缺點(diǎn)。

關(guān)鍵詞:大數(shù)據(jù)處理技術(shù) Hadoop架構(gòu) Storm架構(gòu)

大數(shù)據(jù)時代的超大數(shù)據(jù)體量以及占據(jù)一定比重的半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的存在,就決定了傳統(tǒng)數(shù)據(jù)庫管理難以滿足需求。大數(shù)據(jù)技術(shù)將會成為IT領(lǐng)域的新一代技術(shù)和架構(gòu),會幫助人們存儲并管理好大數(shù)據(jù),從復(fù)雜、龐大的數(shù)據(jù)里篩選出有價值的數(shù)據(jù),加之各種技術(shù)以及產(chǎn)品的出現(xiàn),很可能促使IT行業(yè)步入新的黃金時代。因此,分析研究大數(shù)據(jù)處理技術(shù)極具現(xiàn)實(shí)意義。

1 大數(shù)據(jù)特征

大數(shù)據(jù)具有以下四個特征:一是數(shù)據(jù)量龐大。大數(shù)據(jù)計算要存儲以及處理的數(shù)據(jù)量是十分龐大的,而且這些數(shù)據(jù)都處于不斷變化、增長以及更新的狀態(tài),所以數(shù)據(jù)量就會越來越龐大。這就要求承擔(dān)處理數(shù)據(jù)任務(wù)的硬件設(shè)備必須具備很大的存儲能力和良好的處理技能。二是數(shù)據(jù)多樣化。在大數(shù)據(jù)時代需要處理的不單單是各種結(jié)構(gòu)化數(shù)據(jù),還有圖片、文字、聲音等非結(jié)構(gòu)化數(shù)據(jù),要識別并處理這些非結(jié)構(gòu)化數(shù)據(jù)要耗費(fèi)很大力量,而且識別度也需要進(jìn)一步提升。三是數(shù)據(jù)快速型。大數(shù)據(jù)處理技術(shù)的目就是要能處理變化迅速的數(shù)據(jù),摸索出其變化規(guī)律為決策提供輔助作用,確保數(shù)據(jù)的時效性以及各項(xiàng)決策的有效性。四是數(shù)據(jù)準(zhǔn)確性。在處理數(shù)據(jù)的過程中必須要控制數(shù)據(jù)來源,確保數(shù)據(jù)準(zhǔn)確性,而且要結(jié)合現(xiàn)實(shí)所需不斷更新數(shù)據(jù)處理技術(shù),確保數(shù)據(jù)處理結(jié)果具備準(zhǔn)確性和有效性。

2 大數(shù)據(jù)處理技術(shù)

2.1 Hadoop 架構(gòu)

Hadoop架構(gòu)的核心構(gòu)成部分是HDFS,即Hadoop分布式文件系統(tǒng),全稱Hadoop Distributed File Sytstem,以及Map Reduce分布式計算架構(gòu)。其中HDFS以Master/Slave體系結(jié)構(gòu)為基礎(chǔ),在集群里任命一個主節(jié)點(diǎn)擔(dān)任Name Node,主要負(fù)責(zé)管理文件系統(tǒng)元數(shù)據(jù),其余子節(jié)點(diǎn)擔(dān)任Datanode,主要負(fù)責(zé)保存具體的數(shù)據(jù)塊[1]。

Hadoop架構(gòu)的關(guān)鍵點(diǎn)就是借助大量PC構(gòu)成一個PC群以實(shí)現(xiàn)對數(shù)據(jù)的處理。在處理數(shù)據(jù)的時候,先分解數(shù)據(jù),然后結(jié)合分配的相應(yīng)電腦處理數(shù)據(jù),最后整合數(shù)據(jù)處理結(jié)果。通過Hadoop平臺實(shí)際操作發(fā)現(xiàn),在Hadoop平臺運(yùn)行的時候,系統(tǒng)初始化需要較長的時間,如果是處理更新速度快的數(shù)據(jù)這是不容忽視的一個問題。并且,在處理某些小數(shù)據(jù)的時候,系統(tǒng)初始化時間就更久,對數(shù)據(jù)處理準(zhǔn)確性的影響也就更大。所以,系統(tǒng)不適合處理較小數(shù)據(jù)?;贖adoop架構(gòu)對reduce任務(wù)進(jìn)行處理的時候,各種技術(shù)問題就更加突出,在利用相應(yīng)技術(shù)把數(shù)據(jù)轉(zhuǎn)為存儲實(shí)施處理的時候,不僅數(shù)據(jù)處理速度慢,還會占用很多的帶寬。所以,Hadoop架構(gòu)在處理變化速度較快的非離線數(shù)據(jù)時還存在很多問題。

2.2 Storm架構(gòu)

和Hadoop主從架構(gòu)相同,Storm架構(gòu)也是以Master/Slave體系結(jié)構(gòu)為基礎(chǔ),通過Nimbus與Supervisor兩種服務(wù)進(jìn)程實(shí)現(xiàn)分布式計算機(jī),其中Nimbus進(jìn)程在集群主節(jié)點(diǎn)運(yùn)行,主要負(fù)責(zé)分派與分發(fā)任務(wù),Supervisor進(jìn)程在集群從節(jié)點(diǎn)運(yùn)行,主要負(fù)責(zé)任務(wù)的具體執(zhí)行。Storm架構(gòu)利用Spout/Bolt編程模型通過流式方式處理消息。消息流是Storm架構(gòu)里對數(shù)據(jù)的基本抽象,一個消息流對應(yīng)一條輸入數(shù)據(jù)封裝,不斷輸進(jìn)的消息流通過分布式方式得到處理。Spout組件是消息的生產(chǎn)者,在Storm架構(gòu)里屬于數(shù)據(jù)輸入源頭,能從多種異構(gòu)數(shù)據(jù)源里獲得數(shù)據(jù),同時發(fā)射消息流。Bolt組件主要負(fù)責(zé)對Spout組件發(fā)射的信息流進(jìn)行接收,同時完成相應(yīng)的處理邏輯。如果業(yè)務(wù)邏輯比較復(fù)雜,就可串聯(lián)多個Bolt組件,并且在每個組件里都編寫相應(yīng)的功能,進(jìn)而呈現(xiàn)出整體的處理邏輯。

2.3 架構(gòu)對比

就總體結(jié)構(gòu)而言,Hadoop和Storm是相似的,具體構(gòu)成部分對比如表1所示。

通過對比,Storm架構(gòu)具有以下優(yōu)點(diǎn):在Storm架構(gòu)實(shí)際運(yùn)行時,系統(tǒng)不用每次都初始化,數(shù)據(jù)處理效率較高,在處理較小數(shù)據(jù)時這一優(yōu)勢更加顯著;Storm架構(gòu)的信息處理模式能確保數(shù)據(jù)的高效處理,更好地滿足人們對UI數(shù)據(jù)的需求;spout組件能讀取不同形式數(shù)據(jù)里的消息流,并把讀取的消息流傳遞給bolt組件進(jìn)行處理;結(jié)合處理業(yè)務(wù)量的大小以及業(yè)務(wù)難度的高低,Storm架構(gòu)能串聯(lián)多個bolt組件實(shí)現(xiàn)消息流的有效處理,進(jìn)而實(shí)現(xiàn)數(shù)據(jù)處理的高效性與快速性。

3 結(jié)語

在互聯(lián)網(wǎng)發(fā)展迅速的今天,新業(yè)務(wù)對數(shù)據(jù)處理的要求不斷提升,當(dāng)傳統(tǒng)離線處理架構(gòu)不能滿足需求時,就可以使用大數(shù)據(jù)處理技術(shù)架構(gòu)。但信息社會的最大特點(diǎn)就是瞬息萬變,因此,對大數(shù)據(jù)處理技術(shù)我們也要不斷變革與創(chuàng)新,使大數(shù)據(jù)處理技術(shù)得到更好地完善,這樣才能更好地服務(wù)于社會、服務(wù)于人們。

大數(shù)據(jù)處理論文:智能交通中的大數(shù)據(jù)處理技術(shù)

摘 要:本文主要針對大數(shù)據(jù)的概念與特點(diǎn)、交通行業(yè)大數(shù)據(jù)發(fā)展現(xiàn)狀以及大數(shù)據(jù)在交通行業(yè)發(fā)展的淺見進(jìn)行簡要分析。

關(guān)鍵詞:智能電網(wǎng);交通運(yùn)輸;大數(shù)據(jù)處理技術(shù)

一、大數(shù)據(jù)的概念與特點(diǎn)

顧名思義,大數(shù)據(jù)即一個體量特別大的數(shù)據(jù)集,大到無法使用傳統(tǒng)的數(shù)據(jù)處理工具、技術(shù)對其進(jìn)行分析、加工、操作。而大數(shù)據(jù)技術(shù),就是對大數(shù)據(jù)的處理技術(shù)的集合??梢哉f,大數(shù)據(jù)興起并非科技的突變,而是隨著人類社會結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的急速增長應(yīng)對而生的技術(shù)進(jìn)步。大數(shù)據(jù)的特色之一是體量成級數(shù)增長。由于互聯(lián)網(wǎng)技術(shù)逐漸滲透人類生活的方方面面、以“物聯(lián)網(wǎng)”為方向的信息采集技術(shù)的逐漸普及以及包括“4G”在內(nèi)的網(wǎng)絡(luò)傳輸技術(shù)的迅猛發(fā)展,在全社會,包括交通運(yùn)輸行業(yè),人類所擁有的數(shù)據(jù)量及其增速已經(jīng)遠(yuǎn)遠(yuǎn)超過傳統(tǒng)信息技術(shù)預(yù)設(shè)的處理極限。限于科技發(fā)展的規(guī)律與速度,或者是人類智能體量的局限,信息技術(shù)專家們提出以“云計算”概念為核心的的一系列數(shù)據(jù)分布式處理技術(shù)作為階段性替代方案,以適應(yīng)現(xiàn)階段的信息爆炸。

大數(shù)據(jù)技術(shù)與傳統(tǒng)信息處理技術(shù)有如下不同:使用分布式技術(shù)實(shí)現(xiàn)海量數(shù)據(jù)的處理。現(xiàn)代社會,“人類存儲信息量的增長速度比世界經(jīng)濟(jì)的增長速度快4倍”,“大約每三年就能增長一倍”。為了解決這一問題,分布式技術(shù)成為信息處理的必然選擇。早期的信息處理技術(shù)通過固定的數(shù)據(jù)存儲設(shè)備、運(yùn)算服務(wù)器實(shí)現(xiàn)信息化;隨著數(shù)據(jù)量以及運(yùn)算需求的增加,發(fā)展出部署集中的集群的信息存儲與處理方式,一定程度上擴(kuò)展了使用范圍;當(dāng)數(shù)據(jù)量進(jìn)一步增長,受益于網(wǎng)絡(luò)通信技術(shù)的升級換代和互聯(lián)網(wǎng)的飛速發(fā)展,“云計算”技術(shù)相應(yīng)而生,通過將分散于各地的存儲、處理設(shè)備,實(shí)現(xiàn)可與巨型計算機(jī)媲美的海量數(shù)據(jù)處理能力。

大數(shù)據(jù)技術(shù)善于由結(jié)果推斷模型。不同于傳統(tǒng)的智能化技術(shù),需要完善地建立數(shù)據(jù)模型,通過條件,推導(dǎo)結(jié)果。大數(shù)據(jù)技術(shù)著眼結(jié)果于海量數(shù)據(jù),通過大量的事實(shí)總結(jié)規(guī)律,形成知識。傳統(tǒng)的建模實(shí)現(xiàn)智能化技術(shù),一旦結(jié)果出現(xiàn)異常,就需要反溯,修訂模型,重新進(jìn)行實(shí)踐。而大數(shù)據(jù)技術(shù),則只通過對相關(guān)性的結(jié)果進(jìn)行比較,便能總結(jié)歸納相關(guān)原理。大數(shù)據(jù)技術(shù)著眼于動態(tài),而不是靜態(tài)。傳統(tǒng)信息處理技術(shù)著眼于當(dāng)前數(shù)據(jù)的使用,業(yè)務(wù)辦理、行業(yè)監(jiān)控,數(shù)據(jù)一旦使用,則降低或失去其實(shí)用價值,歷史數(shù)據(jù)需要人工的比對、判斷。大數(shù)據(jù)技術(shù)著眼于一段時間或全部時間上的動態(tài)發(fā)展數(shù)據(jù),著眼于動態(tài)數(shù)據(jù)之間的聯(lián)系與發(fā)展規(guī)律,大數(shù)據(jù)技術(shù)長于整體的運(yùn)算效率,而非個體的精確追蹤。由于數(shù)據(jù)處理能力的有限性,傳統(tǒng)的信息化技術(shù)對于有限的樣本進(jìn)行分析與統(tǒng)計,更關(guān)注于奇異數(shù)值并加以分析,著力于對個體樣本的精確追蹤。而當(dāng)大數(shù)據(jù)處理成為可能,數(shù)據(jù)的總體成為一個獨(dú)立樣本,一些奇異值由于發(fā)生概率太小,完全可以忽略,數(shù)據(jù)整體的運(yùn)算效率成為重要指標(biāo)。

如同哲學(xué)上的量變引起質(zhì)變,大數(shù)據(jù)技術(shù)正是隨著信息化數(shù)據(jù)的不斷增長而產(chǎn)生并從根本上改變?nèi)藢τ跀?shù)據(jù)存儲、應(yīng)用的理解與認(rèn)識。同時隨著數(shù)年的演進(jìn),大數(shù)據(jù)技術(shù)也正在逐步走向成熟。

2012年7月,美國知名IT咨詢顧問公司Gartner《2012年大數(shù)據(jù)技術(shù)成熟度曲線》,對大數(shù)據(jù)涉及的46種技術(shù)進(jìn)行逐一分析。根據(jù)當(dāng)時報告內(nèi)容,對比當(dāng)前發(fā)展現(xiàn)狀,我們可以看到大數(shù)據(jù)技術(shù)的成熟度已經(jīng)達(dá)到一定的高度。2012年報告中提到的,將在2年內(nèi)實(shí)現(xiàn)主流應(yīng)用的列式存儲數(shù)據(jù)庫、預(yù)測分析、社交媒體監(jiān)測等技術(shù),已經(jīng)成為近些年IT行業(yè)普遍實(shí)用的技術(shù);報告中預(yù)測的2~5年內(nèi)成為主流的云計算、內(nèi)存數(shù)據(jù)庫、社交分析、文本分析等技術(shù),當(dāng)前在google、百度、facebook、阿里巴巴、新浪微博等處于IT技術(shù)前沿的互聯(lián)網(wǎng)公司,已經(jīng)分別得到廣泛應(yīng)用;而報高中認(rèn)為5~10年才會得到普及的內(nèi)容分析、混合云計算、社交網(wǎng)絡(luò)分析、地理信息系統(tǒng)等技術(shù),以及認(rèn)為10年以上才會普遍應(yīng)用的物聯(lián)網(wǎng)技術(shù)也已經(jīng)在不同程度上得到應(yīng)用和推廣。

二、交通行業(yè)大數(shù)據(jù)發(fā)展現(xiàn)狀

交通行業(yè)是天然的大數(shù)據(jù)應(yīng)用行業(yè)。傳統(tǒng)的靜態(tài)數(shù)據(jù)并非大數(shù)據(jù),如路網(wǎng)的基礎(chǔ)信息,戶、車、人基本信息,這些數(shù)據(jù)隨著產(chǎn)業(yè)增長而逐步增長,一直在傳統(tǒng)信息處理技術(shù)預(yù)設(shè)的限度之內(nèi)。但隨著互聯(lián)網(wǎng)與產(chǎn)業(yè)結(jié)合的不斷升級、物聯(lián)網(wǎng)―――車聯(lián)網(wǎng)的快速興起,3G、4G無線網(wǎng)絡(luò)的普及,行業(yè)數(shù)據(jù)量已經(jīng)開始成級數(shù)增長。目前交通運(yùn)輸行業(yè)大數(shù)據(jù)來源主要在3個方面:

基于互聯(lián)網(wǎng)的公眾出行服務(wù)數(shù)據(jù),如大運(yùn)輸聯(lián)網(wǎng)、網(wǎng)上售票、城市公交刷卡、公眾在線交通路線查詢、網(wǎng)購物流數(shù)據(jù)等。

如某公交一卡通截至2013年已經(jīng)發(fā)卡超過3200萬張,日刷卡量超過1000萬人次;百度地圖手機(jī)應(yīng)用日訪問量1億次,PC上的搜索量50億次中20%訪問和出行相關(guān),每天約有1000萬人使用百度,其中70%和公交相關(guān)。

基于行業(yè)運(yùn)營企業(yè)生產(chǎn)監(jiān)管數(shù)據(jù),如貨運(yùn)源頭稱重數(shù)據(jù),貨運(yùn)、危險品運(yùn)輸電子運(yùn)單數(shù)據(jù),客運(yùn)進(jìn)出站報班及例檢數(shù)據(jù),營運(yùn)車輛維修檢測數(shù)據(jù),郵政包裹數(shù)據(jù)等。

如國家郵政局的數(shù)據(jù)顯示,2013年中國快遞業(yè)務(wù)量完成92億件,居世界第二,僅次于美國。業(yè)務(wù)量同比增長60%,最高日處理量已突破6500萬件。

基于物聯(lián)網(wǎng)、車聯(lián)網(wǎng)的終端設(shè)備傳感器采集數(shù)據(jù),包括車輛相關(guān)動態(tài)數(shù)據(jù):GPS位置信息、車輛能耗、車輛技術(shù)狀況信息,路網(wǎng)監(jiān)控信息:卡口視頻監(jiān)測、基于傳感器的路況監(jiān)測、路上動態(tài)稱重設(shè)備、橋梁監(jiān)測GPS等。

車輛位置信息采集僅舉一市為例,2013年10月,杭州市符合交通運(yùn)輸部“兩客一?!倍x且經(jīng)營范圍、營運(yùn)狀態(tài)、營運(yùn)證有效期等狀態(tài)正常的車輛上線數(shù)為6329輛。車輛位置信息假設(shè)每5s傳輸一次,則每日位置信息接近1.1億條。北京市6.67萬輛的出租車GPS數(shù)據(jù)實(shí)時接入,日均數(shù)據(jù)量可以達(dá)到6G。

車流量監(jiān)控數(shù)據(jù),筆者曾參與河南省新鄉(xiāng)市動態(tài)稱重系統(tǒng)建設(shè)項(xiàng)目,僅一個信息采集點(diǎn),2013年11月平均每天采集14000輛車左右,包括結(jié)構(gòu)化數(shù)據(jù)與照片信息,每天產(chǎn)生的數(shù)據(jù)量是1791MB。

三、大數(shù)據(jù)實(shí)時處理技術(shù)

隨著大數(shù)據(jù)時代的來臨,各種應(yīng)對大數(shù)據(jù)處理的解決方案應(yīng)時代而生,7 年前,雅虎創(chuàng)建了一個用于管理、存儲和分析大量數(shù)據(jù)的分布式計算平臺 Hadoop,它作為一個批處理系統(tǒng)具有吞吐量大、自動容錯等優(yōu)點(diǎn),目前在海量數(shù)據(jù)處理方面已得到了廣泛應(yīng)用。但是,Hadoop 本身存在的缺點(diǎn)是不能有效適應(yīng)實(shí)時數(shù)據(jù)處理需求,為了克服該局限,一些實(shí)時處理平臺如 S4, Storm 等隨之產(chǎn)生了,他們在處理不間斷的流式數(shù)據(jù)方面有較大的優(yōu)勢,下面將介紹和分析目前比較流行的大數(shù)據(jù)處理平臺。

1、Hadoop

Hadoop 是一個由 Apache 基金會開發(fā)的分布式系統(tǒng)基礎(chǔ)架構(gòu) [10] ,允許用戶在不了解分布式底層細(xì)節(jié)的情況下,開發(fā)分布式應(yīng)用程序。Hadoop 主要由分布式文件系統(tǒng)(Hadoop Distributed File System,HDFS)和 MapReduce 計算框架兩部分組成。

HDFS 結(jié)構(gòu)如圖 1 所示,三類節(jié)點(diǎn) Namenode,Datanode,Client 之間的通信都是建立在 TCP/IP 的基礎(chǔ)之上的。Client 執(zhí)行讀或?qū)懖僮鲿r首先在本機(jī)臨時文件夾中緩存數(shù)據(jù),當(dāng)緩沖數(shù)據(jù)塊達(dá)到設(shè)定的Block 值(默認(rèn) 64M) ,Client 通知 Namenode,Namenode 響應(yīng) Client 的 RPC 請求,將新文件名插入到分布式文件系統(tǒng)結(jié)構(gòu)層次中,并在 Datanode 中找到存放該數(shù)據(jù)的 Block,同時將該 Datanode 及對應(yīng)的數(shù)據(jù)塊信息告訴 Client,Client 便將數(shù)據(jù)塊寫入指定的數(shù)據(jù)節(jié)點(diǎn)。HDFS 有著高容錯性的特點(diǎn),可以部署在低廉的(low-cost)硬件上,并且能提供高傳輸率(high throughput)來訪問應(yīng)用程序的數(shù)據(jù)。

圖 1 HDFS 結(jié)構(gòu)圖

MapReduce 是一種并行處理模型,主要有兩個處理步驟:map 和 reduce 。

Map 端處理流程如下:計算框架先將要處理的數(shù)據(jù)進(jìn)行分片,方便 map 任務(wù)處理。分片完畢后,多臺機(jī)器就可以同時進(jìn)行 map 工作。map 對每條記錄的處理結(jié)果以的形式輸出中間結(jié)果,map 輸出的結(jié)果會暫且放在一個環(huán)形內(nèi)存緩沖區(qū)中,當(dāng)該緩沖區(qū)快要溢出時,會在本地文件系統(tǒng)中創(chuàng)建一個溢出文件,將該緩沖區(qū)中的數(shù)據(jù)寫入這個文件。寫入磁盤之前,線程根據(jù) reduce 任務(wù)個數(shù)生成相同數(shù)量的分區(qū)。當(dāng) map 任務(wù)輸出記錄時,會產(chǎn)生溢出文件,這時需將這些文件合并。文件不斷排序歸并后,最后生成一個已分區(qū)且有序的數(shù)據(jù)文件。最后將相應(yīng)分區(qū)中的數(shù)據(jù)拷貝給相應(yīng)的 reduce 任務(wù)。

Reduce 端處理流程如下:Reduce 會接收到不同 map 任務(wù)傳來的數(shù)據(jù),如果 reduce 端接受的數(shù)據(jù)量相當(dāng)小,則直接存儲在內(nèi)存中,如果數(shù)據(jù)量超過了該緩沖區(qū)大小的一定比例,則對數(shù)據(jù)合并后溢寫到磁盤中。隨著溢寫文件的增多,后臺線程會將它們合并成一個更大的有序的文件,然后交給 reduce 函數(shù)處理,reduce 函數(shù)安裝用戶定義的業(yè)務(wù)邏輯對數(shù)據(jù)進(jìn)行處理并輸出結(jié)果。

Hadoop 在本質(zhì)上是一個批處理系統(tǒng)。數(shù)據(jù)被引入 Hadoop 文件系統(tǒng) (HDFS) 并分發(fā)到各個節(jié)點(diǎn)進(jìn)行處理。最后將處理結(jié)果匯總,生成的結(jié)果文件存放在 HDFS 上。

2、Storm

Storm 是 Twitter 開源的分布式實(shí)時計算系統(tǒng) [8] ,Storm 具有高容錯性,水平擴(kuò)展性好,快速,可靠處理消息的優(yōu)點(diǎn)。Storm 的核心概念是“流(stream)”,流是一個無限的元組序列。Strom 為流轉(zhuǎn)換提供兩個基本組件:“Spouts”和“Bolts”。Spout 是一個輸入流組件,Spout 將數(shù)據(jù)傳遞給另一個組件(Bolt) 。Bolt 執(zhí)行任務(wù)并創(chuàng)建新的流作為下一個 Bolt 的輸入流。 整個過程就是一個 “topology”。

Strom 集群有主要有兩類節(jié)點(diǎn):主節(jié)點(diǎn)和工作節(jié)點(diǎn)。主節(jié)點(diǎn)上運(yùn)行一個叫做“Nimbus”的守護(hù)進(jìn)程,它負(fù)責(zé)在集群分發(fā)代碼、 分配任務(wù)和故障監(jiān)測。 而每個工作節(jié)點(diǎn)運(yùn)行一個叫做“Supervisor”的守護(hù)進(jìn)程。Supervisor 監(jiān)聽分配給它任務(wù)的機(jī)器,根據(jù) Nimbus 的委派在必要時啟動和關(guān)閉工作進(jìn)程,每個工作進(jìn)程執(zhí)行 topology 的一個子集,一個 topology 由很多運(yùn)行在機(jī)器上的工作進(jìn)程組成。

Nimbus 和 Supervisors 之間所有的協(xié)調(diào)工作是通過一個 Zookeeper 集群,Nimbus 的守護(hù)進(jìn)程和Supervisors 守護(hù)進(jìn)程的狀態(tài)維持在 Zookeeper 中或保存在本地磁盤上。這意味著 Nimbus 或 Supervisors進(jìn)程殺掉,而不需要做備份,這種設(shè)計結(jié)構(gòu)使得 Storm 集群具有很高的穩(wěn)定性。

3、S4

S4(Simple Scalable Streaming System)是 Yahoo 的一個開源流計算平臺,它是一個通用的、分布式的、可擴(kuò)展性良好、具有分區(qū)容錯能力、支持插件的分布式流計算平臺。S4 將流的處理分為多個流事件 Process Element(PE) ,每個 PE 唯一處理一種流事件。S4 將用戶定制的 PE 放在名為 Processing Element Container(PEC)的容器中。PEC 加上通信處理模塊就形成了邏輯主機(jī) Processing Node(PN) 。PN 負(fù)責(zé)監(jiān)聽事件,PEC 接收源 event,event 經(jīng)一系列 PE 處理后,在通信層 Communication Layer的協(xié)助下分發(fā)事件或輸出事件處理結(jié)果。在分發(fā)事件的過程中,S4 會通過 hash 函數(shù),將事件路由到目標(biāo) PN 上,這個 hash 函數(shù)作用于事件的所有已知屬性值上。通信層有“集群管理”,“故障恢復(fù)到備用節(jié)點(diǎn)”,“邏輯節(jié)點(diǎn)到物理節(jié)點(diǎn)映射”的作用。同時通信層還使用一個插件式的架構(gòu)來選擇網(wǎng)絡(luò)協(xié)議,使用 zookeeper 在 S4 集群節(jié)點(diǎn)之間做一致性協(xié)作。

四、大數(shù)據(jù)在交通行業(yè)拓展的困境

1、行業(yè)信息化整體水平較低、數(shù)據(jù)的采集與整合困難

目前交通運(yùn)輸行業(yè)信息化、智能化發(fā)展非常不均衡,廣大西部地區(qū)缺少信息化基礎(chǔ),信息系統(tǒng)應(yīng)用效果差,數(shù)據(jù)采集困難。信息化建設(shè)較早的省份,由于信息化建設(shè)缺乏統(tǒng)一規(guī)劃與頂層設(shè)計,系統(tǒng)建設(shè)、使用單位均不相同,交通運(yùn)輸主管機(jī)構(gòu)與各二級單位、信息化主管部門與業(yè)務(wù)部門分頭建設(shè)業(yè)務(wù)系統(tǒng),系統(tǒng)技術(shù)架構(gòu)差距大,基層單位上級機(jī)構(gòu)多頭管理,造成數(shù)據(jù)來源不統(tǒng)一,信息孤島現(xiàn)象嚴(yán)重。各省信息化建設(shè)與應(yīng)用水平的差距同樣造成部級數(shù)據(jù)整合困難,無法發(fā)揮實(shí)際的應(yīng)用價值。

2、缺乏工作規(guī)范與要求,數(shù)據(jù)應(yīng)用機(jī)制困難

交通運(yùn)輸管理機(jī)構(gòu)人員信息化水平差距較大,系統(tǒng)用戶缺乏應(yīng)有的信息化思想,傳統(tǒng)的辦公方式與習(xí)慣難以改變。政府管理機(jī)構(gòu)沒有針對信息化應(yīng)用與數(shù)據(jù)的采集應(yīng)用形成上下聯(lián)動,獎懲結(jié)合的管理機(jī)制。信息化應(yīng)用游離于業(yè)務(wù)辦理之外,信息管理部門與業(yè)務(wù)部門各管一攤,無法真正將實(shí)際業(yè)務(wù)實(shí)現(xiàn)在線辦理,真正提高辦公效率創(chuàng)造信息價值。行業(yè)主管部門缺乏對行業(yè)企業(yè)生產(chǎn)監(jiān)管數(shù)據(jù)進(jìn)行采集的法律法規(guī),也沒有面向企業(yè)提供數(shù)據(jù)服務(wù),既沒有通過信息化手段對行業(yè)生產(chǎn)狀況進(jìn)行全面掌握,也無法通過信息服務(wù)促進(jìn)產(chǎn)業(yè)升級和變革。

3、行業(yè)從業(yè)人員信息化意識不強(qiáng),大數(shù)據(jù)應(yīng)用思路缺乏

交通運(yùn)輸行業(yè)主管部門領(lǐng)導(dǎo)對數(shù)據(jù)指標(biāo)價值與數(shù)據(jù)應(yīng)用方式缺乏認(rèn)識,一些信息化規(guī)劃、項(xiàng)目規(guī)劃不接地氣,系統(tǒng)重建設(shè)輕實(shí)用,實(shí)際應(yīng)用價值不高,數(shù)據(jù)采集需求無法得到貫徹。如交通運(yùn)輸部部省聯(lián)網(wǎng)項(xiàng)目,采集了全國絕大多數(shù)省份的戶車人基礎(chǔ)數(shù)據(jù),但是既沒有制定政策法規(guī),保證數(shù)據(jù)的更新與同步,也沒有進(jìn)行數(shù)據(jù)指標(biāo)的價值分析,實(shí)現(xiàn)真正有價值的應(yīng)用,造成后期維護(hù)困難,數(shù)據(jù)逐漸陳舊,實(shí)用價值迅速流失。此外,全國各省、各地交通運(yùn)輸行業(yè)信息化發(fā)展不均衡,部分地區(qū)信息化基礎(chǔ)設(shè)施較為落后,整體信息化水平有待加強(qiáng)。

五、大數(shù)據(jù)在交通行業(yè)發(fā)展的淺見

1、積極立法,確立數(shù)據(jù)采集與應(yīng)用的重要性

通過研究并制定政策法規(guī),面向部、省、市、縣各級交通主管部門及相關(guān)企業(yè),將數(shù)據(jù)采集、整合的責(zé)任與義務(wù)進(jìn)行明確規(guī)定,明確哪些信息化工作該哪級機(jī)構(gòu)做,該哪些部門做,同時明確科技信息化主管部門在信息化建設(shè)中的地位并給予相應(yīng)的監(jiān)察、評定的權(quán)利,對行業(yè)企業(yè)明確信息化建設(shè)與數(shù)據(jù)采集方面的社會責(zé)任。另外,對交通運(yùn)輸行業(yè)數(shù)據(jù)進(jìn)行全面的梳理,數(shù)據(jù)保密性與應(yīng)用價值進(jìn)行分級,對數(shù)據(jù)的采集與應(yīng)用進(jìn)行立法,明確不同級別的管理機(jī)構(gòu)可以對哪些數(shù)據(jù)自行進(jìn)行分析和利用,那些數(shù)據(jù)可以開放給社會或企業(yè)使用,真正實(shí)現(xiàn)大數(shù)據(jù)的應(yīng)用價值。

2、加快體制改革,設(shè)立數(shù)據(jù)采集與信息化和單位考評相結(jié)合的制度

結(jié)合國家行政體制改革,進(jìn)一步改變交通運(yùn)輸行業(yè)信息化項(xiàng)目建設(shè)傳統(tǒng)的上級規(guī)劃、立項(xiàng)、投資、監(jiān)管、評審一體化管理模式,實(shí)現(xiàn)規(guī)劃與立項(xiàng)、資金使用與審計、項(xiàng)目監(jiān)管與后評審的權(quán)責(zé)分離,讓信息化項(xiàng)目建設(shè)實(shí)際落地,上級單位更注重資金使用的控制與系統(tǒng)應(yīng)用效果的后評審。盡快制定政策,將指定數(shù)據(jù)指標(biāo)的采集和上報納入行業(yè)管理規(guī)定;通過體制改革,設(shè)立數(shù)據(jù)上報與信息化應(yīng)用水平考核制度并實(shí)現(xiàn)常態(tài)化,同時實(shí)現(xiàn)數(shù)據(jù)上報制度與行業(yè)統(tǒng)計工作的全面結(jié)合,改變傳統(tǒng)的統(tǒng)計人工上報模式,用信息化數(shù)據(jù)支撐行業(yè)統(tǒng)計??己酥贫劝?個層面:管理機(jī)構(gòu)對企業(yè)考核;單位領(lǐng)導(dǎo)、信息化主管部門對業(yè)務(wù)部門的考核;上級主管部門對下級單位的考核。

3、加快信息化發(fā)展步伐,通過示范指導(dǎo),引導(dǎo)大數(shù)據(jù)技術(shù)的引入與發(fā)展

在交通運(yùn)輸行業(yè)信息化規(guī)劃與設(shè)計中,廣泛引入云計算等大數(shù)據(jù)處理技術(shù),選擇試點(diǎn)單位,建設(shè)應(yīng)用示范項(xiàng)目,總結(jié)大數(shù)據(jù)在交通運(yùn)輸行業(yè)的應(yīng)用方式方法與使用價值,對具有適用性的項(xiàng)目進(jìn)行全國推廣,引導(dǎo)大數(shù)據(jù)技術(shù)的不斷發(fā)展。

結(jié)束語

大數(shù)據(jù)時代隨著全國交通運(yùn)輸行業(yè)各機(jī)構(gòu)、各部門、各企業(yè)數(shù)據(jù)量的迅速增長,以及IT企業(yè)交通運(yùn)輸相關(guān)數(shù)據(jù)的迅速增長,逐漸在我們面前顯現(xiàn),發(fā)展大數(shù)據(jù)技術(shù),積極應(yīng)對、抓住下一次信息化變革、產(chǎn)業(yè)浪潮的機(jī)遇,是實(shí)現(xiàn)交通運(yùn)輸行業(yè)產(chǎn)業(yè)變革、結(jié)構(gòu)優(yōu)化、服務(wù)社會與公眾能力進(jìn)一步提升的關(guān)鍵。

大數(shù)據(jù)處理論文:用大數(shù)據(jù)武裝”云”:基于云計算的大數(shù)據(jù)處理技術(shù)

【摘要】 隨著互聯(lián)網(wǎng)、移動互聯(lián)網(wǎng)和物聯(lián)網(wǎng)的發(fā)展,我們已經(jīng)迎來了數(shù)據(jù)大爆炸的時代,數(shù)據(jù)的快速增長帶來了數(shù)據(jù)存儲、處理、分析的巨大壓力,而大數(shù)據(jù)技術(shù)(Big data)的引入,不但滿足了系統(tǒng)功能和性能的要求,帶來良好的可擴(kuò)展性,降低了IT部署的成本,還拓展了數(shù)據(jù)智能分析的應(yīng)用領(lǐng)域。同時,大數(shù)據(jù)分析與云計算的發(fā)展密切相關(guān),云計算是大數(shù)據(jù)處理的基礎(chǔ),而大數(shù)據(jù)技術(shù)是云計算的延伸,云計算的分布式存儲和計算架構(gòu)為大數(shù)據(jù)的快速處理和智能分析提供了一種合適的解決方案。本文將探討建立在云計算基礎(chǔ)上的大數(shù)據(jù)處理技術(shù),包括分布式計算框架、分布式文件系統(tǒng)、大數(shù)據(jù)管理技術(shù)、實(shí)時流數(shù)據(jù)處理、機(jī)器學(xué)習(xí)以及可視化技術(shù)等。

【關(guān)鍵詞】 云計算 大數(shù)據(jù) MapReduce Hadoop

一、大數(shù)據(jù)

1.1什么是大數(shù)據(jù)

大數(shù)據(jù)概念可以從四個維度去解,即三個V和一個C。三個V分別指的是數(shù)據(jù)量大(Volume)、數(shù)據(jù)種類多(Variety)和數(shù)據(jù)增長速度快(Velocity),最后一個C指的是處理、升級或利用大數(shù)據(jù)的分析手段比處理結(jié)構(gòu)化數(shù)據(jù)要復(fù)雜的多(Complexity)。大數(shù)據(jù)分析常和云計算聯(lián)系到一起,因?yàn)閷?shí)時的大型數(shù)據(jù)集分析需要像Map-Reduce一樣的并行計算框架將復(fù)雜的計算任務(wù)分配到“云”中成百上千的節(jié)點(diǎn)。

1.2大數(shù)據(jù)與云計算

大數(shù)據(jù)本身就是一個問題集,云計算技術(shù)是目前解決大數(shù)據(jù)問題集最重要最有效的手段。云計算提供了基礎(chǔ)的架構(gòu)平臺,大數(shù)據(jù)應(yīng)用在這個平臺上運(yùn)行。目前公認(rèn)為分析大數(shù)據(jù)集最有效手段的分布式處理技術(shù),也是云計算思想的一種具體體現(xiàn)。

云計算是分布式處理、并行處理和網(wǎng)格計算的發(fā)展,或者說是這些計算機(jī)科學(xué)概念的商業(yè)實(shí)現(xiàn)。云計算將網(wǎng)絡(luò)上分布的計算、存儲、服務(wù)構(gòu)件、網(wǎng)絡(luò)軟件等資源集中起來,基于資源虛擬化的方式,為用戶提供方便快捷的服務(wù), 實(shí)現(xiàn)了資源和計算的分布式共享和并行處理,能夠很好地應(yīng)對當(dāng)前互聯(lián)網(wǎng)數(shù)據(jù)量高速增長的勢頭。

1.3大數(shù)據(jù)與Hadoop

Hadoop是一個Apache的開源項(xiàng)目,主要面向存儲和處理成百上千TB直至PB級別的結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化的大數(shù)據(jù)。Hadoop提供的Map-Reduce能將大數(shù)據(jù)問題分解成多個子問題,并將它們分配到成百上千個處理節(jié)點(diǎn)之上,再將結(jié)果匯集到一個小數(shù)據(jù)集當(dāng)中,從而更容易分析得出最后的結(jié)果。

Hadoop項(xiàng)目包括三部分,分別是Hadoop Distributed File System(HDFS)、Map Reduce編程模型,以及Hadoop Common。Hadoop具備低廉的硬件成本、開源的軟件體系、較強(qiáng)的靈活性、允許用戶自己修改代碼等特點(diǎn),同時能支持海量數(shù)據(jù)的存儲和計算任務(wù)。這些特點(diǎn)讓Hadoop被公認(rèn)為是新一代的大數(shù)據(jù)處理平臺。 Hadoop同樣具備出色的大數(shù)據(jù)集處理能力,在獲取、存儲、管理和分析數(shù)據(jù)方面遠(yuǎn)遠(yuǎn)超越傳統(tǒng)的數(shù)據(jù)庫軟件工具。Hadoop經(jīng)常在構(gòu)建大數(shù)據(jù)解決方案時被用作基礎(chǔ)構(gòu)架軟件。

二、大數(shù)據(jù)技術(shù)綜述

大數(shù)據(jù)處理不僅僅是Hadoop,許多特定的數(shù)據(jù)應(yīng)用場景是需要實(shí)時分析和互動反饋的,這時候就需要利用包括內(nèi)存檢索、流處理和實(shí)時計算等其他技術(shù)。而云計算的分布式存儲和計算架構(gòu)開啟了大數(shù)據(jù)技術(shù)研究的大門,打造健全的大數(shù)據(jù)生態(tài)環(huán)境,所有這些技術(shù)結(jié)合在一起,才是一個完整的大數(shù)據(jù)處理系統(tǒng)。

2.1分布式計算框架

MapReduce是Google開發(fā)的一種簡化的分布式編程模型和高效的任務(wù)調(diào)度模型,用于大規(guī)模數(shù)據(jù)集(大于1TB)的并行運(yùn)算,使云計算環(huán)境下的編程變得十分簡單。

MapReduce將數(shù)據(jù)處理任務(wù)抽象為一系列的Map(映射)和Reduce(化簡)操作對。Map主要完成數(shù)據(jù)的分解操作,Reduce主要完成數(shù)據(jù)的聚集操作.輸入輸出數(shù)據(jù)均以〈key,value〉格式存儲.用戶在使用該編程模型時,只需按照自己熟悉的語言實(shí)現(xiàn)Map函數(shù)和Reduce函數(shù)即可,MapReduce算法框架會自動對任務(wù)進(jìn)行劃分以做到并行執(zhí)行。

Pregel是Google 提出的迭代處理計算框架,它具有高效、可擴(kuò)展和容錯的特性,并隱藏了分布式相關(guān)的細(xì)節(jié),展現(xiàn)給人們的僅僅是一個表現(xiàn)力很強(qiáng)、很容易編程的大型圖算法處理的計算框架。Pregel的主要應(yīng)用場景是大型的圖計算,例如交通線路、疾病爆發(fā)路徑、WEB 搜索等相關(guān)領(lǐng)域。

2.2分布式文件系統(tǒng)

為保證高可用、高可靠和經(jīng)濟(jì)性,基于云計算的大數(shù)據(jù)處理系統(tǒng)采用分布式存儲的方式來保存數(shù)據(jù),用冗余存儲的方式保證數(shù)據(jù)的可靠性。目前廣泛使用的分布式文件系統(tǒng)是Google的GFS和Hadoop團(tuán)隊開發(fā)的GFS的開源實(shí)現(xiàn)HDFS。

GFS即Google文件系統(tǒng),是一個可擴(kuò)展的分布式文件系統(tǒng),用于大型的、分布式的、對大量數(shù)據(jù)進(jìn)行訪問的應(yīng)用。GFS的設(shè)計思想不同于傳統(tǒng)的文件系統(tǒng),是針對大規(guī)模數(shù)據(jù)處理和Google應(yīng)用特性而設(shè)計的,運(yùn)行成本低廉,并提供容錯功能。

HDFS即Hadoop分布式文件系統(tǒng),受到GFS很大啟發(fā),具有高容錯性,并且可以被部署在低價的硬件設(shè)備之上。HDFS很適合那些有大數(shù)據(jù)集的應(yīng)用,并且提供了數(shù)據(jù)讀寫的高吞吐率。HDFS是一個master/slave的結(jié)構(gòu),在master上只運(yùn)行一個Namenode,而在每一個slave上運(yùn)行一個Datanode。HDFS支持傳統(tǒng)的層次文件組織結(jié)構(gòu),對文件系統(tǒng)的操作(如建立、刪除文件和文件夾)都是通過Namenode來控制,Datanode用來存放數(shù)據(jù)塊。

2.3大數(shù)據(jù)管理技術(shù)

互聯(lián)網(wǎng)數(shù)據(jù)已超出關(guān)系型數(shù)據(jù)庫的管理范疇,電子郵件、超文本、博客、標(biāo)簽(Tag)以及圖片、音視頻等各種非結(jié)構(gòu)化數(shù)據(jù)逐漸成為大數(shù)據(jù)的重要組成部分,而面向結(jié)構(gòu)化數(shù)據(jù)存儲的關(guān)系型數(shù)據(jù)庫已經(jīng)不能滿足數(shù)據(jù)快速訪問、大規(guī)模數(shù)據(jù)分析的需求,隨之而來,一系列新型的大數(shù)據(jù)管理技術(shù)和工具應(yīng)運(yùn)而生。

2.3.1 非關(guān)系型數(shù)據(jù)庫

NoSQL,也有人理解為Not Only SQL,它是一類非關(guān)系型數(shù)據(jù)庫的統(tǒng)稱。其特點(diǎn)是:沒有固定的數(shù)據(jù)表模式、可以分布式和水平擴(kuò)展。NoSQL并不是單純的反對關(guān)系型數(shù)據(jù)庫,而是針對其缺點(diǎn)的一種補(bǔ)充和擴(kuò)展。典型的NoSQL數(shù)據(jù)存儲模型有文檔存儲、鍵-值存儲、圖存儲、對象數(shù)據(jù)、列存儲等。而比較流行的,不得不提到Google的Bigtable,它把所有數(shù)據(jù)都作為對象來處理,形成一個巨大的表格,用來分布存儲大規(guī)模結(jié)構(gòu)化數(shù)據(jù),數(shù)據(jù)量可達(dá)PB級。而HBase是Hadoop團(tuán)隊基于Bigtable的開源實(shí)現(xiàn),使用HDFS作為其文件存儲系統(tǒng)。同時,Cassandra(K/V型數(shù)據(jù)庫)、MongoDB(文檔數(shù)據(jù)庫)和Redis等一系列優(yōu)秀的非關(guān)系型數(shù)據(jù)庫產(chǎn)品如雨后春筍般問世。

2.3.2 數(shù)據(jù)查詢工具

Hive是Facebook提出的基于Hadoop的大型數(shù)據(jù)倉庫,其目標(biāo)是簡化Hadoop上的數(shù)據(jù)聚集、即席查詢及大數(shù)據(jù)集的分析等操作,以減輕程序員的負(fù)擔(dān).它借鑒關(guān)系數(shù)據(jù)庫的模式管理、SQL接口等技術(shù),把結(jié)構(gòu)化的數(shù)據(jù)文件映射為數(shù)據(jù)庫表,提供類似于SQL的描述性語言HiveQL供程序員使用,可自動將HiveQL語句解析成一優(yōu)化的MapReduce任務(wù)執(zhí)行序列.此外,它也支持用戶自定義的MapReduce函數(shù)。

PigLatin是Yahoo!提出的類似于Hive的大數(shù)據(jù)集分析平臺.兩者的區(qū)別主要在于語言接口.Hive提供了類似SQL的接口,PigLatin提供的是一種基于操作符的數(shù)據(jù)流式的接口.可以說Pig利用操作符來對Hadoop進(jìn)行封裝,Hive利用SQL進(jìn)行封裝。

Google Dremel是個可擴(kuò)展的、交互式的即時查詢系統(tǒng),用于完成大規(guī)模查詢結(jié)構(gòu)化數(shù)據(jù)集(如日志和事件文件)。它支持類SQL語法,區(qū)別在于它只能查詢,不支持修改或者創(chuàng)建功能,也沒有表索引。數(shù)據(jù)被列式存儲,這樣有助于提升查詢的速度。Google將Dremel作為MapReduce的一種補(bǔ)充,被用于分析MapReduce的結(jié)果或者是作為大規(guī)模計算的測試。

2.4實(shí)時流處理技術(shù)

伴隨著互聯(lián)網(wǎng)業(yè)務(wù)發(fā)展的步調(diào),以及業(yè)務(wù)流程的復(fù)雜化,企業(yè)的注意力越來越集中在“數(shù)據(jù)流”而非“數(shù)據(jù)集”上面,他們需要的是能夠處理隨時發(fā)生的數(shù)據(jù)流的架構(gòu),現(xiàn)有的分布式計算架構(gòu)并不適合數(shù)據(jù)流處理。流計算強(qiáng)調(diào)的是數(shù)據(jù)流的形式和實(shí)時性。MapReduce系統(tǒng)主要解決的是對靜態(tài)數(shù)據(jù)的批量處理,當(dāng)MapReduce任務(wù)啟動時,一般數(shù)據(jù)已經(jīng)到位了(比如保存到了分布式文件系統(tǒng)上),而流式計算系統(tǒng)在啟動時,一般數(shù)據(jù)并沒有完全到位,而是經(jīng)由外部數(shù)據(jù)源源不斷地流入,重視的是對數(shù)據(jù)處理的低延遲,希望進(jìn)入的數(shù)據(jù)越快處理越好。數(shù)據(jù)越快被處理,結(jié)果就越有價值,這也是實(shí)時處理的價值所在。

流計算的數(shù)據(jù)本身就是數(shù)據(jù)流,不需要數(shù)據(jù)準(zhǔn)備的時間,有數(shù)據(jù)流入就開始計算,解決了數(shù)據(jù)準(zhǔn)備和延遲的兩個問題?,F(xiàn)有的解決方案中,Twitter的Storm和雅虎的S4框架更適合數(shù)據(jù)流計算的場景。Storm是開源的分布式實(shí)時計算系統(tǒng),可以可靠的處理流式數(shù)據(jù)并進(jìn)行實(shí)時計算,單機(jī)性能可達(dá)到百萬記錄每秒,開發(fā)語言為Clojure和Java,并具備容錯特性。S4是面向流式數(shù)據(jù)和實(shí)時處理的,所以針對實(shí)時性較高的業(yè)務(wù),可以很好地對數(shù)據(jù)做出高效的分析處理,而且系統(tǒng)一旦上線,很少需要人工干預(yù),源源不斷的數(shù)據(jù)流會被自動路由并分析。對于海量數(shù)據(jù),它和MapReduce都可以應(yīng)對,但它能比后者更快地處理數(shù)據(jù)。

三、思考與展望

以云計算為基礎(chǔ)的信息存儲、分享和挖掘手段為知識生產(chǎn)提供了工具,通過對大數(shù)據(jù)分析、預(yù)測會使得決策更為精準(zhǔn),這對媒體融合具有重要意義。

新聞媒體的數(shù)據(jù)庫中擁有海量信息存儲,這些多媒體數(shù)據(jù)包括文字,圖片,視頻和音頻等多種格式,符合大數(shù)據(jù)處理的基本特征,利用大數(shù)據(jù)技術(shù)對這些資源進(jìn)行存儲,計算和分析,了解用戶行為,挖掘數(shù)據(jù)本質(zhì)和關(guān)聯(lián),為領(lǐng)導(dǎo)提供決策支持,為終端用戶提供更好的服務(wù)和新聞定制,增強(qiáng)新聞信息產(chǎn)品的質(zhì)量和影響力。

如今,在開源社區(qū),圍繞Google MapReduce框架,已經(jīng)成長出了一批優(yōu)秀的開源項(xiàng)目。這些項(xiàng)目在技術(shù)和實(shí)現(xiàn)上相互支持和依托,逐漸形成了一個特有的“大數(shù)據(jù)”生態(tài)系統(tǒng)。系統(tǒng)為我們實(shí)現(xiàn)優(yōu)質(zhì)廉價的大數(shù)據(jù)分析和管理提供了堅實(shí)的技術(shù)基礎(chǔ)。

新聞媒體可以順應(yīng)大數(shù)據(jù)的技術(shù)趨勢,加強(qiáng)技術(shù)調(diào)研,早日選型,搭建大數(shù)據(jù)處理平臺,利用云計算項(xiàng)目資源,將海量數(shù)據(jù)統(tǒng)籌管理,通過分析和挖掘,實(shí)現(xiàn)新聞產(chǎn)品的創(chuàng)新和跨越式發(fā)展,以現(xiàn)代化的傳播手段向世界展示中國。

大數(shù)據(jù)處理論文:智能電網(wǎng)大數(shù)據(jù)處理技術(shù)應(yīng)用現(xiàn)狀及困境探討

摘 要 隨著我國社會經(jīng)濟(jì)的快速發(fā)展,電力事業(yè)得到了長足的發(fā)展,特別是科技的進(jìn)步,使得智能電網(wǎng)取得了一定程度的發(fā)展。智能電網(wǎng)的建立,有利于將電力系統(tǒng)發(fā)電、輸電、配電、用電實(shí)現(xiàn)全系統(tǒng)管理,隨著越來越多的新型技術(shù)應(yīng)用到電力網(wǎng)絡(luò)中,特別是云計算平臺的應(yīng)用,大量的異構(gòu)數(shù)據(jù)積累,大數(shù)據(jù)處理技術(shù)的研究也應(yīng)運(yùn)而生。在新的時期,智能電網(wǎng)大數(shù)據(jù)處理面臨著新的機(jī)遇與挑戰(zhàn),文章就分析智能電網(wǎng)大數(shù)據(jù)處理技術(shù)應(yīng)用現(xiàn)狀,并探討在新時期大數(shù)據(jù)處理技術(shù)面臨的機(jī)遇與挑戰(zhàn)。

關(guān)鍵詞 智能電網(wǎng);大數(shù)據(jù)處理技術(shù);應(yīng)用現(xiàn)狀;困境

在智能電網(wǎng)系統(tǒng)中,系統(tǒng)運(yùn)行的各個環(huán)節(jié)都會產(chǎn)生大量的數(shù)據(jù),如智能電表安裝、電力運(yùn)行等環(huán)節(jié)。電力企業(yè)在一定時間間隔內(nèi)對用電客戶的用電數(shù)據(jù)信息進(jìn)行收集,從而構(gòu)成電網(wǎng)客戶端大數(shù)據(jù),根據(jù)對這些數(shù)據(jù)的分析更好的了解用電用戶的實(shí)際情況,以便科學(xué)合理的設(shè)置大數(shù)據(jù)處理系統(tǒng)。

1 智能電網(wǎng)大數(shù)據(jù)概述

1.1 智能電網(wǎng)系統(tǒng)中的大數(shù)據(jù)

電網(wǎng)系統(tǒng)中的數(shù)據(jù)可以分為三種類型,包括電網(wǎng)運(yùn)行中設(shè)備監(jiān)測數(shù)據(jù)、電網(wǎng)運(yùn)營數(shù)據(jù)以及電網(wǎng)管理數(shù)據(jù)。

根據(jù)電網(wǎng)數(shù)據(jù)內(nèi)在結(jié)構(gòu),可以將其分為結(jié)構(gòu)數(shù)據(jù)以及非結(jié)構(gòu)數(shù)據(jù)。其中結(jié)構(gòu)數(shù)據(jù)包括關(guān)系庫中儲存的數(shù)據(jù),隨著我國科技的進(jìn)步,結(jié)構(gòu)數(shù)據(jù)不斷的增長。跟結(jié)構(gòu)數(shù)據(jù)不同的是,非結(jié)構(gòu)數(shù)據(jù)不方便用二維邏輯表現(xiàn),主要包括圖形處理數(shù)據(jù)以及視頻監(jiān)控產(chǎn)生的數(shù)據(jù)。由于智能化的發(fā)展,非結(jié)構(gòu)數(shù)據(jù)每年以60%的指數(shù)上漲,逐漸成為智能電網(wǎng)中重要的組成部分。

與傳統(tǒng)電網(wǎng)不同的是,智能電網(wǎng)具有很強(qiáng)的智能化,這就需要能夠?qū)﹄娋W(wǎng)運(yùn)行實(shí)時數(shù)據(jù)及時的獲取,目前智能電網(wǎng)大數(shù)據(jù)表現(xiàn)在以下幾個方面。

1)為了能夠?qū)崿F(xiàn)對電網(wǎng)運(yùn)行中實(shí)時數(shù)據(jù)的獲取,就必須設(shè)置越來越多的采集點(diǎn),監(jiān)測設(shè)備應(yīng)用也越來越多,每一秒都會產(chǎn)生大量的數(shù)據(jù)。

2)設(shè)備對電網(wǎng)運(yùn)行信息采樣的頻率越來越快。

3)為了掌握電網(wǎng)運(yùn)行的細(xì)節(jié),就需要對電網(wǎng)運(yùn)行中相關(guān)信息的實(shí)時變樣采集。

1.2 智能電網(wǎng)大數(shù)據(jù)特點(diǎn)

智能電網(wǎng)中大數(shù)據(jù)具有以下幾個方面的特點(diǎn)。

1)智能電網(wǎng)數(shù)據(jù)量大。隨著智能化的發(fā)展,電網(wǎng)數(shù)據(jù)從TB級逐漸上升至PB級。

2)智能電網(wǎng)數(shù)據(jù)類型種類繁多。社會對電力需求量越來越多,為了能夠滿足電量數(shù)據(jù)要求,電網(wǎng)數(shù)據(jù)的種類也越來越繁雜,包括文本數(shù)據(jù)、媒體數(shù)據(jù)等結(jié)構(gòu)數(shù)據(jù),還包括非結(jié)構(gòu)數(shù)據(jù),在數(shù)據(jù)的應(yīng)用以及處理上也不盡相同。

3)智能電網(wǎng)大數(shù)據(jù)利用價值密度較低。就以電網(wǎng)監(jiān)控視頻為例,在實(shí)時監(jiān)控的過程中,有用的數(shù)據(jù)占總數(shù)據(jù)的比例很少,絕大多數(shù)的數(shù)據(jù)都屬于正常數(shù)據(jù),而少數(shù)的異常數(shù)據(jù)正是有用的數(shù)據(jù),也才是對電網(wǎng)運(yùn)行檢修提供有力依據(jù)的數(shù)據(jù)。

4)數(shù)據(jù)處理速度快,智能電網(wǎng)大數(shù)據(jù)處理速度可以用微秒計算,能夠在極短時間內(nèi)分析數(shù)據(jù),為電網(wǎng)運(yùn)行決策的制定提供依據(jù)。

2 智能電網(wǎng)大數(shù)據(jù)處理技術(shù)應(yīng)用面臨的挑戰(zhàn)

2.1 智能電網(wǎng)大數(shù)據(jù)傳輸、存儲技術(shù)

智能化的發(fā)展,電力系統(tǒng)運(yùn)行過程中各項(xiàng)數(shù)據(jù)、以及電力設(shè)備監(jiān)測數(shù)據(jù)被全部記錄下來,數(shù)據(jù)量越來越多,這給電網(wǎng)運(yùn)行監(jiān)控設(shè)備以及數(shù)據(jù)的傳輸、存儲系統(tǒng)造成巨大的負(fù)擔(dān),并對電網(wǎng)智能化發(fā)展造成很大的影響。

對于智能電網(wǎng)大數(shù)據(jù)的傳輸,采用數(shù)據(jù)壓縮的方式能夠提高數(shù)據(jù)傳輸?shù)男?,降低?shù)據(jù)傳輸量。所以越來越多的網(wǎng)絡(luò)數(shù)據(jù)壓縮技術(shù)被應(yīng)用到智能電網(wǎng)數(shù)據(jù)傳輸中,通過數(shù)據(jù)壓縮能降低數(shù)據(jù)儲存的空間,但在壓縮以及解壓過程中也會對系統(tǒng)中心帶來一定的資源浪費(fèi),需要更為合理的平臺支持。

對于智能電網(wǎng)大數(shù)據(jù)存儲方面,采用分布式文件保存的方式能夠?qū)崿F(xiàn)對大量數(shù)據(jù)的存儲,但對電力系統(tǒng)實(shí)時性數(shù)據(jù)處理方面還有一定的局限性。所以需要對系統(tǒng)中大數(shù)據(jù)性能進(jìn)行分析并實(shí)行分類存儲。

智能電網(wǎng)中非結(jié)構(gòu)化數(shù)據(jù)占據(jù)很大的比重,在存儲方面需要將這些海量的非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)換為結(jié)構(gòu)化數(shù)據(jù),這正是目前智能大數(shù)據(jù)處理技術(shù)面臨的困境。

2.2 大數(shù)據(jù)實(shí)時處理技術(shù)

對于智能電網(wǎng)來說,大數(shù)據(jù)的處理速度至關(guān)重要,數(shù)據(jù)的規(guī)模越大,數(shù)據(jù)處理的時間就越久,如果數(shù)據(jù)量的規(guī)模超過了處理技術(shù)承受的能力,難免對電網(wǎng)正常運(yùn)行造成影響,這就需要確保數(shù)據(jù)傳輸、分析、處理的速度。云計算系統(tǒng)能夠?yàn)橹悄茈娋W(wǎng)提供快速的服務(wù),但也會造成網(wǎng)絡(luò)堵塞現(xiàn)象的發(fā)生,雖然堵塞的時間較短,也會對電網(wǎng)服務(wù)器造成障礙。

2.3 智能化大數(shù)據(jù)可視化分析技術(shù)

智能電網(wǎng)運(yùn)行中會產(chǎn)生海量的數(shù)據(jù),將這些數(shù)據(jù)及時分析處理,并在有限的屏幕中將其展示給電力用戶,這也是目前智能電網(wǎng)運(yùn)行大數(shù)據(jù)處理面臨重要的挑戰(zhàn)??梢暬治黾夹g(shù)能夠有效的處理大數(shù)據(jù),并逐漸應(yīng)用到實(shí)際電網(wǎng)運(yùn)行中??梢暬治黾夹g(shù),利用高度集成技術(shù)、高分辨率圖像,以及交互工具,為電力用戶提供明朗的數(shù)據(jù)處理結(jié)果。

隨著科技水平的提升,可視化分析技術(shù)也面臨著挑戰(zhàn),包括該技術(shù)的擴(kuò)展性,以及重要數(shù)據(jù)的提取、顯示以及圖像合成方面的挑戰(zhàn)。

另外,還需要保證智能電網(wǎng)數(shù)據(jù)網(wǎng)絡(luò)的質(zhì)量,對其進(jìn)行定期檢修與維護(hù),如果在數(shù)據(jù)網(wǎng)絡(luò)運(yùn)行中出現(xiàn)故障,需要根據(jù)故障的現(xiàn)象,結(jié)合網(wǎng)絡(luò)診斷技術(shù),找出故障發(fā)生的原因,從根源上排除故障,使數(shù)據(jù)網(wǎng)絡(luò)恢復(fù)正常。進(jìn)行網(wǎng)絡(luò)故障診斷,不僅需要及時的恢復(fù)發(fā)生故障的網(wǎng)絡(luò),不斷的改善調(diào)度數(shù)據(jù)網(wǎng)絡(luò)的性能,還需要掌握數(shù)據(jù)網(wǎng)絡(luò)的運(yùn)行狀態(tài),確保數(shù)據(jù)網(wǎng)絡(luò)的通信質(zhì)量。

3 總結(jié)

我國智能化技術(shù)在電網(wǎng)系統(tǒng)中應(yīng)用越來越廣泛,大數(shù)據(jù)處理技術(shù)成為了維護(hù)智能電網(wǎng)安全運(yùn)行的主要手段。云計算為智能化數(shù)據(jù)處理、存儲提供有效的平臺,也能夠保證智能電網(wǎng)大數(shù)據(jù)能夠得到及時的分析與處理,為電網(wǎng)安全運(yùn)行提供保障。但是隨著電網(wǎng)智能化程度逐漸深入,大數(shù)據(jù)處理技術(shù)在實(shí)時性、隱私性、一致性等方面也遇到了很大的挑戰(zhàn),必須找出有效的解決方法,這就需要有關(guān)人員加大科研力度,不斷的探索,相信我國智能電網(wǎng)系統(tǒng)運(yùn)行會越來越穩(wěn)定,必將推動我國電力事業(yè)的健康發(fā)展。

大數(shù)據(jù)處理論文:試論云計算技術(shù)下的大數(shù)據(jù)處理系統(tǒng)

摘 要

隨著云計算技術(shù)的不斷完善,為了促進(jìn)大數(shù)據(jù)處理系統(tǒng)的功能多樣化,云計算技術(shù)在大數(shù)據(jù)處理系統(tǒng)上得到了廣泛的應(yīng)用。本文重點(diǎn)研究了在多元因素的影響下的數(shù)據(jù)模型對大數(shù)據(jù)處理的影響,并據(jù)此提出了一種基于融合思想,采用了混合架構(gòu)以及分散處理的云計算環(huán)境下的大數(shù)據(jù)處理系統(tǒng)的整體部署策略。

【關(guān)鍵詞】云計算 大數(shù)據(jù)處理 融合處理

1 引言

隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,以及智能設(shè)備的普及,當(dāng)前的數(shù)據(jù)增長速度已經(jīng)呈現(xiàn)爆炸式增長,大數(shù)據(jù)時代已經(jīng)來臨。目前專家對大數(shù)據(jù)處理系統(tǒng)方面的研究主要是基于云環(huán)境下的分布式部署以及網(wǎng)絡(luò)架構(gòu)的融合和動態(tài)實(shí)時數(shù)據(jù)處理這三個方面。同時也取得了一定的研究成果,對于當(dāng)前的云計算環(huán)境下的大數(shù)據(jù)處理系統(tǒng)的發(fā)展提供了很多理論和實(shí)踐基礎(chǔ)。

2 基于融合思想的大數(shù)據(jù)處理方案分析

云計算技術(shù)模式下,人機(jī)交互和數(shù)據(jù)處理以及網(wǎng)絡(luò)邏輯處理技術(shù)等都相對交融,處于深度融合狀態(tài)。因此基于融合思想的大數(shù)據(jù)處理方案就是以融合思想為核心,將云計算技術(shù)模式下的各種分散的網(wǎng)絡(luò)資源進(jìn)行協(xié)同組織,然后再進(jìn)行融合,從而充分發(fā)揮分散狀態(tài)下的資源優(yōu)勢,形成一種整體性的比較優(yōu)勢,因此這種融合式的大數(shù)據(jù)處理方案的應(yīng)用前景十分廣闊。

在云計算技術(shù)模式下,大數(shù)據(jù)處理研究更多的著力點(diǎn)放在了大數(shù)據(jù)處理系統(tǒng)的構(gòu)建、分散資源的協(xié)同以及相關(guān)的輔助技術(shù)等。從宏觀角度來看,可以氛圍內(nèi)混合處理和混合管理兩個方面。其中混合管理的核心就是研究各種無線以及有線的處理機(jī)制和數(shù)據(jù)共享、資源共享機(jī)制的管理,同時還包括了分散數(shù)據(jù)管理機(jī)制和協(xié)同機(jī)制管理等。而混合處理的研究核心則是著力于系統(tǒng)運(yùn)行模型和相關(guān)輔助技術(shù)上。

3 大數(shù)據(jù)處理系統(tǒng)的應(yīng)用和處理系統(tǒng)分析

3.1 大數(shù)據(jù)處理系統(tǒng)的應(yīng)用

大數(shù)據(jù)處理系統(tǒng)的應(yīng)用主要包括三個方面:

(1)基于融合式架構(gòu)的應(yīng)用。這實(shí)際上就是一種客戶機(jī)/服務(wù)器架構(gòu)模式,其中服務(wù)器主要負(fù)責(zé)應(yīng)用系統(tǒng)的管理和控制以及相關(guān)應(yīng)用的邏輯處理和數(shù)據(jù)調(diào)度等。而客戶端則是專門進(jìn)行人機(jī)交互,當(dāng)用戶想要執(zhí)行數(shù)據(jù)處理分析人物時,通過客戶機(jī)向服務(wù)器發(fā)送請求,然后有服務(wù)器完成并返回給客戶端。這個融合式架構(gòu)相對簡單,且容易維護(hù),但是服務(wù)器功能有著極高的依賴,這也往往成為數(shù)據(jù)處理系統(tǒng)應(yīng)用的瓶頸。

(2)分散式架構(gòu)。這種架構(gòu)的特點(diǎn)就是協(xié)同控制的節(jié)點(diǎn)都是平等地位,并且和處理系統(tǒng)有關(guān)的控制和管理模塊都是分散在各個客戶端上。客戶端擁有一定的自治屬性,因此具有通用性和靈活性和可擴(kuò)展性等諸多優(yōu)勢。但是由于數(shù)據(jù)采用分布存儲和分布操作,這樣在維護(hù)方面就變得較為困難,而且節(jié)點(diǎn)之間的實(shí)時同步和用戶動態(tài)注冊的應(yīng)用也難以實(shí)現(xiàn)。

(3)混合式結(jié)構(gòu)。這種結(jié)構(gòu)擁有前兩兩種結(jié)構(gòu)有點(diǎn),通過服務(wù)器實(shí)現(xiàn)數(shù)據(jù)信息的統(tǒng)一維護(hù),而客戶端一方面實(shí)現(xiàn)信息傳輸功能,同時也能夠和用戶在某些應(yīng)用方面進(jìn)行充分的交互,因此能夠有效減輕服務(wù)器端的壓力,這樣也能夠消除服務(wù)器端的瓶頸。提升系統(tǒng)的魯棒性和靈活性。

3.2 云計算技術(shù)下的大數(shù)據(jù)處理系統(tǒng)具體分析

3.2.1 系統(tǒng)架構(gòu)

云計算技術(shù)環(huán)境下的大數(shù)據(jù)處理平臺的節(jié)點(diǎn)主要體現(xiàn)下面幾個特點(diǎn):其一是節(jié)點(diǎn)分散性;其二是數(shù)據(jù)處理動態(tài)性;其三是數(shù)據(jù)來源混構(gòu)性。

這個處理平臺架構(gòu)采用了融合式的調(diào)度執(zhí)行層和任務(wù)融合調(diào)度管理,并根據(jù)處理規(guī)則和不同的參數(shù)來調(diào)整處理引擎的數(shù)據(jù)和算法組合以及計算資源。對大數(shù)據(jù)資源的數(shù)據(jù)交互和任務(wù)分工工作進(jìn)行了有效融合。同時在管理層,也對業(yè)務(wù)數(shù)據(jù)進(jìn)行分布式存儲,提升了容錯處理能力。

3.2.2 系統(tǒng)處理流程

系統(tǒng)處理流程主要是對分散狀態(tài)數(shù)據(jù)進(jìn)行處理,其關(guān)鍵就是對分散的數(shù)據(jù)進(jìn)行提取,因此首先給其他應(yīng)用提供數(shù)據(jù)接口。然后數(shù)據(jù)管理部分要融合數(shù)據(jù)資源,并在一定容忍度的基礎(chǔ)下,對不同的數(shù)據(jù)處理機(jī)制進(jìn)行比較,進(jìn)而優(yōu)勢融合。最后數(shù)據(jù)處理中心則是對數(shù)據(jù)進(jìn)行集中處理,然后統(tǒng)一分配數(shù)據(jù)資源,從而在數(shù)據(jù)中心實(shí)現(xiàn)數(shù)據(jù)處理的融合。

3.2.3 處理系統(tǒng)的部署

某信息產(chǎn)業(yè)園的大數(shù)據(jù)處理系統(tǒng)的部署是根據(jù)信息企業(yè)集群的需求,然后對現(xiàn)有分散數(shù)據(jù)資源進(jìn)行挖掘,比如企業(yè)內(nèi)部的ERP和SCM系統(tǒng)中的數(shù)據(jù),通過對這些數(shù)據(jù)進(jìn)行深度挖掘從而為該企業(yè)提供戰(zhàn)略發(fā)展資源。圖1就顯示了這個部署圖。

從部署圖可以看出,在這家企業(yè)中,ERP和SCM和CRM是其數(shù)據(jù)源,然后經(jīng)過服務(wù)器處理之后,分布到n個數(shù)據(jù)庫,然后進(jìn)行合并進(jìn)入到大數(shù)據(jù)管理模塊,最終能夠?qū)崿F(xiàn)數(shù)據(jù)查詢和數(shù)據(jù)決策服務(wù)。

4 結(jié)語

總而言之,目前采用融合式思想,在云計算技術(shù)條件下,對大數(shù)據(jù)處理系統(tǒng)進(jìn)行部署的研究相對較少,特別是當(dāng)前的信息產(chǎn)業(yè),由于其自身的解決方案并不能夠?qū)崿F(xiàn)大數(shù)據(jù)條件的比較優(yōu)勢,所以本文提出的融合式的大數(shù)據(jù)處理技術(shù),有效的提升了數(shù)據(jù)利用深度,拓展了大數(shù)據(jù)處理系統(tǒng)的應(yīng)用范圍。