期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊(cè) 購(gòu)物車(0)

首頁(yè) > 公文范文 > 大數(shù)據(jù)分析論文

大數(shù)據(jù)分析論文

時(shí)間:2022-05-21 10:27:22

序論:寫(xiě)作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來(lái)了一篇大數(shù)據(jù)分析論文范文,愿它們成為您寫(xiě)作過(guò)程中的靈感催化劑,助力您的創(chuàng)作。

大數(shù)據(jù)分析論文

大數(shù)據(jù)分析論文:基于Hadoop大數(shù)據(jù)分析在電力信息系統(tǒng)的應(yīng)用

【摘要】隨著電力信息化的不斷發(fā)展以及信息化可靠性要求的不斷提升,系統(tǒng)運(yùn)行維護(hù)壓力越來(lái)越大,加之信息化數(shù)據(jù)分析對(duì)電力系統(tǒng)發(fā)展的指導(dǎo)意義越發(fā)重要,對(duì)信息數(shù)據(jù)的分析亟待提高。針對(duì)電力SG-186系統(tǒng)運(yùn)維現(xiàn)狀,提出一套基于Hadoop架構(gòu)的大數(shù)據(jù)分析解決方案,旨在實(shí)現(xiàn)對(duì)系統(tǒng)運(yùn)行日志進(jìn)行多元化分析,一方面發(fā)現(xiàn)后臺(tái)潛在系統(tǒng)運(yùn)行風(fēng)險(xiǎn),一方面給企業(yè)提供各類實(shí)時(shí)可視的數(shù)據(jù),給企業(yè)發(fā)展提供強(qiáng)有力的數(shù)據(jù)支撐。

【關(guān)鍵詞】SG-186;Hadoop;大數(shù)據(jù)分析

引言

在電網(wǎng)智能化、信息化飛速發(fā)展的今天,以SG-186為核心的數(shù)百個(gè)各類系統(tǒng)已經(jīng)滲入電力生產(chǎn)、經(jīng)營(yíng)、管理等各個(gè)角落。系統(tǒng)運(yùn)行的可靠性直接影響電力可靠性及公司的社會(huì)形象,系統(tǒng)的各類數(shù)據(jù)也都直接反映了公司經(jīng)營(yíng)業(yè)績(jī)及發(fā)展現(xiàn)狀。信息系統(tǒng)后臺(tái)日志數(shù)據(jù)規(guī)模急速增大,傳統(tǒng)的單機(jī)式數(shù)據(jù)庫(kù)模式在各類系統(tǒng)復(fù)雜的數(shù)據(jù)分析診斷中已經(jīng)越顯乏力,本文運(yùn)用Hadoop平臺(tái)及相關(guān)技術(shù),提供了一款基于Hadoop的大數(shù)據(jù)分析解決方案。通過(guò)在服務(wù)器上的運(yùn)作,可以對(duì)大規(guī)模日志進(jìn)行分析,并自動(dòng)生成圖表進(jìn)行展示,從而可以非常直觀的觀察各項(xiàng)用戶數(shù)據(jù)。

1.技術(shù)背景

Hadoop是一個(gè)高效的、非??煽康牟⑶铱蓴U(kuò)展性很強(qiáng)的的分布式軟件開(kāi)發(fā)框架,它的優(yōu)勢(shì)在于能在相對(duì)較短的時(shí)間內(nèi)接受并且完成大量的數(shù)據(jù)處理任務(wù)。運(yùn)用Hadoop框架進(jìn)行開(kāi)發(fā),開(kāi)發(fā)者可以通過(guò)自己開(kāi)發(fā)編寫(xiě)的Map/Reduce來(lái)進(jìn)行大數(shù)據(jù)分析處理。通過(guò)更改相應(yīng)的配置文件,數(shù)個(gè)甚至更多的副本數(shù)據(jù)可以通過(guò)Hadoop保存下來(lái),這樣的設(shè)計(jì)可以使得Hadoop更加的可靠。因?yàn)榧词鼓骋粋€(gè)集群中的Hadoop節(jié)點(diǎn)出錯(cuò),其也可以通過(guò)HDFS,即數(shù)據(jù)塊副本來(lái)完成數(shù)據(jù)處理任務(wù)。因?yàn)镠adoop框架可以在非常寬泛的范圍內(nèi)進(jìn)行擴(kuò)展,所以其可以處理海量的數(shù)據(jù),其數(shù)據(jù)規(guī)模普遍可以達(dá)到TB的數(shù)量級(jí),在某些情況下還可以突破PB的數(shù)量級(jí)。Hadoop進(jìn)行數(shù)據(jù)處理的時(shí)候,其運(yùn)行速度是非常迅速的,并且在處理過(guò)程中,開(kāi)發(fā)者可以不用了解或研究其系統(tǒng)底層的實(shí)現(xiàn)過(guò)程就可以完成發(fā)任務(wù)。

Hadoop的相關(guān)系統(tǒng):Hadoop分布式系統(tǒng)(HDFS)包含了許多元素,文件系統(tǒng)存儲(chǔ)在群集節(jié)點(diǎn)上的文件。HDFS上層的Map/Reduce程序框架引擎,包含了工作跟蹤和任務(wù)的跟蹤。

2.大數(shù)據(jù)分析解決方案

2.1 系統(tǒng)日志數(shù)據(jù)預(yù)處理

確定了系統(tǒng)對(duì)數(shù)據(jù)的需求之后,就可以對(duì)日志進(jìn)行預(yù)處理了。通過(guò)對(duì)用戶日志的UID訪問(wèn),獲取每個(gè)日志的基本數(shù)據(jù)。然后逐個(gè)讀取各項(xiàng)數(shù)據(jù),分別確認(rèn)是否屬于系統(tǒng)所需的日志數(shù)據(jù)類型。如果是,則保留在系統(tǒng)平臺(tái)內(nèi);如果不是,則刪除其數(shù)據(jù)。為了獲取用戶的各種信息,我們需要對(duì)用戶訪問(wèn)系統(tǒng)所遺留下來(lái)的日志進(jìn)行嚴(yán)格的分析。其中,非常關(guān)鍵的問(wèn)題在于,在運(yùn)用本文所設(shè)計(jì)的基于Hadoop的海量數(shù)據(jù)分析系統(tǒng)對(duì)日志進(jìn)行分析之前,盡可能的對(duì)日志進(jìn)行簡(jiǎn)化,即去除一些無(wú)關(guān)緊要的數(shù)據(jù)部分,是對(duì)整個(gè)系統(tǒng)的運(yùn)行效率有著重大提升的意義的。

因此,在將日志導(dǎo)入系統(tǒng)進(jìn)行分析之前,我們需要對(duì)日志進(jìn)行預(yù)處理。預(yù)處理有兩個(gè)目的:一是去掉日志中部分系統(tǒng)不關(guān)心的數(shù)據(jù);二是統(tǒng)一日志格式,在用戶訪問(wèn)的過(guò)程中,其生成的格式有可能會(huì)因?yàn)槠鋪?lái)源渠道等因素的不同導(dǎo)致日志整體架構(gòu)不一致,如果不統(tǒng)一日志的格式,直接導(dǎo)入系統(tǒng)進(jìn)行處理,那么將會(huì)有大量的系統(tǒng)資源被浪費(fèi)在無(wú)用的處理過(guò)程中。

2.2 生成最小粒度數(shù)據(jù)的實(shí)現(xiàn)

根據(jù)從日志的預(yù)處理之后得到的新日志文件數(shù)據(jù),系統(tǒng)將對(duì)海量的數(shù)據(jù)進(jìn)行逐個(gè)肢解的過(guò)程,并將其按維度劃分最細(xì)分粒度及流轉(zhuǎn)最細(xì)粒度,生成最細(xì)分粒度數(shù)據(jù)。此步驟的難度在于,日志數(shù)據(jù)極為龐大,單個(gè)日志要?jiǎng)澐殖墒當(dāng)?shù)個(gè)乃至數(shù)十個(gè)的小數(shù)據(jù),其數(shù)量就更為龐大。如何存儲(chǔ)這些最細(xì)分粒度數(shù)據(jù),以便系統(tǒng)后用成了最重要也是最難的問(wèn)題。

在這個(gè)步驟中,系統(tǒng)將用Hadoop平臺(tái)的Apache Pig來(lái)實(shí)現(xiàn)這一過(guò)程。Apache Pig是一個(gè)用于分析大型數(shù)據(jù)集的平臺(tái),包括一個(gè)高層次的語(yǔ)言表達(dá)數(shù)據(jù)分析程序來(lái)評(píng)估這些方案以及基礎(chǔ)數(shù)據(jù)處理。Pig的突出特性是它們的結(jié)構(gòu)是適合進(jìn)行大量的并行輪流處理,使他們能夠處理非常大的數(shù)據(jù)集。目前,Pig的基礎(chǔ)設(shè)施層由編譯器產(chǎn)生的Map-Reduce計(jì)劃,大規(guī)模并行實(shí)現(xiàn)已經(jīng)存在于序列中。

首先,將后臺(tái)用戶日志導(dǎo)入系統(tǒng)。系統(tǒng)將對(duì)海量數(shù)據(jù)進(jìn)行逐個(gè)肢解的過(guò)程,并將其按維度劃分最細(xì)分粒度及流轉(zhuǎn)最細(xì)粒度,形成最細(xì)分粒度數(shù)據(jù),然后存放在Hive中。

在這個(gè)過(guò)程中,難點(diǎn)在于日志的數(shù)量大,通常是數(shù)百GB。因此,在此部分,系統(tǒng)將運(yùn)用Apache Pig來(lái)實(shí)現(xiàn)對(duì)系統(tǒng)原始日志及特征表的肢解,使其生成最細(xì)分粒度數(shù)據(jù),并將其導(dǎo)入Hive中存放。

首先系統(tǒng)將注冊(cè)各種UDF,以便 展整個(gè)系統(tǒng)流程。然后導(dǎo)入系統(tǒng)后臺(tái)所存儲(chǔ)的用戶訪問(wèn)電商網(wǎng)站服務(wù)器所留下來(lái)的日志數(shù)據(jù),主要是訪問(wèn)日志,其次是訪問(wèn)特征碼,特征碼對(duì)于頁(yè)面流轉(zhuǎn)的統(tǒng)計(jì)分析是非常重要的。

然后系統(tǒng)將要逐個(gè)地清理原始日志,主要是排除垃圾信息和不完整信息,因?yàn)樵谠恢敬鎯?chǔ)的過(guò)程中,不可避免的會(huì)收到一些或有意或無(wú)意的垃圾信息的攻擊,這一部分需要提前剔除,以免工作量太大。

2.3 數(shù)據(jù)分析及報(bào)表的實(shí)現(xiàn)

在得到各個(gè)數(shù)據(jù)類型的Hive表之后,系統(tǒng)需要通過(guò)Apache Hive來(lái)匯總所需細(xì)分粒度數(shù)據(jù)。匯總的方式可以由用戶自行設(shè)定,可以將任意兩種乃至數(shù)種上文中所提到的Hive表進(jìn)行組合匯總,形成新的Hive表。在此步驟中,被劃分成最細(xì)分粒度的數(shù)據(jù)己經(jīng)存放于Hive中。所以,系統(tǒng)將運(yùn)用Apache Hive來(lái)將所有最細(xì)分粒度數(shù)據(jù)匯總,使其成為各個(gè)項(xiàng)目單獨(dú)的匯總表文件。從最細(xì)粒度的數(shù)據(jù)統(tǒng)計(jì),現(xiàn)在就有了兩個(gè)乃至多個(gè)Hive表均包含其數(shù)據(jù)內(nèi)容。當(dāng)系統(tǒng)收到上一個(gè)步驟所分析統(tǒng)計(jì)得出的Hive表時(shí),其將通過(guò)調(diào)用Apache Hive的各個(gè)接口,使其接收到Hive表中的內(nèi)容,并且通過(guò)用戶事先設(shè)定好的數(shù)據(jù)類型匯總方式,將各個(gè)Hive表中的數(shù)據(jù)先逐個(gè)讀取,再將其輸入存放到新的Hive表中。

系統(tǒng)在此部分將通過(guò)Hadoop平臺(tái)所提供的接口建立到數(shù)據(jù)庫(kù)的鏈接,然后在對(duì)上一節(jié)中所生成的各項(xiàng)Hive表實(shí)施遍歷,逐行逐詞的讀出數(shù)據(jù)表中的每一項(xiàng)數(shù)據(jù),將其存入Mysql中,然后提供一個(gè)前端可用的接口,以方便各種前端客戶連接至Mysql,將數(shù)據(jù)資料讀出并做成可直觀閱讀和分析的系統(tǒng)報(bào)表。

在數(shù)據(jù)存入Mysql之后,系統(tǒng)可以根據(jù)銜接的前端程序的不同,生成各類不同樣式的圖表,可以包括系統(tǒng)到目前為止,儲(chǔ)存在數(shù)據(jù)庫(kù)中的全部或者部分?jǐn)?shù)據(jù),供網(wǎng)站分析人員觀察與分析。

3.結(jié)論

目前電力行業(yè)信息發(fā)展所面臨的問(wèn)題是本論文的重點(diǎn)。首先介紹了選題的背景和意義,然后逐步引入Hadoop技術(shù),特別是在HDFS文件系統(tǒng)方面的,Map/Reduce框架,Hive數(shù)據(jù)倉(cāng)庫(kù)框架介紹的原理和使用,以及作為如何使用Hadoop數(shù)據(jù)處理,來(lái)解決這個(gè)問(wèn)題的。然后,本文介紹了如何充分利用Hadoop的配置設(shè)備,以及內(nèi)置的數(shù)據(jù)倉(cāng)庫(kù)框架,以實(shí)現(xiàn)統(tǒng)計(jì)的需求,并生成直觀的圖表顯示。

因?yàn)镠adoop運(yùn)作過(guò)程并非自動(dòng)化的工作形式,可以研究關(guān)于這個(gè)項(xiàng)目的代碼固化下來(lái)的可能性,以達(dá)到完成自動(dòng)化功能的目的,僅需要用戶簡(jiǎn)單地輸入特定需求的參數(shù),后臺(tái)任務(wù)運(yùn)行這些數(shù)據(jù)使用Hadoop來(lái)進(jìn)行數(shù)據(jù)處理,所以面對(duì)數(shù)據(jù)的處理需求,并不需要手動(dòng)啟動(dòng)腳本來(lái)運(yùn)行任務(wù)。

大數(shù)據(jù)分析論文:試論工業(yè)制造中的大數(shù)據(jù)分析

(長(zhǎng)城汽車股份有限公司天津哈弗分公司 300462)

摘 要:工業(yè)制造的大數(shù)據(jù)分析對(duì)企業(yè)的生產(chǎn)具有十分重要的作用, 通過(guò)大數(shù)據(jù)分析,企業(yè)能夠準(zhǔn)確的發(fā)現(xiàn)企業(yè)生產(chǎn)中存在的問(wèn)題, 結(jié)合工業(yè)制造企業(yè)中大數(shù)據(jù)面臨的挑戰(zhàn)與應(yīng)用技術(shù), 并對(duì)工業(yè)制造企業(yè)生產(chǎn)中大數(shù)據(jù)的來(lái)源途徑進(jìn)行分析, 探究了工業(yè)制造大數(shù)據(jù)的應(yīng)用價(jià)值。

關(guān)鍵詞:工業(yè)制造; 大數(shù)據(jù); 應(yīng)用價(jià)值

工業(yè)大數(shù)據(jù)在工業(yè)生產(chǎn)中具有十分重要的作用, 它是以工業(yè)制造過(guò)程和工業(yè)產(chǎn)品的數(shù)據(jù)為主體,通過(guò)對(duì)這些數(shù)據(jù)的分析, 獲取工業(yè)生產(chǎn)中的具體數(shù)據(jù),進(jìn)而能夠有效的對(duì)工業(yè)制造工程進(jìn)行分析與控制。 工業(yè)大數(shù)據(jù)的來(lái)源主要是產(chǎn)品生產(chǎn)周期過(guò)程中的各個(gè)環(huán)節(jié), 例如產(chǎn)品的設(shè)計(jì)、生產(chǎn)制造、銷售、售后服務(wù)、回收利用等環(huán)節(jié)的數(shù)據(jù)。同樣, 工業(yè)大數(shù)據(jù)的獲得, 還可以從企業(yè)的外部銷售與生產(chǎn)市場(chǎng)、企業(yè)之間的“跨界”供應(yīng)鏈中獲取。

一、工業(yè)制造大數(shù)據(jù)面臨的挑戰(zhàn)與技術(shù)

工業(yè)大數(shù)據(jù)在企業(yè)生產(chǎn)中具有十分廣泛的用途, 但是由于企業(yè)缺乏必要的數(shù)據(jù)分析工具,還不能夠從大數(shù)據(jù)中獲取十分有益的信息, 造成大數(shù)據(jù)在企業(yè)生產(chǎn)中還沒(méi)有得到充分的應(yīng)用, 沒(méi)有將大數(shù)據(jù)中潛藏的信息運(yùn)用到企業(yè)的生產(chǎn)決策中。

1、多源異構(gòu)工業(yè)數(shù)據(jù)集成與數(shù)據(jù)融合技術(shù)

由于工業(yè)大數(shù)據(jù)搜集是需要多源異構(gòu)數(shù)據(jù)集成, 在數(shù)據(jù)分析時(shí)需要解決以下的問(wèn)題:首先,要能夠準(zhǔn)確的對(duì)數(shù)據(jù)進(jìn)行收集, 保證數(shù)據(jù)集成的質(zhì)量,為企業(yè)的決策提供準(zhǔn)確的數(shù)據(jù)支持服務(wù)。 數(shù)據(jù)質(zhì)量在數(shù)據(jù)集中過(guò)程中出現(xiàn)失誤的原因是多樣的,可能是手工操作失誤造成的, 也可能是數(shù)據(jù)集成過(guò)程中采用算法模式失誤而造成的, 還有可能是在數(shù)據(jù)采集的過(guò)程中, 出現(xiàn)網(wǎng)絡(luò)不穩(wěn)定或者任務(wù)中斷而導(dǎo)致數(shù)據(jù)質(zhì)量不高。 其次,就是要及時(shí)對(duì)產(chǎn)品生產(chǎn)的各個(gè)環(huán)節(jié)產(chǎn)生的數(shù)據(jù)進(jìn)行集成。 在生產(chǎn)的過(guò)程中, 不能及時(shí)對(duì)生產(chǎn)的可用實(shí)時(shí)數(shù)據(jù)與當(dāng)前生產(chǎn)資源資料的數(shù)據(jù)進(jìn)行分析, 就不能有效的對(duì)下一個(gè)生產(chǎn)過(guò)程提供有效的材料、原料的支持。 但是,由于現(xiàn)有的數(shù)據(jù)技術(shù)不多,數(shù)據(jù)的來(lái)源不統(tǒng)一,在工業(yè)大數(shù)據(jù)的企業(yè)中, 不能兼顧不同類型的海量數(shù)據(jù),不能滿足實(shí)時(shí)性要求, 對(duì)工業(yè)大數(shù)據(jù)的應(yīng)用帶來(lái)了很大的挑戰(zhàn)。

2、支持實(shí)時(shí)建模的大容量數(shù)據(jù)處理技術(shù)

(1)在以往的數(shù)據(jù)處理中一般采用MapReduce技術(shù)對(duì)大數(shù)據(jù)進(jìn)行批量處理, 這樣處理的數(shù)據(jù)實(shí)時(shí)性不強(qiáng),不能有效的運(yùn)用于工業(yè)制造決策中, 不能滿足大數(shù)據(jù)分析的實(shí)時(shí)建模需求。

(2)現(xiàn)有的大數(shù)據(jù)分析框架主要是基于簡(jiǎn)單的數(shù)據(jù)查詢, 對(duì)大數(shù)據(jù)的分析能力與深度不夠, 既不能滿足工業(yè)多層面不規(guī)則的大數(shù)據(jù)采樣與分析, 也不能實(shí)現(xiàn)多時(shí)空時(shí)間序列數(shù)據(jù)復(fù)雜建模的需求。 由于工業(yè)制造的決策分析的影響數(shù)據(jù)比較多, 現(xiàn)有的數(shù)據(jù)分析技術(shù)不能將市場(chǎng)數(shù)據(jù)、服務(wù)數(shù)據(jù)、 質(zhì)量控制數(shù)據(jù)、營(yíng)銷數(shù)據(jù)結(jié)合在一起進(jìn)行分析, 即使能夠分析,相應(yīng)的難度也比較大。

3、大數(shù)據(jù)給工業(yè)制造信息安全帶來(lái)新挑戰(zhàn)

(1)大稻菁喲笠私泄露風(fēng)險(xiǎn)的挑戰(zhàn)

大量工業(yè)制造的數(shù)據(jù)集中存儲(chǔ)往往會(huì)給企業(yè)的安全信息增加泄露的風(fēng)險(xiǎn), 而且在企業(yè)生產(chǎn)的過(guò)程中,往往還會(huì)有一些敏感數(shù)據(jù)的所有權(quán)和使用權(quán)難以給予明確的界定。

(2)對(duì)現(xiàn)有存儲(chǔ)和安防措施提出挑戰(zhàn)

大量的工業(yè)數(shù)據(jù)存儲(chǔ)在一起,這樣就會(huì)存在多種格式不同、類型不同的數(shù)據(jù)共存的情況, 就會(huì)造成企業(yè)的數(shù)據(jù)存儲(chǔ)不符合安全管理的需求, 造成企業(yè)的數(shù)據(jù)管理存在安全的漏洞。

(3)大數(shù)據(jù)技術(shù)被誤用帶來(lái)的挑戰(zhàn)

大數(shù)據(jù)的應(yīng)用為黑客提供了更多的數(shù)據(jù)分析機(jī)會(huì),使得黑客的攻擊更加精確,為企業(yè)的工業(yè)生產(chǎn)帶來(lái)了更大的潛在危險(xiǎn)。

二、工業(yè)大數(shù)據(jù)的分析途徑

1、利用開(kāi)放技術(shù)與平臺(tái),實(shí)現(xiàn)數(shù)據(jù)的任意移動(dòng)

在工業(yè)制造中,系統(tǒng)的管理平臺(tái)是一個(gè)系統(tǒng)化的工作, 而不僅僅是一套操作軟件與管理系統(tǒng),更多的是項(xiàng)目執(zhí)行和服務(wù)的平臺(tái)。在實(shí)際工作中,能夠體現(xiàn)企業(yè)生產(chǎn)的過(guò)程與挖掘企業(yè)生產(chǎn)過(guò)程中的數(shù)據(jù), 保證數(shù)據(jù)能夠在不同的服務(wù)器與管理軟件上移動(dòng)。 因此,在企業(yè)的系統(tǒng)應(yīng)用平臺(tái)中,要詳細(xì)的對(duì)系統(tǒng)架構(gòu)進(jìn)行設(shè)計(jì), 將系統(tǒng)的數(shù)據(jù)集成能力、實(shí)施能力、數(shù)據(jù)挖掘能力等融合在一起, 并能夠與物聯(lián)網(wǎng)結(jié)合在一起,實(shí)現(xiàn)“軟件+云服務(wù)”的工業(yè)大數(shù)據(jù)應(yīng)用管理平臺(tái)。 在工作制造的大數(shù)據(jù)分析過(guò)程中,需要將物聯(lián)網(wǎng)與“互聯(lián)網(wǎng)+”的應(yīng)用結(jié)合在一起, 通過(guò)物聯(lián)網(wǎng)的及時(shí)響應(yīng), 能夠?qū)⒖蛻?、企業(yè)中工作的軟硬件定期巡檢、易耗品、設(shè)備的功能等數(shù)據(jù)進(jìn)行分析, 進(jìn)而能夠有效的確定工業(yè)生產(chǎn)過(guò)程中的供應(yīng)鏈上各個(gè)企業(yè)的合作關(guān)系,為客戶提供持續(xù)性的有價(jià)值的數(shù)據(jù)服務(wù)。

2、完善工業(yè)企業(yè)管理系統(tǒng)的功能,強(qiáng)化處理結(jié)構(gòu)性和非結(jié)構(gòu)性數(shù)據(jù)的數(shù)據(jù)模型

完善工業(yè)制造企業(yè)的系統(tǒng)管理平臺(tái),將數(shù)據(jù)處理的功能集成在一起, 實(shí)現(xiàn)制造管理系統(tǒng)的MOM與ERP、EAM 等有機(jī)的聚合,實(shí)現(xiàn)數(shù)據(jù)的集成,能夠?qū)⑵髽I(yè)的信息推送、系統(tǒng)工作流的集成、應(yīng)用數(shù)據(jù)的控制與管理有機(jī)的集成在一起, 完善數(shù)據(jù)處理的模型,實(shí)現(xiàn)對(duì)工業(yè)制造企業(yè)的結(jié)構(gòu)性數(shù)據(jù)與非結(jié)構(gòu)性數(shù)據(jù)的處理。 由于工業(yè)制造企業(yè)各個(gè)管理系統(tǒng)之間的主數(shù)據(jù)不統(tǒng)一,不同系統(tǒng)之間的數(shù)據(jù)交換就需要依賴各系統(tǒng)間的總線進(jìn)行數(shù)據(jù)交互, 就需要整合各個(gè)系統(tǒng)之間的數(shù)據(jù)業(yè)務(wù)流程、工作流、服務(wù)流程等, 才能有效的實(shí)現(xiàn)工業(yè)大數(shù)據(jù)的集成,對(duì)工業(yè)制造企業(yè)的管理者來(lái)說(shuō),通過(guò)一鍵登錄之后,通過(guò)系統(tǒng)的個(gè)性化定制頁(yè)面,就能夠了解與查看經(jīng)過(guò)大數(shù)據(jù)集成后的數(shù)據(jù)。

3、利用智能工具對(duì)工業(yè)大數(shù)據(jù)進(jìn)行分析

在工業(yè)制造企業(yè)可以采用時(shí)間序列、圖像、視頻、機(jī)器學(xué)習(xí)等智能分析工具, 來(lái)建立工業(yè)生產(chǎn)的數(shù)據(jù)模型,模擬與控制工業(yè)生產(chǎn)的過(guò)程, 進(jìn)而與工業(yè)大數(shù)據(jù)平臺(tái)結(jié)合在一起, 這樣就能夠有效的對(duì)工業(yè)企業(yè)生產(chǎn)中的情況進(jìn)行分析, 并可與物聯(lián)網(wǎng)、感應(yīng)器、互聯(lián)網(wǎng)等連接在一起, 然后與企業(yè)的管理應(yīng)用軟件結(jié)合在一起,對(duì)企業(yè)生產(chǎn)的大數(shù)據(jù)進(jìn)行分析。

三、工業(yè)大數(shù)據(jù)的應(yīng)用價(jià)值

隨著“互聯(lián)網(wǎng)+”的思維與工業(yè)制造業(yè)的融合,創(chuàng)新了工業(yè)生產(chǎn)中的數(shù)據(jù)分析, 同時(shí)也能夠?qū)⑵髽I(yè)生產(chǎn)中的所有數(shù)據(jù)聚合在一起, 這為工業(yè)大數(shù)據(jù)的集成提供了便利, 同時(shí)也使得工業(yè)大數(shù)據(jù)的集成成為企業(yè)數(shù)據(jù)應(yīng)用的核心。 以工業(yè)數(shù)據(jù)的采集與解析、分析和可視化以及數(shù)據(jù)的安全管理成為未來(lái)企業(yè)數(shù)據(jù)的關(guān)鍵技術(shù), 隨著信息在企業(yè)生產(chǎn)中的應(yīng)用不斷加深, 企業(yè)生產(chǎn)的數(shù)據(jù)不再以企業(yè)的內(nèi)部數(shù)據(jù)為主,同時(shí)還要將外部的市場(chǎng)數(shù)據(jù)融合在一起,隨著智能制造的應(yīng)用越來(lái)越廣, 企業(yè)需要重新審視工業(yè)大數(shù)據(jù)在生產(chǎn)中的作用,同時(shí)企業(yè)也會(huì)重視大數(shù)據(jù)的價(jià)值, 對(duì)企業(yè)的制造產(chǎn)品進(jìn)行創(chuàng)新,并能夠?qū)ζ髽I(yè)的生產(chǎn)進(jìn)行監(jiān)視與預(yù)警管理,同時(shí)還能實(shí)時(shí)的對(duì)生產(chǎn)設(shè)備故障進(jìn)行診斷與維護(hù),優(yōu)化企業(yè)生產(chǎn)的供應(yīng)鏈管理, 提升工業(yè)企業(yè)的生產(chǎn)效率。 在企業(yè)生產(chǎn)過(guò)程中利用大數(shù)據(jù)分析, 可以有效的對(duì)企業(yè)生產(chǎn)的倉(cāng)儲(chǔ)、產(chǎn)品的配送、銷售等進(jìn)行優(yōu)化管理, 降低企業(yè)的成本,并能夠提高企業(yè)的銷售效率。

四、結(jié)束語(yǔ)

工業(yè)大數(shù)據(jù)在企業(yè)生產(chǎn)中具有十分重要的作用, 它的價(jià)值產(chǎn)生方式主要是通過(guò)集成企業(yè)在生產(chǎn)過(guò)程中產(chǎn)生的數(shù)據(jù), 并對(duì)企業(yè)生產(chǎn)的供應(yīng)鏈、銷售的整個(gè)數(shù)據(jù)進(jìn)行收集與集成,在通過(guò)數(shù)據(jù)分析之后, 能夠?yàn)槠髽I(yè)的生產(chǎn)提供決策支持,進(jìn)而能夠有效的提高企業(yè)的生產(chǎn)效率與產(chǎn)品質(zhì)量等,滿足用戶的需求,擴(kuò)大企業(yè)的影響力。

大數(shù)據(jù)分析論文:基于大數(shù)據(jù)分析的數(shù)碼產(chǎn)品價(jià)格預(yù)測(cè)網(wǎng)站設(shè)計(jì)

摘要:在當(dāng)前大數(shù)據(jù)火熱的背景下,研究者都在思考如何應(yīng)用大數(shù)據(jù)解決實(shí)際問(wèn)題。文章在理解大數(shù)據(jù)思維下,設(shè)計(jì)了以數(shù)碼產(chǎn)品價(jià)格預(yù)測(cè)、產(chǎn)品基本搜索功能和產(chǎn)品詳情模塊為主要功能的數(shù)碼產(chǎn)品價(jià)格預(yù)測(cè)網(wǎng)站,其中重點(diǎn)介紹了如何實(shí)現(xiàn)數(shù)碼產(chǎn)品價(jià)格預(yù)測(cè)功能。該功能的實(shí)現(xiàn)主要是利用分布式網(wǎng)絡(luò)爬蟲(chóng)技術(shù)獲取各大知名網(wǎng)站的數(shù)碼產(chǎn)品價(jià)格,并利用模型對(duì)數(shù)碼產(chǎn)品的價(jià)格走勢(shì)進(jìn)行預(yù)測(cè)。

關(guān)鍵詞:價(jià)格預(yù)測(cè);分布式網(wǎng)絡(luò)爬蟲(chóng);數(shù)碼產(chǎn)品網(wǎng)站;大數(shù)據(jù);數(shù)學(xué)建模

1概述

據(jù)《中國(guó)互聯(lián)網(wǎng)絡(luò)發(fā)展?fàn)顩r統(tǒng)計(jì)報(bào)告》顯示,截至2016年6月,我國(guó)網(wǎng)絡(luò)購(gòu)物用戶規(guī)模達(dá)到4.48億,可見(jiàn)通過(guò)網(wǎng)上獲取信息的人很多。在互聯(lián)網(wǎng)+和大數(shù)據(jù)時(shí)代下,IT行業(yè)逐步成為人們熱議的焦點(diǎn),其發(fā)展也得到愈來(lái)愈多的人關(guān)注。而目前國(guó)內(nèi)的IT類資訊網(wǎng)站大多沒(méi)有預(yù)測(cè)產(chǎn)品價(jià)格這個(gè)功能,本文將著重研究?jī)r(jià)格預(yù)測(cè)的實(shí)現(xiàn)功能的實(shí)現(xiàn)。

2網(wǎng)站設(shè)計(jì)與開(kāi)發(fā)的可行性與適應(yīng)性分析

2.1從技術(shù)角度看

開(kāi)發(fā)一個(gè)基于大數(shù)據(jù)的分析的數(shù)碼產(chǎn)品價(jià)格預(yù)測(cè)網(wǎng)站需要大量的數(shù)據(jù)做支撐,這些數(shù)據(jù)可以通過(guò)各大電商平臺(tái)進(jìn)行獲取。各大電商平臺(tái)往往會(huì)將這些數(shù)據(jù)按照一定的格式展現(xiàn)在網(wǎng)站上,我們可以通過(guò)分布式數(shù)據(jù)爬蟲(chóng)技術(shù)將這些數(shù)據(jù)實(shí)時(shí)采集。數(shù)據(jù)爬蟲(chóng)是一種非常流行的數(shù)據(jù)采集程序,目前互聯(lián)網(wǎng)上擁有大量的爬蟲(chóng)框架供我們使用,我們只需編寫(xiě)簡(jiǎn)單的代碼便可以開(kāi)始獲取數(shù)據(jù)。當(dāng)擁有海量數(shù)據(jù)后我們可以對(duì)各個(gè)商品進(jìn)行建模,基于hadoop框架進(jìn)行分布式運(yùn)算,設(shè)計(jì)相關(guān)預(yù)測(cè)算法對(duì)數(shù)碼產(chǎn)品價(jià)格進(jìn)行分析并預(yù)測(cè)出價(jià)格的未來(lái)走勢(shì)。

2.2從資源角度看

對(duì)于數(shù)碼產(chǎn)品,互聯(lián)網(wǎng)可以提供各種各樣的信息,比如各大手機(jī)生產(chǎn)企業(yè)會(huì)在他們的網(wǎng)站上數(shù)碼產(chǎn)品的配置信息、評(píng)測(cè)信息等。在網(wǎng)站建立的初期我們可以從這些網(wǎng)站獲取大量的數(shù)據(jù)來(lái)填充我們的數(shù)據(jù)庫(kù)。對(duì)于部分具有版權(quán)的數(shù)據(jù),我們將采用外鏈的方式將原網(wǎng)站提供給用戶瀏覽,這樣可以節(jié)約開(kāi)發(fā)資源,并讓網(wǎng)站專注于價(jià)格預(yù)測(cè)的實(shí)現(xiàn)。

2.3從商業(yè)價(jià)值角度看

一個(gè)可以有效預(yù)測(cè)價(jià)格變化的網(wǎng)站是比較有市場(chǎng)前景的,目前互聯(lián)網(wǎng)上充斥著各種各樣的歷史價(jià)格查看網(wǎng)站,但是大多沒(méi)有可以對(duì)價(jià)格進(jìn)行預(yù)測(cè)的網(wǎng)站。如果我們可以成功的預(yù)測(cè)價(jià)格走勢(shì),我們就可以引導(dǎo)消費(fèi),幫助消費(fèi)者省錢(qián),這也便是網(wǎng)站最大的商業(yè)價(jià)值。

3網(wǎng)站概述

網(wǎng)站以用戶需求為出發(fā)點(diǎn),利用網(wǎng)絡(luò)爬蟲(chóng)、PHP、HTML5、JAVASCRIPT、MYSQL等技術(shù)設(shè)計(jì)開(kāi)發(fā)。在網(wǎng)站里可以查詢到參數(shù)、評(píng)測(cè)、價(jià)格和圖片等關(guān)于數(shù)碼產(chǎn)品的詳細(xì)信息。網(wǎng)站的功能包括數(shù)碼產(chǎn)品價(jià)格預(yù)測(cè)(預(yù)測(cè)到某款數(shù)碼產(chǎn)品在未來(lái)一段時(shí)間內(nèi)的價(jià)格)、信息查詢(含有數(shù)碼產(chǎn)品名稱、各項(xiàng)參數(shù)、各角度拍攝圖片等信息)、價(jià)格對(duì)比(及參數(shù)對(duì)比、圖片對(duì)比和綜合對(duì)比)等,目的是為人們提供一個(gè)簡(jiǎn)單易操作、具有現(xiàn)實(shí)意義的數(shù)碼產(chǎn)品信息查詢平臺(tái)。網(wǎng)站技術(shù)框架如下圖所示:

4網(wǎng)站設(shè)計(jì)

4.1網(wǎng)站主要功能設(shè)計(jì)

4.1.1產(chǎn)品價(jià)格預(yù)測(cè)模塊設(shè)計(jì)

產(chǎn)品降價(jià)預(yù)測(cè)模塊是網(wǎng)站的重點(diǎn)功能。用戶可以通過(guò)網(wǎng)站查詢某個(gè)產(chǎn)品的基本信息,并且能夠得知該產(chǎn)品的歷史價(jià)格走勢(shì)和該產(chǎn)品在未來(lái)一段時(shí)間的價(jià)格走勢(shì),這對(duì)于比較注重價(jià)格的用戶來(lái)說(shuō),便可以綜合各類信息和自身需求,更加理性和有計(jì)劃地選擇性價(jià)比較高的產(chǎn)品。

網(wǎng)站利用分布式爬蟲(chóng)采集互聯(lián)網(wǎng)各大平臺(tái)的IT產(chǎn)品價(jià)格數(shù)據(jù),形成一個(gè)較全面的價(jià)格走勢(shì)圖,再通過(guò)對(duì)產(chǎn)品價(jià)格進(jìn)行建模,從建模結(jié)果中得到IT產(chǎn)品在未來(lái)一段時(shí)間的價(jià)格走勢(shì)。需要說(shuō)明的是,因?yàn)閮r(jià)格容易受到社會(huì)、經(jīng)濟(jì)條件以及國(guó)際等多種因素的影響,所以預(yù)測(cè)的價(jià)格走勢(shì)會(huì)有一定的波動(dòng)。另外,對(duì)于不同時(shí)期的價(jià)格預(yù)測(cè)也不同,短期內(nèi)影響因素主要是數(shù)碼產(chǎn)品的市場(chǎng)供應(yīng),一般采用指數(shù)平滑法。這種方法預(yù)測(cè)主要是靠歷史價(jià)格數(shù)據(jù)逐步往后推導(dǎo)預(yù)測(cè)價(jià)格。對(duì)于較長(zhǎng)時(shí)間,則采用二次指數(shù)平滑法較好,因?yàn)閷?duì)于一些時(shí)間序列變化可能存在線性的趨勢(shì),這種方法的好處在于能減少預(yù)測(cè)值的滯后性。如果數(shù)據(jù)的變化受季節(jié)影響,預(yù)測(cè)方法應(yīng)當(dāng)采用溫特線性季節(jié)性指數(shù)平滑較好,因?yàn)檫@個(gè)預(yù)測(cè)方法是根據(jù)季節(jié)的變化來(lái)進(jìn)行價(jià)格預(yù)測(cè),這樣預(yù)測(cè)的價(jià)格更為準(zhǔn)確。

4.1.2產(chǎn)品基本搜索功能設(shè)計(jì)

產(chǎn)品的搜索功能也是網(wǎng)站的基本功能之一。產(chǎn)品的搜索功能不僅僅只是簡(jiǎn)單的產(chǎn)品搜索,它是一個(gè)包括商品搜索、查看熱門(mén)產(chǎn)品、查看最新產(chǎn)品、今日推薦等多模塊組合成的一個(gè)大模塊。用戶通過(guò)這些搜索信息并結(jié)合自己需求,可以理性謹(jǐn)慎地對(duì)產(chǎn)品進(jìn)行對(duì)比選購(gòu)。換言之,產(chǎn)品搜索模塊將完成對(duì)商品的導(dǎo)購(gòu)功能。

4.1.3產(chǎn)品詳情模塊設(shè)計(jì)

產(chǎn)品詳情頁(yè)面包括很多內(nèi)容,其子頁(yè)面也非常多。其中包括:概覽頁(yè)面、具體參數(shù)頁(yè)面、報(bào)價(jià)頁(yè)面、點(diǎn)評(píng)頁(yè)面、圖片頁(yè)面以及競(jìng)品對(duì)比頁(yè)面等等,每一個(gè)頁(yè)面的功能都不同,設(shè)計(jì)時(shí)將合理安排功能的布局,以方便用戶獲取自己所需要的資料。

4.2價(jià)格的采集與預(yù)測(cè)

4.2.1分布式網(wǎng)絡(luò)爬蟲(chóng)

實(shí)現(xiàn)價(jià)格預(yù)測(cè)的前提是有大量的歷史價(jià)格數(shù)據(jù),所以W站利用分布式網(wǎng)絡(luò)爬蟲(chóng)技術(shù)從各大網(wǎng)站采集數(shù)據(jù),爬蟲(chóng)主要由兩個(gè)模塊組成:

爬蟲(chóng)引擎:分布式運(yùn)行且完成下載網(wǎng)站頁(yè)面內(nèi)容,并將數(shù)據(jù)存入數(shù)據(jù)庫(kù)的工作。

數(shù)據(jù)清洗:將下載下來(lái)的價(jià)格信息進(jìn)行清洗處理,剔除無(wú)效信息和冗余信息。

分布式爬蟲(chóng)技術(shù)實(shí)現(xiàn)需要對(duì)于特定的網(wǎng)頁(yè)編寫(xiě)用于分析其網(wǎng)站源碼和獲取信息的腳本代碼,數(shù)據(jù)或許后再通過(guò)數(shù)據(jù)清洗去除掉不必要的數(shù)據(jù)信息,最后把需要的數(shù)據(jù)存放到數(shù)據(jù)庫(kù)中保存。

4.2.2預(yù)測(cè)價(jià)格

在比較多種預(yù)測(cè)方法后,我們發(fā)現(xiàn)時(shí)間序列法較適合預(yù)測(cè)數(shù)碼產(chǎn)品的價(jià)格。時(shí)間序列即是某些序列按照時(shí)間的先后順序排列而成的一種特殊序列。若利用這組數(shù)列,應(yīng)用數(shù)理統(tǒng)計(jì)方法加以處理,以解決實(shí)際問(wèn)題,則稱為時(shí)間序列分析法。時(shí)間序列分析是以時(shí)間序列為研究對(duì)象,分析序列的本質(zhì)波動(dòng),探究其真實(shí)規(guī)律的一種定量分析法。在實(shí)際中,通常被用于預(yù)測(cè)未來(lái)現(xiàn)象或指標(biāo)的波動(dòng)情況。由于數(shù)據(jù)量龐大、涉及的商品較多,為了提高計(jì)算速度,預(yù)測(cè)模型需要構(gòu)架在Hadoop等分布式平臺(tái)之上。

5網(wǎng)站的開(kāi)發(fā)

5.1數(shù)據(jù)爬蟲(chóng)程序

開(kāi)發(fā)一個(gè)數(shù)據(jù)爬蟲(chóng),需要用到scrapy框架,該框架是基于python語(yǔ)言編寫(xiě)的,用python語(yǔ)言開(kāi)發(fā)程序最大的特點(diǎn)那就是簡(jiǎn)單易讀。Scrapy框架非常的簡(jiǎn)單易用只需編寫(xiě)爬蟲(chóng)規(guī)則就可以開(kāi)始高效獲取數(shù)據(jù),并且該框架是可分布式運(yùn)行,速度可控,支持JavaScript,非常適合用來(lái)采集各大網(wǎng)站的數(shù)碼產(chǎn)品數(shù)據(jù),最重要的是該框架是免費(fèi)而且開(kāi)源的,故運(yùn)用scrapy框架進(jìn)行開(kāi)發(fā)滿足網(wǎng)站需要的爬蟲(chóng)系統(tǒng)。

5.2價(jià)格數(shù)據(jù)分析系統(tǒng)

對(duì)于海量的數(shù)據(jù)傳統(tǒng)程序沒(méi)辦法很好的處理,傳統(tǒng)的win-dows系統(tǒng)也很難有效的承載。故我們選用hadoop生態(tài)體系進(jìn)行數(shù)據(jù)分析,該程序可以高可靠的運(yùn)行在多臺(tái)電腦上。為了程序可以長(zhǎng)期穩(wěn)定地運(yùn)行,我們選擇在linux上進(jìn)行數(shù)據(jù)分析,這樣的好處是系統(tǒng)穩(wěn)定性強(qiáng),硬件資源可以高效利用。

5.3網(wǎng)站搭建

和大多數(shù)網(wǎng)站一樣,本網(wǎng)站采用BS(Browser/Server)架構(gòu),該架構(gòu)具備以下幾個(gè)特點(diǎn):客戶端電腦負(fù)荷大大簡(jiǎn)化、系統(tǒng)維護(hù)和升級(jí)成本低、同時(shí)也降低了用戶的總體成本。

我們運(yùn)用HTML、CSS、JavaScript開(kāi)發(fā)網(wǎng)站前臺(tái)頁(yè)面,用PHP開(kāi)發(fā)網(wǎng)站后臺(tái),MySQL作為后臺(tái)數(shù)據(jù)庫(kù)。網(wǎng)站運(yùn)行在Linux系統(tǒng)下的Apache軟件下,網(wǎng)站的所有軟件均為免費(fèi)軟件,實(shí)現(xiàn)成本較低,也符合當(dāng)下流行趨勢(shì)。

6結(jié)束語(yǔ)

本網(wǎng)站是在大數(shù)據(jù)背景下建立的數(shù)碼產(chǎn)品價(jià)格預(yù)測(cè)網(wǎng)站,著重在實(shí)現(xiàn)產(chǎn)品價(jià)格預(yù)測(cè)功能、提供報(bào)價(jià)資訊等內(nèi)容。網(wǎng)站依托互聯(lián)網(wǎng)數(shù)據(jù)建立,以滿足消費(fèi)者對(duì)價(jià)格預(yù)測(cè)和導(dǎo)購(gòu)需求,未來(lái)還將繼續(xù)完善研究工作,通過(guò)大數(shù)據(jù)分析提供個(gè)性化產(chǎn)品推薦、提供對(duì)數(shù)碼生產(chǎn)企業(yè)的大數(shù)據(jù)服務(wù)、提供對(duì)消費(fèi)者的購(gòu)買(mǎi)預(yù)測(cè)功能。

大數(shù)據(jù)分析論文:大數(shù)據(jù)分析方法及應(yīng)用初探

摘 要:大數(shù)據(jù)在很多的行業(yè)和企業(yè)得到了應(yīng)用,對(duì)大數(shù)據(jù)的研究和分析也受到了很多的學(xué)者的青睞。大量非結(jié)構(gòu)化流式數(shù)據(jù)已成為大數(shù)據(jù)時(shí)代的主要數(shù)據(jù)形態(tài),這給傳統(tǒng)的數(shù)據(jù)處理系統(tǒng)架構(gòu)帶來(lái)非常大的挑戰(zhàn),必將使大數(shù)據(jù)處理系統(tǒng)漸漸由流程設(shè)計(jì)轉(zhuǎn)變?yōu)閿?shù)據(jù)設(shè)計(jì)。為此,該文主要從大數(shù)據(jù)分析的方法理論入手,對(duì)現(xiàn)今各行各業(yè)即將運(yùn)用的大數(shù)據(jù)處理方法進(jìn)行研究,總結(jié)出一種較適用的大數(shù)據(jù)分析方法及其應(yīng)用,以供行業(yè)和企業(yè)在未來(lái)的業(yè)務(wù)活動(dòng)中作參考。

關(guān)鍵詞:預(yù)測(cè)分析 大數(shù)據(jù)處理 大數(shù)據(jù)應(yīng)用 數(shù)據(jù)挖掘

隨著云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)和移動(dòng)互聯(lián)網(wǎng)等新一代信息技術(shù)的發(fā)展,傳統(tǒng)企業(yè)級(jí)IT架構(gòu)正在朝基于互聯(lián)網(wǎng)的分布式新架構(gòu)轉(zhuǎn)型。大數(shù)據(jù)作為新一代信息技術(shù)的核心,正在使各個(gè)領(lǐng)域變得越來(lái)越可感知,并走向智能化。大數(shù)據(jù)將會(huì)發(fā)揮自身獨(dú)特的優(yōu)勢(shì),帶給我們更多的方便和便捷。大數(shù)據(jù)分析的方法理論有哪些、在行業(yè)、企業(yè)的活動(dòng)中有哪些應(yīng)用。

1 大數(shù)據(jù)分析的五個(gè)基本要素

1.1 大數(shù)據(jù)預(yù)測(cè)性分析

大數(shù)據(jù)技術(shù)的主要應(yīng)用是預(yù)測(cè)性分析,如在線教學(xué)資源網(wǎng)站通過(guò)數(shù)據(jù)分析用戶會(huì)對(duì)推薦的教學(xué)模是否感興趣,保險(xiǎn)公司通過(guò)數(shù)據(jù)預(yù)測(cè)被保險(xiǎn)人是否會(huì)違規(guī),地震監(jiān)測(cè)部門(mén)通過(guò)對(duì)大數(shù)據(jù)的分析,預(yù)測(cè)某地點(diǎn)發(fā)生地震的大致時(shí)間,氣象部門(mén)利用數(shù)據(jù)預(yù)測(cè)天氣變化等。預(yù)測(cè)是人類本能的一部分,通過(guò)大數(shù)據(jù)預(yù)測(cè)人類才可以獲得有意義的、智能的信息。許許多多的行業(yè)應(yīng)用都會(huì)涉及到大數(shù)據(jù),大數(shù)據(jù)的豐富特征表述了快速增長(zhǎng)的存儲(chǔ)數(shù)據(jù)的復(fù)雜性。大數(shù)據(jù)預(yù)測(cè)分析打破了數(shù)據(jù)預(yù)測(cè)一直是象牙塔里數(shù)據(jù)科學(xué)家和統(tǒng)計(jì)學(xué)家的工作,伴隨著大數(shù)據(jù)的出現(xiàn),并融合到現(xiàn)有的MIS、MRPII、DSS 、CIMS和其他核心業(yè)務(wù)系統(tǒng),大數(shù)據(jù)預(yù)測(cè)分析將起到越來(lái)越重要的作用。

1.2 數(shù)據(jù)管理和數(shù)據(jù)質(zhì)量

大數(shù)據(jù)分析跟數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理緊密相關(guān),而質(zhì)量高的數(shù)據(jù)和有效的數(shù)據(jù)管理可以使分析結(jié)果有價(jià)值、真實(shí)并得到有力的保證。

1.3 可視化分析

普通用戶和大數(shù)據(jù)分析專家是大數(shù)據(jù)分析的直接使用者,因此他們對(duì)大數(shù)據(jù)分析的基本要求就是要可視化,因?yàn)樗麄兿胪ㄟ^(guò)可視化分析獲得可觀的大數(shù)據(jù)特征,讓用戶直觀看到結(jié)果。

提高解釋信息的能力可以通過(guò)數(shù)據(jù)的可視化展示來(lái)實(shí)現(xiàn),而可視化展示主要由圖形和圖表來(lái)呈現(xiàn)。要從大量的數(shù)據(jù)和信息中找尋相關(guān)性非常的不容易,而圖形或圖表能夠在短時(shí)間內(nèi)展示數(shù)據(jù)之間的相關(guān)信息,并為用戶提供所需的信息。

1.4 語(yǔ)義引擎

語(yǔ)義引擎是把現(xiàn)有的數(shù)據(jù)標(biāo)注語(yǔ)義,其實(shí)可以把它理解為結(jié)構(gòu)化或者非結(jié)構(gòu)化的數(shù)據(jù)集上的一個(gè)語(yǔ)義疊迭層。它是數(shù)據(jù)分析及語(yǔ)義技術(shù)最直接的應(yīng)用,好的語(yǔ)義引擎能夠使大數(shù)據(jù)分析用戶快而準(zhǔn)地獲得比較全面的數(shù)據(jù)。

數(shù)據(jù)分析的新挑戰(zhàn)及困難主要表現(xiàn)在非結(jié)構(gòu)化數(shù)據(jù)與異構(gòu)數(shù)據(jù)等的多樣性,必須配合大量的工具去分析、解析、提取數(shù)據(jù)。語(yǔ)義引擎的設(shè)計(jì)可以達(dá)到能夠從文檔中自動(dòng)提取有用信息,使語(yǔ)義引擎能挖掘出大數(shù)據(jù)的特征,在此基礎(chǔ)上科學(xué)建模和輸入新的數(shù)據(jù),來(lái)預(yù)測(cè)未來(lái)的可用數(shù)據(jù)。

1.5 數(shù)據(jù)挖掘算法

大數(shù)據(jù)分析的理論核心就是數(shù)據(jù)挖掘。各種數(shù)據(jù)的算法基于不同的數(shù)據(jù)類型和格式,能更加科學(xué)地呈現(xiàn)出數(shù)據(jù)本身的特點(diǎn),能更快速地處理大數(shù)據(jù)。如果采用一個(gè)算法需要花好幾年才能得出結(jié)論,那大數(shù)據(jù)價(jià)值也就無(wú)從f起了??梢暬墙o人看的,數(shù)據(jù)挖掘是給機(jī)器看的。集群、分割、孤立點(diǎn)分析還有其他的算法可以使我們深入挖掘數(shù)據(jù)內(nèi)部的價(jià)值,并且這些算法能夠處理大數(shù)據(jù)的數(shù)據(jù)量,也可以滿足處理大數(shù)據(jù)的效率要求。

2 大數(shù)據(jù)處理方法

大數(shù)據(jù)處理技術(shù)在社會(huì)的發(fā)展中占有重要的地位,現(xiàn)在有很多的研究者對(duì)大數(shù)據(jù)處理技術(shù)進(jìn)行研究,將大數(shù)據(jù)處理技術(shù)與交互設(shè)計(jì)結(jié)合,讓交叉科學(xué)得到發(fā)展,計(jì)算機(jī)技術(shù)的進(jìn)步,讓交叉技術(shù)被廣泛應(yīng)用,并引起了很多人的重視,例如:計(jì)算機(jī)技術(shù)可以在藝術(shù)中被應(yīng)用,進(jìn)行色彩搭配,還可以將計(jì)算機(jī)技術(shù)應(yīng)用到垃圾分類里,這些都是研究人員對(duì)計(jì)算機(jī)和交叉設(shè)計(jì)的結(jié)合。這種結(jié)合讓設(shè)計(jì)學(xué)與計(jì)算機(jī)技術(shù)緊急的結(jié)合在一起,將傳統(tǒng)的調(diào)研方式和測(cè)試方式應(yīng)用到交叉科學(xué)領(lǐng)域,這種方法的研究可以為用戶調(diào)研和測(cè)試方法提供依據(jù),能夠減少人工的成本。大數(shù)據(jù)處理方法其實(shí)有很多,筆者根據(jù)長(zhǎng)時(shí)間的實(shí)踐,總結(jié)了幾種基本的大數(shù)據(jù)處理方法,如非結(jié)構(gòu)數(shù)據(jù)處理法、自然語(yǔ)言處理法等,該文主要介紹非結(jié)構(gòu)數(shù)據(jù)處理流程涉及到的主要方法和技術(shù)。非結(jié)構(gòu)化數(shù)據(jù)處理流程主要以網(wǎng)頁(yè)處理為例來(lái)闡述,包括3個(gè)階段,分別是信息采集、網(wǎng)頁(yè)預(yù)處理和網(wǎng)頁(yè)分類。

2.1 信息采集

信息采集主要是根據(jù)相關(guān)主題由固定的專業(yè)人士來(lái)完成,其采集的數(shù)據(jù)只能用于所針對(duì)的主題和相關(guān)的模塊,出于對(duì)效率和成本的考慮完全不必對(duì)整個(gè)互聯(lián)網(wǎng)進(jìn)行遍歷,因此,模塊信息采集時(shí)往往需要研究以哪種方式預(yù)測(cè)鏈接指向的頁(yè)面與主題的關(guān)聯(lián)性,并測(cè)算其是否值得訪問(wèn);然后研究以哪種相關(guān)策略訪問(wèn)Web,以在采集到主題相關(guān)頁(yè)面的同時(shí),盡可能地減少采集到主題無(wú)關(guān)的頁(yè)面。

預(yù)先設(shè)定好種子鏈接是信息采集的基本方法,充分使用HTTP協(xié)議下載被訪問(wèn)的頁(yè)面,運(yùn)用分析算法對(duì)頁(yè)面與主題的相關(guān)性進(jìn)行分析,然后確定待訪問(wèn)的相關(guān)鏈接,預(yù)測(cè)可能指向主題相關(guān)頁(yè)面的鏈接,最后循環(huán)迭代地運(yùn)用不同的相關(guān)策略訪問(wèn)網(wǎng)頁(yè)。

2.2 網(wǎng)頁(yè)預(yù)處理

網(wǎng)頁(yè)預(yù)處理最主要涉及到網(wǎng)頁(yè)去重處理,網(wǎng)頁(yè)去重可以歸為兩類:一類是基于URL的對(duì)比去重,它適用哈希算法;另一類是基于內(nèi)容的對(duì)比去重,它適用基于信息指紋的文本相似度算法。

網(wǎng)頁(yè)去重是先抽取文檔對(duì)象的特征,再對(duì)文檔內(nèi)容進(jìn)行分解,將文檔的特征集合表示出來(lái),然后有目的針對(duì)特征集合的壓縮編碼,通過(guò)將哈希編碼等文本轉(zhuǎn)為數(shù)字串映射方式,為后續(xù)的特征存儲(chǔ)以及特征比較提供方便,這樣可以起到減少存儲(chǔ)空間,提高比較速度的作用,最后就是計(jì)算文檔的相似度,此步需要根據(jù)文檔特征重復(fù)比例來(lái)確定文檔內(nèi)容是否重復(fù)。一般是提取網(wǎng)頁(yè)的某一個(gè)信息特征,通常是一組關(guān)鍵詞,或者是關(guān)鍵詞加權(quán)重的組合,調(diào)用相應(yīng)的算法,轉(zhuǎn)換為一組關(guān)鍵代碼,也被稱為指紋,若兩個(gè)頁(yè)面有大數(shù)量的相似指紋,那么可以預(yù)測(cè)這兩個(gè)頁(yè)面內(nèi)容具有很高的重復(fù)性。

2.3 網(wǎng)頁(yè)分類

網(wǎng)絡(luò)時(shí)代,人類所面臨的一個(gè)非常重要且具有普遍意義的問(wèn)題就是網(wǎng)頁(yè)分類。將網(wǎng)絡(luò)信息正確分類,方便人們更好地使用網(wǎng)絡(luò)資源,使雜亂無(wú)章的網(wǎng)絡(luò)環(huán)境變得有條理。而網(wǎng)頁(yè)分類一般是先對(duì)網(wǎng)頁(yè)中的文本素材進(jìn)行分類,通常采用文本分類來(lái)完成。文本分類主要應(yīng)用于電子郵件分類、信息過(guò)濾、文獻(xiàn)翻譯、數(shù)據(jù)檢索等任務(wù),文本分類的一個(gè)關(guān)鍵問(wèn)題是特征詞的選擇問(wèn)題及其權(quán)重分配。

在搜索引擎中,文本分類主要有以下用途:相關(guān)性排序會(huì)根據(jù)不同的網(wǎng)頁(yè)類型做相應(yīng)的排序規(guī)則;根據(jù)網(wǎng)頁(yè)是索引頁(yè)面還是信息頁(yè)面,下載調(diào)度時(shí)會(huì)做不同的調(diào)度策略;在做頁(yè)面信息抽取的時(shí)候,會(huì)根據(jù)頁(yè)面分類的結(jié)果做不同的抽取策略;在做檢索意圖識(shí)別的時(shí)候,會(huì)根據(jù)用戶所點(diǎn)擊的URL所屬的類別來(lái)推斷檢索串的類別等。

網(wǎng)頁(yè)分類方法有SVM分方法和樸素貝葉斯方法,其中比較推薦的是支持向量機(jī)分類方法(SVM),該算法主要基于統(tǒng)計(jì)學(xué)理論及線性分類器準(zhǔn)則之上,從線性可分入手,再擴(kuò)展到線性不可分的情況。甚至有時(shí)會(huì)擴(kuò)展到使用非線性函數(shù)中去,這種分類器統(tǒng)稱為支持向量機(jī)。近年來(lái),支持向量機(jī)分類方法越來(lái)越多的受到網(wǎng)頁(yè)分類技術(shù)人員的青睞。

3 大數(shù)據(jù)分析在行業(yè)活動(dòng)中的應(yīng)用

非結(jié)構(gòu)數(shù)據(jù)處理和數(shù)據(jù)挖掘的應(yīng)用范圍較廣,它可能應(yīng)用于運(yùn)營(yíng)商、銀行、傳統(tǒng)企業(yè)和電商,挑選幾個(gè)具有代表性的案例與大家分享。

3.1 電信行業(yè)

某城市電信運(yùn)營(yíng)商的上網(wǎng)日志分析系統(tǒng),該系統(tǒng)通過(guò)收集用戶上網(wǎng)日志歷史記錄數(shù)據(jù),分析出每個(gè)用戶的偏好。首先該系統(tǒng)通過(guò)并行統(tǒng)計(jì)出每個(gè)人有效歷史上網(wǎng)日志URL;然后從日志URL中抓取網(wǎng)頁(yè)內(nèi)容,提取正文,并通過(guò)文本分類算法計(jì)算分類;最后通過(guò)統(tǒng)計(jì)出每個(gè)用戶上網(wǎng)關(guān)注類別總數(shù),分析出每個(gè)用戶的偏好。

3.2 地產(chǎn)行業(yè)

某房地產(chǎn)企業(yè)的社會(huì)化品牌實(shí)時(shí)營(yíng)銷系統(tǒng),該系統(tǒng)通過(guò)社交媒體數(shù)據(jù),進(jìn)行網(wǎng)絡(luò)口碑監(jiān)測(cè),負(fù)面情緒被及時(shí)地發(fā)現(xiàn)并制止;通過(guò)與客戶進(jìn)行互動(dòng),爭(zhēng)取客戶忠誠(chéng)度;通過(guò)監(jiān)控同行及競(jìng)爭(zhēng)對(duì)手的各方面資訊,量化評(píng)估競(jìng)爭(zhēng)態(tài)勢(shì);快速提升品牌知曉度和美譽(yù)度,將媒體影響力轉(zhuǎn)換為客戶量,縮短人氣聚集周期。

3.3 證券行業(yè)

某證券商戰(zhàn)略信息監(jiān)測(cè)通過(guò)歷史回顧與信息摘要,提供題目、摘要、原文URL,今日輿情焦點(diǎn),今日輿論,展示抓取的所有期貨產(chǎn)品相關(guān)信息的縮略,并提供全文鏈接。通過(guò)熱點(diǎn)事件列表可以看到歷史相似事件對(duì)趨勢(shì)的影響,通過(guò)天氣指數(shù)與趨勢(shì)對(duì)應(yīng)曲線可以看到歷史相似天氣與歷史趨勢(shì)的對(duì)照。

3.4 金融行業(yè)

某大型股份制商業(yè)銀行供應(yīng)商風(fēng)險(xiǎn)評(píng)估系統(tǒng),該系統(tǒng)通過(guò)抓取供應(yīng)商內(nèi)部數(shù)據(jù),如企業(yè)年報(bào)、公司變動(dòng)、領(lǐng)導(dǎo)情況、財(cái)務(wù)狀況等數(shù)據(jù),分析公司運(yùn)營(yíng)指數(shù);通過(guò)計(jì)算各供應(yīng)商社交數(shù)據(jù),對(duì)其社會(huì)影響力做評(píng)估;通過(guò)同行之間的數(shù)據(jù)分析對(duì)比,對(duì)供應(yīng)商進(jìn)行實(shí)力評(píng)估,這些數(shù)據(jù)指數(shù)可以有效協(xié)助商業(yè)銀行進(jìn)行供應(yīng)商風(fēng)險(xiǎn)評(píng)估。

4 結(jié)語(yǔ)

大數(shù)據(jù)處理數(shù)據(jù)的基本理念是用全體代替抽樣,用效率代替絕對(duì)精確,用相關(guān)代替因果。證券、微商、地產(chǎn)等行業(yè)每天都會(huì)產(chǎn)生巨大的數(shù)據(jù)量,大數(shù)據(jù)分析與處理已成為大數(shù)據(jù)技術(shù)的最重要的應(yīng)用,通過(guò)大數(shù)據(jù)技術(shù)從海量數(shù)據(jù)中提取、挖掘?qū)I(yè)務(wù)發(fā)展有價(jià)值的、潛在的信息,找出產(chǎn)品或服務(wù)未來(lái)發(fā)展趨勢(shì),為決策者提供有力依據(jù),有益于推動(dòng)企業(yè)內(nèi)部的科學(xué)化、信息化管理。

大數(shù)據(jù)分析論文:大數(shù)據(jù)分析在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用

摘 要隨著網(wǎng)絡(luò)信息化的快速發(fā)展,我國(guó)手機(jī)移動(dòng)用戶的數(shù)量呈直線上升趨勢(shì),用戶的增加對(duì)移動(dòng)通信網(wǎng)絡(luò)的建設(shè)起到了推進(jìn)作用,傳統(tǒng)的網(wǎng)絡(luò)優(yōu)化方式已不適應(yīng)新時(shí)展的需要,因此大數(shù)據(jù)分析技術(shù)的發(fā)展?jié)M足了現(xiàn)代移動(dòng)通信網(wǎng)絡(luò)優(yōu)化的要求,充分提高了工作效率,本文針對(duì)目前移動(dòng)通信網(wǎng)絡(luò)優(yōu)化的現(xiàn)狀進(jìn)行研究與分析,將大數(shù)據(jù)分析技術(shù)合理的運(yùn)用到移動(dòng)通信移動(dòng)網(wǎng)絡(luò)優(yōu)化中去,促進(jìn)移動(dòng)通信企業(yè)的發(fā)展。

【關(guān)鍵詞】大數(shù)據(jù)分析 移動(dòng)通信 網(wǎng)絡(luò)優(yōu)化 應(yīng)用研究

為了使移動(dòng)通信技術(shù)滿足時(shí)展的需要,4G通信技術(shù)的發(fā)展,給人們帶來(lái)了更好了通信體驗(yàn),同時(shí)也對(duì)移動(dòng)通信網(wǎng)絡(luò)優(yōu)化服務(wù)提出了更大的挑戰(zhàn),數(shù)字化和網(wǎng)絡(luò)的快速發(fā)展,促進(jìn)了大數(shù)據(jù)分析能力的提升,但如何發(fā)揮發(fā)數(shù)據(jù)分析技術(shù)在移動(dòng)網(wǎng)絡(luò)化中的作用是目前最需要解決的問(wèn)題。

1 移動(dòng)通信網(wǎng)絡(luò)優(yōu)化現(xiàn)狀

現(xiàn)階段,我國(guó)移動(dòng)通信技術(shù)取得了一定的成就,但在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化方面還存在很多問(wèn)題,目前,提高移動(dòng)通信網(wǎng)絡(luò)優(yōu)化的方法有兩種,一種是人工優(yōu)化,即提高網(wǎng)絡(luò)技術(shù)人員的技術(shù)水平,另一種是對(duì)通信軟件進(jìn)行優(yōu)化升級(jí),主要的軟件工具是設(shè)備廠商O(píng)MC系統(tǒng)工具、第三方工具和軟件、頻率優(yōu)化軟件等。第一種是通過(guò)收集數(shù)據(jù)信息,來(lái)分析通信網(wǎng)絡(luò)信號(hào)和命令的分析軟件,第二種是移動(dòng)供應(yīng)商的系統(tǒng)軟件,使通信網(wǎng)絡(luò)的穩(wěn)定性和性能得到保證,第三種是調(diào)整無(wú)線網(wǎng)絡(luò)的頻率、參數(shù)、鄰區(qū)等,因?yàn)榈谌杰浖蚈MC軟件存在不兼容的情況,給移動(dòng)通信網(wǎng)絡(luò)的優(yōu)化工作帶來(lái)了很大的麻煩。

2 大數(shù)據(jù)分析技術(shù)對(duì)移動(dòng)通信網(wǎng)絡(luò)優(yōu)化的影響

大數(shù)據(jù)分析技術(shù)移動(dòng)通信網(wǎng)絡(luò)優(yōu)化的影響是有利有弊的,一方面大數(shù)據(jù)分析技術(shù)可以有效解決數(shù)據(jù)量的問(wèn)題,對(duì)數(shù)據(jù)進(jìn)行很好的歸類和分析,而另一方面,加大了故障分析的難度。移動(dòng)通信網(wǎng)絡(luò)優(yōu)化就是對(duì)用戶通話狀態(tài)的收集和分析,達(dá)到排除故障、提升用戶使用感知的目的。

大數(shù)據(jù)時(shí)代的到來(lái),使人們可以更加自由的使用網(wǎng)絡(luò),這對(duì)移動(dòng)通信網(wǎng)絡(luò)的技術(shù)、承載力有著更高的要求,移動(dòng)通信技術(shù)經(jīng)歷了從2G到4G的發(fā)展歷程,目前正在進(jìn)行5G通信技術(shù)的研究,移動(dòng)用戶在使用通信業(yè)務(wù)時(shí),天氣、地區(qū)等因素都會(huì)對(duì)通信質(zhì)量造成影響,因此,在通信的穩(wěn)定性和抗干擾能力上需要技術(shù)的革新,合理使用大數(shù)據(jù)分析技術(shù),可以有效發(fā)揮對(duì)移動(dòng)通信網(wǎng)絡(luò)的優(yōu)化作用。

3 大數(shù)據(jù)分析在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用

3.1 移動(dòng)通信用戶管理優(yōu)化

移動(dòng)通信用戶的數(shù)量在不斷變化,對(duì)用戶的數(shù)據(jù)也要不斷的更新,在處理與保存方面都存在很大的困難,大數(shù)據(jù)分析技術(shù)的應(yīng)用可以根據(jù)各個(gè)移動(dòng)用戶的傳輸狀態(tài)實(shí)時(shí)記錄,方便了對(duì)移動(dòng)通信用戶的管理,以及對(duì)通信網(wǎng)絡(luò)穩(wěn)定性的調(diào)查和分析。

3.2 移動(dòng)通信用戶計(jì)費(fèi)管理優(yōu)化

隨著移動(dòng)通信用戶使用量的增加,出現(xiàn)了消費(fèi)套餐類型以及消費(fèi)信息等巨量數(shù)據(jù),傳統(tǒng)通信網(wǎng)絡(luò)優(yōu)化手段不能及時(shí)的進(jìn)行分類處理,工作效率比較低,而大數(shù)據(jù)技術(shù)的應(yīng)用,可以快速的對(duì)數(shù)據(jù)進(jìn)行分析、歸類,使移動(dòng)通信管理人員可以很好的掌握通信用戶的使用規(guī)律,從而對(duì)數(shù)據(jù)信息進(jìn)行歸納、分析,發(fā)掘信息的潛在價(jià)值,發(fā)現(xiàn)潛在商機(jī),更好的開(kāi)拓通信市場(chǎng)。

3.3 移動(dòng)通信用戶行為管理優(yōu)化

用戶對(duì)網(wǎng)絡(luò)的使用具有很強(qiáng)的不確定性,包括對(duì)應(yīng)用軟件的使用頻率,業(yè)務(wù)使用類型以及上網(wǎng)喜好等很難把握,這會(huì)使移動(dòng)通信商在對(duì)軟件設(shè)計(jì)時(shí)的定位方向出現(xiàn)偏差,花費(fèi)巨資開(kāi)發(fā)的軟件沒(méi)有人使用,這種結(jié)果會(huì)使移動(dòng)通信商受到嚴(yán)重的經(jīng)濟(jì)損失,但如果通過(guò)對(duì)用戶的上網(wǎng)流量信令、數(shù)據(jù)等進(jìn)行挖掘和整合分析,可以發(fā)現(xiàn)其中共性和特點(diǎn),方便以后軟件的開(kāi)發(fā)和業(yè)務(wù)的開(kāi)展。

3.4 自動(dòng)網(wǎng)絡(luò)參數(shù)調(diào)整

當(dāng)移動(dòng)通信網(wǎng)絡(luò)數(shù)據(jù)優(yōu)化系統(tǒng)有了輔助決策功能后,這樣的分析結(jié)果是很準(zhǔn)確的,也經(jīng)過(guò)了多次實(shí)驗(yàn)的考驗(yàn),在這種條件下還可以對(duì)優(yōu)化工具做進(jìn)一步改善,我們將可進(jìn)一步優(yōu)化的軟件作用于OMC系統(tǒng)上,通過(guò)OMC可以直接調(diào)整網(wǎng)絡(luò)系統(tǒng)參數(shù),方便了用戶的同時(shí)也為用戶提供了穩(wěn)定的通信質(zhì)量。

3.5 網(wǎng)絡(luò)問(wèn)題智能分析

通過(guò)采集關(guān)鍵節(jié)點(diǎn)信令并核查MR報(bào)告、告警日志、參數(shù)配置文件等數(shù)據(jù),對(duì)異常Cause進(jìn)行統(tǒng)計(jì)分析查找問(wèn)題原因。針對(duì)不同原因制定具體的自優(yōu)化方案。從故障告警、參數(shù)設(shè)置、用戶終端、核心網(wǎng)等多個(gè)維度輸出優(yōu)化方案。

4 大數(shù)據(jù)分析在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的問(wèn)題及對(duì)策

4.1 數(shù)據(jù)爆炸

隨著大數(shù)據(jù)時(shí)代的到來(lái),移動(dòng)通信數(shù)據(jù)也將面臨著數(shù)據(jù)爆炸這個(gè)問(wèn)題,移動(dòng)通信用戶在增加、通信業(yè)務(wù)在增加以及數(shù)據(jù)量都在快速增加,在數(shù)據(jù)處理方面存在很大的問(wèn)題。

對(duì)此,需要移動(dòng)供應(yīng)商有良好的技術(shù)人員管理體制,對(duì)數(shù)據(jù)及時(shí)進(jìn)行歸納、分析,同時(shí)要引進(jìn)先進(jìn)的技術(shù)和理念,完成數(shù)據(jù)分析工作。

4.2 資金短缺

隨著數(shù)據(jù)量的不斷增加,對(duì)移動(dòng)通信網(wǎng)絡(luò)的質(zhì)量存在很大的挑戰(zhàn),對(duì)此,移動(dòng)供應(yīng)商需要不斷建設(shè)基站、更新設(shè)備等,建設(shè)周期長(zhǎng)、資金量需求大等問(wèn)題使供應(yīng)商投入的資金不滿足發(fā)展的需要。

對(duì)此,需要移動(dòng)運(yùn)營(yíng)商基于大數(shù)據(jù)分析,對(duì)網(wǎng)絡(luò)結(jié)構(gòu)、各個(gè)節(jié)點(diǎn)業(yè)務(wù)瓶頸等進(jìn)行分析,并實(shí)施優(yōu)化調(diào)整,保證投資的效益最大化。

4.3 安全問(wèn)題

數(shù)據(jù)量的不斷提高,使數(shù)據(jù)的存儲(chǔ)成了問(wèn)題,一旦系統(tǒng)出現(xiàn)漏洞,對(duì)數(shù)據(jù)的安全性造成了嚴(yán)重的威脅,導(dǎo)致很多工作無(wú)法正常運(yùn)行,加大了移動(dòng)通信公司的損失程度。

要求維修技術(shù)人員定期對(duì)數(shù)據(jù)系統(tǒng)進(jìn)行維護(hù)處理,保證系統(tǒng)的安全性和數(shù)據(jù)分析技術(shù)的正常運(yùn)作。

5 結(jié)束語(yǔ)

目前,大數(shù)據(jù)分析技術(shù)已廣泛應(yīng)用在移動(dòng)通信的各個(gè)工作當(dāng)中,移動(dòng)通信網(wǎng)絡(luò)也依賴于大數(shù)據(jù)技術(shù)的發(fā)展,為移動(dòng)通信公司提供了專業(yè)的數(shù)據(jù)分析技術(shù),同時(shí)也保證了通信質(zhì)量的提高。

大數(shù)據(jù)分析論文:音樂(lè)院校圖書(shū)館數(shù)字資源大數(shù)據(jù)分析初探

【摘要】大數(shù)據(jù)背景下,音樂(lè)院校圖書(shū)館運(yùn)用網(wǎng)絡(luò)媒體信息及購(gòu)買(mǎi)或自建各種類型數(shù)字資源,將紙質(zhì)資源與網(wǎng)絡(luò)技術(shù)有機(jī)結(jié)合,進(jìn)一步挖掘自身資源,提升讀者服務(wù)。筆者通過(guò)大數(shù)據(jù)原理對(duì)幾大音樂(lè)學(xué)院圖書(shū)館網(wǎng)站3年來(lái)網(wǎng)頁(yè)信息及數(shù)字資源的運(yùn)行進(jìn)行分析,并將分析結(jié)果歸納、去繁就簡(jiǎn),充分利用大數(shù)據(jù)這種新興方式為其數(shù)字資源的利用提供可行性建議。

【關(guān)鍵詞】大數(shù)據(jù);音樂(lè)院校;數(shù)字資源

高校圖書(shū)館是教學(xué)、科研的信息中心,進(jìn)入信息化時(shí)代后,由傳統(tǒng)的手工服務(wù)步入了通過(guò)計(jì)算機(jī)網(wǎng)絡(luò)的自動(dòng)化服務(wù)階段,網(wǎng)絡(luò)信息系統(tǒng)及數(shù)字資源也日趨成熟穩(wěn)定。如今普通院校圖書(shū)館網(wǎng)絡(luò)已經(jīng)由VPN技術(shù)服務(wù)上升到“云舟服務(wù)”,而音樂(lè)院校圖書(shū)館也積極發(fā)展網(wǎng)絡(luò)信息及電子數(shù)據(jù)資源。在信息“大數(shù)據(jù)”的背景下,如果只關(guān)注信息的及單一的信息輸出,不進(jìn)行數(shù)據(jù)分析,就會(huì)導(dǎo)致網(wǎng)絡(luò)平臺(tái)及數(shù)字資源的運(yùn)行和跟進(jìn)服務(wù)欠缺,出現(xiàn)優(yōu)越性不能持久、缺陷無(wú)限延伸的情況,如此就會(huì)削弱本身的“教學(xué)輔助功能”。

一、大數(shù)據(jù)調(diào)查列表

大數(shù)據(jù),或稱巨量資料,具有Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價(jià)值)4大特點(diǎn)。筆者于2016年4月通過(guò)登錄官方網(wǎng)站的方式對(duì)全國(guó)九大音樂(lè)院校圖書(shū)館2013―2015年間網(wǎng)絡(luò)服務(wù)系統(tǒng)進(jìn)行了全面的數(shù)據(jù)采集,由于有的院校未設(shè)定“訪問(wèn)量”單元數(shù)據(jù)對(duì)本文無(wú)意義,所以只能放棄?,F(xiàn)僅以西安音樂(lè)學(xué)院圖書(shū)館為主,其它音樂(lè)學(xué)院圖書(shū)館為輔,對(duì)三年來(lái)網(wǎng)絡(luò)系統(tǒng)的運(yùn)行情況進(jìn)行大數(shù)據(jù)方式的統(tǒng)計(jì)、分析,剖析、提出問(wèn)題,探究造成問(wèn)題的原因、對(duì)策以及建議等。

(一)西安音樂(lè)學(xué)院網(wǎng)絡(luò)服務(wù)系統(tǒng)調(diào)查。從對(duì)各音樂(lè)院校圖書(shū)館的調(diào)查中看出,2013―2015年排前三的為:《英語(yǔ)聽(tīng)說(shuō)學(xué)習(xí)多媒體資源庫(kù)》試用通知、“數(shù)據(jù)庫(kù)試用通知”“全國(guó)音樂(lè)學(xué)院圖書(shū)館文化建設(shè)論壇在武漢音樂(lè)學(xué)院舉行”;2014年排前三的為:“新東方多媒體學(xué)習(xí)庫(kù)校外訪問(wèn)通知”“西安音樂(lè)學(xué)院第四屆世界讀書(shū)日活動(dòng)圓滿落幕”“書(shū)香西安音樂(lè)學(xué)院―中文在線電子圖書(shū)試用通知”;2015年排前三的為 “2015陜西高校圖書(shū)館新人入職培訓(xùn)”“2015年高校數(shù)字資源建設(shè)與共享學(xué)術(shù)交流大會(huì)”“圖書(shū)館參加全國(guó)藝術(shù)院校圖書(shū)館學(xué)術(shù)研討會(huì)”。

(二)西安音樂(lè)學(xué)院圖書(shū)館2014年―2015年BBS(新書(shū)通告)訪問(wèn)調(diào)查(其余音樂(lè)學(xué)院圖書(shū)館因篇幅原因略)。調(diào)查出處于首位的是“2014年最新書(shū)目”,其次為“2013年最新音像目錄”,再次為“2014年最新音像目錄”。

(三)西安音樂(lè)學(xué)院圖書(shū)館2014年―2015年BBS(資源動(dòng)態(tài))訪問(wèn)調(diào)查(其余音樂(lè)學(xué)院圖書(shū)館因篇幅原因略)。從調(diào)查可看出處于首位的是“知網(wǎng)?庫(kù)客數(shù)據(jù)庫(kù)用戶名、密碼”;其次是“維普資訊試用通知”;排在第三位的是“新東方數(shù)據(jù)庫(kù)試用通知”。

(四)西安音樂(lè)學(xué)院圖書(shū)館2014年―2015年BBS(試用數(shù)據(jù)庫(kù))訪問(wèn)調(diào)查(其余音樂(lè)學(xué)院圖書(shū)館因篇幅原因略)。從調(diào)查可看出排在首位的是“新東方媒體學(xué)習(xí)庫(kù)”,第二位的是“空中英語(yǔ)教室學(xué)習(xí)音像數(shù)據(jù)庫(kù)”,排在第三位的是“銀符考試題庫(kù)”。

(五)西安音樂(lè)學(xué)院圖書(shū)館2014年―2015年BBS(外文數(shù)據(jù)庫(kù))訪問(wèn)調(diào)查(其余音樂(lè)學(xué)院圖書(shū)館因篇幅原因略)。從調(diào)查可看出排在首位的是“美國(guó)科研出版社(Scientific ResearchPubling)期刊”,第二位是“ASP世界音樂(lè)在線”,排在第三位的是“ASP表演藝術(shù)、戲劇與電影視頻庫(kù)”。

二、 原因分析

(一)非實(shí)用性公告影響。公告是網(wǎng)絡(luò)信息系統(tǒng)中包羅內(nèi)容最多也是搜集網(wǎng)絡(luò)學(xué)術(shù)情報(bào)的“引擎”,而訪問(wèn)量排在前三位的都是非實(shí)用公告。

(二)讀者的從眾心理。網(wǎng)絡(luò)時(shí)代造就了一大批“皇上”讀者,對(duì)任何服務(wù)都“吹毛求疵”。

(三)單邊效應(yīng)。在網(wǎng)絡(luò)系統(tǒng)服務(wù)方式中,圖書(shū)館的任務(wù)角色往往只是承擔(dān)開(kāi)通責(zé)任,在利用過(guò)程中存在的問(wèn)題無(wú)法及時(shí)得到圖書(shū)館專業(yè)人員幫助解決。

三、對(duì)策

(一) 提高館藏質(zhì)量。當(dāng)今任何一個(gè)圖書(shū)館也沒(méi)有能力將所有書(shū)刊資料盡數(shù)收藏,只能根據(jù)本館的任務(wù)對(duì)象,對(duì)所需資料進(jìn)行有選擇、有重點(diǎn)地收藏。

(二)定期開(kāi)展各類實(shí)體或虛擬的文獻(xiàn)服務(wù)講座。結(jié)合各系工作重點(diǎn)進(jìn)行跟蹤服務(wù)。

(三)開(kāi)辦館辦刊物。這是一個(gè)很好揭示館藏資源的方式。

(四)注重學(xué)生需求。學(xué)生這個(gè)群體是除了專業(yè)圖書(shū)的需求外,同時(shí)也需要與個(gè)人愛(ài)好、興趣等相關(guān)的提高綜合素質(zhì)的圖書(shū),這些都不是教書(shū)和采訪人員完全能把握的,因此,非常有必要把他們的代表納入選書(shū)隊(duì)伍。

(五)讀者推廣。圖書(shū)館通過(guò)舉辦讀者活動(dòng)如“世界讀書(shū)日活動(dòng)”、讀書(shū)沙龍等活動(dòng),對(duì)館藏文獻(xiàn)有了進(jìn)一步的了解。

(六)數(shù)據(jù)推送服務(wù)。數(shù)據(jù)推送服務(wù)是指圖書(shū)館根據(jù)讀者的需要,主動(dòng)將讀者所需的信息內(nèi)容推送到讀者端,大數(shù)據(jù)環(huán)境下對(duì)于讀者的各類行為。

四、 結(jié)語(yǔ)

大數(shù)據(jù)分析方法旨在從眾多紛繁復(fù)雜的數(shù)據(jù)中找出能為讀者提供高效、及時(shí)、全面的服務(wù)為本,同時(shí)依據(jù)此數(shù)據(jù)還可以為圖書(shū)館館藏結(jié)構(gòu)的改善提供本基礎(chǔ),通過(guò)對(duì)某些訪問(wèn)量較少或無(wú)訪問(wèn)的數(shù)據(jù)庫(kù)的實(shí)際操作找出了問(wèn)題的癥結(jié)所在,找出原因給出建議。

大數(shù)據(jù)分析論文:基于大數(shù)據(jù)分析的目標(biāo)房產(chǎn)分類及房源匹配

[提要] 當(dāng)前,我國(guó)房地產(chǎn)處在結(jié)構(gòu)調(diào)整期。從市場(chǎng)需求方面,由以前的賣(mài)方主導(dǎo)市場(chǎng)需求慢慢轉(zhuǎn)變成為買(mǎi)方主導(dǎo)市場(chǎng)需求;從企業(yè)競(jìng)爭(zhēng)來(lái)看,由于材料、人工成本不斷增加,導(dǎo)致企業(yè)利潤(rùn)下降,競(jìng)爭(zhēng)壓力加大;與此同時(shí),政府部門(mén)對(duì)房地產(chǎn)業(yè)的調(diào)控力度也逐漸加大。然而,在一些三四線城市,仍然存在一些房產(chǎn)滯銷、房產(chǎn)市場(chǎng)消費(fèi)購(gòu)買(mǎi)情況不太樂(lè)觀的情形。本文通過(guò)數(shù)據(jù)分析,對(duì)不同消費(fèi)人群的消費(fèi)特征進(jìn)行房源的匹配,以達(dá)到精準(zhǔn)營(yíng)銷,為房地產(chǎn)市場(chǎng)營(yíng)銷制定相應(yīng)的營(yíng)銷策略。

關(guān)鍵詞:房產(chǎn)需求;目標(biāo)房產(chǎn);精準(zhǔn)營(yíng)銷;相應(yīng)分析

一、調(diào)查背景

黨的十八大以來(lái),積極踐行“供給側(cè)結(jié)構(gòu)性改革”,同時(shí)針對(duì)三四線城市房產(chǎn)積壓、房產(chǎn)滯銷的情況,基于房地產(chǎn)企業(yè)發(fā)展背景,運(yùn)用相應(yīng)方法,分析北京市八達(dá)嶺2015年1月~2016年2月所有樓盤(pán)消費(fèi)者到訪和成交數(shù)據(jù),發(fā)現(xiàn)和提取其中的有效信息和新知識(shí),根據(jù)不同消費(fèi)者的消費(fèi)特征以匹配不同的房源,提高成交率,達(dá)到“去庫(kù)存”的目的。

二、調(diào)查數(shù)據(jù)介紹

本次調(diào)查數(shù)據(jù)基于零點(diǎn)有限公司提供的北京市八達(dá)嶺樓盤(pán)18萬(wàn)余消費(fèi)者購(gòu)買(mǎi)房產(chǎn)的一系列相關(guān)信息為分析的對(duì)象,結(jié)合統(tǒng)計(jì)學(xué)原理,市場(chǎng)營(yíng)銷學(xué)等學(xué)科內(nèi)容,對(duì)數(shù)據(jù)采用相應(yīng)的分析方法,對(duì)數(shù)據(jù)進(jìn)行科學(xué)分析和處理。

三、數(shù)據(jù)結(jié)果分析

(一)從事第三產(chǎn)業(yè)的消費(fèi)者傾向于購(gòu)買(mǎi)高檔住房。將消費(fèi)者所從事的行業(yè)按照第一、第二、第三進(jìn)行劃分,發(fā)現(xiàn)從事第三產(chǎn)業(yè)的人們更加傾向于購(gòu)買(mǎi)高檔和普通住房,進(jìn)一步分析也許與從事第三產(chǎn)業(yè)人們的收入水平有著密切聯(lián)系。同時(shí),他們可能對(duì)于生活的品質(zhì)要求更高,在他們看來(lái),住房不僅僅意味著簡(jiǎn)單的居住場(chǎng)所,更多的是他們享受生活,培養(yǎng)情操的最佳場(chǎng)所。反觀從事第一產(chǎn)業(yè)的人們,可以發(fā)現(xiàn)收入水平不高,對(duì)于生活品質(zhì)的要求也會(huì)降低。在他們看來(lái),只要有一處休息之處便是極好,所以可能會(huì)傾向于購(gòu)買(mǎi)如地下室這樣的住所。從事第二產(chǎn)業(yè)的人們基本穩(wěn)定,大多會(huì)選擇購(gòu)買(mǎi)普通住房。(圖1)

(二)處在單身期、成長(zhǎng)期和形成期的家庭傾向于購(gòu)買(mǎi)普通住房。不同的家庭結(jié)構(gòu)擬購(gòu)買(mǎi)或?qū)嶋H購(gòu)買(mǎi)的住房類型呈現(xiàn)明顯的差異:處在單身期、成長(zhǎng)期和形成期的家庭傾向于購(gòu)買(mǎi)普通住房,單身期生活壓力相對(duì)較低,主要來(lái)自就業(yè)。(圖2)因此,可以將自己的可支配收入積攢下來(lái)購(gòu)買(mǎi)價(jià)格相對(duì)較低的普通住房;成長(zhǎng)期和成熟期的家庭逐漸增加了來(lái)自家庭、孩子的壓力,但由于這個(gè)階段,事業(yè)也處于增長(zhǎng)期,所以工資相對(duì)單身期會(huì)有較大幅度的增加,購(gòu)買(mǎi)普通住房便是首選。對(duì)于成熟期的家庭,住房需求、生活壓力大大降低,就會(huì)考慮用家庭剩余資金進(jìn)行儲(chǔ)蓄或投資,房地產(chǎn)投資在當(dāng)前市場(chǎng)環(huán)境而言是首選;或者是當(dāng)剩余資金積攢到一定額度,他們便會(huì)考慮將現(xiàn)有住房更新?lián)Q代,購(gòu)買(mǎi)高檔住房。

(三)家庭收入較高的消費(fèi)者更傾向于購(gòu)買(mǎi)高檔住房。不同家庭收入的住戶擬購(gòu)買(mǎi)或?qū)嶋H購(gòu)買(mǎi)的住房類型呈現(xiàn)出明顯的差異:北京年收入最貴學(xué)區(qū)房高達(dá)10萬(wàn)元/平方米,收入在10萬(wàn)元以下的家庭會(huì)選擇購(gòu)買(mǎi)地下室,這個(gè)收入段的人群大多數(shù)集中在外來(lái)打工人員,背井離鄉(xiāng)的他們將大部分錢(qián)寄回老家用于支付子女的教育費(fèi)和老人的贍養(yǎng)費(fèi),因此剩余給自己的少之又少,衣食住行方方面面都需要節(jié)儉,地下室便是無(wú)奈之舉。對(duì)于在中低收入段10~30萬(wàn)元的家庭,購(gòu)買(mǎi)普通住房是首選,少數(shù)也有購(gòu)買(mǎi)車位和商業(yè)用房的,這和當(dāng)前房?jī)r(jià)的熱漲行情有很大的聯(lián)系。收入在30萬(wàn)元以上的家庭會(huì)考慮購(gòu)買(mǎi)高檔住房,其中收入在80萬(wàn)元以上的家庭表現(xiàn)的尤為顯著,經(jīng)濟(jì)學(xué)中“恩格爾定律”表明,收入越高恩格爾系數(shù)越小,用于文教娛樂(lè)和高檔物品的消費(fèi)顯著增加,高檔住房便是之一。(圖3)

(四)目前居住戶型較高檔的消費(fèi)者傾向于購(gòu)買(mǎi)奢華住房。通過(guò)對(duì)消費(fèi)者目前居住戶型和產(chǎn)品類型進(jìn)行相應(yīng)分析得到圖4。從第一維度來(lái)看,產(chǎn)品類型分布較為分散,消費(fèi)者目前居住戶型分布相對(duì)集中;在第二維度上,產(chǎn)品類型分布和消費(fèi)者目前居住戶型分布都相對(duì)集中。從圖中可以分析出,目前居住戶型為租住、一居、兩居和三居的消費(fèi)者在購(gòu)買(mǎi)住房時(shí)選擇普通住房的可能性較大,其次可能選擇地下室;目前居住戶型為4居或者別墅的消費(fèi)者在購(gòu)買(mǎi)住房時(shí)選擇高檔住房的可能性較大。目前住房為四居或者別墅的消費(fèi)者經(jīng)濟(jì)狀況相對(duì)較好,因此對(duì)住房的要求較高,所以選擇高檔住房;目前住房為四居以下(不包含四居)或者是租房的消費(fèi)者經(jīng)濟(jì)狀況相對(duì)較差,因此購(gòu)房時(shí)選擇普通住房或者地下室也符合實(shí)際。因此,銷售人員在向消費(fèi)者推介住房時(shí)應(yīng)該先了解消費(fèi)者目前居住戶型,并根據(jù)消費(fèi)者目前居住的戶型進(jìn)行相應(yīng)的有關(guān)連的推介。(圖4)

(五)消費(fèi)者置業(yè)目的的差異導(dǎo)致購(gòu)買(mǎi)住房的差異。通過(guò)對(duì)消費(fèi)者本次置業(yè)目的和產(chǎn)品類型進(jìn)行相應(yīng)分析得到對(duì)應(yīng)分析圖。如圖5所示,消費(fèi)者本次置業(yè)目的和產(chǎn)品類型在第一維度和第二維度上分布都較為集中。從圖中可以看出,本次置業(yè)目的為第一居所自住或者是用于投資的消費(fèi)者,一般會(huì)更加傾向于選擇普通住房,本次置業(yè)目的為第二居所或者是第一居所他人居住的消費(fèi)者,如果購(gòu)房是用于居住則可能更加傾向于購(gòu)買(mǎi)高檔住房或者帶有車位的住房,如果購(gòu)買(mǎi)住房是用于存放物品或者其他用途則可能更加傾向于購(gòu)買(mǎi)地下室。因此,銷售人員在進(jìn)行銷售時(shí)要在參考該對(duì)應(yīng)分析圖的基礎(chǔ)上也要根據(jù)實(shí)際情況判斷消費(fèi)者適合的住房類型,為不同需求的消費(fèi)者進(jìn)行準(zhǔn)確的房屋推薦。(圖5)

四、小結(jié)

通過(guò)對(duì)消費(fèi)者自身的消費(fèi)特征進(jìn)行分析,房地產(chǎn)銷售商應(yīng)該在營(yíng)銷過(guò)程中著重關(guān)注消費(fèi)者的典型的消費(fèi)特征,在準(zhǔn)確進(jìn)行本企業(yè)產(chǎn)品市場(chǎng)定位的基礎(chǔ)上,以滿足客戶差異化需求,激發(fā)客戶潛在需求為切入點(diǎn),找準(zhǔn)營(yíng)銷人群、配準(zhǔn)營(yíng)銷策略、匹配營(yíng)銷渠道、投準(zhǔn)營(yíng)銷資源,針對(duì)客戶不同的購(gòu)房需求,為客戶提供滿足個(gè)體要求的個(gè)性化產(chǎn)品;與此同時(shí),“喚醒”大量的、差異化的需求。同時(shí),選擇不同的傳播方式和渠道分別推送產(chǎn)品信息,如微信、傳單、網(wǎng)站等形式,并實(shí)時(shí)更新數(shù)據(jù)。通^售后客戶關(guān)懷等手段建立起增值服務(wù)體系,做好精準(zhǔn)營(yíng)銷的實(shí)際效果評(píng)估。將最終的評(píng)估效果反饋到房源與客戶的精準(zhǔn)匹配過(guò)程,調(diào)節(jié)客戶的需求類型;同時(shí),良好的售后增值服務(wù)可以留住老客戶,營(yíng)造良好的企業(yè)口碑,以此發(fā)掘和帶動(dòng)新客戶,真正達(dá)到“去庫(kù)存”的目的,促進(jìn)房地產(chǎn)市場(chǎng)的發(fā)展。

大數(shù)據(jù)分析論文:大數(shù)據(jù)分析與高速數(shù)據(jù)更新

摘 要 隨著經(jīng)濟(jì)的發(fā)展和社會(huì)的進(jìn)步,計(jì)算機(jī)技術(shù)逐漸豐富人們的生活,大數(shù)據(jù)分析技術(shù)作為近啄晷似鸕囊幌罡嚦萍跡能夠智能存儲(chǔ)豐富的數(shù)據(jù)資源,數(shù)據(jù)的產(chǎn)生以及更新的速度逐漸加快,數(shù)據(jù)的種類也相對(duì)繁多。通過(guò)對(duì)大數(shù)據(jù)進(jìn)行分析,能夠發(fā)掘其中存在的政治、經(jīng)濟(jì)以及文化資源和社會(huì)價(jià)值,對(duì)于企業(yè)來(lái)說(shuō),能夠存儲(chǔ)于客戶之間的大量的信息,從而提升經(jīng)濟(jì)價(jià)值,加速社會(huì)生活的運(yùn)轉(zhuǎn),從而促進(jìn)時(shí)代的進(jìn)步。本文主要研究大數(shù)據(jù)系統(tǒng)中的主要分支,并分析其具體的應(yīng)用。

【關(guān)鍵詞】大數(shù)據(jù)分析 系統(tǒng) 高速 數(shù)據(jù)更新

大數(shù)據(jù)概念的逐漸興起,帶動(dòng)了各大行業(yè)的發(fā)展和更新,那么大數(shù)據(jù)的具體概念究竟是什么,書(shū)中的解釋是一般的軟件難以概括和捕捉和分析的較大容量的數(shù)據(jù),更大的意義是在于能夠通過(guò)交換、整合海量的數(shù)據(jù),發(fā)掘新的知識(shí),從而創(chuàng)造更大的價(jià)值。大數(shù)據(jù)系統(tǒng)中包含倉(cāng)儲(chǔ)數(shù)據(jù)系統(tǒng)、圖形處理系統(tǒng)、日志數(shù)據(jù)處理系統(tǒng)以及MapReduce數(shù)據(jù)系統(tǒng)等等。本文通過(guò)分析其中主要的幾個(gè)數(shù)據(jù)處理系統(tǒng)中的差異和共性,分析大數(shù)據(jù)分析中的主要應(yīng)用。

1 大數(shù)據(jù)分析系統(tǒng)中的Velocity

1.1 事物的處理系統(tǒng)

事物處理系統(tǒng)是傳統(tǒng)的商業(yè)數(shù)據(jù)庫(kù)中主要的應(yīng)用軟件之一,必須要支持大量的并存用戶,由于每一位用戶操作時(shí)所讀取的數(shù)據(jù)只占其中的一小部分,并且會(huì)隨機(jī)的分布在每一個(gè)數(shù)據(jù)系統(tǒng)中。例如在銀行的存款中,每天都有成千上萬(wàn)的客戶利用自動(dòng)取款機(jī)或是人工服務(wù)進(jìn)行交易,每一位客戶對(duì)自己的銀行賬號(hào)進(jìn)行操作,對(duì)于銀行的整個(gè)數(shù)據(jù)系統(tǒng)中是極為微小的一部分,,是隨機(jī)分布在各個(gè)銀行的數(shù)據(jù)之內(nèi)的。因此在大數(shù)據(jù)的時(shí)代,隨著科學(xué)技術(shù)的不斷普及,事物處理的規(guī)模和程度也就不斷地加大。

在事物處理的系統(tǒng)當(dāng)中,velocity是數(shù)據(jù)系統(tǒng)設(shè)計(jì)中的主要核心,引導(dǎo)每一位客戶對(duì)其自身的業(yè)務(wù)進(jìn)行準(zhǔn)確的操作,同時(shí)需要盡可能的支持更多的并發(fā)業(yè)務(wù),在實(shí)際的系統(tǒng)中,TPC-C與TPC-E是測(cè)試事物處理效率的主要依據(jù)。許多數(shù)據(jù)分析企業(yè)簡(jiǎn)化了數(shù)據(jù)分析的步驟,這樣雖然能夠從一定程度上減少分析的成本,提升的分析的性能,但是為了能夠?qū)崿F(xiàn)更多的分析應(yīng)用,促進(jìn)大數(shù)據(jù)系統(tǒng)的高效運(yùn)行,需要程序員逐一解決實(shí)際的分析問(wèn)題,將研究的重點(diǎn)放到ACID上。

1.2 數(shù)據(jù)流的系統(tǒng)

向較與事物處理系統(tǒng),數(shù)據(jù)流系統(tǒng)的主要任務(wù)是分析流過(guò)系統(tǒng)中的主要數(shù)據(jù),在每一條流過(guò)的數(shù)據(jù)中,計(jì)算出事先定義好的查詢運(yùn)算,例如差異監(jiān)測(cè)、統(tǒng)計(jì)運(yùn)算、復(fù)雜事件處理等等,系統(tǒng)中的運(yùn)算需要連續(xù)不斷的進(jìn)行,由于不需要對(duì)數(shù)據(jù)進(jìn)行大面積的存儲(chǔ),因此流過(guò)的數(shù)據(jù)也就是無(wú)限量的。我國(guó)數(shù)據(jù)流系統(tǒng)最早出現(xiàn)于20世紀(jì)末,最開(kāi)始被應(yīng)用于電信流量監(jiān)控以及交通情況分析等等。同時(shí)與實(shí)務(wù)處理系統(tǒng)相似的是,數(shù)據(jù)流系統(tǒng)的核心任務(wù)也是velocity,其更加注重的是對(duì)于數(shù)據(jù)系統(tǒng)的吞吐量控制,單位時(shí)間內(nèi)流過(guò)的數(shù)據(jù)量能夠方便系統(tǒng)的儲(chǔ)存,另一方面能夠?qū)崿F(xiàn)更多的惡吞吐率。

1.3 大數(shù)據(jù)分析系統(tǒng)

大數(shù)據(jù)的分析是確保數(shù)據(jù)價(jià)值的主要途徑,通過(guò)對(duì)海量的數(shù)據(jù)進(jìn)行分析,能夠基本的總結(jié)出數(shù)據(jù)中蘊(yùn)藏的規(guī)律,從而能夠更好地理解現(xiàn)實(shí),對(duì)未來(lái)的事件進(jìn)行預(yù)測(cè)。大數(shù)據(jù)系分析系統(tǒng)與事件處理系統(tǒng)與數(shù)據(jù)流系統(tǒng)存在一定的差異,與事件處理系統(tǒng)相比,大數(shù)據(jù)分析系統(tǒng)只為極少數(shù)的客戶進(jìn)行服務(wù),例如公司的數(shù)據(jù)分析師、決策人員以及對(duì)數(shù)據(jù)進(jìn)行分析的管理人員,并發(fā)的用戶量小于數(shù)據(jù)的處理系統(tǒng),但是對(duì)于系統(tǒng)進(jìn)行的數(shù)據(jù)處理工作并不少于事件處理系統(tǒng);向較于數(shù)據(jù)流系統(tǒng)大數(shù)據(jù)分析系統(tǒng)能夠處理系統(tǒng)中所存儲(chǔ)的數(shù)據(jù),而不是處理流動(dòng)中的數(shù)據(jù),雖然數(shù)據(jù)不一定 能夠全部放入內(nèi)存,但是大部分系統(tǒng)需要利用外部處理器進(jìn)行處理。

在大數(shù)據(jù)的時(shí)代之下,velocity的作用越來(lái)越突出,數(shù)據(jù)通過(guò)不斷產(chǎn)生、流通并加載到數(shù)據(jù)系統(tǒng)中,從靜態(tài)的角度分析和優(yōu)化數(shù)據(jù)分析系統(tǒng)存在一定的問(wèn)題,首先是無(wú)法反應(yīng)并及時(shí)更新數(shù)據(jù),難以適應(yīng)眾多的在線應(yīng)用需求;其次,靜止的狀態(tài)可能會(huì)受到數(shù)據(jù)更新的干擾,數(shù)據(jù)分析的性能無(wú)法得到最大程度的發(fā)揮。因此程序員在設(shè)計(jì)大數(shù)據(jù)分析系統(tǒng)的過(guò)程中,不僅要注重?cái)?shù)據(jù)操作的本身,還應(yīng)該理清整個(gè)數(shù)據(jù)分析的生命周期,從而使其設(shè)計(jì)理念充分發(fā)揮在系統(tǒng)應(yīng)用中。

2 在數(shù)據(jù)系統(tǒng)倉(cāng)儲(chǔ)中高速數(shù)據(jù)的更新

2.1 傳統(tǒng)的數(shù)據(jù)更新對(duì)數(shù)據(jù)分析操作的影響

分析數(shù)據(jù)系統(tǒng)中的查詢工作,在硬盤(pán)上進(jìn)行數(shù)據(jù)的順序閱讀,一般情況下,常規(guī)的數(shù)據(jù)順序讀性可能會(huì)達(dá)到100MBps,相對(duì)于傳統(tǒng)的數(shù)據(jù)更新對(duì)數(shù)據(jù)頁(yè)面進(jìn)行數(shù)據(jù)的錄入和插入以及修改等操作,數(shù)據(jù)的訪問(wèn)也比較符合前段系統(tǒng)的數(shù)據(jù)特征,基本上也是隨機(jī)進(jìn)行的。同時(shí)由于技術(shù)水平的限制,大多數(shù)硬盤(pán)只能支持每秒一百次的隨機(jī)訪問(wèn),系統(tǒng)運(yùn)行的效率大打折扣。再加上隨機(jī)訪問(wèn)可能會(huì)干擾良好的數(shù)據(jù)信號(hào),在操作的過(guò)程中,需要不斷更換硬盤(pán)的磁頭才能進(jìn)行后續(xù)的工作,因此也在一定程度上降低了數(shù)據(jù)分析的可能性。

2.2 在線高速數(shù)據(jù)更新的設(shè)計(jì)目標(biāo)

在進(jìn)行設(shè)計(jì)的過(guò)程中,需要準(zhǔn)備固態(tài)硬盤(pán)、硬盤(pán)以及內(nèi)存三種設(shè)備,主要的數(shù)據(jù)內(nèi)容依然存放于硬盤(pán)中,并在系統(tǒng)中增加少許的固態(tài)硬盤(pán),用來(lái)暫時(shí)存儲(chǔ)臨時(shí)更新的數(shù)據(jù),利用這樣的形式,能夠有效的降低系統(tǒng)更新對(duì)數(shù)據(jù)查詢的影響,由于固態(tài)硬盤(pán)的容量也比較小,因此其成本也相對(duì)較低。系統(tǒng)中的每一條數(shù)據(jù)都需要包含其主鍵、操作流程以及更新后的數(shù)值。因此需要在內(nèi)存緩沖之前及時(shí)進(jìn)行更新數(shù)據(jù),當(dāng)緩沖完成之后,將數(shù)據(jù)的更新記錄錄入在固態(tài)的硬盤(pán)中,在讀入的數(shù)據(jù)系統(tǒng)中記錄插入和修改的操作,從而產(chǎn)生最新的數(shù)據(jù)信息。

為了完成上述的操作,需要保證幾個(gè)設(shè)計(jì)的前提:

(1)對(duì)查詢的結(jié)果影響小,這是主要的設(shè)計(jì)目標(biāo),在具體的算法設(shè)計(jì)中,利用固態(tài)硬盤(pán)的特征,減少線上更新對(duì)數(shù)據(jù)查詢操作的影響;

(2)內(nèi)存的占用較少,內(nèi)存的大小可能會(huì)影響運(yùn)算的性能,首先內(nèi)存能夠用于數(shù)據(jù)的緩存,減少不必要的操作,其次,以排序作為基礎(chǔ)的算法,對(duì)于內(nèi)存的大小不同,算法的性能可能會(huì)出現(xiàn)很大的變化,因此當(dāng)數(shù)據(jù)能夠完整的納入內(nèi)存之中時(shí),利用計(jì)算方法只需要讀取以此數(shù)據(jù),就能夠計(jì)算出具體的內(nèi)存容量,從而減少對(duì)于內(nèi)存的占用,提升數(shù)據(jù)內(nèi)存的可靠性能;

(3)高效的遷移和操作,從時(shí)間方面來(lái)看,以前e累的大量數(shù)據(jù)記錄,每一頁(yè)的主數(shù)據(jù)中可能會(huì)存在一些新的更新記錄,而不是隨機(jī)的抽取,在空間的數(shù)據(jù)方面,數(shù)據(jù)的遷移能夠隨時(shí)空間的轉(zhuǎn)移進(jìn)行更新,因此只需要使用少量的硬盤(pán)空間,就能存儲(chǔ)大量的更新數(shù)據(jù)。

2.3 MaSM算法

在數(shù)據(jù)更新系統(tǒng)和固態(tài)硬盤(pán)中加入兩層數(shù)據(jù)結(jié)構(gòu),歸納并操作時(shí),需要將數(shù)據(jù)更新的記錄按照主鍵的順序進(jìn)行排列組合,并簡(jiǎn)化外部?jī)?nèi)存的排列程序,當(dāng)緩沖完成之后,算法對(duì)緩沖區(qū)域中的數(shù)據(jù)更新記錄進(jìn)行修改,從而將排序之后的數(shù)據(jù)更新記錄記載在固態(tài)的硬盤(pán)中,編寫(xiě)一個(gè)新的文件,之后便不再系修改。對(duì)于主鍵范圍之內(nèi)的數(shù)據(jù)查詢工作,需要?jiǎng)?chuàng)建一個(gè)table range scan造作的運(yùn)算部件,將數(shù)據(jù)更新記錄的數(shù)值范圍精確到固定的區(qū)域之內(nèi),使程序員能夠及時(shí)并便捷的找到數(shù)據(jù)更新的差異和規(guī)律,從而對(duì)整個(gè)大數(shù)據(jù)分析提供有一個(gè)準(zhǔn)確的把握。

3 高性能日志處理系統(tǒng):LogKV

3.1 LogKV系統(tǒng)結(jié)構(gòu)分析

鍵值系統(tǒng)能夠靈敏地表現(xiàn)多種類型日記的信息和記錄,并能夠提供可靠的數(shù)據(jù)存儲(chǔ)資源,系統(tǒng)由一個(gè)調(diào)節(jié)的管理支點(diǎn)和多個(gè)工作的節(jié)點(diǎn)通過(guò)數(shù)據(jù)中心的網(wǎng)絡(luò)系統(tǒng)連接在一起,每一個(gè)工作的系統(tǒng)都由兩個(gè)子系統(tǒng)構(gòu)成,IngestKV是鍵值存儲(chǔ)的子系統(tǒng),使日志能夠順利的緩沖和收集,并實(shí)現(xiàn)系統(tǒng)的設(shè)計(jì)理念和設(shè)計(jì)目標(biāo)。

3.2 從日志的數(shù)據(jù)源到系統(tǒng)的映射

需要管理員盡可能的平衡各個(gè)節(jié)點(diǎn)之間的日志數(shù)據(jù)流量,優(yōu)化獲取日志的方法,首先,日志的數(shù)據(jù)源能夠運(yùn)行LogKV的程序,進(jìn)行直接收集日志資源,由網(wǎng)絡(luò)信號(hào)進(jìn)行數(shù)據(jù)的發(fā)送和傳播;其次,日志的數(shù)據(jù)源能夠通過(guò)配置遠(yuǎn)程的端口和服務(wù)器,將日志的數(shù)據(jù)直接發(fā)送到實(shí)際的運(yùn)行系統(tǒng)中,從而促進(jìn)整個(gè)系統(tǒng)的高效運(yùn)行;最后,日志的數(shù)據(jù)源能夠?qū)?shù)據(jù)寫(xiě)入到本地的文件中,并通過(guò)文件傳輸?shù)膮f(xié)議,產(chǎn)品能夠數(shù)據(jù)源中獲取到數(shù)據(jù)文件。

4 總結(jié)

綜上所述可知,隨著經(jīng)濟(jì)的發(fā)展和社會(huì)的進(jìn)步,科學(xué)技術(shù)水平也得到大幅的提升,為了能夠跟進(jìn)時(shí)代的步伐,體驗(yàn)科技的成果,采用大數(shù)據(jù)分析以及高速更新數(shù)據(jù)更新的技術(shù),不僅能夠提升人們的生活質(zhì)量,加快社會(huì)進(jìn)步的腳步,同時(shí)也能夠促進(jìn)我國(guó)的科技軟實(shí)力,從而在激烈的國(guó)際競(jìng)爭(zhēng)中找到一席之地。因此程序員在進(jìn)行數(shù)據(jù)分析的過(guò)程中,需要充分了解設(shè)計(jì)的內(nèi)涵,確立在線高速數(shù)據(jù)更新的設(shè)計(jì)目標(biāo),從而方便大數(shù)據(jù)的存儲(chǔ)和運(yùn)行。

大數(shù)據(jù)分析論文:大數(shù)據(jù)分析技術(shù)在生活中的廣泛應(yīng)用

摘 要 文章介紹了大數(shù)據(jù)技術(shù)的即時(shí)性、準(zhǔn)確性和預(yù)測(cè)性,并將大數(shù)據(jù)技術(shù)與公共交通、醫(yī)藥領(lǐng)域、移動(dòng)通信網(wǎng)絡(luò)優(yōu)化相結(jié)合,從而方便了人們的生活,提高了人們的生活質(zhì)量。

【關(guān)鍵詞】大數(shù)據(jù)分析 公共交通 醫(yī)藥 移動(dòng)通信

所謂大數(shù)據(jù),一方面是指在一定時(shí)間內(nèi)無(wú)法被常規(guī)信息技術(shù)和傳統(tǒng)數(shù)據(jù)庫(kù)管理軟硬件工具感知、獲取和處理的巨量數(shù)據(jù)集合;另一方面,是指形成、管理、挖掘大數(shù)據(jù), 快速搜集、處理、分析大數(shù)據(jù)的技術(shù)和能力。

大數(shù)據(jù)的主要特點(diǎn)是海量、非結(jié)構(gòu)化和半結(jié)構(gòu)化、實(shí)時(shí)處理。大數(shù)據(jù)技術(shù),或大數(shù)據(jù)分析技術(shù),就是對(duì)這些數(shù)量巨大的海量數(shù)據(jù)進(jìn)行搜索、整理、分析、加工,以便獲得有價(jià)值的產(chǎn)品和服務(wù),以及提煉出具有深刻見(jiàn)解和潛在價(jià)值信息的技術(shù)和手段。

1 大數(shù)據(jù)分析在公共交通中的應(yīng)用

交通擁堵日益嚴(yán)重,交通事故頻繁發(fā)生,這些都是各大城市亟待解決的問(wèn)題,科學(xué)分析交通管理體系成為改善城市交通的關(guān)鍵所在。因此,高效、準(zhǔn)確地獲取交通數(shù)據(jù)是構(gòu)建合理城市交通管理體系的前提,而這一難題可以通過(guò)大數(shù)據(jù)管理得到解決。

大數(shù)據(jù)分析技術(shù)改變了傳統(tǒng)公共交通的路徑:大數(shù)據(jù)可以跨越行政區(qū)域的限制;大數(shù)據(jù)可以高效地整合交通信息;大數(shù)據(jù)可以較好地配置公共交通資源;大數(shù)據(jù)可以促進(jìn)公共交通均衡性發(fā)展。在大數(shù)據(jù)中,隨著數(shù)據(jù)庫(kù)攝入更多數(shù)據(jù),所消耗的計(jì)算工作量反而遞減,配置成本也隨之減小,但所做的計(jì)算則更加精準(zhǔn)。大數(shù)據(jù)在公共交通中的應(yīng)用表現(xiàn)在:一旦某個(gè)路段發(fā)生問(wèn)題,能立刻從大數(shù)據(jù)中調(diào)出有用信息,確保交通的連貫性和持續(xù)性;另一方面,大數(shù)據(jù)具有較高預(yù)測(cè)能力,可降低誤報(bào)和漏報(bào)的概率, 可隨時(shí)針對(duì)公共交通的動(dòng)態(tài)性給予實(shí)時(shí)監(jiān)控。因此,在駕駛者無(wú)法預(yù)知交通擁堵的可能性時(shí),大數(shù)據(jù)可幫助用戶預(yù)先了解。

2 大數(shù)據(jù)分析在醫(yī)藥領(lǐng)域中的應(yīng)用

在醫(yī)學(xué)領(lǐng)域,我們正處在一醫(yī)學(xué)信息爆炸的時(shí)代?;蛐蛄?、各種醫(yī)學(xué)圖像、電子病歷記錄和多中心臨床藥物試驗(yàn)等,使生物醫(yī)學(xué)領(lǐng)域跨入網(wǎng)絡(luò)化的大數(shù)據(jù)時(shí)代。如何從醫(yī)療大數(shù)據(jù)中提取出有用的信息是目前亟待解決的問(wèn)題,構(gòu)建醫(yī)療大數(shù)據(jù)系統(tǒng)需要將各家醫(yī)院通過(guò)互聯(lián)網(wǎng)連接,實(shí)現(xiàn)各家醫(yī)院之間的數(shù)據(jù)共享。將醫(yī)療數(shù)據(jù)存于專門(mén)的數(shù)據(jù)庫(kù)中,在信息協(xié)作平臺(tái)上將各種醫(yī)療信息分類整合,建立成一個(gè)相互共享的網(wǎng)絡(luò),從而實(shí)現(xiàn)醫(yī)療數(shù)據(jù)信息的共享。

大數(shù)據(jù)技術(shù)的核心就是預(yù)測(cè),使用大數(shù)據(jù)分析技術(shù)可以提高診斷疾病的準(zhǔn)確率,對(duì)有效地治療疾病具有重要價(jià)值。其中最好地體現(xiàn)在傳染病預(yù)測(cè)上,因?yàn)閭魅静〉陌l(fā)生、發(fā)展、分布與地理地貌、生態(tài)景觀、人文環(huán)境有密切關(guān)系,特別在全球氣候變化和經(jīng)濟(jì)全球化背景下,自然環(huán)境及人類社會(huì)活動(dòng)對(duì)傳染病的影響越來(lái)越重要。因此,時(shí)間和空間信息對(duì)傳染病的預(yù)測(cè)、預(yù)警具有重要意義。利用大數(shù)據(jù)可對(duì)傳染病疫情的時(shí)間、空間信息進(jìn)行多維搜索,檢索、處理和分析這些疫情信息可實(shí)現(xiàn)對(duì)傳染病的流行趨勢(shì)及影響范圍進(jìn)行預(yù)測(cè)、預(yù)警,對(duì)提高傳染病防控的針對(duì)性、預(yù)見(jiàn)性和主動(dòng)性,抑制流行病的蔓延,以及制定衛(wèi)生決策都具有十分重要的意義。

3 大數(shù)據(jù)分析在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的應(yīng)用

當(dāng)前的大數(shù)據(jù)技術(shù)面臨著數(shù)據(jù)過(guò)大和安全隱患越多這兩個(gè)問(wèn)題。在移動(dòng)通信網(wǎng)絡(luò)發(fā)展的過(guò)程中,網(wǎng)上用戶在不斷增加,通信網(wǎng)絡(luò)的范圍在不斷擴(kuò)大, 而移動(dòng)通信網(wǎng)絡(luò)所產(chǎn)生的數(shù)據(jù)量也在不斷上升。大數(shù)據(jù)技術(shù)和移動(dòng)通信網(wǎng)絡(luò)的安全問(wèn)題密切相關(guān),一旦技術(shù)出現(xiàn)漏洞,移動(dòng)通信網(wǎng)絡(luò)的數(shù)據(jù)就會(huì)出現(xiàn)安全隱患。大數(shù)據(jù)技術(shù)中存儲(chǔ)功能的是云儲(chǔ)存技術(shù),它將大量的網(wǎng)絡(luò)數(shù)據(jù)放在統(tǒng)一的平臺(tái)之上,加大了數(shù)據(jù)丟失的風(fēng)險(xiǎn),影響移動(dòng)通信網(wǎng)絡(luò)的安全。

優(yōu)化移動(dòng)通信網(wǎng)絡(luò),需要運(yùn)用大數(shù)據(jù)技術(shù)的儲(chǔ)存功能。移動(dòng)通信網(wǎng)絡(luò)的用戶在不斷變化,每天都要更新大量的數(shù)據(jù),而且這些數(shù)據(jù)都需要進(jìn)行妥善管理和保存。在這一過(guò)程中,可以應(yīng)用大數(shù)據(jù)技術(shù)的存儲(chǔ)功能, 將存儲(chǔ)虛擬化作為解決存儲(chǔ)問(wèn)題的有效策略。

優(yōu)化移動(dòng)通信網(wǎng)絡(luò),需要獲取相關(guān)的數(shù)據(jù)信息。移動(dòng)通信網(wǎng)絡(luò)的用戶非常多,而且其所跨越的時(shí)間、空間維度都很大,這些用戶在移動(dòng)通信網(wǎng)絡(luò)留下的海量的數(shù)據(jù)信息,使數(shù)據(jù)獲取工作難以繼續(xù)。在進(jìn)行數(shù)據(jù)的獲取和收集工作時(shí),移動(dòng)通信網(wǎng)絡(luò)可以應(yīng)用大數(shù)據(jù)技術(shù),減少人力和物力的投入,同時(shí)增加數(shù)據(jù)的準(zhǔn)確度。

4 結(jié)語(yǔ)

本文是大數(shù)據(jù)技術(shù)在實(shí)際生活領(lǐng)域的應(yīng)用,分別闡述了大數(shù)據(jù)分析技術(shù)在公共交通、醫(yī)藥領(lǐng)域、移動(dòng)通信網(wǎng)絡(luò)優(yōu)化中的具體運(yùn)用。借助大數(shù)據(jù)技術(shù)的即時(shí)性、準(zhǔn)確性和預(yù)測(cè)性,將其應(yīng)用到人們的日常生活領(lǐng)域,提高了人們的生活質(zhì)量。

大數(shù)據(jù)分析論文:可視化大數(shù)據(jù)分析模型在個(gè)性化英語(yǔ)教學(xué)中的應(yīng)用探索研究

【摘要】本文主要從基礎(chǔ)水平、目標(biāo)要求、薄弱點(diǎn)、性格等四個(gè)方面進(jìn)行數(shù)據(jù)建模,結(jié)合學(xué)生學(xué)習(xí)過(guò)程中的數(shù)據(jù)分析模型,對(duì)學(xué)生學(xué)習(xí)群體進(jìn)行立體的分析和分類,將學(xué)習(xí)群體細(xì)化地分成多類,因材施教;橫向針對(duì)個(gè)人,從聽(tīng)、說(shuō)、讀、寫(xiě)、譯五個(gè)方面及多個(gè)細(xì)分點(diǎn)進(jìn)行數(shù)據(jù)建模和分析,明確給出學(xué)生英語(yǔ)學(xué)習(xí)的切面水平圖,對(duì)學(xué)生的英語(yǔ)學(xué)習(xí)進(jìn)行有針對(duì)性的可視化分析;縱向以學(xué)生個(gè)體在學(xué)習(xí)過(guò)程中積累的變動(dòng)數(shù)據(jù)為根據(jù),橫向細(xì)分考察點(diǎn)為依托,繪制學(xué)生個(gè)體在學(xué)習(xí)過(guò)程中的數(shù)據(jù)變化模型,對(duì)整個(gè)學(xué)習(xí)過(guò)程進(jìn)行可視化研究。

【關(guān)鍵詞】英語(yǔ)教學(xué) 可視化分析 學(xué)習(xí)成效

我國(guó)英語(yǔ)教學(xué)在網(wǎng)絡(luò)課程、移動(dòng)學(xué)習(xí)、智能測(cè)評(píng)等方面近年來(lái)發(fā)展迅猛。結(jié)合我國(guó)實(shí)際的教學(xué)環(huán)境以及新近發(fā)展起來(lái)的大數(shù)據(jù)可視化分析模型,探索更有針對(duì)性更加有效的英語(yǔ)教學(xué)模式,以更大限度的提高學(xué)生學(xué)習(xí)熱情,改善學(xué)習(xí)成績(jī),培養(yǎng)全面發(fā)展的英語(yǔ)人才。

一、中國(guó)英語(yǔ)教育的規(guī)模與社會(huì)需求

全球化進(jìn)程和頻繁的國(guó)際交流推動(dòng)著我國(guó)的英語(yǔ)教育發(fā)展,同時(shí)也導(dǎo)致外語(yǔ)類教學(xué)消費(fèi)的泡沫現(xiàn)象。針對(duì)高校英語(yǔ)專業(yè)和英語(yǔ)增長(zhǎng)和英語(yǔ)類考試泛濫的現(xiàn)狀,導(dǎo)致了學(xué)生數(shù)量與教學(xué)質(zhì)量之間的矛盾。我國(guó)高校英語(yǔ)教育規(guī)模和社會(huì)需求的快速發(fā)展,但也隨之帶來(lái)了師資不足、教材陳舊、教學(xué)手段落后、理論和實(shí)際脫離等一系列問(wèn)題。在飛速發(fā)展的大數(shù)據(jù)時(shí)代,如何在保障英語(yǔ)教育規(guī)模的同時(shí),建設(shè)英語(yǔ)專業(yè)教材、深化英語(yǔ)專業(yè)教學(xué)改革、確保英語(yǔ)專業(yè)教學(xué)質(zhì)量已經(jīng)成為當(dāng)前迫切需要解決的問(wèn)題。

二、大數(shù)據(jù)分析模型在學(xué)生英語(yǔ)學(xué)習(xí)過(guò)程中的應(yīng)用

大數(shù)據(jù)概念在教育領(lǐng)域的發(fā)展體現(xiàn)在:開(kāi)創(chuàng)教育理念的新思維新視角的同時(shí),也給教育實(shí)踐探索帶來(lái)了新技術(shù)、新方法。通過(guò)數(shù)據(jù)記錄學(xué)生學(xué)習(xí)的能力、效果、時(shí)間、水平、成績(jī)、思維流程等,能夠直接、具象的掌握學(xué)生的學(xué)習(xí)進(jìn)度。通過(guò)大數(shù)據(jù)系統(tǒng),對(duì)這些信息和數(shù)據(jù)進(jìn)行記錄、整理、統(tǒng)計(jì)、分析,使得教師能更科學(xué)全面地掌握學(xué)生的學(xué)習(xí)動(dòng)向,也使得學(xué)生和家長(zhǎng)能及時(shí)客觀地了解個(gè)體發(fā)展情況。

通過(guò)大數(shù)據(jù)分析模型著重闡述了如何對(duì)學(xué)生英語(yǔ)水平進(jìn)行切面橫向的評(píng)價(jià),同時(shí)進(jìn)行分析研究,查缺補(bǔ)漏,制定個(gè)性化學(xué)習(xí)方案,教師實(shí)行定制化的施教方案,有針對(duì)性地對(duì)學(xué)生的英語(yǔ)學(xué)習(xí)進(jìn)行指導(dǎo)和教授知識(shí)點(diǎn),有效提高學(xué)生英語(yǔ)水平。

從縱向的時(shí)間維度來(lái)講,以學(xué)生個(gè)體在學(xué)習(xí)過(guò)程中積累的變動(dòng)數(shù)據(jù)為根據(jù),橫向細(xì)分考察點(diǎn)(聽(tīng)說(shuō)讀寫(xiě)譯的子考察點(diǎn))為依托,這樣可以繪制出學(xué)生個(gè)體在學(xué)習(xí)過(guò)程中的數(shù)據(jù)變化模型,制作出來(lái)評(píng)分圖,對(duì)比以前的評(píng)分圖,可以實(shí)現(xiàn)對(duì)該學(xué)生整個(gè)學(xué)習(xí)過(guò)程進(jìn)行可視化研究,并隨時(shí)調(diào)整學(xué)習(xí)方法和施教方案,有針對(duì)性地加強(qiáng)薄弱點(diǎn)的學(xué)習(xí),掌控學(xué)生的學(xué)習(xí)效果。

同前面所述一樣可以繪制出學(xué)生的學(xué)習(xí)水平評(píng)價(jià)表,可以清晰地記錄學(xué)生的學(xué)習(xí)軌跡,如果條件允許還可以制定學(xué)習(xí)記錄檔案,這不僅能成為學(xué)生學(xué)習(xí)成長(zhǎng)的指引工具,也有助于鍛煉學(xué)生的分析解決問(wèn)題能力和邏輯思維。

三、大數(shù)據(jù)分析法在英語(yǔ)教學(xué)當(dāng)中的應(yīng)用

1.大數(shù)據(jù)分析模型在學(xué)習(xí)群體中的分類應(yīng)用。對(duì)一個(gè)學(xué)習(xí)群體來(lái)講,主要從以下四個(gè)方面進(jìn)行分類研究,考查點(diǎn)分別是基礎(chǔ)綜合水平、學(xué)生學(xué)習(xí)目標(biāo)要求、英語(yǔ)學(xué)習(xí)薄弱點(diǎn)和學(xué)生的性格特點(diǎn)等。該四個(gè)考查點(diǎn)每個(gè)以滿分100分計(jì),基礎(chǔ)綜合水平時(shí)根據(jù)學(xué)生目前的學(xué)習(xí)狀況做個(gè)全面客觀的測(cè)試,可以從聽(tīng)說(shuō)讀寫(xiě)譯等五個(gè)基礎(chǔ)點(diǎn)進(jìn)行測(cè)試,為考慮英語(yǔ)教學(xué)是為學(xué)生英語(yǔ)學(xué)習(xí)的全面發(fā)展,故每個(gè)基礎(chǔ)點(diǎn)滿分為20分,進(jìn)行考察統(tǒng)計(jì);學(xué)生學(xué)習(xí)目標(biāo)要求是指根據(jù)學(xué)生當(dāng)前狀況,同時(shí)結(jié)合學(xué)生家長(zhǎng)、學(xué)生本人以及學(xué)校的期望和要求,制定合理的學(xué)習(xí)目標(biāo);英語(yǔ)學(xué)習(xí)薄弱點(diǎn)主要通過(guò)綜合水平的考查就可得出學(xué)生學(xué)習(xí)的評(píng)估結(jié)論;性格特點(diǎn)是指在英語(yǔ)學(xué)習(xí)過(guò)程當(dāng)中該學(xué)生適合的一種學(xué)習(xí)方法,以上四個(gè)方面具體參考下面表格進(jìn)行分類:

通過(guò)基礎(chǔ)綜合水平(從聽(tīng)說(shuō)讀寫(xiě)譯等五個(gè)方面進(jìn)行考核)、學(xué)習(xí)薄弱點(diǎn)、性格特點(diǎn)、學(xué)習(xí)目標(biāo)要求(學(xué)生自己的學(xué)習(xí)水平,學(xué)生家長(zhǎng)、學(xué)生本人以及學(xué)校的期望和要求)這四個(gè)方面,將學(xué)生群體分成幾類,清楚了解他們?cè)谟⒄Z(yǔ)學(xué)習(xí)過(guò)程中存在的問(wèn)題,可針對(duì)性地進(jìn)行施教,同時(shí)對(duì)學(xué)習(xí)過(guò)程進(jìn)行圖表追蹤,可以直觀反映學(xué)生在學(xué)習(xí)過(guò)程中的進(jìn)步情況。傳統(tǒng)的教育教學(xué)評(píng)價(jià)模式和大數(shù)據(jù)的評(píng)價(jià)模式有較大的差別,大數(shù)據(jù)時(shí)代的教育,更加注重ρ生多方面的考核,對(duì)學(xué)生的了解更具有針對(duì)性,施教方法和教材的選用都能體現(xiàn)個(gè)性化,會(huì)更客觀和全面地對(duì)學(xué)生進(jìn)行考核、評(píng)價(jià)、分析和研究。

通過(guò)對(duì)學(xué)生群體從以上四個(gè)大方向的了解分析,進(jìn)行有針對(duì)性的施教,前三個(gè)方面是從學(xué)生當(dāng)前自身的了解,后一項(xiàng)是對(duì)其學(xué)習(xí)目標(biāo)的確認(rèn),首先,在了解以上各方面的狀態(tài)下,結(jié)合學(xué)生的基礎(chǔ)綜合水平高低將其目標(biāo)分段實(shí)現(xiàn),同時(shí),結(jié)合其學(xué)習(xí)薄弱點(diǎn),進(jìn)行重點(diǎn)練習(xí)和學(xué)習(xí),鞏固以前基礎(chǔ),提升重點(diǎn)知識(shí)水平,針對(duì)不同性格的學(xué)生,采用不同的學(xué)習(xí)和練習(xí)方法,比如性格開(kāi)朗具有語(yǔ)言天賦的學(xué)生更能在聽(tīng)說(shuō)應(yīng)用中提高知識(shí)水平,性格內(nèi)向的學(xué)生在讀寫(xiě)和記憶知識(shí)方面更能發(fā)揮他們的優(yōu)勢(shì)。

2.大數(shù)據(jù)分析模型在學(xué)生個(gè)性化英語(yǔ)學(xué)習(xí)中應(yīng)用。

(1)英語(yǔ)教學(xué)評(píng)價(jià)指標(biāo)體系介紹。以單個(gè)學(xué)生為例,由評(píng)價(jià)老師組成評(píng)價(jià)小組,取平均值對(duì)學(xué)生進(jìn)行橫向切面的英語(yǔ)水平數(shù)據(jù)分析,評(píng)價(jià)表設(shè)計(jì)為:聽(tīng)(詞0.2、句0.2、文0.2、邏輯關(guān)系0.3、習(xí)語(yǔ)0.1)說(shuō)(發(fā)音0.5、斷句0.3、語(yǔ)氣語(yǔ)調(diào)0.2)、讀(詞匯0.3、句型0.3、語(yǔ)法0.4)寫(xiě)(詞匯0.5、格式行文0.2、組織結(jié)構(gòu)0.3)譯(口譯0.4、筆譯0.4、速記0.2)。

通過(guò)以上表格對(duì)學(xué)生的英語(yǔ)水平進(jìn)行全方位的數(shù)據(jù)分析,需要說(shuō)明的是評(píng)分等級(jí)可以是上面模糊指標(biāo),也可以是精確的得分,通過(guò)建立科學(xué)準(zhǔn)確的數(shù)學(xué)模型,可以輕而易舉的展現(xiàn)出某一學(xué)生的優(yōu)勢(shì)和不足,同時(shí)上表還可以結(jié)合學(xué)生的目標(biāo)要求拆開(kāi)來(lái)用,針對(duì)某一或幾個(gè)大類進(jìn)行評(píng)價(jià)分析,最終可視化地得出學(xué)生英語(yǔ)水平表,之后針對(duì)學(xué)生的不足制定出個(gè)性化的學(xué)習(xí)和施教方案。按照英語(yǔ)水平數(shù)據(jù)分析評(píng)價(jià)模型表,就某一學(xué)生實(shí)際英語(yǔ)水平考查得分用柱狀圖進(jìn)行可視化分析。

從圖1可以看出該學(xué)生的能力水平中等偏上,但是翻譯水平很差,讀寫(xiě)水平良好,聽(tīng)說(shuō)能力一般,總體水平都有待提高,特別是翻譯水平需要特別注意。經(jīng)過(guò)分析,針對(duì)該學(xué)生教師首先著重從鍛煉其翻譯能力為重,制定專門(mén)能夠提高翻譯水平的施教方案和策略,同時(shí)注意對(duì)聽(tīng)說(shuō)讀寫(xiě)等方面能力的學(xué)習(xí)和提高。

下面再聽(tīng)力水平為例進(jìn)行分析,研究哪些細(xì)分方面能力水低而導(dǎo)致該生的聽(tīng)力水平一般。以聽(tīng)力水平考查得分為例,

由上圖可以輕松看出來(lái)該生的英語(yǔ)聽(tīng)力水平一般,具體原因除在詞匯方面表現(xiàn)良好以外,其他細(xì)分能力點(diǎn)的水平都很普通,在全文聽(tīng)力理解表現(xiàn)較差,對(duì)語(yǔ)句理解一般,全文邏輯關(guān)系掌握較差,英語(yǔ)習(xí)語(yǔ)的了解水平低,說(shuō)明該生需要著重訓(xùn)練語(yǔ)句及全文的聽(tīng)力理解邏輯關(guān)系和英語(yǔ)習(xí)語(yǔ)的學(xué)習(xí),結(jié)合英語(yǔ)聽(tīng)力能力的不足點(diǎn),制定個(gè)性化學(xué)習(xí)和施教方案,有針對(duì)性地彌補(bǔ)不足;同時(shí)從時(shí)間維度來(lái)看,可以隔一段時(shí)間對(duì)該學(xué)生的水平進(jìn)行評(píng)價(jià),做出評(píng)分圖,對(duì)比以前的評(píng)分圖可以看出該學(xué)生的提升幅度和當(dāng)前的能力水平,適時(shí)調(diào)整學(xué)習(xí)方法和側(cè)重點(diǎn),優(yōu)化調(diào)整施教方案。

四、結(jié)束語(yǔ)

“數(shù)據(jù)驅(qū)動(dòng)社會(huì),分析變革教育”的大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),改變和優(yōu)化傳統(tǒng)的教育教學(xué)方法是時(shí)代所趨,更是學(xué)生學(xué)習(xí)的內(nèi)在所需。教育數(shù)據(jù)資源共享,利用大數(shù)據(jù)分析模型開(kāi)展教育和教學(xué)工作,提高學(xué)生英語(yǔ)學(xué)習(xí)水平,降低學(xué)習(xí)成本,實(shí)現(xiàn)大數(shù)據(jù)分析方法的最大的價(jià)值。

大數(shù)據(jù)分析論文:基于“互聯(lián)網(wǎng)+”和大數(shù)據(jù)分析的社區(qū)老人智能醫(yī)療服務(wù)系統(tǒng)

【摘要】 互聯(lián)網(wǎng)醫(yī)療助力于分級(jí)診療,即是要做好“小病到社區(qū),大病到醫(yī)院”。文章擬選用基于大數(shù)據(jù)分析技術(shù)設(shè)計(jì)出一種更智能、更快捷的社區(qū)老人智能醫(yī)療服務(wù)系統(tǒng)。該系統(tǒng)采用互聯(lián)網(wǎng)技術(shù)和大數(shù)據(jù)分析技術(shù),將手機(jī)APP與信息協(xié)作平臺(tái)相結(jié)合,在社區(qū)內(nèi)建立一個(gè)較為完善的醫(yī)療服務(wù)系統(tǒng)。

【關(guān)鍵詞】 “互聯(lián)網(wǎng)+” 大數(shù)據(jù) “三角服務(wù)”模型 智能醫(yī)療服務(wù)系統(tǒng)

在人口快速老齡化、家庭規(guī)模日益小型化和機(jī)構(gòu)養(yǎng)老發(fā)展不足等多重因素的影響下,發(fā)展社區(qū)養(yǎng)老逐漸成為一種必然選擇。建立起基于“互聯(lián)網(wǎng)+”和大數(shù)據(jù)分析的社區(qū)老人智能醫(yī)療服務(wù)系統(tǒng),在市區(qū)大醫(yī)院、社區(qū)醫(yī)療站以及社區(qū)老年人三者之間建立起信息網(wǎng)絡(luò),使社區(qū)老年人的健康問(wèn)題得到更好的保障。

一、系統(tǒng)概述

現(xiàn)如今,大型醫(yī)院普遍存在床位緊張、人員調(diào)配效果不佳、管理體系不健全等問(wèn)題。建立社區(qū)老人智能醫(yī)療服務(wù)系統(tǒng)是完善現(xiàn)有醫(yī)療體系急需解決的主要問(wèn)題,同時(shí),隨著物聯(lián)網(wǎng)技術(shù)的不斷發(fā)展,將互聯(lián)網(wǎng)與大數(shù)據(jù)分析技術(shù)用于社區(qū)醫(yī)療服務(wù)系統(tǒng),已成為該方面的一項(xiàng)新技術(shù)。

二、技術(shù)分析

根據(jù)上述分析,需要開(kāi)發(fā)一套基于“互聯(lián)網(wǎng)+”和大數(shù)據(jù)分析的社區(qū)老人智能醫(yī)療服務(wù)系統(tǒng),此系統(tǒng)可以最優(yōu)化利用資源,幫助老人方便、快捷的解決突發(fā)狀況。為滿足需求,該方案需要具備以下技術(shù):1)概率統(tǒng)計(jì)。收集社區(qū)老人的體溫、心率等生命體征數(shù)據(jù)。以河師大社區(qū)為例,運(yùn)用概率統(tǒng)計(jì)技術(shù)采集社區(qū)老人的生命體征數(shù)據(jù)。2)大數(shù)據(jù)分析。分析老人生命體征數(shù)據(jù)。在信息協(xié)作平臺(tái)上,利用大數(shù)據(jù)分析、數(shù)據(jù)挖掘和人工智能中不確定性推理技術(shù),對(duì)采集到的老年人信息進(jìn)行分析及推斷。3)互聯(lián)網(wǎng)技術(shù)。構(gòu)建“三角服務(wù)”模型。運(yùn)用互聯(lián)網(wǎng)技術(shù),構(gòu)建一個(gè)以老人為中心,社區(qū)家庭、社區(qū)醫(yī)療站、市區(qū)醫(yī)院三大子系統(tǒng)相互連接的“三角服務(wù)”模型,實(shí)現(xiàn)智能管理。

三、設(shè)計(jì)方案

1、總體流程。整個(gè)醫(yī)療服務(wù)系統(tǒng)可分為線上和線下兩種服務(wù)方式。線上:系統(tǒng)按照固定方案進(jìn)行老人身體數(shù)據(jù)采集;線下:社區(qū)醫(yī)療站會(huì)定期派專業(yè)人士到老人家里對(duì)其進(jìn)行全方位檢查以及相關(guān)醫(yī)療知識(shí)的普及。

2、數(shù)據(jù)采集與處理。首先利用智能手環(huán)采集社區(qū)部分老年人的身體數(shù)據(jù),通過(guò)社區(qū)中建立的互聯(lián)網(wǎng)網(wǎng)絡(luò)把數(shù)據(jù)傳輸?shù)绞謾C(jī)APP以及信息協(xié)作平臺(tái)上。分析老人生命體征數(shù)據(jù)。在信息協(xié)作平臺(tái)上,利用大數(shù)據(jù)分析和不確定性推理技術(shù),對(duì)采集到的老年人信息進(jìn)行分析及推斷。

3、“三角服務(wù)”模型?!盎ヂ?lián)網(wǎng)+”社區(qū)養(yǎng)老中最為核心的就是系統(tǒng)模型的構(gòu)建,運(yùn)用互聯(lián)網(wǎng)技術(shù),構(gòu)建一個(gè)以老人為中心,社區(qū)家庭、社區(qū)醫(yī)療站、市區(qū)醫(yī)院三大系統(tǒng)相互連接的“三角服務(wù)”模型(如圖1所示)。

若采集到的老人的身體數(shù)據(jù)發(fā)生了變化,則會(huì)通過(guò)報(bào)警系統(tǒng)反饋到社區(qū)醫(yī)療站,社區(qū)醫(yī)療站則做出最快的反應(yīng),一方面,會(huì)到老人家中對(duì)老人進(jìn)行急救,另一方面,會(huì)及時(shí)將老人的存檔發(fā)送給醫(yī)院,并聯(lián)系醫(yī)院進(jìn)行一系列的急救措施,從而節(jié)約了救援時(shí)間。

4、構(gòu)建智能醫(yī)療服務(wù)系統(tǒng)。開(kāi)發(fā)社區(qū)老人智能醫(yī)療服務(wù)系統(tǒng)。即開(kāi)發(fā)一個(gè)集智能醫(yī)療設(shè)備、智能醫(yī)護(hù)終端設(shè)備和帶有功能模塊的智能醫(yī)護(hù)平臺(tái)為一體的服務(wù)系統(tǒng)。將采集到的老人身體數(shù)據(jù)存于專門(mén)的數(shù)據(jù)庫(kù)中,在信息協(xié)作平臺(tái)上將社區(qū)老人、社區(qū)醫(yī)療站和市區(qū)大醫(yī)院三者建立成一個(gè)相互共享的網(wǎng)絡(luò),實(shí)現(xiàn)數(shù)據(jù)信息的共享。手機(jī)APP與信息協(xié)作平臺(tái)相聯(lián)系,能夠通過(guò)移動(dòng)設(shè)備查看網(wǎng)絡(luò)平臺(tái)的信息,市區(qū)大醫(yī)院的醫(yī)療系統(tǒng)與社區(qū)醫(yī)療站的數(shù)據(jù)庫(kù)相連接,從而便于實(shí)現(xiàn)信息的共享。

結(jié)語(yǔ):本系統(tǒng)是基于“互聯(lián)網(wǎng)+”和大數(shù)據(jù)分析的社區(qū)老人智能醫(yī)療服務(wù)系統(tǒng),是物聯(lián)網(wǎng)在醫(yī)療領(lǐng)域的應(yīng)用,目的是為社區(qū)老人提供更便捷的醫(yī)療服務(wù)。將大數(shù)據(jù)分析技術(shù)與智能醫(yī)療服務(wù)系統(tǒng)相結(jié)合,在概率統(tǒng)計(jì)的基礎(chǔ)上,將手機(jī)APP與信息協(xié)作平臺(tái)相聯(lián)系,通過(guò)移動(dòng)設(shè)備查看網(wǎng)絡(luò)平臺(tái)的信息,便于實(shí)現(xiàn)信息的共享與交流,醫(yī)療服務(wù)更趨于智能化。

大數(shù)據(jù)分析論文:試論大數(shù)據(jù)分析在移動(dòng)通信網(wǎng)絡(luò)優(yōu)化過(guò)程中的運(yùn)用

【摘要】 隨著我國(guó)移動(dòng)通信網(wǎng)絡(luò)用戶的增加,優(yōu)化通信網(wǎng)絡(luò)成為一種必然。大稻菔貝為移動(dòng)通信網(wǎng)絡(luò)優(yōu)化提供了新技術(shù),掌握大數(shù)據(jù)時(shí)代特征,充分利用大數(shù)據(jù)技術(shù),完成移動(dòng)通信網(wǎng)絡(luò)的優(yōu)化過(guò)程,是當(dāng)下移動(dòng)運(yùn)營(yíng)商發(fā)展的主要任務(wù)之一。

【關(guān)鍵詞】 大數(shù)據(jù)分析 移動(dòng)通信網(wǎng)絡(luò)優(yōu)化 運(yùn)用

移動(dòng)通信網(wǎng)絡(luò)運(yùn)行故障具有較多的原因,大數(shù)據(jù)時(shí)代,通信運(yùn)營(yíng)商應(yīng)根據(jù)大數(shù)據(jù)的特征,采取大數(shù)據(jù)技術(shù)對(duì)其進(jìn)行分析和優(yōu)化。

一、目前網(wǎng)絡(luò)優(yōu)化中的困難

移動(dòng)通信網(wǎng)絡(luò)優(yōu)化是利用數(shù)據(jù)采集等手段分析網(wǎng)絡(luò)運(yùn)行慢的原因,并予以解決。這一問(wèn)題看似簡(jiǎn)單,但實(shí)際上存在很多困難。包括技術(shù)上的、資金上的。比如通信網(wǎng)絡(luò)資源龐雜,2G、3G、4G網(wǎng)同時(shí)運(yùn)行?;窘ㄔO(shè)需求不斷增加,網(wǎng)絡(luò)產(chǎn)生的數(shù)據(jù)不斷的增多,對(duì)龐雜網(wǎng)絡(luò)運(yùn)行狀態(tài)的分析需要掌握云計(jì)算等大數(shù)據(jù)分析技術(shù)。再比如,優(yōu)化網(wǎng)絡(luò)需求大量的資金,新建基站和網(wǎng)絡(luò)維護(hù)同時(shí)運(yùn)行,給移動(dòng)通信運(yùn)營(yíng)商帶來(lái)困難。部分通信網(wǎng)絡(luò)建成后無(wú)法及時(shí)投入使用,造成大量的資源浪費(fèi),對(duì)網(wǎng)絡(luò)運(yùn)行高峰期,運(yùn)行差異很難把握,基站的建設(shè)存在些許不合理。另外,同一小區(qū)的用戶類型具有多樣化特征,用戶的使用需求也有所不同。對(duì)于通信運(yùn)營(yíng)商而言,要致力于滿足所有用戶需求,這就對(duì)基站和天線的性能具有較高的要求,優(yōu)化通信頻譜率成為主要問(wèn)題。但是優(yōu)化網(wǎng)絡(luò)頻譜率并不容易,目前依然受到技術(shù)和資金上的限制。對(duì)同一時(shí)間段,不同業(yè)務(wù)模型的整理也需要采取大數(shù)據(jù)分析技術(shù),采用傳統(tǒng)的技術(shù)無(wú)法解決。

二、大數(shù)據(jù)分析在移動(dòng)網(wǎng)絡(luò)優(yōu)化中的運(yùn)用

2.1網(wǎng)絡(luò)性能大數(shù)據(jù)存儲(chǔ)

數(shù)據(jù)采集是網(wǎng)絡(luò)優(yōu)化的首要任務(wù),主要包括對(duì)通信網(wǎng)性能的采集、話務(wù)量的采集和信號(hào)測(cè)試三部分。通信網(wǎng)性能主要是指通信網(wǎng)絡(luò)的接入效果、經(jīng)緯度以及入載波頻點(diǎn)等基本參數(shù),用來(lái)判斷網(wǎng)絡(luò)的運(yùn)行速度和是否存在運(yùn)行故障。話務(wù)量的采集主要包括移動(dòng)信道的可利用率,接話率和掉話率等,采集話務(wù)量有助于運(yùn)營(yíng)商正確建立基站和設(shè)置天線的頻譜參數(shù),使網(wǎng)絡(luò)輸出更加合理。信號(hào)測(cè)試數(shù)據(jù)主要是現(xiàn)場(chǎng)測(cè)試,是對(duì)正在運(yùn)行的移動(dòng)通信網(wǎng)絡(luò)信號(hào)狀況進(jìn)行測(cè)試。包括DT數(shù)據(jù)和CQT數(shù)據(jù)測(cè)試。移動(dòng)通信網(wǎng)絡(luò)的需求增多,使用人數(shù)增多,每天都會(huì)產(chǎn)生大量的數(shù)據(jù),這些數(shù)據(jù)包括種不同類型。因此,對(duì)于傳統(tǒng)的數(shù)據(jù)分析方式明顯不能滿足數(shù)據(jù)分析的需求,無(wú)法了解網(wǎng)絡(luò)運(yùn)行的基本狀態(tài)。而要完成對(duì)數(shù)據(jù)的分析,首先系統(tǒng)要具有大數(shù)據(jù)存儲(chǔ)功能,虛擬化技術(shù)是目前用于移動(dòng)大數(shù)據(jù)存儲(chǔ)的主要方式,該方式能夠提供高容量,能夠?qū)?shù)據(jù)進(jìn)行完整的存儲(chǔ),并且關(guān)注存儲(chǔ)細(xì)節(jié)處理和可擴(kuò)展儲(chǔ)存。使用虛擬化存儲(chǔ),能夠?qū)?nèi)部數(shù)據(jù)、外部數(shù)據(jù)和多廠商的全部數(shù)據(jù)進(jìn)行統(tǒng)一存儲(chǔ)于一個(gè)平臺(tái)之上。并在對(duì)數(shù)據(jù)中心改變其動(dòng)態(tài)容量,大大降低了存儲(chǔ)資源的空間,降低成本,滿足大數(shù)據(jù)時(shí)代的通信要求。目前,通信公司已經(jīng)開(kāi)始著手研發(fā)虛擬化技術(shù),來(lái)應(yīng)對(duì)大數(shù)據(jù)處理。

2.2大數(shù)據(jù)在網(wǎng)絡(luò)優(yōu)化中的具體運(yùn)用

網(wǎng)絡(luò)優(yōu)化的關(guān)鍵是正確進(jìn)行網(wǎng)絡(luò)定位和網(wǎng)絡(luò)分析,解決網(wǎng)絡(luò)運(yùn)行中的掉話和干擾問(wèn)題。隨著基站建設(shè)的增多,建設(shè)不合理導(dǎo)致的信號(hào)覆蓋不全問(wèn)題大量存在,天線角度設(shè)置問(wèn)題也時(shí)有發(fā)生。而對(duì)于移動(dòng)通信運(yùn)行而言,技術(shù)的更新始終是最困難的。上文我們分析,網(wǎng)絡(luò)優(yōu)化的主要問(wèn)題就是數(shù)據(jù)的采集,實(shí)際上這一過(guò)程包括優(yōu)化準(zhǔn)備、問(wèn)題查找與分析,優(yōu)化調(diào)整實(shí)施和提取印證幾部分。其中數(shù)據(jù)采集、問(wèn)題分析、優(yōu)化調(diào)整是網(wǎng)絡(luò)優(yōu)化的核心,并且需要重復(fù)進(jìn)行,在移動(dòng)通信網(wǎng)絡(luò)運(yùn)行過(guò)程中經(jīng)常發(fā)生。按照上文我們分析的移動(dòng)通信網(wǎng)絡(luò)優(yōu)化階段,并結(jié)合大數(shù)據(jù)的特征,首先將優(yōu)化目標(biāo)定位為網(wǎng)絡(luò)基站的檢查,隨后進(jìn)行數(shù)據(jù)的測(cè)試和網(wǎng)絡(luò)運(yùn)行的測(cè)試。檢查基站是否存在露覆蓋和重復(fù)覆蓋現(xiàn)象,通過(guò)大數(shù)據(jù)分析手段獲得基站的覆蓋信息,并對(duì)其進(jìn)行適當(dāng)?shù)恼{(diào)整,滿足覆蓋需求并降低干擾。準(zhǔn)備好測(cè)試工具,對(duì)數(shù)據(jù)進(jìn)行相關(guān)測(cè)試并存儲(chǔ)于云盤(pán)空間,利用虛擬化技術(shù)對(duì)網(wǎng)絡(luò)平臺(tái)數(shù)據(jù)進(jìn)行提取,從而正確分析移動(dòng)通信網(wǎng)絡(luò)運(yùn)行問(wèn)題所在,重點(diǎn)解決網(wǎng)絡(luò)信號(hào)不足、無(wú)主小區(qū)和頻繁切換問(wèn)題。將整個(gè)優(yōu)化階段分為兩部分,即天線射頻優(yōu)化調(diào)整和后臺(tái)參數(shù)優(yōu)化。天線射頻優(yōu)化就是對(duì)基站天線的調(diào)整,基站天線的覆蓋角度是影響信號(hào)輸出的重要原因,將天線調(diào)整于合理的范圍內(nèi),可以保證通信運(yùn)行合理。后臺(tái)參數(shù)調(diào)整則包括鄰區(qū)、基站扇區(qū)功率調(diào)整,并且還包括設(shè)置信道、切換參數(shù)、接入?yún)?shù)的調(diào)整。根據(jù)調(diào)整計(jì)劃調(diào)整后臺(tái)參數(shù),從才能保證移動(dòng)通信網(wǎng)絡(luò)的分布,為移動(dòng)通信網(wǎng)絡(luò)優(yōu)化打下基礎(chǔ)。對(duì)于網(wǎng)絡(luò)優(yōu)化而言,還需要技術(shù)人員根據(jù)需求不斷的調(diào)整,逐漸促進(jìn)移動(dòng)通信網(wǎng)絡(luò)優(yōu)化的合理性,保證參數(shù)的合理范圍,最終確保通信網(wǎng)的快速運(yùn)行。

總結(jié):大數(shù)據(jù)時(shí)代已經(jīng)到來(lái),對(duì)于移動(dòng)通信而言,用戶增多,需求增多,每天產(chǎn)生的數(shù)據(jù)只能用海量來(lái)形容。應(yīng)對(duì)大數(shù)據(jù)時(shí)代的特征,移動(dòng)網(wǎng)絡(luò)的優(yōu)化也應(yīng)充分采用云計(jì)算等技術(shù)。分析網(wǎng)絡(luò)運(yùn)行中存在的問(wèn)題,對(duì)通信網(wǎng)信道衰落,信號(hào)影響因素進(jìn)行處理,促進(jìn)我國(guó)移動(dòng)通信網(wǎng)絡(luò)的發(fā)展,滿足客戶需求。

大數(shù)據(jù)分析論文:大數(shù)據(jù)分析在通信網(wǎng)絡(luò)監(jiān)控系統(tǒng)中的應(yīng)用

【摘要】 通信網(wǎng)絡(luò)監(jiān)控系統(tǒng)在我國(guó)有著重要的意義,企業(yè)和個(gè)人越來(lái)越注重隱私。適應(yīng)這一需求需要企業(yè)基于大數(shù)據(jù)的特征,分析客戶需求,滿足客戶需求,幫助客戶建立專業(yè)的、優(yōu)質(zhì)的通信網(wǎng)絡(luò)監(jiān)控體系。

【關(guān)鍵詞】 大數(shù)據(jù) 通信網(wǎng)絡(luò)監(jiān)控系統(tǒng) 應(yīng)用

通信網(wǎng)絡(luò)監(jiān)控系統(tǒng)存在的意義是發(fā)現(xiàn)通信問(wèn)題并解決通信問(wèn)題。移動(dòng)通信系統(tǒng)快速發(fā)展的同時(shí),還應(yīng)注重用戶體驗(yàn),致力于建立人性化服務(wù)體系。通信網(wǎng)絡(luò)監(jiān)控包括多種不同模式,其中最常見(jiàn)的是以告警為出發(fā)點(diǎn)的設(shè)備和以客戶感知為出發(fā)點(diǎn)的設(shè)備。前者主要是關(guān)注設(shè)備的被破壞程度,但無(wú)法反應(yīng)網(wǎng)絡(luò)的優(yōu)良程度,主要用于故障解決。但是要將客戶放在第一位,筆者認(rèn)為,還需要采取更先進(jìn)的通信網(wǎng)絡(luò)監(jiān)控模式,建立從客戶體驗(yàn)出發(fā)的監(jiān)控體系,嚴(yán)把質(zhì)量關(guān)。文章將這兩種模式進(jìn)行了對(duì)比分析,肯定了大數(shù)據(jù)時(shí)代應(yīng)該以滿足客戶為目標(biāo)的企業(yè)發(fā)展戰(zhàn)略,致力于促進(jìn)該時(shí)期通信網(wǎng)絡(luò)監(jiān)控行業(yè)的發(fā)展。

一、以告警為出發(fā)點(diǎn)的網(wǎng)絡(luò)監(jiān)控體系

以告警為出發(fā)點(diǎn)的網(wǎng)絡(luò)監(jiān)控體系目前依然是監(jiān)控市場(chǎng)的主流,這一監(jiān)控體系主要用于對(duì)網(wǎng)絡(luò)故障進(jìn)行及時(shí)的處理。移動(dòng)通信業(yè)在發(fā)展過(guò)程中,監(jiān)控部門(mén)應(yīng)把握問(wèn)題的輕重緩急,合理利用時(shí)間,提供優(yōu)質(zhì)服務(wù)以滿足客戶服務(wù)。其主要原理就是在設(shè)備出現(xiàn)問(wèn)題時(shí)及時(shí)發(fā)出警報(bào),這樣就可避免一些損失。在故障的處理中,依然要堅(jiān)持這一原則,從而快速消除故障,確保通信穩(wěn)定。大數(shù)據(jù)時(shí)代,物聯(lián)網(wǎng)、云計(jì)算等新興模式的出現(xiàn)使以告警為出發(fā)點(diǎn)的網(wǎng)絡(luò)監(jiān)控體系稍顯落后。這一時(shí)期的數(shù)據(jù)多且復(fù)雜,能夠促發(fā)報(bào)警的數(shù)據(jù)多,一旦出現(xiàn)報(bào)警又不能及時(shí)出臺(tái)解決策略,將影響網(wǎng)絡(luò)用戶體驗(yàn),因此告警系統(tǒng)的功能應(yīng)進(jìn)一步拓寬。以告警為出發(fā)點(diǎn)的網(wǎng)絡(luò)監(jiān)控體系存在一定的問(wèn)題,比如對(duì)報(bào)警系統(tǒng)過(guò)于依賴,接口不穩(wěn)定等原因都會(huì)導(dǎo)致目標(biāo)脫離監(jiān)控。

同時(shí),這一時(shí)期的客戶感知度無(wú)法真實(shí)的從客戶那里得到,還必須通過(guò)破壞程度來(lái)判斷,但是這中間存在一定的偏差。發(fā)出警報(bào)要么影響網(wǎng)絡(luò)安全,要么影響業(yè)務(wù)輸出,因此很難最終確定原因。

當(dāng)然,以告警為出發(fā)點(diǎn)的監(jiān)控體系能夠大量應(yīng)用,其一是他具有大量的市場(chǎng)需求,其二是技術(shù)設(shè)計(jì)容易實(shí)現(xiàn),第三是一定程度上可以保證用網(wǎng)安全。未來(lái),針對(duì)這一網(wǎng)絡(luò)通信模式,還應(yīng)致力于提高網(wǎng)絡(luò)服務(wù)質(zhì)量。并且要做好一定的預(yù)防工作,不能總是等到故障出現(xiàn)采取處理。

二、以客戶感知為出發(fā)點(diǎn)的網(wǎng)絡(luò)監(jiān)控系統(tǒng)

以客戶感知為出發(fā)點(diǎn)的網(wǎng)絡(luò)監(jiān)控系統(tǒng)是近年來(lái)提出的一種新的監(jiān)控模式,與大數(shù)據(jù)時(shí)代的要求保持一致,且在大數(shù)據(jù)背景下很容易實(shí)現(xiàn)。其實(shí)現(xiàn)的主要流程是通過(guò)大數(shù)據(jù)采集海量客戶感知信息,并將其進(jìn)行整理后形成客戶的習(xí)慣和興趣點(diǎn),從而分析和對(duì)比用戶需求。結(jié)合已有的信息進(jìn)行告警設(shè)備的重新設(shè)置或者調(diào)整,可以第一時(shí)間保證用戶的用網(wǎng)安全。建立不同區(qū)域的服務(wù)質(zhì)量等級(jí),根據(jù)服務(wù)數(shù)據(jù)特征分析原因,提出意見(jiàn),并且形成客戶感知度報(bào)告,以此來(lái)進(jìn)行網(wǎng)絡(luò)的優(yōu)化,最大化的發(fā)揮了監(jiān)控系統(tǒng)的作用,對(duì)其過(guò)程進(jìn)行如下分析。

2.1客戶感知信息數(shù)據(jù)的采集

信息的采集是實(shí)現(xiàn)通信網(wǎng)絡(luò)監(jiān)控的前提。信息的采集可以是多渠道的,可以動(dòng)用戶終端設(shè)備,也可以是寬帶客戶。可以在終端設(shè)備上安裝軟件,記錄用戶的位置,并以區(qū)域和時(shí)間為軸線分析用戶移動(dòng)通信網(wǎng)絡(luò)的信號(hào)強(qiáng)度、掉話次數(shù),下載速度等數(shù)據(jù),根據(jù)需求對(duì)通信網(wǎng)絡(luò)進(jìn)行適當(dāng)?shù)膮?shù)調(diào)整,可以提高客戶的用網(wǎng)體驗(yàn)。寬帶用戶的收集是將信息收集軟件安裝于計(jì)算機(jī)端,記錄客戶的位置、下載速率等基本信息,并將數(shù)據(jù)上傳至感知信息接收平臺(tái)。最后在感知終端這一模擬客戶終端的收集下獲得用戶數(shù)據(jù),感知終端是一種特殊的終端,他集無(wú)線網(wǎng)、寬帶網(wǎng)和窄帶與一體,是靠模擬的方式完成收集相關(guān)參數(shù)??梢詫⑵浒惭b于通信網(wǎng)絡(luò)中的某個(gè)節(jié)點(diǎn)上,并利用PING測(cè)試本節(jié)點(diǎn)和下游設(shè)備的參數(shù),并且可以收集線下的服務(wù)參數(shù)。以收集大客網(wǎng)絡(luò)的情況信息。該系統(tǒng)的安裝位置隨意,具有特殊性,應(yīng)用較為廣泛,能夠正確的反應(yīng)客戶的信息,對(duì)通信監(jiān)控系統(tǒng)的優(yōu)化具有積極作用。

2.2客戶感知信息的處理

在感知信息系統(tǒng)中,對(duì)通信網(wǎng)絡(luò)監(jiān)控系統(tǒng)的信息進(jìn)行收集后,還需要采取一定的辦法對(duì)其進(jìn)行處理。處理信息是大數(shù)據(jù)時(shí)代,移動(dòng)通信網(wǎng)絡(luò)監(jiān)控的主要目的,處理數(shù)據(jù)才能解決問(wèn)題。當(dāng)然這一過(guò)程是復(fù)雜的,需要通過(guò)數(shù)據(jù)庫(kù)、資源庫(kù)和設(shè)備預(yù)警等多項(xiàng)技術(shù)相結(jié)合,并且要不斷的更新技術(shù),形成區(qū)域網(wǎng)絡(luò)服務(wù)質(zhì)量圖,并且要始終堅(jiān)持以人文本的原則。Y合已有的網(wǎng)絡(luò)結(jié)構(gòu)庫(kù)、資源庫(kù)、設(shè)備告警庫(kù)等進(jìn)行分析處理,形成區(qū)域網(wǎng)絡(luò)服務(wù)質(zhì)量視圖。

三、總結(jié)

網(wǎng)絡(luò)監(jiān)控體系在社會(huì)發(fā)展中發(fā)揮著重要作用,促進(jìn)行業(yè)的發(fā)展具有必要性。大數(shù)據(jù)一定程度上改變企業(yè)的商業(yè)模式和營(yíng)銷模式。因此了解大數(shù)據(jù)時(shí)代的特征,并且基于大數(shù)據(jù)進(jìn)行通信網(wǎng)絡(luò)監(jiān)控系統(tǒng)的分析,能夠促進(jìn)其發(fā)展。文章分析了基于大數(shù)據(jù)的移動(dòng)通信網(wǎng)絡(luò)監(jiān)控系統(tǒng)的應(yīng)用。

大數(shù)據(jù)分析論文:油田生產(chǎn)中大數(shù)據(jù)分析技術(shù)的研究及應(yīng)用

摘 要:自始以來(lái),由于地理位置的影響我國(guó)的石油資源處于緊缺的狀態(tài),傳統(tǒng)的人工技術(shù)已不能滿足我國(guó)石油需求的問(wèn)題,那么將大數(shù)據(jù)技術(shù)應(yīng)用于油田的建設(shè)中是一項(xiàng)急不可待的工程。文章以新疆油田公司為例,利用數(shù)據(jù)挖掘技術(shù)發(fā)掘油田隱藏的數(shù)據(jù)價(jià)值,提高數(shù)據(jù)的使用效率,利用數(shù)據(jù)找到合適油田,指導(dǎo)生產(chǎn)工作,更好地節(jié)約成本,提高綜合效益。

關(guān)鍵詞:油田生產(chǎn);大數(shù)據(jù);數(shù)據(jù)挖掘

前言

新疆油田重油開(kāi)發(fā)公司是以稠油開(kāi)采為主的采油廠。有著將近10年的數(shù)字油田建設(shè)歷史。而且中心數(shù)據(jù)庫(kù)已經(jīng)做得很成熟,主要包括五大業(yè)務(wù)板塊數(shù)據(jù)。即勘探業(yè)務(wù)板塊、開(kāi)發(fā)業(yè)務(wù)板塊、生產(chǎn)業(yè)務(wù)板塊、經(jīng)營(yíng)業(yè)務(wù)板塊的數(shù)據(jù)庫(kù)。數(shù)據(jù)庫(kù)包括的內(nèi)容主要有單井、區(qū)塊的日月報(bào)數(shù)據(jù)、試井與生產(chǎn)測(cè)井?dāng)?shù)據(jù)、分析化驗(yàn)數(shù)據(jù)、井下作業(yè)和地理信息數(shù)據(jù)等。數(shù)據(jù)庫(kù)的數(shù)據(jù)資源種類齊全,質(zhì)量高。2010年新疆油田重油開(kāi)發(fā)公司正式開(kāi)始進(jìn)行智能化油田建設(shè)工作,利用物聯(lián)網(wǎng)診斷單井問(wèn)題,使用大數(shù)據(jù)技術(shù)對(duì)油田進(jìn)行全面感知、分析預(yù)測(cè)、優(yōu)化決策找到油水井的生產(chǎn)規(guī)律,從而有助于油田生產(chǎn)工作進(jìn)行。

1 油田大數(shù)據(jù)的概念及處理流程

大數(shù)據(jù)有四個(gè)特點(diǎn)即量大(Volume)、快速生產(chǎn)(Velocity)、類型豐富(Variety)、真實(shí)性(Veracity),被稱為4V[1]。由于數(shù)據(jù)的數(shù)量非常大,就將數(shù)據(jù)組成數(shù)據(jù)集,進(jìn)行管理、處理實(shí)現(xiàn)數(shù)據(jù)的價(jià)值。大數(shù)據(jù)對(duì)數(shù)據(jù)庫(kù)的整理流程是將數(shù)據(jù)轉(zhuǎn)化為信息,將信息轉(zhuǎn)化為知識(shí),再將知識(shí)轉(zhuǎn)化為智慧。這個(gè)過(guò)程應(yīng)用于油田可以理解為是對(duì)油田的生產(chǎn)和管理工作。大數(shù)據(jù)的七個(gè)處理步驟包括:對(duì)數(shù)據(jù)的提取和收集、清洗數(shù)據(jù)、分析數(shù)據(jù)找到潛在的內(nèi)在價(jià)值規(guī)律、建立預(yù)測(cè)模型、對(duì)結(jié)果進(jìn)行可視化的估計(jì)、驗(yàn)證結(jié)果、評(píng)估模型。

2 大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)研究

新疆油田為了滿足生產(chǎn)應(yīng)用,構(gòu)建了一個(gè)有效的大數(shù)據(jù)分析平臺(tái)及體系架構(gòu)。此平臺(tái)主要包括四個(gè)基礎(chǔ)架構(gòu):數(shù)據(jù)抽取平臺(tái)、進(jìn)行分布式的存儲(chǔ)平臺(tái)、大數(shù)據(jù)的分析與展示平臺(tái)。最底層是數(shù)據(jù)抽取平臺(tái)主要是實(shí)現(xiàn)數(shù)據(jù)的整合,將數(shù)據(jù)轉(zhuǎn)化成適合進(jìn)行數(shù)據(jù)挖掘或者建模的形式,構(gòu)建可靠的樣本數(shù)據(jù)集。存儲(chǔ)平臺(tái)主要是對(duì)數(shù)據(jù)進(jìn)行匯總、建模、分析,最后將處理好的數(shù)據(jù)進(jìn)行儲(chǔ)存。其功能與數(shù)據(jù)倉(cāng)庫(kù)相似。大數(shù)據(jù)分析層,是在大數(shù)據(jù)建模的工具和算法基礎(chǔ)上,挖掘隱藏的數(shù)據(jù)模式和關(guān)系,利用數(shù)據(jù)軟件進(jìn)行分類、建模,生成預(yù)測(cè)的結(jié)果,結(jié)合專家經(jīng)驗(yàn)利用測(cè)試的樣本選定評(píng)價(jià)方案不斷提高模型的精度,更好的用于油田的決策。數(shù)據(jù)應(yīng)用層主要是把建立的模型設(shè)計(jì)為運(yùn)行軟件,運(yùn)用建模方法實(shí)現(xiàn)數(shù)據(jù)的可視化界面設(shè)計(jì),更好的實(shí)現(xiàn)人機(jī)交互。

3 大數(shù)據(jù)分析技術(shù)研究

進(jìn)行大數(shù)據(jù)分析時(shí)我們經(jīng)常采用兩大技術(shù)即大數(shù)據(jù)預(yù)處理和抽取技術(shù),大數(shù)據(jù)分析技術(shù)。

3.1 大數(shù)據(jù)抽取及預(yù)處理技術(shù)

大數(shù)據(jù)預(yù)處理和抽取技術(shù)的原理是指將不同名稱,不同時(shí)間,不同地點(diǎn)的多種不同結(jié)構(gòu)和類別的數(shù)據(jù)抽取處理成一種所表達(dá)的算法和內(nèi)涵一致便于處理類型的數(shù)據(jù)結(jié)構(gòu)[2]。在檢查數(shù)據(jù)缺失、數(shù)據(jù)異常時(shí)可以使用數(shù)據(jù)清洗方法確定有用的數(shù)據(jù),一般采用剔除法或估計(jì)值法、填補(bǔ)平均值替換錯(cuò)誤的數(shù)據(jù)。為了滿足建模所需的大量數(shù)據(jù),創(chuàng)建新的字段時(shí)需要進(jìn)行數(shù)據(jù)庫(kù)的構(gòu)建。將原始數(shù)據(jù)用一定的方法如歸一法轉(zhuǎn)換為可用于數(shù)據(jù)挖掘的數(shù)據(jù),這個(gè)過(guò)程為數(shù)據(jù)轉(zhuǎn)換。

3.2 大數(shù)據(jù)分析技術(shù)

應(yīng)用于油田的大數(shù)據(jù)分析技術(shù)為:因子分析技術(shù)、聚類分析技術(shù)、回歸分析技術(shù)和數(shù)據(jù)挖掘技術(shù)。其中的因子分析技術(shù)是指,利用少數(shù)的因子對(duì)多個(gè)指標(biāo)和因素間的相關(guān)性進(jìn)行描述,一般將密切相關(guān)的多個(gè)變量歸納為一類,這一類數(shù)據(jù)就屬于一個(gè)影響因子,用較少的因子反應(yīng)大量數(shù)據(jù)的信息。聚類分析技術(shù)是指把具有某種共同特性的事物或者物體歸屬于一個(gè)類型,并按照這些特性劃分為幾個(gè)類別,同種類型的事物相似性較高。這樣更利于辨別預(yù)先未知的事物特征?;貧w分析是指在一組數(shù)據(jù)的基礎(chǔ)之上,研究一個(gè)變量和其他變量間隱藏的關(guān)系。利用回歸方程,進(jìn)行回歸分析,從而有規(guī)律地把變量之間的不規(guī)則,不確定的復(fù)雜關(guān)系簡(jiǎn)單得表示出來(lái)。

在使用大數(shù)據(jù)進(jìn)行分析時(shí),數(shù)據(jù)挖掘技術(shù)是最關(guān)鍵的一門(mén)技術(shù)。該技術(shù)將大量復(fù)雜的、隨機(jī)性的、模糊的、不完整的數(shù)據(jù)進(jìn)行分析,挖掘出對(duì)人類未來(lái)有用的數(shù)據(jù),即提前獲得未知信息的過(guò)程[3]。數(shù)據(jù)挖掘功能分為預(yù)測(cè)功能和描述功能。數(shù)據(jù)預(yù)測(cè)是指對(duì)數(shù)據(jù)進(jìn)行處理推算,完成預(yù)測(cè)的目的。數(shù)據(jù)描述是展現(xiàn)集體數(shù)據(jù)的特性。數(shù)據(jù)挖掘功能是與數(shù)據(jù)的目標(biāo)類型有關(guān),有的功能適用于不同類型的數(shù)據(jù),有的功能則只適用于特定功能的數(shù)據(jù)。數(shù)據(jù)挖掘的作用就是讓人們能夠提前得到未知的消息,提升數(shù)據(jù)的有效性,使其可以應(yīng)用于不同的領(lǐng)域。

4 大數(shù)據(jù)分析在油田生產(chǎn)中的應(yīng)用研究

4.1 異常井自動(dòng)識(shí)別

油田生產(chǎn)過(guò)程中影響最大的一個(gè)因素是異常井的出現(xiàn),因此生產(chǎn)管理人員加大了對(duì)異常井的重視。最初,異常井的識(shí)別主要是依靠生產(chǎn)部門(mén)的生產(chǎn)人員,必須經(jīng)過(guò)人工查閱許多關(guān)于油田生產(chǎn)的資料才能確定異常井,這種人工檢閱的方法存在很多缺陷。比如說(shuō)大量的檢索工作、耗費(fèi)時(shí)間長(zhǎng)等,對(duì)異常井的診斷和措施制定造成很大的困難。異常井是指油井當(dāng)天的產(chǎn)油量和上個(gè)月相比波動(dòng)很大,并大于正常的波動(dòng)范圍。目前廣泛采用數(shù)據(jù)挖掘技術(shù)和聚類分析技術(shù)對(duì)異常井進(jìn)行識(shí)別,提高效率。為了實(shí)現(xiàn)算法編譯使用技術(shù),系統(tǒng)架構(gòu)B/S模式進(jìn)行,能夠及時(shí)發(fā)現(xiàn)異常井的存在。

4.2 異常井智能診斷

異常井診斷是油田每天進(jìn)行生產(chǎn)必須要完成的工序。而大部分油田采用人工方法對(duì)其進(jìn)行異常診斷,工作量極大,影響因素較多,診斷結(jié)果的可靠性較低,對(duì)后期進(jìn)行計(jì)劃實(shí)施造成很大的影響。這時(shí)可以采用智能診斷方法,利用灰度圖像處理技術(shù)和人臉識(shí)別算法建立抽油井的特征功圖庫(kù),對(duì)比油井當(dāng)前的功圖和所建立的特征功圖,實(shí)現(xiàn)異常井的診斷。若是相似則不屬于異常井,反之,則為異常井。但是有時(shí)一種工況可能會(huì)有許多中表現(xiàn)方式,致使功圖解釋存在很多種狀況,可以采取因子分析法,分析每個(gè)工況下關(guān)聯(lián)的因子間是如何變化,然后建立參數(shù)診斷數(shù)據(jù)庫(kù),對(duì)比相關(guān)因子的指標(biāo)項(xiàng),找到異常的原因,采取適合的方案進(jìn)行修改,從而提高單井的生產(chǎn)效率。

4.3 間抽井開(kāi)關(guān)井計(jì)劃制訂

當(dāng)油田開(kāi)發(fā)進(jìn)入后期階段就會(huì)出現(xiàn)很多問(wèn)題,過(guò)度開(kāi)發(fā)使得地層的能量越來(lái)越少,致使更多供液不足的井開(kāi)發(fā)出來(lái)。將這類井稱之為間歇出油井。新疆油田一般會(huì)使用人工方法制訂間歇出油井的開(kāi)關(guān)時(shí)間計(jì)劃,但是對(duì)于計(jì)劃的合理性沒(méi)有進(jìn)行檢驗(yàn)。若是能夠控制好間歇出油井的開(kāi)關(guān)時(shí)間,對(duì)油田實(shí)現(xiàn)節(jié)能減排是至關(guān)重要的。這時(shí)可以采用因子分析方法和回歸分析法進(jìn)行研究,利用數(shù)據(jù)挖掘技術(shù)找出影響間歇出油井的開(kāi)關(guān)時(shí)間的因素,建立合適的分析模型,對(duì)模型進(jìn)行線性回歸,進(jìn)行歸一化處理。從而為業(yè)務(wù)人員提供制訂間歇出油井開(kāi)關(guān)時(shí)間的合理方案,達(dá)到節(jié)能減排的效果。

4.4 油井清防蠟預(yù)測(cè)

目前油田上對(duì)于油井清蠟采取平均每口井一個(gè)月清洗一次蠟的措施,按照人工計(jì)劃進(jìn)行,出現(xiàn)了許多問(wèn)題。比如,一些井還沒(méi)有結(jié)蠟就已被清洗,有些井已經(jīng)結(jié)蠟,卻沒(méi)有得到及時(shí)清洗。這樣既浪費(fèi)大量的人力物力,而且還對(duì)油田的生產(chǎn)效率產(chǎn)生不利影響。若是利用因子分析法,將收集的關(guān)于結(jié)蠟周期、清蠟方式、清蠟用量、油井狀況等數(shù)據(jù)進(jìn)行分析,建立油井Y蠟?zāi)P?,再利用回歸分析法對(duì)建立的模型建立曲線方程,進(jìn)行預(yù)測(cè),找到結(jié)蠟時(shí)間,推斷出結(jié)蠟周期,更好的指導(dǎo)油田清蠟工序的進(jìn)行,提高油田的精細(xì)化管理。

5 結(jié)束語(yǔ)

總之,對(duì)比以前利用人工進(jìn)行油田生產(chǎn)可以發(fā)現(xiàn)大數(shù)據(jù)對(duì)于油田生產(chǎn)是非常必要的,可以更快的挖掘油田的生產(chǎn)作業(yè)規(guī)律,解決油田生產(chǎn)的困難。而且,可以利用油田數(shù)據(jù)進(jìn)行可視化分析,關(guān)注問(wèn)題的主要影響因素找到管理中存在的不足,預(yù)防未來(lái)問(wèn)題的出現(xiàn)。大數(shù)據(jù)的核心價(jià)值就是通過(guò)以往大量數(shù)據(jù)進(jìn)行分析,預(yù)測(cè)出未來(lái),從而更好地指導(dǎo)油田的生產(chǎn)工作。

大數(shù)據(jù)分析論文:大數(shù)據(jù)分析在企業(yè)管理中的應(yīng)用

自改革以來(lái),我國(guó)社會(huì)經(jīng)濟(jì)取得了巨大的發(fā)展,同時(shí)也帶動(dòng)了各行各業(yè)的迅猛崛起和發(fā)展,市場(chǎng)競(jìng)爭(zhēng)日益激烈。而隨著大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)分析逐漸成為當(dāng)今社會(huì)各界的談?wù)摕狳c(diǎn),各大企業(yè)也想通過(guò)大數(shù)據(jù)分析來(lái)使自身的競(jìng)爭(zhēng)力得到有效提升。但是每個(gè)企業(yè)對(duì)大數(shù)據(jù)分析的理解和應(yīng)用等方面均存在部分差異,我們?cè)撊绾问勾髷?shù)據(jù)分析充分發(fā)揮它應(yīng)用的作用,進(jìn)而有效提升企業(yè)的管理水平,這點(diǎn)成為企業(yè)需要解決的首要任務(wù)之一。本文將大數(shù)據(jù)分析在企業(yè)管理中的應(yīng)用作為論述的重點(diǎn),希望能為廣大的管理人員提供幫助,進(jìn)而有效促進(jìn)我國(guó)企業(yè)管理水平的提升。

由于大數(shù)據(jù)時(shí)代的到來(lái),大數(shù)據(jù)分析漸漸成為社會(huì)各界關(guān)注的重點(diǎn)之一,各個(gè)行業(yè)都或多或少地涉及以及正在應(yīng)用大數(shù)據(jù)分析。有人曾說(shuō):在二十一世紀(jì)中,如果不緊跟大數(shù)據(jù)時(shí)代的發(fā)展步伐,就很可能與時(shí)代脫軌,在市場(chǎng)競(jìng)爭(zhēng)中毫無(wú)優(yōu)勢(shì)可言。但現(xiàn)代很多企業(yè)對(duì)大數(shù)據(jù)的相關(guān)含義以及作用等的理解不夠科學(xué)和全面,在這一前提下,要想使大數(shù)據(jù)分析真正發(fā)揮應(yīng)有的效用是很難的?;诖?,本文不但對(duì)大數(shù)據(jù)的含義做了簡(jiǎn)要介紹,還從企業(yè)管理方面出發(fā),說(shuō)明了大數(shù)據(jù)分析應(yīng)用時(shí)需要注意的相關(guān)事項(xiàng),旨在提高國(guó)內(nèi)企業(yè)的管理水平。

大數(shù)據(jù)分析簡(jiǎn)述

近些年來(lái),信息技術(shù)得到了驚人的發(fā)展和成熟,同時(shí)它也真正走入了人們的生產(chǎn)、生活中,各行業(yè)的日常運(yùn)作和發(fā)展也離不開(kāi)現(xiàn)代信息系統(tǒng)的支持。特別是上世紀(jì)90年代數(shù)據(jù)倉(cāng)庫(kù)技術(shù)產(chǎn)生后,給各行業(yè)的發(fā)展帶來(lái)了翻天覆地的變化,同時(shí)信息、數(shù)據(jù)規(guī)模開(kāi)始呈PB級(jí)增長(zhǎng)的趨勢(shì)。從前的企業(yè)僅僅將信息系統(tǒng)視為企業(yè)運(yùn)行程序的一類輔佐系統(tǒng),對(duì)其中龐大信息、數(shù)據(jù)并沒(méi)有足夠的重視,所以數(shù)據(jù)的作用并未得到真正的發(fā)揮。但通過(guò)長(zhǎng)期的觀察和研究,企業(yè)發(fā)現(xiàn)利用數(shù)據(jù)分析不但能減少工作人員的任務(wù)量,還能夠?qū)蛻舻亩鄻踊枨筮M(jìn)行全面、準(zhǔn)確地分析,進(jìn)而有利于企業(yè)效益的增長(zhǎng),因此,“大數(shù)據(jù)分析”的概念就產(chǎn)生了。大數(shù)據(jù)分析的根本是在龐大的數(shù)據(jù)中尋找并發(fā)現(xiàn)價(jià)值,利用大數(shù)據(jù)分析充分挖掘潛藏的商業(yè)機(jī)遇與價(jià)值。但如果企業(yè)對(duì)大數(shù)據(jù)分析的理解僅僅停留在分析數(shù)據(jù)與數(shù)據(jù)分析的話,就會(huì)掉進(jìn)技術(shù)的陷阱中,進(jìn)而嚴(yán)重影響企業(yè)的經(jīng)濟(jì)效益。大數(shù)據(jù)分析中的“大”是由企業(yè)數(shù)據(jù)分析的原點(diǎn)和數(shù)據(jù)處理的方法共同決定的,因此大數(shù)據(jù)中的重點(diǎn)不該單單放在“大”上。大數(shù)據(jù)擁有“4V”的特性,也就是Variety多樣、Vohame大量、Value價(jià)值、Velocity高速。

大數(shù)據(jù)分析的中心理念是脫離以往數(shù)據(jù)分析的方式,并在龐大的數(shù)據(jù)里深入尋找和挖掘企業(yè)的潛在價(jià)值和機(jī)遇,進(jìn)而提升企業(yè)的經(jīng)濟(jì)效益。當(dāng)使用者脫離了信息系統(tǒng)的傳統(tǒng)視角。所關(guān)心的重點(diǎn)從系統(tǒng)自身成功轉(zhuǎn)移到信息篩選的數(shù)據(jù)上時(shí),就可以在龐大的數(shù)據(jù)中充分發(fā)現(xiàn)潛在的企業(yè)價(jià)值和商機(jī)。

為了更加清晰全面的了解大數(shù)據(jù)分析在企業(yè)管理中的作用,下面將以CapitalOne公司為例進(jìn)行說(shuō)明。長(zhǎng)時(shí)間以來(lái),Capital One都是通過(guò)對(duì)客戶行為數(shù)據(jù)的分析來(lái)針對(duì)客戶具體情況制定產(chǎn)品以及相應(yīng)服務(wù)方案的,大數(shù)據(jù)分析系統(tǒng)會(huì)對(duì)客戶的人口統(tǒng)計(jì)特征及消費(fèi)模式等進(jìn)行分析,從而為用戶指定針對(duì)性的服務(wù)方案。大數(shù)據(jù)分析技術(shù)在Capital One公司的應(yīng)用不僅提升了Capital One的利潤(rùn)提升空間,同時(shí)對(duì)提升其在同類企業(yè)中的綜合競(jìng)爭(zhēng)實(shí)力也具有積極的意義。大數(shù)據(jù)分析技術(shù)應(yīng)用之前,Capital One公司制定客戶服務(wù)項(xiàng)目過(guò)程中存在著一定的盲目性,針對(duì)性不高,經(jīng)常出現(xiàn)客戶與產(chǎn)品不對(duì)應(yīng)的情況,不僅公司利潤(rùn)增加不明顯。同時(shí)部分客戶也會(huì)對(duì)產(chǎn)品或者是服務(wù)產(chǎn)生一定的反感,對(duì)企業(yè)長(zhǎng)遠(yuǎn)發(fā)展是十分不利的。如表1所示為Capital One公司大數(shù)據(jù)分析前后數(shù)據(jù)對(duì)比。

企業(yè)管理中大數(shù)據(jù)分析的作用

提高企業(yè)內(nèi)部數(shù)據(jù)統(tǒng)計(jì)的真實(shí)性。通常來(lái)說(shuō),企業(yè)內(nèi)部需要收集的信息、數(shù)據(jù)是和企業(yè)管理或者運(yùn)營(yíng)有關(guān)的,以利于企業(yè)活動(dòng)的正常開(kāi)展。在以前,企業(yè)收集的數(shù)據(jù)均采用傳統(tǒng)的人工統(tǒng)計(jì),并使用報(bào)表方式,這樣大大降低了數(shù)據(jù)統(tǒng)計(jì)的工作效率,也存在許多人為失誤,導(dǎo)致數(shù)據(jù)統(tǒng)計(jì)的真實(shí)性始終得不到提高。數(shù)據(jù)統(tǒng)計(jì)結(jié)果的目的是為了幫助企業(yè)管理層做出正確、科學(xué)、合理的有關(guān)決策,但由于數(shù)據(jù)統(tǒng)計(jì)的可信度不高,所以很可能造成管理層的決策失誤,進(jìn)而影響企業(yè)的運(yùn)營(yíng)效益。但自從大數(shù)據(jù)分析出現(xiàn)后,操作人員能夠?qū)?shù)據(jù)統(tǒng)計(jì)結(jié)果的真實(shí)性開(kāi)展再次檢驗(yàn),并從多方位出l針對(duì)數(shù)據(jù)統(tǒng)計(jì)的結(jié)果開(kāi)展深層次的解析,以有效保障統(tǒng)計(jì)數(shù)據(jù)的可靠性和真實(shí)性。

從前企業(yè)中各個(gè)部門(mén)為了增加自身的效益和績(jī)效難免會(huì)擅自改動(dòng)上報(bào)數(shù)據(jù),由于采用的是單口徑方式,所以最終將出現(xiàn)多種數(shù)據(jù)統(tǒng)計(jì)結(jié)果的現(xiàn)象,存在很大的干擾性。但如果利用了大數(shù)據(jù)分析,就可以從多方位對(duì)數(shù)據(jù)進(jìn)行分析,不同部門(mén)的上報(bào)數(shù)據(jù)將彼此牽制和影響,從而有效保障了數(shù)據(jù)的真實(shí)性。需要注意的是,要想充分達(dá)到數(shù)據(jù)彼此牽制的目的,就必須利用數(shù)據(jù)結(jié)果的最終效益進(jìn)行調(diào)節(jié)。

例如,當(dāng)生產(chǎn)車間定時(shí)上報(bào)自身的產(chǎn)量數(shù)據(jù)時(shí),應(yīng)當(dāng)完成當(dāng)天的產(chǎn)量?jī)冬F(xiàn)率、當(dāng)周兌現(xiàn)率以及當(dāng)月兌現(xiàn)率,而要想達(dá)到上報(bào)數(shù)據(jù)產(chǎn)量,就一定要按時(shí)達(dá)到產(chǎn)量。然后當(dāng)月的上報(bào)總產(chǎn)量就將自動(dòng)求和每天的產(chǎn)量,一旦中間過(guò)程產(chǎn)生沖突就說(shuō)明車間上報(bào)數(shù)據(jù)存有問(wèn)題,最后將準(zhǔn)確地反映在企業(yè)的財(cái)務(wù)成本口徑中,進(jìn)而有效提高企業(yè)內(nèi)部數(shù)據(jù)統(tǒng)計(jì)的真實(shí)性。

給企業(yè)管理提供情報(bào)支持。通常來(lái)說(shuō),大中型的企業(yè)均將設(shè)立情報(bào)部門(mén),它們的工作核心是深入、準(zhǔn)確地探究企業(yè)產(chǎn)業(yè)的前沿情況、市場(chǎng)競(jìng)爭(zhēng)情況等方面。從前企業(yè)的情報(bào)分析工作一般僅依靠情報(bào)員的相關(guān)經(jīng)驗(yàn)與專業(yè)知識(shí)技能,由情報(bào)員自身的觀察力與直覺(jué)進(jìn)行情報(bào)收集和判斷,進(jìn)而得出情報(bào)探究的最終結(jié)果。盡管傳統(tǒng)的人工情報(bào)分析可以獲得一定成果結(jié)論,但其中的不確定性和風(fēng)險(xiǎn)性較大,因?yàn)榍閳?bào)員的主觀洞察力和判斷力的準(zhǔn)確性是個(gè)未知數(shù),不能有效保障結(jié)論的可靠性。然而由于近代科學(xué)信息技術(shù)的飛速發(fā)展和成熟,人的主觀能動(dòng)性所具有的局限性愈加突出,企業(yè)對(duì)情報(bào)員的相關(guān)標(biāo)準(zhǔn)和要求也在逐漸提升。

這時(shí)大數(shù)據(jù)分析的產(chǎn)生給現(xiàn)代企業(yè)的情報(bào)分析工作提供了無(wú)限可能,在一定程度上促進(jìn)了企業(yè)管理水平的提高。大數(shù)據(jù)所具有的“4V”特征和現(xiàn)代企業(yè)情報(bào)分析的高標(biāo)準(zhǔn)、高要求等完全符合。具體來(lái)說(shuō)就是高速化特征符合現(xiàn)代企業(yè)情報(bào)分析的時(shí)間性要求,數(shù)據(jù)分析注重?cái)?shù)據(jù)的時(shí)效性;大規(guī)模特征符合現(xiàn)代企業(yè)情報(bào)分析的廣泛性,數(shù)據(jù)分析注重?cái)?shù)據(jù)的數(shù)量;多樣化特征符合現(xiàn)代企業(yè)情報(bào)分析的來(lái)源廣泛性。數(shù)據(jù)分析注重收集的多渠道化;價(jià)值特征符合現(xiàn)代企業(yè)情報(bào)分析的終極目標(biāo),也是大數(shù)據(jù)分析的本質(zhì),從數(shù)據(jù)中充分挖掘數(shù)據(jù)的價(jià)值。