期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊(cè) 購(gòu)物車(0)

首頁(yè) > 公文范文 > 數(shù)據(jù)分析方法論文

數(shù)據(jù)分析方法論文

時(shí)間:2022-05-21 11:02:22

序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了一篇數(shù)據(jù)分析方法論文范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。

數(shù)據(jù)分析方法論文

數(shù)據(jù)分析方法論文:土工實(shí)驗(yàn)數(shù)據(jù)分析方法探討

【摘要】土工實(shí)驗(yàn)是進(jìn)行土木工程的重要前提條件,其能夠?yàn)槭┕そㄔO(shè)提供可靠的數(shù)據(jù)支持,能夠有效防止工程建設(shè)中可能存在的潛在危險(xiǎn)事故。本文對(duì)其數(shù)據(jù)涉及的內(nèi)容進(jìn)行分析,分析了實(shí)驗(yàn)準(zhǔn)確性的因素,進(jìn)而提出相應(yīng)的方法應(yīng)用,希望可以為土工實(shí)驗(yàn)的發(fā)展提供借鑒。

【關(guān)鍵詞】土工實(shí)驗(yàn);實(shí)驗(yàn)數(shù)據(jù);數(shù)據(jù)分析;分析方法

一、引言

在進(jìn)行實(shí)驗(yàn)過程中,由于土體本身所具有的復(fù)雜性,土質(zhì)質(zhì)檢所存在的物理學(xué)特性以及采樣、運(yùn)輸、存儲(chǔ)等等方面所表現(xiàn)出來的特點(diǎn),都容易對(duì)數(shù)據(jù)造成一定程度的干擾,致使實(shí)驗(yàn)的結(jié)果出現(xiàn)誤差。另外,因?yàn)閷?shí)驗(yàn)本身受到很多因素的干擾,也同樣容易發(fā)生數(shù)據(jù)偏差的問題。因此,本文著重從實(shí)驗(yàn)數(shù)據(jù)所涉及的內(nèi)容,影響實(shí)驗(yàn)數(shù)據(jù)的因素,以及提升實(shí)驗(yàn)準(zhǔn)確率的角度出發(fā),對(duì)土工實(shí)驗(yàn)數(shù)據(jù)分析方法進(jìn)行探討。

二、土工試驗(yàn)數(shù)據(jù)所涉及內(nèi)容

(一)土的比重實(shí)驗(yàn)。土工試驗(yàn)過程中,土的比重實(shí)驗(yàn)是非常重要的。一般來說,地域相同或者相近,那么土的比重也將會(huì)比較相近。但是,因?yàn)樵趯?shí)際操作中,其整個(gè)的操作流程比較復(fù)雜,所以不同的單位會(huì)采用本地所出具的或者考察的相關(guān)數(shù)據(jù)直接進(jìn)行比重實(shí)驗(yàn),這樣容易導(dǎo)致實(shí)驗(yàn)數(shù)據(jù)的誤差存在。

(二)土的密度實(shí)驗(yàn)。通過土的密度實(shí)驗(yàn)可以詳細(xì)的了解土的組成,可以了解其組成成分的性質(zhì),能夠?yàn)橹蟮氖┕ぬ峁└嗟膮⒖?。土的密度與土粒的重量、孔隙體積、孔隙大小、孔隙水重等等內(nèi)容息息相關(guān),能夠反映土的組成和基本結(jié)構(gòu)特征。在進(jìn)行實(shí)驗(yàn)的過程中,要注意盡量避免對(duì)取樣即時(shí)進(jìn)行實(shí)驗(yàn),最好能夠等待土樣達(dá)到日常狀態(tài)之后再進(jìn)行試驗(yàn),這樣可以讓土密度實(shí)驗(yàn)的結(jié)果更加準(zhǔn)確。

(三)土的含水量實(shí)驗(yàn)。土的含水量實(shí)驗(yàn)可以說是土工實(shí)驗(yàn)中的核心內(nèi)容,其實(shí)驗(yàn)的情況將會(huì)影響到工程地基建設(shè),還會(huì)影響到后續(xù)工程的穩(wěn)定性。不同地區(qū)的土樣其含水量不同,并存在很大程度上的差異性。實(shí)驗(yàn)人員在進(jìn)行取樣的過程中,要保證其樣品的均勻性,或者具有代表性,否則進(jìn)行試驗(yàn)所獲得的數(shù)據(jù)就沒有任何指導(dǎo)意義,其數(shù)據(jù)在實(shí)踐應(yīng)用中的效率和質(zhì)量也將會(huì)呈現(xiàn)大幅度的下降。

三、土性參數(shù)實(shí)驗(yàn)結(jié)果誤差性的原因

(一)土體本身性質(zhì)導(dǎo)致。依照相關(guān)的物理力學(xué)和力學(xué)性質(zhì),我們可以了解到土體的分層具有不均勻性,加上其所處環(huán)境的變化,可能發(fā)生的雨水沖擊、水文變化、其后影響等等語速怒,都會(huì)讓土體的性質(zhì)發(fā)生改變。這樣在進(jìn)行土工試驗(yàn)的時(shí)候就非常容易造成實(shí)驗(yàn)結(jié)果的差異性,甚至有可能會(huì)成為差異產(chǎn)生的主要影響因素。

(二)系統(tǒng)誤差。系統(tǒng)誤差是由于儀器的某些不完善、測(cè)量技術(shù)上受到限制或?qū)嶒?yàn)方法不夠完善沒有保證正確的實(shí)驗(yàn)條件等原因產(chǎn)生。不同的單位所使用的儀器往往不盡相同,所使用的試驗(yàn)方法也有一定的出入,加上不同的試驗(yàn)方法讓土工參數(shù)出現(xiàn)離散性,其所實(shí)驗(yàn)的數(shù)據(jù)也就會(huì)有所不同。系統(tǒng)誤差的存在可以予以避免,其與偶然誤差不同,這就需要實(shí)驗(yàn)室對(duì)設(shè)備和系統(tǒng)進(jìn)行改進(jìn)。

(三)偶然誤差。偶然誤差的特點(diǎn)是它的隨機(jī)性。如果實(shí)驗(yàn)人員對(duì)某物理量只進(jìn)行一次測(cè)量,其值可能比真值大也可能比真值小,這完全是偶然的,產(chǎn)生偶然誤差的原因無法控制,所以偶然誤差總是存在,通過多次測(cè)量取平均值可以減小偶然誤差,但無法消除。偶然誤差的存在屬于客觀存在的現(xiàn)象,其與人為原因所造成的誤差有很大的差別,對(duì)于兩者應(yīng)當(dāng)予以區(qū)分。

四、土工實(shí)驗(yàn)數(shù)據(jù)分析方法的應(yīng)用

(一)進(jìn)行數(shù)據(jù)檢查,果斷進(jìn)行取舍。在進(jìn)行實(shí)驗(yàn)的過程中,如果有明顯不符合物理力學(xué)性質(zhì)的值的范圍點(diǎn),則可以通過觀察予以了解,實(shí)驗(yàn)人員要對(duì)其進(jìn)行細(xì)致觀察,一旦發(fā)現(xiàn)異常立刻予以放棄。一般判斷的標(biāo)準(zhǔn)是大部分?jǐn)?shù)值為范圍內(nèi)波動(dòng),但是有一點(diǎn)超出正常值或者距離正常值較遠(yuǎn),則可以被認(rèn)定為不合理。在實(shí)驗(yàn)數(shù)據(jù)較多的情況下可以運(yùn)用3σ法則進(jìn)行數(shù)據(jù)之間取舍的考量。在進(jìn)行實(shí)驗(yàn)過程中,存在于之外數(shù)值所占比例較少,因此,大于和小于之間數(shù)值作為異常處理。

(二)土工實(shí)驗(yàn)數(shù)據(jù)中最小樣本數(shù)問題。在土工試驗(yàn)過程中,最小樣本數(shù)問題需要引起人們的重視。實(shí)驗(yàn)中的樣本數(shù)要選取適當(dāng),如果樣本數(shù)過小就會(huì)影響實(shí)驗(yàn)結(jié)果的準(zhǔn)確性。但是,樣本數(shù)的數(shù)量并不是隨意定制的,其受到多種因素的影響,比如工程規(guī)模、工程精度要求、現(xiàn)場(chǎng)勘查情況等等。

(三)土體性質(zhì)指標(biāo)的自相關(guān)性的問題。根據(jù)以往數(shù)據(jù)實(shí)驗(yàn)的關(guān)聯(lián)性,求的往往是其之間的線性相關(guān)系數(shù),但是對(duì)于其自相關(guān)函數(shù)通常并沒有表現(xiàn)出線性相關(guān),而是指數(shù)相關(guān)。因此,不能簡(jiǎn)單依照求相關(guān)系數(shù)的方法判斷其相關(guān)性。在進(jìn)行土工實(shí)踐過程中,往往可以通過δ對(duì)其獨(dú)立性進(jìn)行判斷。在相關(guān)距離 范圍內(nèi),圖形指標(biāo)基本相關(guān);在此范圍外,圖形指標(biāo)基本不相關(guān)。但是對(duì)于δ事先未知,因此其需要根據(jù)樣本測(cè)值進(jìn)行求算,一般使用遞推平均法對(duì)相關(guān)距離δ進(jìn)行計(jì)算,并使用間距Z對(duì)δ的影響進(jìn)行綜合考量。一般來說,Z /δ的數(shù)值越大,其各抽樣點(diǎn)的土性越接近相互獨(dú)立,抽樣誤差也就越小。

五、結(jié)束語

土工試驗(yàn)對(duì)于土工建設(shè)來說影響較大,其影響因素包括土體本身性質(zhì)、取樣儀器情況、人為因素等,需要對(duì)此方面予以重視。對(duì)其不合理點(diǎn)來說,可以通過3 原則進(jìn)行剔除。對(duì)于其數(shù)據(jù)相關(guān)性來說,其可以通過迭代求解土性指標(biāo)相關(guān)距離予以解決,通過樣本的加權(quán)平均來對(duì)該區(qū)域的平均性指標(biāo)進(jìn)行估算。為了讓樣本能夠滿足實(shí)驗(yàn)需要,可以利用Bayes方法對(duì)其土性指標(biāo)與因確認(rèn),從而彌補(bǔ)數(shù)目不準(zhǔn)確的情況。通過此三個(gè)方面對(duì)其進(jìn)行方法的應(yīng)用,則可以有效提升實(shí)驗(yàn)數(shù)據(jù)的準(zhǔn)確性、可靠性,可以讓實(shí)驗(yàn)的結(jié)果更加符合實(shí)際需要。

數(shù)據(jù)分析方法論文:社會(huì)調(diào)查數(shù)據(jù)建模及基于超圖的數(shù)據(jù)分析方法

摘 要:針對(duì)現(xiàn)今的社會(huì)調(diào)查數(shù)據(jù)處理與分析中存在的問題,該文通過三維矩陣建立了社會(huì)調(diào)查數(shù)據(jù)的數(shù)學(xué)模型。將每一題表示為空間中的一個(gè)維度,每一張問卷表示成一個(gè)矩陣,將多個(gè)矩陣疊加即可得到社會(huì)調(diào)查數(shù)據(jù)的三維矩陣模型。在建立三維矩陣模型的基礎(chǔ)上,可以利用三維矩陣的性質(zhì)對(duì)其進(jìn)行多種數(shù)學(xué)處理,也可以采用超圖理論對(duì)數(shù)據(jù)進(jìn)行進(jìn)一步的分析,大大豐富了調(diào)查數(shù)據(jù)的處理方法。

關(guān)鍵詞:社會(huì)調(diào)查數(shù)據(jù) 三維矩陣 超圖

社會(huì)調(diào)查是了解各方面信息的重要途徑之一,社會(huì)調(diào)查數(shù)據(jù)主要是通過調(diào)查問卷的方法得到的。由于社會(huì)調(diào)查數(shù)據(jù)的維數(shù)較高,加上人為主觀因素,數(shù)據(jù)類型主要為二元變量、離散變量、序數(shù)變量等為主,所以對(duì)于社會(huì)調(diào)查數(shù)據(jù)的分析和處理大都基于統(tǒng)計(jì)學(xué),只對(duì)單一題目進(jìn)行統(tǒng)計(jì)學(xué)分析,其分析方法主要是基于題型進(jìn)行處理的,對(duì)于題目和題目之間的關(guān)系很少關(guān)心[1]。許多數(shù)據(jù)挖掘算法因?yàn)榉N種限制無法在社會(huì)調(diào)查的數(shù)據(jù)分析中得到應(yīng)用。因?yàn)榉椒ǖ南拗疲袁F(xiàn)在很多社會(huì)調(diào)查只能驗(yàn)證事先想好的內(nèi)容和假設(shè),很少可以對(duì)高維數(shù)據(jù)進(jìn)行相對(duì)復(fù)雜的回歸分析處理。

根據(jù)以上存在的問題,該文建立了基于三維矩陣的數(shù)學(xué)模型,將單選題、多選題和排序題用向量形式進(jìn)行表示,每一題定義為空間中的一個(gè)維度,從而所有的題目就可以構(gòu)成一個(gè)N維空間。每份問卷的信息用一個(gè)M×N矩陣表示。這樣表示可以將所有問卷內(nèi)容當(dāng)作一個(gè)整體,作為后續(xù)算法的基礎(chǔ)。

1 社會(huì)調(diào)查數(shù)據(jù)的特點(diǎn)

通常情況下,社會(huì)調(diào)查數(shù)據(jù)特點(diǎn)如下。

(1)相關(guān)性。對(duì)于一個(gè)樣本個(gè)體而言,它具有本身的多個(gè)特征,這些特征之間就具有一定的相關(guān)性。對(duì)于多個(gè)樣本而言,個(gè)體與個(gè)體的特征之間具有相關(guān)性。如果樣本隨時(shí)間而變化,那么該樣本在不同時(shí)刻的特征之間又具有相關(guān)性。因此,由于上述多個(gè)原因使得社會(huì)調(diào)查數(shù)據(jù)具有了復(fù)雜的相關(guān)性,傳統(tǒng)的統(tǒng)計(jì)學(xué)調(diào)查難以解決這樣的問題。

(2)離散性。因?yàn)樯鐣?huì)調(diào)查數(shù)據(jù)是通過自填式問卷、網(wǎng)絡(luò)調(diào)查數(shù)據(jù)庫(kù)等方法得到,所以社會(huì)調(diào)查數(shù)據(jù)一般以離散變量為主,且這些數(shù)據(jù)之間只有標(biāo)示作用,并沒有嚴(yán)格的邏輯關(guān)系。

(3)模糊性。社會(huì)調(diào)查數(shù)據(jù)當(dāng)中不可避免的會(huì)接觸到各種表達(dá)方式和概念,因此,它具有模糊性。

因?yàn)橛勺蕴钍絾柧砘蚪Y(jié)構(gòu)式訪問的方法得到的社會(huì)調(diào)查數(shù)據(jù)具有以上特點(diǎn),所以在實(shí)際應(yīng)用中基于統(tǒng)計(jì)學(xué)的處理方法只能籠統(tǒng)的顯示數(shù)據(jù)的部分特性,如頻數(shù)、離散程度等[2]。對(duì)于數(shù)據(jù)之間的關(guān)系只能分析出維數(shù)極少的大致的關(guān)系。

而且利用軟件進(jìn)行數(shù)據(jù)挖掘時(shí),因?yàn)楝F(xiàn)有的軟件中的數(shù)據(jù)挖掘算法對(duì)于數(shù)據(jù)類型和格式要求較高,所以能應(yīng)用到的數(shù)據(jù)挖掘算法很少。就算是數(shù)據(jù)要求較低的關(guān)聯(lián)分析,其結(jié)果也存在大量的冗余。因此,我們需要建立一個(gè)合適的社會(huì)調(diào)查數(shù)據(jù)的數(shù)學(xué)模型來完善原先的方法并使跟多的數(shù)據(jù)挖掘方法可以運(yùn)用到其中,使得結(jié)果更準(zhǔn)確。

2 社會(huì)調(diào)查數(shù)據(jù)的建模

研究中我們發(fā)現(xiàn),三維矩陣可適用于社會(huì)調(diào)查數(shù)據(jù)的建模。

2.1 三維矩陣的定義

三維矩陣的定義:由n個(gè)p×q階的矩陣組成的n×p×q階的矩陣A稱為三維矩陣,又稱立體陣。Ak,i,j表示三維矩陣A的第k層,第i行,第j列上的元素。其中n,p,q分別表示三維矩陣的高度,厚度和寬度。

2.2 三維矩陣模型的建立

調(diào)查問卷的題目一般有三種類型:?jiǎn)芜x題、多選題和排序題。這三類題目都可以表示成向量的形式,其中每一道單選題、多選題可以表示成一個(gè)向量,排序題可以表示成多個(gè)向量組成的矩陣。對(duì)于單選題和多選題,可以按選項(xiàng)的順序可以表示成一個(gè)向量,其中選中的項(xiàng)用“1”表示,未選中的項(xiàng)用“0”表示。對(duì)于排序題,可以表示成一個(gè)n×n的方陣,其中n表示該排序題的選項(xiàng)個(gè)數(shù),。這樣,每一題就可以定義為空間中的一個(gè)維度,從而所有的題目就可以構(gòu)成一個(gè)N維空間。每份調(diào)查問卷的信息用一個(gè)M×N矩陣表示(M為題目的最大選項(xiàng)數(shù)),其在每一維上的選擇稱之為一個(gè)元素,這樣每份問卷的信息就包括了N個(gè)元素。以第1,2,3題數(shù)據(jù)為例,其中第1題為單選題選擇“B”,用向量表示為一個(gè)元素,第2題為多選題選擇“ACE”,用向量表示為一個(gè)元素,第3題為排序題順序?yàn)镃BADEFIHG,用矩陣表示,每一個(gè)列向量是一個(gè)元素,如圖1所示。

那么,假設(shè)有一問卷信息用一個(gè)大小為M×N的矩陣表示。K份的問卷信息就可以用K個(gè)大小為M×N的矩陣表示。將這K個(gè)矩陣疊加,形成一個(gè)三維矩陣。這個(gè)三維矩陣就是我們建立的三維矩陣數(shù)學(xué)模型,如圖2所示。

在圖2中我們看到,該三維矩陣數(shù)學(xué)模型有三個(gè)坐標(biāo)軸,它們分別是題目,人數(shù),選項(xiàng)。題目軸以每一道題為一個(gè)單位;人數(shù)軸以每一份問卷為一個(gè)單位;選項(xiàng)軸的刻度為A,B,C,D,E,F(xiàn)等題目選項(xiàng),其個(gè)數(shù)為該調(diào)查問卷中選項(xiàng)最多的題目的選項(xiàng)個(gè)數(shù)。

在此基礎(chǔ)之上,這樣的三維矩陣具有以下性質(zhì)。

(1)在題目軸中選取對(duì)應(yīng)的題目,將三維矩陣面向豎切得到截面1(如圖2中01所示),截面2表示每一道題所有人選擇的信息。

(2)在人數(shù)軸中選取對(duì)應(yīng)的人,將三維矩陣橫切得到橫截面1(如圖2中02所示),橫截面1表示對(duì)應(yīng)的人選擇所有題目的信息。

在得到三維矩陣后,可對(duì)它進(jìn)行像素化處理,置1的元素用黑點(diǎn)代替,置0元素的則空白,在得到像素化三維矩陣后我們可以將三維矩陣沿著人數(shù)維度上向下投影,這樣就可以得到一個(gè)具有濃黑不一的點(diǎn)的平面。通過這些點(diǎn)的濃度,可以知道每一選項(xiàng)選擇的人數(shù)。接下來我們可用灰度級(jí)表示點(diǎn)的濃度,篩選出濃度大于一定程度的點(diǎn),在此基礎(chǔ)上進(jìn)行后續(xù)算法處理。

上述三維矩陣數(shù)學(xué)模型具有數(shù)學(xué)三維矩陣的所有性質(zhì),可依據(jù)調(diào)查問卷的需求進(jìn)行轉(zhuǎn)置,加權(quán)、相乘、篩選等數(shù)學(xué)處理,另外在數(shù)學(xué)處理的基礎(chǔ)上,采用超圖理論可以大大豐富了調(diào)查問卷的處理方法。

3 基于超圖算法的調(diào)查問卷分析技術(shù)

超圖是離散數(shù)學(xué)中重要的內(nèi)容,是對(duì)圖論的推廣[3]。超圖是有限集合的子系統(tǒng),它是一個(gè)由頂點(diǎn)的集合V和超邊集合E組成的二元對(duì),超圖的一條邊可以有多個(gè)頂點(diǎn)的特性,這與一般的圖有很大不同。超圖分為有向超圖與無向超圖兩類,在無向超圖的每條超邊上添加方向后得到的有向二元對(duì)就是有向超圖。超圖在許多領(lǐng)域有廣泛的應(yīng)用。

大家可以利用無向超圖表示每一道題的選擇情況,先將這每一題的每一個(gè)選項(xiàng)設(shè)成一個(gè)節(jié)點(diǎn),然后將三維矩陣從上向下投影,如果某一題的若干個(gè)選項(xiàng)同時(shí)被一個(gè)人選擇,就用一條超邊包圍這些節(jié)點(diǎn),那么選這些選項(xiàng)的人越多,投影得到的超邊就越濃。這樣就用超圖表示了問卷中每道題的信息,可以進(jìn)行聚類處理。

利用有向超圖,可以將關(guān)聯(lián)規(guī)則表示成有向超圖的形式,在得到了關(guān)聯(lián)規(guī)則后,設(shè)實(shí)際中得到的關(guān)聯(lián)規(guī)則的形式為:,前項(xiàng)和后項(xiàng)都是由多個(gè)項(xiàng)組成的集合。該文定義一條關(guān)聯(lián)規(guī)則由一條有向超邊表示,有向超邊的頭節(jié)點(diǎn)表示關(guān)聯(lián)規(guī)則的前項(xiàng),有向超邊的尾節(jié)點(diǎn)表示關(guān)聯(lián)規(guī)則的后項(xiàng)。每條有向超邊的頭節(jié)點(diǎn)和尾節(jié)點(diǎn)均可以為多個(gè),如此便成功表示了復(fù)合規(guī)則,從而可以使用相關(guān)算法進(jìn)行冗余規(guī)則檢測(cè)。

通過基于有向超圖的冗余規(guī)則檢測(cè)就可以將關(guān)聯(lián)規(guī)則之間存在著的大量冗余檢測(cè)出,減少挖掘資源的浪費(fèi),從而增加了挖掘結(jié)果的有效性。

傳統(tǒng)的聚類方法都對(duì)原始數(shù)據(jù)計(jì)算它們之間的距離來得到相似度,然后通過相似度進(jìn)行聚類,這樣的方法對(duì)于低維數(shù)據(jù)有良好的效果,但是對(duì)于高維數(shù)據(jù)卻不能產(chǎn)生很好的聚類效果,因?yàn)楦呔S數(shù)據(jù)的分布有其特殊性。通過超圖模型的分割實(shí)現(xiàn)對(duì)高維數(shù)據(jù)的聚類卻能產(chǎn)生較好的效果。它先將原始數(shù)據(jù)之間關(guān)系轉(zhuǎn)化成超圖,數(shù)據(jù)點(diǎn)表示成超圖的節(jié)點(diǎn),數(shù)據(jù)點(diǎn)間的關(guān)系用超邊的權(quán)重來表示。然后對(duì)超圖進(jìn)行分割,除去相應(yīng)的超邊使得權(quán)重大的超邊中的點(diǎn)聚于一個(gè)類中,同時(shí)使被除去的超邊權(quán)重之和最小。這樣就通過對(duì)超圖的分割實(shí)現(xiàn)了對(duì)數(shù)據(jù)的聚類。具體的算法流程如下。

首先,將數(shù)據(jù)點(diǎn)之間的關(guān)系轉(zhuǎn)化為超圖,數(shù)據(jù)點(diǎn)表示為超圖節(jié)點(diǎn)。如果某幾個(gè)數(shù)據(jù)點(diǎn)的支持度大于一定閾值,則它們能構(gòu)成一個(gè)頻繁集,就將它們用一條超邊連接,超邊的權(quán)重就是這一頻繁集的置信度,重復(fù)同樣的方法就可以得超邊和權(quán)重。

然后,在基礎(chǔ)此上,通過超圖分割實(shí)現(xiàn)數(shù)據(jù)的聚類。若設(shè)將數(shù)據(jù)分成k類,則就是對(duì)超圖的k類分割,不斷除去相應(yīng)的超邊,直到將數(shù)據(jù)分為k類,且每個(gè)分割中數(shù)據(jù)都密切相關(guān)為止,同時(shí)保持每次被除去的超邊權(quán)重和最小,最終得到的分割就是聚類的結(jié)果。

如圖3所示是基于超圖算法的選題型調(diào)查問卷的分析技術(shù)的流程圖,主要包括4個(gè)主要部分,一是用向量表示調(diào)查問卷結(jié)果,二是將向量表示的調(diào)查問卷轉(zhuǎn)化為三維矩陣數(shù)學(xué)模型表示調(diào)查問卷結(jié)果,三是使用超圖算法進(jìn)行優(yōu)化,四是根據(jù)要求顯示調(diào)查問卷結(jié)果。

4 結(jié)語

該文針對(duì)社會(huì)調(diào)查數(shù)據(jù)處理與分析中存在的問題,建立了基于三維矩陣的數(shù)學(xué)模型,將單選題和多選題表示成向量,將排序題表示成多個(gè)列向量,從而每一題可以表示成空間的一個(gè)維度,每一個(gè)向量就是一個(gè)元素,這樣每一張問卷就可以表示成一個(gè)矩陣,通過將多個(gè)矩陣疊加就可以得到三維矩陣。該數(shù)學(xué)模型可以利用三維矩陣的性質(zhì)對(duì)其進(jìn)行多種數(shù)學(xué)處理,如豎切、橫切、像素化后投影等。在數(shù)學(xué)處理的基礎(chǔ)上,該文又提出超圖理論對(duì)數(shù)據(jù)進(jìn)行聚類和檢測(cè)冗余規(guī)則的分析。

數(shù)據(jù)分析方法論文:對(duì)企業(yè)數(shù)據(jù)分析與決策支持方法進(jìn)行研究

【摘要】本文首先對(duì)數(shù)據(jù)倉(cāng)庫(kù)的概念和特征進(jìn)行了介紹分析,對(duì)決策支持系統(tǒng)的概況進(jìn)行了探討,并對(duì)數(shù)據(jù)決策支持的實(shí)現(xiàn)和應(yīng)用進(jìn)行了介紹,通過實(shí)際應(yīng)用,決策支持系統(tǒng)可以有效幫助企業(yè)進(jìn)行決策,提高企業(yè)的管理效率和管理水平。

【關(guān)鍵詞】大型裝備制造 項(xiàng)目型制造企業(yè) 數(shù)據(jù)分析 決策支持

在我國(guó)制造行業(yè)的快速發(fā)展下,提升制造企業(yè)的管理水平已經(jīng)成為當(dāng)前需要重點(diǎn)解決的問題。隨著信息技術(shù)的快速發(fā)展,促進(jìn)了制造企業(yè)數(shù)據(jù)分析和決策支持的發(fā)展。通過創(chuàng)建企業(yè)信息管理系統(tǒng),可以有效提升企業(yè)的生產(chǎn)效率,使各個(gè)部門之間的工作更加協(xié)調(diào)。對(duì)分散、零碎的信息進(jìn)行充分挖掘和利用。利用決策模型,對(duì)企業(yè)生產(chǎn)管理中遇到的問題提供決策支持。

一、基于數(shù)據(jù)倉(cāng)庫(kù)的企業(yè)對(duì)集成的應(yīng)用

(一)面向主題性

完成事務(wù)型處理的任務(wù)是傳統(tǒng)操作型數(shù)據(jù)庫(kù)進(jìn)行的數(shù)據(jù)組織工作,各業(yè)務(wù)系統(tǒng)間存在相對(duì)獨(dú)立性,按照一定的主題組織數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)。對(duì)主題而言,其概念比較抽象,通常情況下,一個(gè)主題同時(shí)與多個(gè)操作型數(shù)據(jù)庫(kù)有關(guān)系。例如,在確定企業(yè)的采購(gòu)訂單時(shí),需要分析供需情況、庫(kù)存信息、供應(yīng)商信息等多方面的數(shù)據(jù)的綜合關(guān)系,然后做出最終的決策。

(二)集成性

一般情況下,操作型數(shù)據(jù)庫(kù)進(jìn)行事務(wù)處理工作與某些特定的應(yīng)用關(guān)系密切,數(shù)據(jù)庫(kù)間具有相對(duì)獨(dú)立性,通常具有異構(gòu)性。抽取、清理原有分散的數(shù)據(jù)庫(kù)數(shù)據(jù),然后對(duì)其進(jìn)行系統(tǒng)加工、匯總和整理最終獲得了數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù),并保證存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)內(nèi)的信息與規(guī)范的信息相一致。例如,在查詢銷售數(shù)據(jù)時(shí),系統(tǒng)會(huì)根據(jù)輸入的條件要求,進(jìn)行篩選、整理后提供出最終的決策參考數(shù)據(jù)。

(三)歷史變化的反映

當(dāng)前的數(shù)據(jù)是操作型數(shù)據(jù)庫(kù)主要關(guān)注的,但是數(shù)據(jù)倉(cāng)庫(kù)中還包括很多豐富的歷史性信息,系統(tǒng)將企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉(cāng)庫(kù)的時(shí)點(diǎn))到現(xiàn)在各階段的信息完整的記錄下來,企業(yè)可以以這些信息為依據(jù),定量分析企業(yè)產(chǎn)品未來的發(fā)展情況。例如,企業(yè)可以通過分析產(chǎn)品上季度的綜合銷售情況以及市場(chǎng)反映來決策下一季度的生產(chǎn)量。

二、決策支持系統(tǒng)的概況

(一)決策系統(tǒng)的含義

Decision Support System 即決策支持系統(tǒng),簡(jiǎn)稱DSS,是指對(duì)大量數(shù)據(jù)和數(shù)學(xué)模型與數(shù)據(jù)處理模型等有機(jī)組合眾多模型進(jìn)行綜合利用,通過人機(jī)交互功能,幫助企業(yè)各級(jí)決策者完成科學(xué)的決策的新型系統(tǒng)。機(jī)器學(xué)習(xí)(ML)興起于80年代后期,自動(dòng)獲取知識(shí)有了新方法。數(shù)據(jù)倉(cāng)庫(kù)(DW)和數(shù)據(jù)挖掘(DM)兩項(xiàng)新的決策支持技術(shù)興起于90年代中期。數(shù)據(jù)倉(cāng)庫(kù)的發(fā)展是以數(shù)據(jù)庫(kù)為基礎(chǔ)發(fā)展的,支持決策是其發(fā)展目標(biāo)。知識(shí)發(fā)現(xiàn)(KDD)是面向數(shù)據(jù)庫(kù)的機(jī)器學(xué)習(xí)方法發(fā)展的結(jié)果;“數(shù)據(jù)挖掘”是發(fā)現(xiàn)知識(shí)的關(guān)鍵步驟。決策的支持也是數(shù)據(jù)庫(kù)知識(shí)的功能。隨著決策支持技術(shù)的不斷發(fā)展,決策系統(tǒng)逐漸完善。

(二)決策支持系統(tǒng)組成部分

R.H.Sprague 提出DSS的構(gòu)成部分為人機(jī)對(duì)話系統(tǒng)、數(shù)據(jù)庫(kù)與模型庫(kù)的兩庫(kù)結(jié)構(gòu)。隨著決策支持系統(tǒng)功能的增強(qiáng)與擴(kuò)大,對(duì)模型與方法進(jìn)行分離存儲(chǔ),因此,數(shù)據(jù)庫(kù)、模型庫(kù)與方法庫(kù)構(gòu)成了 DSS。近年來,DSS 將人工智能技術(shù)、專家系統(tǒng)、知識(shí)工程的相關(guān)思想方法引進(jìn)后,以原來的結(jié)構(gòu)為基礎(chǔ),新增知識(shí)庫(kù),將推理機(jī)制引入,最終DSS的四庫(kù)結(jié)構(gòu)框架形成。

隨著決策支持技術(shù)的發(fā)展提高,決策支持系統(tǒng)的體系結(jié)構(gòu)不斷發(fā)展健全,傳統(tǒng)決策支持系統(tǒng)中的數(shù)據(jù)庫(kù)、模型庫(kù)與方法庫(kù)、知識(shí)庫(kù)與推理機(jī)、數(shù)據(jù)倉(cāng)庫(kù)、OLAP、數(shù)據(jù)挖掘技術(shù)等都是其組成部分,將引進(jìn)顯性知識(shí)與隱性知識(shí)同時(shí)引進(jìn)到?jīng)Q策支持過程中是這種體系結(jié)構(gòu)最關(guān)鍵的特點(diǎn),保證推理的結(jié)果更科學(xué)合理,為決策層做出決策提供更高價(jià)值的參考依據(jù)。

三、實(shí)現(xiàn)數(shù)據(jù)分析與決策支持方法

(一)建立制造業(yè)決策模型庫(kù)

當(dāng)前比較常用的決策模型系統(tǒng)如GIS、PDM、ERP、CRM、SCM 等。在選擇決策系統(tǒng)時(shí),需要根據(jù)企業(yè)的發(fā)展戰(zhàn)略來進(jìn)行選擇。通過決策模型,可以為企業(yè)的生產(chǎn)經(jīng)營(yíng)提供指導(dǎo),使企業(yè)可以更好的把握市場(chǎng)、順應(yīng)市場(chǎng)。企業(yè)用戶決策分析的存放模型是決策模型庫(kù)。進(jìn)行決策的模型的建立是以大型制造企業(yè)生產(chǎn)過程中的材料采購(gòu)、庫(kù)存管理、產(chǎn)品生產(chǎn)、市場(chǎng)營(yíng)銷、財(cái)務(wù)管理、人力資源管理、研發(fā)設(shè)計(jì)、質(zhì)量管理、售后服務(wù)等方面的數(shù)據(jù)為依據(jù)。決策模型被授予一定程度的權(quán)限,對(duì)數(shù)據(jù)進(jìn)行訪問。然后以數(shù)據(jù)倉(cāng)庫(kù)中獲取的數(shù)據(jù)為依據(jù),對(duì)用戶指定的目標(biāo)進(jìn)行決策支持。系統(tǒng)描述現(xiàn)有模型的組成元素與其組成結(jié)構(gòu)的知識(shí),模型構(gòu)造過程中的各類推理算法被獲取。以模型構(gòu)建推理算法為基礎(chǔ),使匹配模型的框架由新問題的屬性值填充,最終決策問題模型得以建立。

(二)實(shí)施制造業(yè)決策分析

對(duì)決策模型進(jìn)行求解的過程就是決策分析的實(shí)施。通過理解決策問題獲得用戶需要決策的目標(biāo)、意圖等方面信息,然后利用合適的決策模型分析獲得的數(shù)據(jù),再根據(jù)規(guī)則與模型的求解算法獲得有價(jià)值的決策意見,將其提供給用戶。本系統(tǒng)規(guī)范描述每個(gè)模型包含的求解算法利用含有通用求解算法的模型很容易求解問題。但是如果沒有求解算法或者不確定利用哪種算法進(jìn)行求解,平臺(tái)依據(jù)以前比較成功的相似的案例,將范例的求解方法求解問題。平臺(tái)會(huì)詳細(xì)記錄取得較好決策效果的案例,并用數(shù)據(jù)層的公用數(shù)據(jù)庫(kù)進(jìn)行存放,這樣能夠及時(shí)調(diào)用成功的相似案例進(jìn)行決策分析問題的求解。

(三)協(xié)作決策支持的多環(huán)節(jié)性

通常企業(yè)決策不會(huì)通過利用單一的決策模型得到。企業(yè)管理的決策方案案是利用了多模型的協(xié)作來實(shí)現(xiàn)決策的。協(xié)作決策的實(shí)施系統(tǒng)從兩個(gè)方面著手。

(1)為實(shí)現(xiàn)有效的智能理解需要利用人機(jī)智能交互接口實(shí)現(xiàn),分解復(fù)雜的問題,最終可以得到結(jié)構(gòu)有序的子問題、與決策問題有聯(lián)系的事實(shí)與數(shù)據(jù)、求解方案等;

(2)參與決策的模型可以利用平臺(tái)進(jìn)行調(diào)用,與決策相關(guān)的模型的選擇可以通過分解的子問題實(shí)現(xiàn),為了保證多個(gè)模型為特定的決策目標(biāo)服務(wù)需要采用協(xié)調(diào)的合作機(jī)制。

四、結(jié)語

當(dāng)前,國(guó)內(nèi)制造普遍存在數(shù)據(jù)分析能力差,決策能力不足等問題,同時(shí)這也是制約企業(yè)持續(xù)、穩(wěn)定發(fā)展的一個(gè)主要因素。本文首先對(duì)數(shù)據(jù)分析和決策支持的概念及構(gòu)成進(jìn)行了分析,并提出了一種基于數(shù)據(jù)分析的決策支持系統(tǒng)方案,為制造企業(yè)的信息化發(fā)展提供了指導(dǎo)。

數(shù)據(jù)分析方法論文:淺析電線線纜直流電阻測(cè)試方法與數(shù)據(jù)分析研究

摘要 :電線線纜的導(dǎo)體直流電阻在相關(guān)的指標(biāo)中比較重要,對(duì)其進(jìn)行具體的測(cè)試時(shí)保證電線電纜正常工作的重要保證,也是促進(jìn)當(dāng)下電線電纜發(fā)展的中心環(huán)節(jié)。當(dāng)前在電線電纜的直流電阻測(cè)試中主要是采用雙臂直流電橋的方法,這一方法在具體的測(cè)試中具有優(yōu)點(diǎn),但是也因?yàn)樵O(shè)別和測(cè)試過程本身的問題導(dǎo)致的很多漏洞的出現(xiàn),本文就測(cè)試過程中的相關(guān)測(cè)試方法進(jìn)行了解,并在數(shù)據(jù)分析的基礎(chǔ)上指出這種方法當(dāng)下面臨的問題以及改進(jìn)的措施,從理論上完善雙臂直流電橋測(cè)試直流電阻的方法。

關(guān)鍵詞 :電線電纜 直流電阻 測(cè)試方法 存在問題

1、 電線線纜直流電阻測(cè)試問題分析及解決措施

1.1 電線線纜直流電阻測(cè)試問題分析

電線線纜的導(dǎo)體直流電阻測(cè)試在當(dāng)下的輸電系統(tǒng)的發(fā)展中意義重大,雙臂電橋在測(cè)量1歐姆以下的電阻值方面具有重要的應(yīng)用。

《電線電纜電性能試驗(yàn)方法第4部分:導(dǎo)體直流電阻試驗(yàn)》3.4條對(duì)具體的這方面測(cè)量?jī)?nèi)容進(jìn)行了標(biāo)準(zhǔn)化確定:在四段測(cè)量夾具的處理中,應(yīng)該在注意電位接點(diǎn)跟電流接點(diǎn)之間的測(cè)量,要保證相應(yīng)的電流、電位接點(diǎn)之間的距離要比斷面周長(zhǎng)的1.5倍大。但是在當(dāng)前的測(cè)試設(shè)備的生產(chǎn)中,大部分廠家并沒有考慮到這方面問題,在相關(guān)的產(chǎn)品使用中并不能實(shí)現(xiàn)距離的自由調(diào)試,而是跟絕緣材料之間連接在一起,這種情況就不能夠滿足當(dāng)下電線線纜直流電阻的測(cè)試要求,這方面的問題也是當(dāng)下亟待解決的。如果使用這種產(chǎn)品僅僅能夠?qū)崿F(xiàn)對(duì)斷面周長(zhǎng)在1.5倍情況下的測(cè)量工作,在準(zhǔn)確性的控制方面還比較成熟,但是如果電線線纜的截面不在相關(guān)的標(biāo)準(zhǔn)范圍之內(nèi),相關(guān)的測(cè)量結(jié)果就會(huì)出現(xiàn)很多問題,準(zhǔn)確性也就受到很嚴(yán)重的影響這樣的實(shí)例在現(xiàn)實(shí)的測(cè)量中有很多,比如:假設(shè)夾具電位接點(diǎn)與電流接點(diǎn)間距為60mm,那么它所對(duì)應(yīng)的所能準(zhǔn)確測(cè)量的導(dǎo)體斷面周長(zhǎng)最大為40mm,從中能夠O到電線線纜的截面面積,具體數(shù)值約為127mm2。也就是說用此夾具來測(cè)量截面積為127mm2以上的導(dǎo)體電阻時(shí)不能夠?qū)崿F(xiàn)準(zhǔn)確性的完全控制。?除此之外,在夾具夾持一些截面不規(guī)整的電線線纜的時(shí)候,特別是像大截面絞合成型電線線纜,這種電線線纜截面通常為扇形、弧形或三角形。如果出現(xiàn)夾持時(shí)電流接點(diǎn)夾頭接觸情況正常,而電位接點(diǎn)夾頭接觸不正常的狀況下,甚至當(dāng)電流接點(diǎn)夾頭已經(jīng)加緊,而電位接點(diǎn)夾頭卻還難以與導(dǎo)體接觸,都無法完成正常的測(cè)量工作。在這樣的情況下還堅(jiān)持使用,就會(huì)造成夾具的磨損、變形,上述的狀況也就會(huì)出現(xiàn)。

1.2 電線線纜直流電阻測(cè)試問題解決措施

在以上具體的測(cè)試分析中,本人針對(duì)實(shí)際的測(cè)試過程,提出了以下的改進(jìn)方法:第一是針對(duì)電流夾具的調(diào)試問題,將導(dǎo)體夾具上電流接點(diǎn)夾頭與電位接點(diǎn)夾頭間距設(shè)置為自由變化的形式,測(cè)量人員在一般的情況系測(cè)量長(zhǎng)度為1m的電線線纜的電阻,這種情況下可以將電線線纜夾具上電位接點(diǎn)夾頭可固定為1m,而將電流接點(diǎn)夾頭設(shè)計(jì)為可在底座上自由移動(dòng)的結(jié)構(gòu),進(jìn)行底座的合理調(diào)整。如果做到“每個(gè)電位接點(diǎn)與相應(yīng)的電流接點(diǎn)之間的間距不小于試樣斷面周長(zhǎng)的1.5倍”的情況,就能夠?qū)ι鲜龅臓顩r進(jìn)行解決。第二是進(jìn)行解決電位接點(diǎn)夾頭與導(dǎo)體不能良好接觸的問題。這方面的問題也很好解決,在設(shè)計(jì)中可以將夾具上電流接點(diǎn)夾頭與電位接點(diǎn)夾頭設(shè)計(jì)為獨(dú)立夾緊與松開的結(jié)構(gòu)。在這種情況下能夠保證電流接點(diǎn)夾頭與電位接點(diǎn)夾頭同時(shí)與導(dǎo)體緊密接觸,并且能夠?qū)σ蜷L(zhǎng)期使用夾頭磨損、變形而不能夾緊的問題進(jìn)行預(yù)防。

以上分析中可以發(fā)現(xiàn),在相關(guān)的電線線纜測(cè)試中,需要對(duì)具體的測(cè)量標(biāo)準(zhǔn)進(jìn)行數(shù)據(jù)的精確控制,也是保證測(cè)量精確度的關(guān)鍵,相關(guān)的數(shù)據(jù)分析中要以標(biāo)準(zhǔn)作為中心。注重在夾具方面的分析,并加強(qiáng)對(duì)具體夾具位置的設(shè)計(jì),另外還要考慮到設(shè)備的使用周期,在維護(hù)設(shè)備方面制定合理的標(biāo)準(zhǔn),保證測(cè)試的整個(gè)過程。

2、 電線線纜直流電阻測(cè)試中溫度對(duì)測(cè)量的影響

大部分人都知道,溫度在導(dǎo)體的電阻影響因素中占據(jù)重要的地位。gb/t?3048-2007中對(duì)導(dǎo)體直流電阻測(cè)量的溫度范圍進(jìn)行了規(guī)定,如果溫度達(dá)到不到相關(guān)的要求,測(cè)試人員一般情況下會(huì)人為改變環(huán)境溫度,空調(diào)調(diào)節(jié)的方式在調(diào)試中的到了廣泛的應(yīng)用。但是在使用空調(diào)的時(shí)候會(huì)出現(xiàn)檢流計(jì)滑動(dòng)的現(xiàn)象,這就就不能夠在穩(wěn)定的條件下完成測(cè)量。這種情況下溫度在變,也就導(dǎo)致導(dǎo)體電阻也會(huì)慢慢發(fā)生變化,而檢流計(jì)的靈敏性也是一個(gè)重要問題,所以這種情況下的測(cè)量一般不允許出現(xiàn)環(huán)境溫度變化的情況,要等到環(huán)境溫度穩(wěn)定的時(shí)候才能夠完成測(cè)量。而且試樣一定要在測(cè)量環(huán)境中保持足夠長(zhǎng)的時(shí)間,使其自身溫度與環(huán)境溫度達(dá)到平衡,因?yàn)楫?dāng)測(cè)量人員在調(diào)節(jié)環(huán)境溫度時(shí),這個(gè)過程中的試樣溫度并不會(huì)與環(huán)境溫度出現(xiàn)一樣的變化值,因此在測(cè)量過程中,溫度變化的現(xiàn)象也時(shí)有發(fā)生。并且空調(diào)不應(yīng)對(duì)著測(cè)量裝置,以免檢流計(jì)難以穩(wěn)定。不管怎樣說,測(cè)量中一定要對(duì)溫度進(jìn)行合理的分析,只有擺脫溫度的限制,才能夠?qū)崿F(xiàn)測(cè)量的準(zhǔn)確性。

3、 接觸電阻及測(cè)量電流對(duì)測(cè)量的影響

由于測(cè)量電路連接電線的接觸電阻側(cè)面按鍵之間的問題會(huì)導(dǎo)致測(cè)量結(jié)果的變化,一定程度上,一定要確保電纜側(cè)鍵和可靠的接觸才能夠保證測(cè)量結(jié)果的正確性。測(cè)量者經(jīng)常使用的導(dǎo)體電阻不同的截面積,但是電流測(cè)量的大小確實(shí)相同的,這方面的取值不太合理。測(cè)量電流的保證實(shí)在最低靈敏度的前提下,應(yīng)使用比較小的電流,電流過大容易產(chǎn)生過多熱量,從而使阻力變大,測(cè)量應(yīng)在最短的時(shí)間內(nèi)完成,時(shí)間太長(zhǎng)的情況下,也會(huì)讓電線線纜產(chǎn)生熱量。

4、結(jié)論

在電線電纜導(dǎo)體直流電阻測(cè)試過程中要對(duì)測(cè)量工具進(jìn)行不斷地優(yōu)化,又要根據(jù)具體的數(shù)據(jù)分析,對(duì)相關(guān)測(cè)試數(shù)據(jù)范圍進(jìn)行控制,這樣會(huì)取得很好的測(cè)量效果。另外要保持客觀嚴(yán)謹(jǐn)?shù)目茖W(xué)態(tài)度,在測(cè)量過程中保持清醒的頭腦,對(duì)具體的流程進(jìn)行精確的控制,這樣才能夠得到準(zhǔn)確、可靠的數(shù)據(jù)。

數(shù)據(jù)分析方法論文:驗(yàn)證型實(shí)驗(yàn)的數(shù)據(jù)分析處理方法探討

【摘 要】 本文以大學(xué)物理實(shí)驗(yàn)中典型的驗(yàn)證型實(shí)驗(yàn)――牛頓第二定律的驗(yàn)證實(shí)驗(yàn)為例,討論了驗(yàn)證型物理實(shí)驗(yàn)中的數(shù)學(xué)處理方法,得出該類實(shí)驗(yàn)中,數(shù)學(xué)處理方法不但要得出所驗(yàn)證的物理規(guī)律的數(shù)學(xué)式,而且更重要的是要通過計(jì)算物理量的相關(guān)系數(shù)確證該數(shù)學(xué)式所確立的物理規(guī)律成立。

【關(guān)鍵詞】 驗(yàn)證型實(shí)驗(yàn) 數(shù)學(xué)處理

物理實(shí)驗(yàn)中,驗(yàn)證型實(shí)驗(yàn)和研究型實(shí)驗(yàn)都是非常重要的兩類實(shí)驗(yàn)。驗(yàn)證型實(shí)驗(yàn)是對(duì)已建立的物理規(guī)律的驗(yàn)證,研究型實(shí)驗(yàn)是通過實(shí)驗(yàn)得到物理規(guī)律,這兩類實(shí)驗(yàn)雖然實(shí)驗(yàn)?zāi)康牟煌?,但從?shù)學(xué)處理方法上來看,具有相似性,都是通過實(shí)驗(yàn)數(shù)據(jù)分析確證物理規(guī)律或得到物理規(guī)律,所以對(duì)實(shí)驗(yàn)數(shù)據(jù)的分析處理方法是否得當(dāng)就顯得十分重要。下面以一個(gè)典型的驗(yàn)證型實(shí)驗(yàn)的數(shù)據(jù)處理為例進(jìn)行相應(yīng)探討,以期望得出相對(duì)合理和妥當(dāng)?shù)膶?shí)驗(yàn)數(shù)據(jù)處理方法。

以大學(xué)物理實(shí)驗(yàn)來說,驗(yàn)證型實(shí)驗(yàn)較多,諸如牛頓第二定律的驗(yàn)證、彈性碰撞實(shí)驗(yàn)等等都屬于此類實(shí)驗(yàn),其中牛頓第二定律的驗(yàn)證實(shí)驗(yàn)為該類實(shí)驗(yàn)的典型實(shí)驗(yàn)。牛頓第二定律的數(shù)學(xué)表達(dá)式是,力與加速度的大小關(guān)系可以表達(dá)成,要驗(yàn)證這個(gè)規(guī)律,就是給物體加一個(gè)大小為F的力,對(duì)應(yīng)產(chǎn)生一個(gè)大小為的加速度,得到一個(gè)測(cè)量點(diǎn),通過改變力,得到n個(gè)測(cè)量點(diǎn)后,即可通過適當(dāng)?shù)臄?shù)學(xué)方法驗(yàn)證這個(gè)關(guān)系的成立。

類似這種線性物理規(guī)律,其數(shù)學(xué)模型都可以歸結(jié)為的形式。要得到這個(gè)線性關(guān)系,就是要得出和。通過測(cè)量n組和的值,即、、……、、……、,在X―Y平面中得到n個(gè)測(cè)量點(diǎn)。若不考慮實(shí)驗(yàn)測(cè)量的系統(tǒng)誤差,則測(cè)量誤差應(yīng)當(dāng)服從高斯分布,反應(yīng)在X―Y平面中,既是這n個(gè)測(cè)量點(diǎn)應(yīng)當(dāng)均勻地分布在所求表達(dá)式兩側(cè),對(duì)第i個(gè)測(cè)量點(diǎn),誤差為,n個(gè)測(cè)量點(diǎn)導(dǎo)致的總體誤差是最小的。若任意給一個(gè)直線,則一是測(cè)得到的這n個(gè)點(diǎn)不再均勻地分布在直線兩側(cè),二是這n個(gè)測(cè)量點(diǎn)產(chǎn)生的總體誤差水平將增大,甚至可以達(dá)到無窮大。由此可知,所求直線即是使得n個(gè)測(cè)量點(diǎn)的總體誤差最小的那條直線。總體誤差可以寫成,但由于誤差服從高斯分布,導(dǎo)致理論上而無法通過此求和值衡量總體誤差水平。為使其不因?yàn)檎?fù)抵消而無法衡量總體誤差水平,只要使得所有誤差均為正再求和即可,故可用殘差來衡量總體誤差水平,雖然殘差不再是總體誤差。使得殘差取最小值的和,即為所求直線的和。此即最小二乘法的數(shù)學(xué)思想。據(jù)最小二乘法處理,所求和即是使得取最小值的和,即有,解此式,得

將測(cè)量值供稿,即可得到所求和。通常大學(xué)物理實(shí)驗(yàn)中的處理方法,得到和,即是驗(yàn)證了[1]。但其實(shí)這是不太恰當(dāng)?shù)摹?

驗(yàn)證型或者研究型實(shí)驗(yàn),特別是驗(yàn)證型實(shí)驗(yàn),最關(guān)鍵的是需要解決兩個(gè)問題,一是找出所要驗(yàn)證的關(guān)系,第二是要驗(yàn)證得出的關(guān)系的確成立,而第二點(diǎn)才是最重要的關(guān)鍵點(diǎn)。即使得出關(guān)系,但如果確證關(guān)系不成立,則第一步的工作就變得毫無意義。實(shí)際上,任意給出一組、、……、、……、,都可以根據(jù)最小二乘法得到和,即得出,但并不意味著此式的確成立,不能確證物理量和的確存在這樣的數(shù)量關(guān)系,并沒有檢驗(yàn)此物理規(guī)律存在。因此,驗(yàn)證型實(shí)驗(yàn)做到這一步并不算已經(jīng)驗(yàn)證被驗(yàn)證的物理規(guī)律成立,還需要研究和的相關(guān)性,通過計(jì)算相關(guān)系數(shù),據(jù)的大小來檢驗(yàn)和是否的確相關(guān)。

總之,驗(yàn)證型實(shí)驗(yàn),是對(duì)物理規(guī)律的驗(yàn)證,最重要的是確證被驗(yàn)證物理規(guī)律成立,得出相應(yīng)物理量間的數(shù)學(xué)表達(dá)式并不能說已經(jīng)驗(yàn)證了相應(yīng)物理規(guī)律的成立,最重要的是要通過計(jì)算物理量間的相關(guān)系數(shù)來確證所得物理規(guī)律是否成立。

數(shù)據(jù)分析方法論文:水輪發(fā)電機(jī)組高精度水平測(cè)量和數(shù)據(jù)分析方法

摘 要:水平度是機(jī)組安裝的重要檢測(cè)項(xiàng)目,有很多種測(cè)量?jī)x器和測(cè)量方法。為了便于分析水平測(cè)量的數(shù)據(jù)結(jié)果,利用計(jì)算機(jī)軟件,實(shí)現(xiàn)測(cè)量結(jié)果的可視化。本文分析了一些高精度水平測(cè)量的方法和數(shù)據(jù)分析方法,對(duì)提高機(jī)組安裝精度和水平可以起到一些指導(dǎo)作用。

關(guān)鍵詞:水平測(cè)量;精密水準(zhǔn)儀;水平儀;CAYERE法

隨著近些年來巨型機(jī)組越來越多,尺寸越做越大,機(jī)組安裝的精度要求也隨著加工制造水平不斷提高。水平度作為水輪發(fā)電機(jī)組安裝過程中非常重要的檢測(cè)項(xiàng)目,測(cè)量方法和數(shù)據(jù)分析手段也在不斷的創(chuàng)新,以適應(yīng)高精度的測(cè)量要求。

水平度反映了被測(cè)工件面上各點(diǎn)相對(duì)于水平面的高低關(guān)系,表示方法一般有兩種:一種是直接測(cè)量?jī)牲c(diǎn)高程差的絕對(duì)高差值,單位有mm等,另一種是兩點(diǎn)之間高程差除以兩點(diǎn)之間距離的相對(duì)高差值,單位有mm/m、角秒(″)等。測(cè)量絕對(duì)高差時(shí)主要采用測(cè)量學(xué)方法,常用的儀器有水準(zhǔn)儀、帶測(cè)微器的精密水準(zhǔn)儀、電子水準(zhǔn)儀、流體靜力水準(zhǔn)等。測(cè)量相對(duì)高差主要采用機(jī)械工程測(cè)量方法,常用的儀器有框式水平儀、合像水平儀、電子水平儀等。

一、基于絕對(duì)高差值的測(cè)量方法

機(jī)組安裝中測(cè)量絕對(duì)高差最為常用的是光學(xué)水準(zhǔn)儀,適用于測(cè)量視距大于水準(zhǔn)儀最小焦距(一般為1.5m左右)的情況,使用任何水準(zhǔn)儀進(jìn)行精密水平測(cè)量時(shí),都必須注意以下事項(xiàng):(1)水準(zhǔn)儀使用必須具備的環(huán)境條件。目前常用的水準(zhǔn)儀都是自動(dòng)安平水準(zhǔn)儀,通過自動(dòng)安平補(bǔ)償器使視線水平時(shí)標(biāo)尺上的正確讀數(shù)通過補(bǔ)償器后仍舊落在水平十字絲上。自動(dòng)安平補(bǔ)償器的靈敏度非常高,有輕微振動(dòng)時(shí)十字絲都會(huì)出現(xiàn)晃動(dòng)。所以在使用時(shí)一方面要保證儀器的支架要十分穩(wěn)固,不允許有絲毫晃動(dòng),另一方面應(yīng)避免周圍環(huán)境中風(fēng)力、交叉作業(yè)的影響;(2)水準(zhǔn)儀距離測(cè)點(diǎn)的距離盡可能接近。根據(jù)相關(guān)工程測(cè)量規(guī)范,一、二等水準(zhǔn)測(cè)量時(shí)i角(儀器水準(zhǔn)軸與視準(zhǔn)軸在鉛垂面上投影的交角)誤差必須調(diào)校至15"以內(nèi)。即便按此i角允許誤差要求,兩測(cè)點(diǎn)視距之間每相差1m產(chǎn)生的測(cè)量誤差為:1000×tan(15″)=0.073mm,在機(jī)組安裝中已經(jīng)屬于較大的測(cè)量偏差了。只有測(cè)點(diǎn)之間視距相等,由i角產(chǎn)生的誤差在高差計(jì)算中相互抵消,例如測(cè)量?jī)牲c(diǎn)間高差時(shí),可以選擇放置在兩點(diǎn)的垂直平分線上,在測(cè)量座環(huán)、底環(huán)等大型環(huán)形工件的水平時(shí)最好將儀器放置在中心位置;(3)立尺時(shí)必須確保水準(zhǔn)尺垂直度。以1m的視線高為例,水準(zhǔn)尺每前后傾倒10mm產(chǎn)生的高程差影響為1000×(1-C0S(10/1000))=0.05mm。為消除水準(zhǔn)尺垂直度的影響,應(yīng)在測(cè)量過程中減小視線高度,使用深度尺、鋼板尺等小尺寸量具作為標(biāo)尺,或者使用帶有水準(zhǔn)氣泡的變形監(jiān)測(cè)專用銦鋼尺。

(一)普通水準(zhǔn)儀配合游標(biāo)卡尺測(cè)量法

將水準(zhǔn)儀安平于可觀測(cè)到所立游標(biāo)卡尺的適宜高度,為保證垂直度和穩(wěn)定,可將游標(biāo)卡尺靠在磁性表座上,底部與待測(cè)面貼緊。讀數(shù)時(shí)觀測(cè)者通過水準(zhǔn)儀指揮把尺者緩慢微調(diào)游標(biāo),使游標(biāo)的某一刻度線重合于水準(zhǔn)儀十字絲的水平中絲,此時(shí)游標(biāo)卡尺的讀數(shù)即為該點(diǎn)的水準(zhǔn)儀讀數(shù)。每個(gè)測(cè)點(diǎn)讀數(shù)時(shí)游標(biāo)應(yīng)對(duì)準(zhǔn)同一刻度,對(duì)比相互之間的讀數(shù)差值即絕對(duì)高差。此方法測(cè)量的讀數(shù)精度一般為0.02mm。

(二)帶測(cè)微器的精密水準(zhǔn)儀測(cè)量法

精密水準(zhǔn)儀一般配備了光學(xué)測(cè)微裝置,將配套水準(zhǔn)尺上的最小分化進(jìn)行細(xì)分,測(cè)定小于水準(zhǔn)尺最小分劃值的尾數(shù),進(jìn)而提高在水準(zhǔn)尺上的讀數(shù)精度。一般精密水準(zhǔn)儀將水準(zhǔn)尺10mm分劃成100格,可以讀到0.1mm,估讀至0.01mm。德國(guó)蔡司廠生產(chǎn)的Ni004、Ni007等精密水準(zhǔn)儀則是將5mm的最小刻度分劃成100格,可以讀到0.05mm,估讀至0.005mm。精密水準(zhǔn)儀讀數(shù)時(shí)需要通過測(cè)微螺旋上下微調(diào)望遠(yuǎn)鏡的十字絲來對(duì)準(zhǔn)同一刻度,此時(shí)測(cè)微器的讀數(shù)差即為絕對(duì)高差。

(三)電子水準(zhǔn)儀

電子水準(zhǔn)儀是以自動(dòng)安平水準(zhǔn)儀為基礎(chǔ),在望遠(yuǎn)鏡光路中增加了分光鏡和探測(cè)器(CCD),并采用條碼水準(zhǔn)標(biāo)尺和圖象處理電子系統(tǒng)構(gòu)成的光機(jī)電測(cè)一體化的高科技產(chǎn)品,與傳統(tǒng)水準(zhǔn)儀相比讀數(shù)客觀、精度高、速度快、效率高等特點(diǎn)。采用普通標(biāo)尺時(shí),又可以像一般水準(zhǔn)儀一樣使用。目前市場(chǎng)上常見的天寶DiNi03、徠卡BT28-DNA03等電子水準(zhǔn)儀讀數(shù)分辨率均達(dá)到了0.01mm。

(四)流體靜力水準(zhǔn)測(cè)量法

液體靜力水準(zhǔn)多用于高程變形監(jiān)測(cè)等精密工程測(cè)量作業(yè),由于它具有高精度、自動(dòng)化、長(zhǎng)期多點(diǎn)同時(shí)測(cè)量、安裝簡(jiǎn)單的特點(diǎn),可以引入到水平測(cè)量中,特別是座環(huán)、蝸殼澆筑過程中的監(jiān)測(cè)。

二、基于相對(duì)高差值的測(cè)量方法

測(cè)量相對(duì)高差值一般使用各種水平儀,其中合像水平儀在精密水平測(cè)量中最為常用,使用水平儀測(cè)量時(shí),應(yīng)注意以下事項(xiàng):(1)測(cè)量前應(yīng)認(rèn)真清洗測(cè)量面并擦干,檢查測(cè)量表面是否有劃傷、銹蝕、毛刺等缺陷;(2)水準(zhǔn)器內(nèi)液體對(duì)溫度影響變化較大,因此,應(yīng)注意手熱、陽光直射、哈氣等因素對(duì)水平儀的影響;(3)讀數(shù)時(shí),應(yīng)在垂直水準(zhǔn)器的位置上進(jìn)行讀數(shù),以減少視差對(duì)測(cè)量結(jié)果的影響;(4)測(cè)量時(shí)應(yīng)檢查零位是否正確。操作時(shí)可以通過翻轉(zhuǎn)測(cè)量法獲得準(zhǔn)確讀數(shù),消除零位誤差,如果零位偏差較大則需要使用調(diào)整針對(duì)零位進(jìn)行校正調(diào)整。

(一)水平梁測(cè)量法

水平梁測(cè)量法是經(jīng)典的水平測(cè)量法,制作適當(dāng)長(zhǎng)度的平梁,加大水平儀測(cè)量的距離。在中間的頂部焊接一塊經(jīng)過精細(xì)加工的座板,用以放置水平儀。在兩端的底面上安裝三個(gè)球形頭螺栓支撐,三個(gè)支點(diǎn)所在的平面應(yīng)調(diào)整至與座板頂面平行。操作時(shí)為了消除水平儀及梁的誤差,水平儀在梁上的位置必須固定,水平儀與梁要一起調(diào)頭,取平均值計(jì)算的方法計(jì)算水平度誤差。只要平梁剛度足夠,跨距適合,把水平儀放在梁上就可以直接測(cè)量大尺寸平面上兩點(diǎn)的水平度誤差。

(二)“CAYERE”法

針對(duì)水平梁法長(zhǎng)度固定,無法準(zhǔn)確反映水平波浪度的情況,可以采用首尾銜接多點(diǎn)連續(xù)的測(cè)量方法。對(duì)于需要測(cè)量座環(huán)、底環(huán)、大軸法蘭等大的環(huán)形面,可以沿圓周方向連續(xù)測(cè)量,可以得到一條反映圓周水平波浪變化的曲線,此方法稱為“CAYERE”法,由ALSTOM在三峽使用后,國(guó)內(nèi)很多電站都進(jìn)行了推廣和嘗試,收到了良好的效果。

(三)網(wǎng)格法

對(duì)于設(shè)備基礎(chǔ)等比較大的平面,可以采用“網(wǎng)格法”,將測(cè)量面劃分成矩形方格網(wǎng),用水平儀測(cè)量每條矩形邊的水平值,從而得到一個(gè)反應(yīng)水平趨勢(shì)變化的曲面。

三、水平測(cè)量數(shù)據(jù)分析方法

水平測(cè)量的數(shù)據(jù)分析主要用來反映高低變化的趨勢(shì),以便分析不平度產(chǎn)生的原因,采取相應(yīng)的處理措施。為反映高低變化的趨勢(shì),需要先將測(cè)量數(shù)值轉(zhuǎn)化成相對(duì)于某一點(diǎn)的絕對(duì)差值,然后利用計(jì)算機(jī)軟件方便地呈現(xiàn)出來。

用EXCEL“圖表法”繪制趨勢(shì)線。EXCEL是比較常用的辦公軟件,在線狀或環(huán)形的連續(xù)測(cè)量情況可以直觀的反映水平變化情況。下表1是某大型電站的分瓣座環(huán)組裝過程中的某次測(cè)量結(jié)果,采用的設(shè)備為蔡司NI007自動(dòng)安平水準(zhǔn)儀,測(cè)微器將5mm分成100份,測(cè)微器讀數(shù)的單位為0.005mm,各點(diǎn)與1#測(cè)點(diǎn)的高差均可用EXCEL的公式計(jì)算功能方便的計(jì)算出來。

四、結(jié)束語

本文所述的水平測(cè)量方法及數(shù)據(jù)處理方法,在很多電站機(jī)組安裝調(diào)整中起到了良好的指導(dǎo)作用。計(jì)算機(jī)的運(yùn)算反映的是數(shù)據(jù)可視化后的趨勢(shì),真正數(shù)據(jù)的準(zhǔn)確度取決于測(cè)量的精度,因此,無論使用什么儀器或軟件,都需要通過發(fā)揮人的主觀能動(dòng)性,積極探索實(shí)踐,消除儀器自身帶來的各種誤差和人為讀數(shù)誤差,這才是提高安裝質(zhì)量的關(guān)鍵。

數(shù)據(jù)分析方法論文:大數(shù)據(jù)分析的方法及其在情報(bào)研究中的適用性初探

摘 要:對(duì)基于數(shù)據(jù)或信息分析的情報(bào)研究來說,大數(shù)據(jù)分析方法帶來了新機(jī)遇。文章在現(xiàn)有研究的基礎(chǔ)上,先梳理了基于數(shù)據(jù)、流程及信息技術(shù)三種視角的大數(shù)據(jù)分析方法,并從中歸納出了面向統(tǒng)計(jì)、挖掘、發(fā)現(xiàn)、預(yù)測(cè)與集成等5種分析層次的17種相關(guān)研究方法。接著探討了大數(shù)據(jù)分析方法在情報(bào)研究的適用性,分別找出10種可直接移植的方法、2種調(diào)整后可移植的方法、2種不適用的方法、3種需要繼續(xù)研究或關(guān)注的方法。

關(guān)鍵詞:大數(shù)據(jù) 大數(shù)據(jù)分析方法 情報(bào)研究 適用性

大數(shù)據(jù)分析(Big Data Analytics,BDA)是以“深度的發(fā)現(xiàn)分析、引領(lǐng)行動(dòng)”作為目標(biāo)的工作[1-2],它包括由多個(gè)任務(wù)組成的高度重復(fù)執(zhí)行的步驟[3-4]。BDA通常要集成多種分析技術(shù)與軟件工具,以便讓海量數(shù)據(jù)的處理及分析變得更加容易,從數(shù)據(jù)中提取有用信息并形成結(jié)論,用來驗(yàn)證、指導(dǎo)及規(guī)范組織或個(gè)人的決策行動(dòng);BDA的執(zhí)行過程一般包括問題需求及假設(shè)提出、數(shù)據(jù)獲取及記錄、信息抽取及清洗、數(shù)據(jù)整合及表示、選擇建模及分析方法、結(jié)果詮釋、評(píng)測(cè)結(jié)果有效性及監(jiān)控等幾個(gè)階段。從以上BDA的定義及過程來看,BDA與情報(bào)學(xué)領(lǐng)域中的情報(bào)研究(也稱情報(bào)分析)在本質(zhì)上是一致的,兩者至少在方法與技術(shù)(以下簡(jiǎn)稱方法)上可以相互借鑒或補(bǔ)充。本文基于情報(bào)學(xué)的視角,關(guān)注哪些BDA方法可以為情報(bào)研究提供借鑒,并解決情報(bào)研究的相關(guān)問題。因此,本文首先概略總結(jié)BDA的方法體系,然后探討B(tài)DA方法在情報(bào)研究中的適用性。

1 大數(shù)據(jù)分析的方法分類

到目前為止,尚沒有公認(rèn)的BDA方法的分類體系,甚至對(duì)BDA包括哪些方法,也有不同的認(rèn)識(shí)。本文首先綜述現(xiàn)有的相關(guān)研究,并以此為基礎(chǔ)提出我們的分類體系。

1.1 相關(guān)研究

不同學(xué)者對(duì)BDA方法的看法各有差異,概括起來,主要有三種分類體系,分別是面向數(shù)據(jù)視角的分類、面向流程視角的分類以及面向信息技術(shù)視角的分類。

(1)面向數(shù)據(jù)視角的BDA方法分類。這類研究主要是以BDA處理的對(duì)象“數(shù)據(jù)”作為分類依據(jù),從數(shù)據(jù)的類型、數(shù)據(jù)量、數(shù)據(jù)能夠解決的問題、處理數(shù)據(jù)的方式等角度對(duì)BDA方法進(jìn)行分類。

Power[5]依據(jù)分析需求將數(shù)值型數(shù)據(jù)的分析方法劃分為三類:①若是模式理解及對(duì)未來做出推論,可采取歷史數(shù)據(jù)及定量工具進(jìn)行“回顧性數(shù)據(jù)分析”;②若要進(jìn)行前瞻及預(yù)測(cè)分析,可采取歷史數(shù)據(jù)及仿真模型進(jìn)行“預(yù)測(cè)性數(shù)據(jù)分析”;③若要觸發(fā)事件,可采取實(shí)時(shí)數(shù)據(jù)及定量工具進(jìn)行“規(guī)范性數(shù)據(jù)分析”。美國(guó)國(guó)家研究委員會(huì)在2013年公布的《海量數(shù)據(jù)分析前沿》研究報(bào)告中提出了七種基本統(tǒng)計(jì)數(shù)據(jù)分析方法[6],包括:①基本統(tǒng)計(jì)(如一般統(tǒng)計(jì)及多維數(shù)分析等);②N體問題(N-body Problems)(如最鄰近算法、Kernel算法、PCA算法等);③圖論算法(Graph-Theoretic Algorithm);④線性代數(shù)計(jì)算(Linear Algebraic Computations);⑤優(yōu)化算法(Optimizations);⑥功能整合(如貝葉斯推理模型、Markov Chain Monte Carlo方法等);⑦數(shù)據(jù)匹配(如隱馬爾可夫模型等)。

針對(duì)非純粹的數(shù)值型數(shù)據(jù),Li、Han[7]梳理了面向“時(shí)空數(shù)據(jù)”(Spatiotemporal Data)的BDA方法,通過對(duì)動(dòng)態(tài)數(shù)據(jù)挖掘出主體的預(yù)測(cè)性,如運(yùn)用物理工程領(lǐng)域的傅立葉變換(Fourier Transform)及自相關(guān)匹配(Autocorrelation)偵查某一時(shí)間區(qū)段的信號(hào)、發(fā)生的事件或生物基因中的周期性節(jié)律,也可運(yùn)用時(shí)間序列方法預(yù)測(cè)地點(diǎn)位置的變化;魏順平[8]以教育領(lǐng)域?yàn)槔崂砹嗣嫦驅(qū)W生與學(xué)習(xí)環(huán)境的“學(xué)習(xí)分析方法”(Learning Analytics),此方法集成了內(nèi)容分析、話語分析、社會(huì)網(wǎng)絡(luò)分析、統(tǒng)計(jì)分析、數(shù)據(jù)挖掘等多種方法,從中挖掘?qū)W習(xí)的各種語義關(guān)系,并回答“誰在學(xué)、學(xué)什么、怎么學(xué)、學(xué)的結(jié)果如何”等問題,為教學(xué)與優(yōu)化學(xué)習(xí)提供參考。

Mohanty等人[3]從數(shù)據(jù)獲取(Data Ingestion)角度,依照處理的數(shù)據(jù)量從小至大的順序,區(qū)分出八種分析方法:①流分析(Streaming Analytics),以預(yù)定模式及時(shí)處理數(shù)據(jù)流;②高速的數(shù)據(jù)采集(High Velocity Data Ingestion),不轉(zhuǎn)換任何格式,可稍晚處理; ③鏈結(jié)分析(Linkage Analysis),構(gòu)建不同數(shù)據(jù)源的關(guān)系與鏈接;④罕見事件偵查(Rare-Event Detection),從龐大數(shù)據(jù)集中尋找特定模式;⑤數(shù)據(jù)聚合(Data Mash-Ups),需要對(duì)數(shù)據(jù)屬性發(fā)展故事線或鏈接關(guān)系進(jìn)行分析;⑥文本分析(Text Analytics),如觀點(diǎn)挖掘或社會(huì)網(wǎng)絡(luò)分析等;⑦時(shí)間序列分析(Time-Series Analysis),通過模式偵測(cè)及事件發(fā)生概率來處理時(shí)空數(shù)據(jù);⑧數(shù)據(jù)辯論(Data Forensic),用于數(shù)據(jù)科學(xué)家探索大規(guī)模數(shù)據(jù)集。

Chen等人[9]認(rèn)為,在商業(yè)智能分析發(fā)展的過程中,商業(yè)智能分析經(jīng)歷了從處理結(jié)構(gòu)化程度較高的數(shù)據(jù)、到處理網(wǎng)絡(luò)上半結(jié)構(gòu)化數(shù)據(jù)、再到處理移動(dòng)數(shù)據(jù)的發(fā)展,涵蓋了五類核心的分析方法:①數(shù)據(jù)分析,涉及數(shù)據(jù)倉(cāng)儲(chǔ)、ETL、聯(lián)機(jī)分析及數(shù)據(jù)挖掘等分析技術(shù),可應(yīng)用在時(shí)間序列挖掘、網(wǎng)站挖掘、空間數(shù)據(jù)挖掘等;②文本分析,涉及信息檢索、查詢處理、相關(guān)反饋等分析技術(shù),可應(yīng)用在QA系統(tǒng)、觀點(diǎn)挖掘、多語義分析、可視化分析等;③網(wǎng)站分析,涉及信息檢索、網(wǎng)絡(luò)爬蟲、日志分析等分析技術(shù),可應(yīng)用在云計(jì)算、社會(huì)網(wǎng)絡(luò)分析、網(wǎng)站可視化等;④網(wǎng)絡(luò)分析,涉及信息計(jì)量、引用網(wǎng)絡(luò)、數(shù)學(xué)網(wǎng)絡(luò)模式等分析技術(shù),可應(yīng)用在鏈結(jié)分析、社區(qū)發(fā)現(xiàn)、社會(huì)影響力及擴(kuò)散模式等;⑤移動(dòng)分析,可應(yīng)用在移動(dòng)通訊服務(wù)、個(gè)性化分析、游戲營(yíng)銷分析等。

(2)面向流程視角的BDA方法分類。這類研究主要是依據(jù)BDA的步驟和階段對(duì)BDA方法進(jìn)行分類。

美國(guó)計(jì)算社區(qū)協(xié)會(huì)出版的《大數(shù)據(jù)的機(jī)會(huì)與挑戰(zhàn)》白皮書指出BDA是一個(gè)多階段任務(wù)循環(huán)執(zhí)行過程[4],從整體看,其分析的過程包括了五個(gè)階段,每一個(gè)階段都包含該階段需要使用的方法:①數(shù)據(jù)獲取及記錄,從各種感知工具中獲取的數(shù)據(jù)通常與空間時(shí)空相關(guān),需要及時(shí)分析技術(shù)處理數(shù)據(jù)并過濾無用數(shù)據(jù);②信息抽取及清洗,從異構(gòu)數(shù)據(jù)源抽取有用信息,并轉(zhuǎn)換為結(jié)構(gòu)化的格式;③數(shù)據(jù)整合及表示,將數(shù)據(jù)結(jié)構(gòu)與語義關(guān)系轉(zhuǎn)換為機(jī)器可讀取、自動(dòng)解析的格式;④數(shù)據(jù)建模及分析,從數(shù)據(jù)中挖掘出潛在規(guī)律及知識(shí),涉及可擴(kuò)展的挖掘算法或知識(shí)發(fā)現(xiàn)等方法;⑤詮釋,為了讓用戶容易解讀分析結(jié)果,可視化分析技術(shù)變得十分重要。此外,嚴(yán)霄鳳、張德馨[10]依照搜集、分析到可視化的流程,梳理了適用于大數(shù)據(jù)的關(guān)鍵技術(shù),包括:遺傳算法、神經(jīng)網(wǎng)絡(luò)、數(shù)據(jù)挖掘、回歸分析、分類、聚類、關(guān)聯(lián)規(guī)則、數(shù)據(jù)融合、機(jī)器學(xué)習(xí)、自然語言處理、情感分析、網(wǎng)絡(luò)分析、空間分析、時(shí)間序列分析等多種方法。

(3)面向信息技術(shù)視角的BDA方法分類。這類研究強(qiáng)調(diào)大數(shù)據(jù)技術(shù)本身涉及到的新型信息技術(shù),將大數(shù)據(jù)處理架構(gòu)、大數(shù)據(jù)計(jì)算模式、大數(shù)據(jù)系統(tǒng)等作為BDA方法分類的依據(jù)。

孟小峰、慈祥[11]著眼于大數(shù)據(jù)處理框架,梳理了數(shù)據(jù)抽取與集成、數(shù)據(jù)分析及數(shù)據(jù)解釋所使用的分析方法,在數(shù)據(jù)抽取與集成方面,可區(qū)分為基于物化(Materialization)或ETL的方法、基于聯(lián)邦數(shù)據(jù)庫(kù)或中間件的方法、基于數(shù)據(jù)流的方法以及基于搜索引擎的方法等四類;在數(shù)據(jù)分析方面,傳統(tǒng)的數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)或統(tǒng)計(jì)分析面臨數(shù)據(jù)規(guī)模、算法調(diào)整等困難,需進(jìn)一步發(fā)展;在數(shù)據(jù)解釋方面,引入可視化技術(shù)或交互式的數(shù)據(jù)分析過程,有助于用戶理解分析結(jié)果。覃雄派等人[12]認(rèn)為,非關(guān)系數(shù)據(jù)管理(如MapReduce)擴(kuò)展了數(shù)據(jù)分析的多維視角,使數(shù)據(jù)分析的生態(tài)系統(tǒng)從“大量數(shù)據(jù)的移動(dòng)”轉(zhuǎn)向“直接對(duì)數(shù)據(jù)進(jìn)行分析”。

2012~2013年在印度召開了兩次BDA國(guó)際研討會(huì)[13-14],會(huì)上分別就BDA中的機(jī)器學(xué)習(xí)面臨數(shù)據(jù)規(guī)模與多維度問題、可擴(kuò)展的機(jī)器學(xué)習(xí)算法(如隨機(jī)映射、隨機(jī)梯度下降等)、機(jī)器學(xué)習(xí)在MapReduce的應(yīng)用、社交媒體數(shù)據(jù)挖掘(如話題檢測(cè)與跟蹤、地點(diǎn)推理、語義連接等)、高維數(shù)據(jù)降維分析(如主成分分析、因子分析、經(jīng)典相關(guān)分析等)、圖像挖掘(如Main Memory Approach、Disk-Based Approaches、Database-Oriented Approach)及圖像比對(duì)分析(如特征提取、Iterative Methods)等進(jìn)行了探討。2013年IEEE計(jì)算機(jī)協(xié)會(huì)在美國(guó)召開大數(shù)據(jù)國(guó)際研討會(huì),BDA結(jié)合MapReduce、Hadoop等模型的分析方法仍是主流,研究的內(nèi)容包括了Map-Based Graph Analysis、Sketch-Based Load Balancing Algorithm、Large Scale Neural Networks等方法。

1.2 BDA方法的分類――面向?qū)哟蔚腂DA方法框架

上述三種視角的BDA分類各有特點(diǎn),都有一定的道理。從面向數(shù)據(jù)的視角來看,BDA方法正從統(tǒng)計(jì)(Statistics)轉(zhuǎn)向挖掘(Mining),并提升到發(fā)現(xiàn)(Discovery)和預(yù)測(cè)(Prediction)。基于流程的BDA分類則更能反映BDA過程的集成性(Integration),也就是說,在完成一項(xiàng)分析任務(wù)時(shí),需要綜合使用多種方法。從面向信息技術(shù)的BDA分類中可以看出,這種分類方式強(qiáng)調(diào)使用新技術(shù)對(duì)傳統(tǒng)數(shù)據(jù)處理方法進(jìn)行改進(jìn)和創(chuàng)新,同時(shí)更重視新型系統(tǒng)架構(gòu)與分析方法的集成,例如,各種數(shù)據(jù)挖掘算法的MapReduce化,就是這方面的典型實(shí)例。

本文認(rèn)為,如果綜合上述三種分類體系中體現(xiàn)的層次性,將可以更準(zhǔn)確描述BDA方法。在此,本文提出一個(gè)面向?qū)哟蔚腂DA分類框架,將BDA方法分為統(tǒng)計(jì)、挖掘、發(fā)現(xiàn)、預(yù)測(cè)及集成五個(gè)層次,并初步歸納出17種BDA相關(guān)方法(見表1)。

2 BDA方法在情報(bào)研究中的適用性探討

如前所述,BDA與情報(bào)研究在本質(zhì)上有共同之處,BDA方法可為情報(bào)研究提供借鑒,因此,探討B(tài)DA方法對(duì)情報(bào)研究的適用性就很有必要性。以下綜合考慮方法本身的完善性及可操作性、情報(bào)研究的分析對(duì)象特征、方法的可移植性[15]等因素,對(duì)本文所列舉的17種面向?qū)哟蔚腂DA方法在情報(bào)研究中的適用性進(jìn)行分析。

2.1 可直接移植的方法

可直接移植方法是指這些方法的原理、流程、算法等可以直接應(yīng)用于情報(bào)研究,用來對(duì)情報(bào)研究的數(shù)據(jù)源(如科技文獻(xiàn)、網(wǎng)絡(luò)資源等)進(jìn)行處理,解決情報(bào)研究過程中的一個(gè)或幾個(gè)步驟中要解決的問題。在本文所列舉的17種面向?qū)哟蔚腂DA方法中,數(shù)據(jù)挖掘、文本挖掘、知識(shí)發(fā)現(xiàn)、觀點(diǎn)挖掘、話題演化分析、多元統(tǒng)計(jì)分析、時(shí)間序列分析、海量數(shù)據(jù)的基本統(tǒng)計(jì)方法、高維數(shù)據(jù)降維分析方法、多源數(shù)據(jù)融合方法等10種方法均屬于可直接移植方法,其中有些方法在情報(bào)研究中已經(jīng)有多年的應(yīng)用歷史。

(1)數(shù)據(jù)挖掘與文本挖掘。數(shù)據(jù)挖掘與文本挖掘是不同概念,兩種方法分別使用不同的發(fā)現(xiàn)技術(shù),文本挖掘?qū)儆诨谟?jì)算機(jī)語言學(xué)及統(tǒng)計(jì)方法的發(fā)現(xiàn)技術(shù),用來揭示文本中的詞與句法特征;數(shù)據(jù)挖掘以數(shù)據(jù)庫(kù)中的大量結(jié)構(gòu)化的數(shù)據(jù)挖掘?yàn)榛A(chǔ),用來揭示數(shù)據(jù)中潛在的、可能的數(shù)據(jù)模式及關(guān)聯(lián)規(guī)律[16]。在情報(bào)學(xué)領(lǐng)域的實(shí)踐應(yīng)用中,數(shù)據(jù)挖掘多應(yīng)用在圖書館自動(dòng)化技術(shù)與服務(wù)方面,例如,館藏采購(gòu)決策、個(gè)性化服務(wù)、信息檢索、讀者管理、館藏布局等。文本挖掘在情報(bào)研究的價(jià)值在于彌補(bǔ)了情報(bào)學(xué)專門分析方法對(duì)科技文獻(xiàn)內(nèi)在知識(shí)挖掘不足的缺欠,例如,祝清松、冷伏海[17]為了解決引文分析方法無法揭示論文的研究?jī)?nèi)容這個(gè)問題,提出引文內(nèi)容分析,先建立基于規(guī)則的引文內(nèi)容抽取來識(shí)別引用句,再通過基于C-value多詞術(shù)語識(shí)別算法找出高被引論文主題,相比于引文分析,這種方法較能提供客觀的語義信息與文獻(xiàn)之間的語義關(guān)系。

(2)知識(shí)發(fā)現(xiàn)。情報(bào)研究中所說的知識(shí)發(fā)現(xiàn),主要是指基于文獻(xiàn)的知識(shí)發(fā)現(xiàn),例如,張樹良、冷伏海[18]在共詞、共引、文本挖掘等方法基礎(chǔ)上,提出了“基于文獻(xiàn)的知識(shí)發(fā)現(xiàn)”,包括:基于相關(guān)文獻(xiàn)、基于非相關(guān)文獻(xiàn)及基于全文獻(xiàn)三種條件下的知識(shí)發(fā)現(xiàn),完整揭示文獻(xiàn)的知識(shí)結(jié)構(gòu)與演化情況。在網(wǎng)絡(luò)環(huán)境下,李楠、張學(xué)福[19]認(rèn)為關(guān)聯(lián)數(shù)據(jù)的RDF數(shù)據(jù)模型、數(shù)據(jù)訪問機(jī)制、URIs及自描述數(shù)據(jù)等規(guī)范所形成的數(shù)據(jù)共享環(huán)境,為知識(shí)發(fā)現(xiàn)提供了新的研究潛力,包括知識(shí)發(fā)現(xiàn)的范圍被擴(kuò)展成全球數(shù)據(jù)空間、高效率理解及處理數(shù)據(jù)間的語義關(guān)系等。簡(jiǎn)言之,知識(shí)發(fā)現(xiàn)從不同數(shù)據(jù)源之間的復(fù)雜關(guān)系中獲得隱含的知識(shí)或規(guī)律,甚至可對(duì)未來進(jìn)行預(yù)測(cè)。

(3)觀點(diǎn)挖掘與話題演化分析。觀點(diǎn)挖掘與話題演化分析兩種方法實(shí)際上是數(shù)據(jù)挖掘及文本挖掘的具體及深化應(yīng)用。觀點(diǎn)挖掘主要有三種挖掘任務(wù):情感分類、基于特征的觀點(diǎn)挖掘、比較語句和關(guān)系挖掘[20],例如,黃曉斌、趙超[21]通過對(duì)網(wǎng)絡(luò)輿情信息的文本挖掘,找出不同民眾對(duì)某一社會(huì)事件的情緒、態(tài)度及觀點(diǎn),再通過關(guān)聯(lián)分析找出網(wǎng)絡(luò)輿情信息的各種關(guān)聯(lián)性。趙潔、溫潤(rùn)[22]認(rèn)為微博情感分析的關(guān)鍵是觀點(diǎn)句識(shí)別,并根據(jù)文本特征的差異性,提出了基于新詞擴(kuò)充和特征選擇的觀點(diǎn)句識(shí)別方法,即先擴(kuò)充情感詞典來提高分詞準(zhǔn)確率,再結(jié)合微博特征進(jìn)行句子選取。話題演化分析方法是近年文本挖掘的研究熱點(diǎn),借助不同的話題模型,包括基于LSI模型、基于pLSI模型、基于LDA模型等,獲取文本中的一組詞語,表示為某一話題的集合,再引入時(shí)間信息模擬該話題隨著時(shí)間推移所表現(xiàn)的受關(guān)注程度及關(guān)注點(diǎn)的變化[23]。又例如,賀亮、李芳[24]利用LDA模型抽取科技文獻(xiàn)中的話題(即主題詞),再計(jì)算話題的強(qiáng)度與內(nèi)容演化,從而區(qū)分熱門與冷門話題及其歷年特征詞的演化趨勢(shì)。

(4)多元統(tǒng)計(jì)分析與時(shí)間序列分析。多元統(tǒng)計(jì)分析與時(shí)間序列分析兩種方法也是情報(bào)研究常見的定量分析方法[25],前者研究客觀事物中多個(gè)變量(或多個(gè)因素)之間相互依賴的統(tǒng)計(jì)規(guī)律,后者則是基于隨機(jī)過程理論和數(shù)理統(tǒng)計(jì)學(xué)方法,研究動(dòng)態(tài)數(shù)據(jù)序列的規(guī)律性。這兩種分析方法的一個(gè)重要特點(diǎn)在于能基于歷史數(shù)據(jù)的變化,評(píng)價(jià)事物現(xiàn)狀或預(yù)測(cè)事物未來的發(fā)展。

(5)海量數(shù)據(jù)的基本統(tǒng)計(jì)分析方法。海量數(shù)據(jù)的七種基本統(tǒng)計(jì)分析方法適用于情報(bào)研究的原因是,專家們普遍認(rèn)為,在現(xiàn)有硬件技術(shù)條件下要開發(fā)一個(gè)海量數(shù)據(jù)分析系統(tǒng)的難度過高,且高性能計(jì)算領(lǐng)域也面臨許多困難,因而轉(zhuǎn)向?qū)ふ夜餐ǖ幕A(chǔ)性計(jì)算方法來幫助運(yùn)算[6],同時(shí)這些統(tǒng)計(jì)方法也經(jīng)常應(yīng)用于數(shù)據(jù)挖掘或文本挖掘。對(duì)情報(bào)研究來說,處理的數(shù)據(jù)量不及高性能計(jì)算領(lǐng)域的海量數(shù)據(jù),因此可以容易地應(yīng)用這些基本統(tǒng)計(jì)分析方法。盡管如此,隨著情報(bào)研究處理的文本量增加,包括文獻(xiàn)計(jì)量或信息計(jì)量方法在內(nèi)的定量分析方法,仍然要經(jīng)常借鑒基礎(chǔ)性的計(jì)算方法,并進(jìn)行公式改進(jìn)。

(6)高維數(shù)據(jù)降維分析方法。高維數(shù)據(jù)降維分析方法反映了海量的數(shù)值型數(shù)據(jù)在數(shù)據(jù)縮減的重要性,常見的降維(Dimensionality Reduction)方法包括主成分分析、因子分析、典型相關(guān)分析、獨(dú)立成分分析、投影尋蹤等[26]。高維數(shù)據(jù)經(jīng)常存在大量的弱相關(guān)內(nèi)容或噪音,通過線性(如主成分分析、典型相關(guān)分析等)或非線性(如投影尋蹤、核方法等)映射可以將數(shù)據(jù)樣本從高維空間映射到低維空間,從而提高機(jī)器學(xué)習(xí)的效率[27-28]。情報(bào)研究在處理文本語料時(shí),廣泛使用基于向量空間模型來表示文本,形成的高維特征集會(huì)對(duì)文本分類或機(jī)器學(xué)習(xí)的效果產(chǎn)生很大影響,通過特征選擇(如特征頻率、互信息等)進(jìn)行特征抽?。ㄈ鏟CA、LSI、NMF等),轉(zhuǎn)換成一個(gè)低維的特征集來提高訓(xùn)練效果,是非常必要的[29]。

(7)多源數(shù)據(jù)融合方法。多源數(shù)據(jù)融合方法是解決大數(shù)據(jù)環(huán)境下異構(gòu)數(shù)據(jù)整合而提出的方法,例如,為了解決不同研究階段產(chǎn)生的各類科學(xué)數(shù)據(jù)集成問題,白如江、冷伏海[30]認(rèn)為解決關(guān)鍵在于中間件構(gòu)建,例如,通過基于XML模型將異構(gòu)數(shù)據(jù)源的元數(shù)據(jù)映射到全局視圖,解決了不同數(shù)據(jù)源的關(guān)系描述問題,并提供用戶可靈活訂制查詢規(guī)則;但基于XML模型只能提供語法層次的整合,為了提供數(shù)據(jù)在語義層次的整合,可通過基于語義模型對(duì)XML的對(duì)象進(jìn)行分類,在對(duì)象模型的基礎(chǔ)上生成邏輯規(guī)則,揭示隱含在科學(xué)數(shù)據(jù)中的語義信息。此外,也可以通過基于物化或ETL方法、基于數(shù)據(jù)流方法或其他方法對(duì)異構(gòu)數(shù)據(jù)源中的數(shù)據(jù)抽取出實(shí)體與關(guān)系,再進(jìn)行數(shù)據(jù)集成或數(shù)據(jù)清洗[11]。多源數(shù)據(jù)融合方法是進(jìn)入數(shù)據(jù)分析之前的重要任務(wù),對(duì)情報(bào)研究來說,需要多種來源支持情報(bào)分析工作,包括同型異源信息、異質(zhì)異構(gòu)信息、多語種信息等,都需要通過異源信息字段的映射、拆分、濾重、加權(quán)等進(jìn)行融合分析[31]。

2.2 調(diào)整后移植的方法

調(diào)整后移植的方法是指其在原本的領(lǐng)域已經(jīng)成功應(yīng)用,但由于該方法最早或成功應(yīng)用的領(lǐng)域在任務(wù)需求、數(shù)據(jù)處理、分析過程有自身的特點(diǎn),若移植到情報(bào)研究時(shí),需要根據(jù)情報(bào)研究自身的特征進(jìn)行調(diào)整。數(shù)據(jù)可用處理及分析方法、時(shí)空數(shù)據(jù)分析等兩種分析方法就屬于這類情況。

(1)數(shù)據(jù)可用處理及分析方法。大數(shù)據(jù)環(huán)境中容易產(chǎn)生許多劣質(zhì)數(shù)據(jù)來降低數(shù)據(jù)可用性,為了提高數(shù)據(jù)可用性及數(shù)據(jù)質(zhì)量,李建中及劉顯敏[32]梳理了數(shù)種數(shù)據(jù)可用性的相關(guān)方法,包括高質(zhì)量數(shù)據(jù)獲取與整合、數(shù)據(jù)錯(cuò)誤自動(dòng)檢測(cè)與修復(fù)、弱可用數(shù)據(jù)處理與分析等,分別解決了大規(guī)模數(shù)據(jù)集預(yù)處理階段常見的一致性、精確性、完整性、時(shí)效性及實(shí)體同一性等問題。對(duì)情報(bào)研究來說,情報(bào)素材、產(chǎn)品形式及工作任務(wù)分解的質(zhì)量控制是情報(bào)工作的核心[33],其中,情報(bào)素材的質(zhì)量對(duì)后續(xù)的情報(bào)分析成敗存在著至關(guān)重要的作用,當(dāng)數(shù)據(jù)或信息是錯(cuò)誤或不完整時(shí),提煉出來的情報(bào)勢(shì)必會(huì)存在缺陷或錯(cuò)誤。過去對(duì)情報(bào)研究的質(zhì)量控制取決于人,如果能引入數(shù)據(jù)可用處理及分析方法解決數(shù)據(jù)或信息源可能存在的不一致、不精確、遺漏、滯后或重復(fù)等問題,有助于提高情報(bào)分析素材的可用性與正確性。

(2)時(shí)空數(shù)據(jù)分析。時(shí)空數(shù)據(jù)分析是地球信息科學(xué)相關(guān)領(lǐng)域的研究熱點(diǎn),其中最常使用“周期性行為”(Periodic Behavior)分析,例如天氣預(yù)報(bào)、環(huán)境監(jiān)控、地理信息系統(tǒng)、城市交通網(wǎng)絡(luò)管理等都是常見的應(yīng)用實(shí)例[7]?,F(xiàn)有研究的多數(shù)做法是采取基于時(shí)間序列的方法進(jìn)行周期性行為建模,但建模過程容易出現(xiàn)對(duì)象可能沒有周期性行為、時(shí)間點(diǎn)分布不一定呈現(xiàn)周期性等問題,為了解決這些問題,王閱等人[34]提出基于ERP的周期檢測(cè)方法解決周期長(zhǎng)度定義問題,孟志青等人[35]提出多粒度時(shí)間文本下的周期模式挖掘算法解決時(shí)態(tài)文本數(shù)據(jù)挖掘問題。對(duì)情報(bào)研究來說,時(shí)間是文本中一個(gè)重要的屬性,如文獻(xiàn)發(fā)表規(guī)律、輿情監(jiān)控、科研人員的研究主題周期等。在原有數(shù)據(jù)基礎(chǔ)上增加時(shí)間維度進(jìn)行長(zhǎng)時(shí)段分析是多數(shù)研究的常見做法,但并沒有呈現(xiàn)出其中的周期性規(guī)律,特別是文本中的規(guī)律特征較難發(fā)現(xiàn),如果能引入此類方法,將有助于找出情報(bào)演化的周期模式。

2.3 不適用的方法

考慮學(xué)科領(lǐng)域差異,本文認(rèn)為 “翻譯生物信息學(xué)分析”及“學(xué)習(xí)分析方法”兩種專門研究方法不適合情報(bào)研究。

(1)翻譯生物信息學(xué)分析。翻譯生物信息學(xué)分析是生物信息學(xué)的專門分析方法,這種方法是依據(jù)特定目的整合多數(shù)據(jù)源及促進(jìn)領(lǐng)域知識(shí)的有效利用,其結(jié)果可應(yīng)用在生物醫(yī)學(xué)研究、產(chǎn)生支持醫(yī)療人員在治療點(diǎn)中的“可操作的決策”(Actionable Decision),同時(shí)能對(duì)人類與疾病的關(guān)聯(lián)關(guān)系提供更好的理解。生物信息學(xué)為了找出更多基因與疾病的關(guān)系,通過翻譯生物信息學(xué)分析,可以將分析方法與工具開發(fā)從系統(tǒng)層面橫跨到分子、個(gè)人或全人類層面,分析視角從單一基因或多肽(Polymorphic)挖掘的研究轉(zhuǎn)向新基因或遺傳性狀組合與預(yù)測(cè)研究[36]。從分析方法的操作過程來說,考慮到數(shù)據(jù)源的特殊性(如DNA編碼數(shù)據(jù)、蛋白質(zhì)結(jié)構(gòu)等)、分析視角、工具構(gòu)建及使用等因素,并不符合情報(bào)學(xué)的學(xué)科研究特色。

(2)學(xué)習(xí)分析方法。學(xué)習(xí)分析方法是搜集、分析及評(píng)測(cè)學(xué)習(xí)者及其學(xué)習(xí)語境的分析方法,目的在于理解與優(yōu)化學(xué)習(xí)及其學(xué)習(xí)環(huán)境[8]。從UNESCO IITE機(jī)構(gòu)在2012年11月出版的學(xué)習(xí)分析方法政策簡(jiǎn)報(bào)可知,學(xué)習(xí)分析方法的數(shù)據(jù)分析功能是基于數(shù)據(jù)挖掘從而開展相關(guān)分析內(nèi)容,包括行為分析、學(xué)習(xí)資源瀏覽分析、各種關(guān)聯(lián)分析與影響因素分析等。雖然數(shù)據(jù)挖掘是情報(bào)研究的常見方法,但學(xué)習(xí)分析方法的結(jié)果意義在于解釋學(xué)習(xí)者的學(xué)習(xí)語境,為教師或管理者提供決策支持,從而改善學(xué)習(xí)者的學(xué)習(xí)習(xí)慣及促進(jìn)學(xué)習(xí)效果。由于這種方法有其特定的含義和應(yīng)用環(huán)境,離開了學(xué)習(xí)語境,方法的內(nèi)涵和外延可能就會(huì)產(chǎn)生變化,因此,難以移植到情報(bào)研究。

2.4 需要繼續(xù)關(guān)注的方法

基于MapReduce或Hadoop的衍生分析方法、圖模型分析與挖掘以及商務(wù)智能分析,是近年研究探討較多的方法,但目前尚未形成一個(gè)成熟且完善的方法體系,例如,MapReduce或Hadoop等之類的工具還在持續(xù)發(fā)展中,本身也存在不斷的改進(jìn)空間,它們與各種分析方法的集成缺乏公認(rèn)的標(biāo)準(zhǔn)和規(guī)范,同樣地,對(duì)于關(guān)注圖像與事物之間關(guān)聯(lián)的圖模型分析與挖掘也尚沒有發(fā)展出固定的技術(shù),又例如,商務(wù)智能分析被定義為由數(shù)據(jù)倉(cāng)庫(kù)、ETL、聯(lián)機(jī)分析、數(shù)據(jù)挖掘、客戶關(guān)系管理、知識(shí)管理等多種技術(shù)融合的一組系統(tǒng),通過BI系統(tǒng)管理組織內(nèi)部及個(gè)人相關(guān)的商業(yè)數(shù)據(jù)、專家信息及知識(shí),涉及數(shù)據(jù)的融合、取用及分析等方法與工具[37-38],目前也沒有標(biāo)準(zhǔn)化的體系架構(gòu)。

因此,本文還無法明確回答上述三種方法將如何應(yīng)用于情報(bào)研究、在應(yīng)用過程中需要做哪些調(diào)整、這些方法與現(xiàn)有的情報(bào)研究方法的關(guān)系如何等相關(guān)問題,但可以肯定的是,這些方法對(duì)未來的情報(bào)研究具有借鑒價(jià)值,例如,一旦情報(bào)研究的處理對(duì)象(即數(shù)據(jù))積累到了一定程度,成為傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)處理不了的大數(shù)據(jù),那么,使用基于MapReduce或Hadoop的衍生分析方法就成為了必然。又如,圖模型分析與挖掘可補(bǔ)充情報(bào)研究在圖像分析的不足,而商務(wù)智能分析可理解為一套集成系統(tǒng),可應(yīng)用在情報(bào)機(jī)構(gòu)的知識(shí)庫(kù)或機(jī)構(gòu)典藏,找出組織的知識(shí)缺口等方面。

3 結(jié)語

大數(shù)據(jù)時(shí)代就是一個(gè)數(shù)據(jù)分析的時(shí)代,學(xué)界和業(yè)界提出了很多大數(shù)據(jù)分析的方法與技術(shù),這些方法與技術(shù)對(duì)情報(bào)研究產(chǎn)生了積極的借鑒作用,本文總結(jié)了大數(shù)據(jù)分析的方法,提出面向?qū)哟蔚腂DA方法框架,歸納總結(jié)了其中的17種BDA方法,并從可直接移植、將調(diào)整后移植、不適用于情報(bào)研究以及需要繼續(xù)關(guān)注等四個(gè)方面對(duì)這些方法在情報(bào)研究中的適用性進(jìn)行了分析,以期為情報(bào)研究借鑒或移植BDA相關(guān)方法提供參考,促進(jìn)情報(bào)研究的理論與實(shí)踐發(fā)展。

數(shù)據(jù)分析方法論文:考慮采用數(shù)據(jù)分析方法表明飛機(jī)撤離能力經(jīng)驗(yàn)介紹

【摘 要】民用飛機(jī)的應(yīng)急撤離能力是民用飛機(jī)安全性能的要求之一。目前國(guó)內(nèi)外對(duì)民機(jī)應(yīng)急撤離能力的分析對(duì)采用實(shí)景撤離試驗(yàn)的方法。針對(duì)實(shí)景撤離試驗(yàn)危險(xiǎn)系數(shù)高、花費(fèi)昂貴、周期長(zhǎng)等諸多問題,本文闡述應(yīng)用數(shù)據(jù)分析的方法,在積累試驗(yàn)數(shù)據(jù)的基礎(chǔ)上通過建立應(yīng)急撤離元素?cái)?shù)據(jù)庫(kù)實(shí)現(xiàn)對(duì)飛機(jī)撤離能力評(píng)判的經(jīng)驗(yàn)介紹。

【關(guān)鍵詞】撤離能力;數(shù)據(jù)分析;撤離元素

0 引言

如何在飛機(jī)發(fā)生故障時(shí)使機(jī)上乘員快速的撤離(即應(yīng)急撤離)是民用飛機(jī)安全性要求之一。根據(jù)中國(guó)民用航空規(guī)章第25部(CCAR-25)運(yùn)輸類飛機(jī)適航標(biāo)準(zhǔn)要求[1]:“對(duì)客座量大于44座的飛機(jī),必須表明其最大乘坐量在90秒鐘內(nèi)在模擬的應(yīng)急情況下從飛機(jī)撤離至地面。對(duì)于這一點(diǎn)的符合性,必須通過按CCAR25部附錄J規(guī)定的試驗(yàn)準(zhǔn)則所進(jìn)行的實(shí)際演示來表明,除非中國(guó)民用航空局(CAAC)適航部門認(rèn)為分析與試驗(yàn)的結(jié)合足以提供與實(shí)際演示所能獲得的數(shù)據(jù)等同的數(shù)據(jù)資料(§25.803(c))”。

進(jìn)行全尺寸應(yīng)急撤離試驗(yàn),有以下不可避免的缺點(diǎn):真人驗(yàn)證非常危險(xiǎn)、試驗(yàn)花銷昂貴、準(zhǔn)備周期較長(zhǎng)以及參與試驗(yàn)者在撤離中隨機(jī)行為等問題。根據(jù)美國(guó)聯(lián)邦航空局(FAA)的研究發(fā)現(xiàn),在進(jìn)行全尺寸應(yīng)急撤離試驗(yàn)中平均6%的參試者受傷。在1972年至1980年,美國(guó)進(jìn)行了7次全尺寸應(yīng)急撤離試驗(yàn),2571名乘客和機(jī)組參加了試驗(yàn),其中有168人次受傷[2]。

在1985年FAA開始討論用分析與試驗(yàn)結(jié)合的方法替代全尺寸應(yīng)急撤離試驗(yàn)來表明對(duì)于§25.803(c)的符合性。允許申請(qǐng)人使用分析的方法,其目的是證實(shí)飛機(jī)能在90秒以內(nèi)能將機(jī)上人員全體撤出[2]。

1 積累試驗(yàn)數(shù)據(jù)

對(duì)于采用分析方法進(jìn)行證明新型號(hào)飛機(jī)或已有飛機(jī)進(jìn)行了型號(hào)設(shè)計(jì)更改后符合§25.803(c)的要求,這需要之前的全尺寸撤離演示及其他的試驗(yàn)積累的充足的數(shù)據(jù)和知識(shí)。

分析必須有適當(dāng)?shù)脑囼?yàn)支持,這些試驗(yàn)可能包含,但不限于:

(1)應(yīng)急出口和輔助撤離設(shè)施組合的撤離率;

(2)確定開門和撤離人員準(zhǔn)備時(shí)間;

(3)確定乘務(wù)員訓(xùn)練和程序是充足的以幫助乘客迅速撤離飛機(jī);

(4)確定通道的影響,包含通向應(yīng)急出口或交叉過道及合并乘客流量的過道交點(diǎn)位置等;

(5)確定飛機(jī)內(nèi)外部應(yīng)急照明照度更改造成的影響的試驗(yàn);

(6)確定乘務(wù)員座椅位置更改對(duì)組織撤離的影響的試驗(yàn)。

成功的應(yīng)急撤離試驗(yàn)是分析的數(shù)據(jù)源,分析應(yīng)基于對(duì)確定應(yīng)急撤離系統(tǒng)元素的信任,(客艙內(nèi)部特征,門的尺寸,撤離輔助設(shè)備和與門的結(jié)合和相對(duì)位置),引用合適的涉及更小的或者相同的元素的試驗(yàn)記錄,然后這些性能數(shù)據(jù)對(duì)需要驗(yàn)證的構(gòu)型,進(jìn)行有效的分析。

如果使用未能成功的全尺寸試驗(yàn)數(shù)據(jù)為基礎(chǔ),對(duì)型號(hào)飛機(jī)的撤離能力進(jìn)行分析,首先失敗的原因應(yīng)被確定(設(shè)備、構(gòu)型、或程序),然而說明現(xiàn)需要驗(yàn)證的飛機(jī)構(gòu)型中不包含這些失敗的元素。

2 建立應(yīng)急撤離元素?cái)?shù)據(jù)庫(kù)

基于上述,對(duì)于新型號(hào)的飛機(jī)及涉及影響飛機(jī)撤離能力的設(shè)計(jì)更改,應(yīng)進(jìn)行評(píng)估其對(duì)于符合§25.803的影響。如果考慮用試驗(yàn)和分析方法結(jié)合方法代替全尺寸應(yīng)急撤離試驗(yàn),應(yīng)急撤離元素的數(shù)據(jù)庫(kù)的建立,是進(jìn)行應(yīng)急撤離分析的基礎(chǔ),同時(shí),相應(yīng)的試驗(yàn)是應(yīng)急撤離元素?cái)?shù)據(jù)庫(kù)建立的前提。

首先數(shù)據(jù)庫(kù)中需要建立對(duì)飛機(jī)內(nèi)部構(gòu)型進(jìn)行了詳細(xì)描述的具體模型,在這些模型中,乘客容量與撤離能力的應(yīng)清晰表述,審定基礎(chǔ)應(yīng)清晰。

客艙內(nèi)部安排特征和撤離系統(tǒng)元素(例如過道和交口,出口通路、乘務(wù)員輔助空間,門和應(yīng)急出口等)對(duì)分析是至關(guān)重要的。應(yīng)詳細(xì)的描述客艙安排和撤離系統(tǒng)元素,這些表述應(yīng)該包含位置、操作和客艙的尺寸和特征等,這些對(duì)于分析是非常重要的。

關(guān)于撤離系統(tǒng)元素任何專用條件、豁免、和等效安全的均應(yīng)被討論,和評(píng)估,視情況進(jìn)行相應(yīng)的試驗(yàn)。在進(jìn)行應(yīng)急撤離分析時(shí),這些評(píng)估均需包含其中。

如果采用與先前驗(yàn)證飛機(jī)相似的特征。經(jīng)全尺寸演示的構(gòu)型被考慮作為原驗(yàn)證構(gòu)型,兩個(gè)構(gòu)型的共同特征需要描述清晰。代表性的描述:門和輔助系統(tǒng)是沒有更改或與原基本構(gòu)型相似。內(nèi)部特征完全沒有更改或客艙主要部分沒有更改。兩個(gè)構(gòu)型的不同之處及構(gòu)型的獨(dú)特特征應(yīng)重點(diǎn)關(guān)注。例如,安裝了一個(gè)新的門,這個(gè)門的影響需要進(jìn)行評(píng)估,在其他飛機(jī)上相似的門系統(tǒng)的驗(yàn)證數(shù)據(jù)可以是的源泉。“相似”是使用這些數(shù)據(jù)基礎(chǔ),“相似”也是分析中的重點(diǎn)表述內(nèi)容之一。例如:獨(dú)特特征的空間參數(shù)應(yīng)與已驗(yàn)證的相匹配。這些系統(tǒng)的性能數(shù)據(jù)應(yīng)在分析中包含以確定新的構(gòu)型滿足條款要求。當(dāng)一個(gè)新的安裝更改了早期的安裝詳細(xì)特征,改變了系統(tǒng)性能,這個(gè)更改應(yīng)該被驗(yàn)證,分析中應(yīng)包含新安裝和早期的安裝的性能數(shù)據(jù)。

數(shù)據(jù)源應(yīng)被包含除全尺寸應(yīng)急撤離演示的以外的試驗(yàn)數(shù)據(jù),例如:一個(gè)新滑梯的拋放/充氣時(shí)間數(shù)據(jù)應(yīng)被考慮進(jìn)入撤離時(shí)間序,因?yàn)榛莺途壬伔藕统錃?,因此一旦開始,不受人為的進(jìn)一步干涉和CCAR25(和FAR25部)附錄J中試驗(yàn)條件的影響。相似的,拉丁文正方形試驗(yàn)(AC25-17A附錄4運(yùn)輸類飛機(jī)客艙內(nèi)部失墜性手冊(cè))可能被使用確定一個(gè)新撤出系統(tǒng)或系統(tǒng)元素的性能能力(需要在附錄J的試驗(yàn)條件下執(zhí)行),以確定乘員和新系統(tǒng)之間的界面是合適的,例如:滑梯的燈光是否是充足的鼓勵(lì)參與者最小猶豫的跳下去[5]。

3 應(yīng)急撤離元素

應(yīng)急撤離元素越涉及小單元的元素,并引入其相應(yīng)的是試驗(yàn)記錄,其分析的可信度越高。

3.1 應(yīng)急出口

3.1.1 應(yīng)急出口大小和分布

應(yīng)急出口的選擇和布置需滿足§25.807(應(yīng)急出口)和§25.809(應(yīng)急出口的布置)的要求。對(duì)于申請(qǐng)人已要求豁免的適用的聯(lián)邦航空條例中的非標(biāo)準(zhǔn)出口布局,必須確定它的可接受性,在一定的條件下進(jìn)行全尺寸試驗(yàn),以便與標(biāo)準(zhǔn)出口進(jìn)行精確的比較。

試驗(yàn)?zāi)康氖鞘褂盟峁┑某隹跇?gòu)型來確定的平均撤離時(shí)間等于或少于運(yùn)輸類飛機(jī)適用的聯(lián)邦航空條例中規(guī)定的出口構(gòu)型所規(guī)定的時(shí)間。這個(gè)結(jié)果可用作證實(shí)豁免的等效性或證實(shí)等效的安全水平。這個(gè)試驗(yàn)程序不用作確定出口率或出口構(gòu)型。

3.1.2 撤離輔助設(shè)施

撤離輔助設(shè)施展開的時(shí)間需滿足§25.810的要求。

3.1.3 撤離路線

§25.810 (c)中對(duì)撤離路線的選擇和制定進(jìn)行了詳細(xì)要求。

3.1.4 應(yīng)急出口標(biāo)記

應(yīng)急出口標(biāo)記要求乘員能認(rèn)清應(yīng)急出口及其位置,易于接近通路并易于開啟。應(yīng)急出口標(biāo)記的的設(shè)置滿足§25.812的要求。

3.1.5 應(yīng)急出口和輔助撤離設(shè)施組合

如果應(yīng)急門開啟時(shí),由應(yīng)急門帶動(dòng)并觸發(fā)輔助撤離設(shè)施的啟動(dòng)裝置,應(yīng)急門的運(yùn)動(dòng)過程與輔助撤離設(shè)施的完美組合是對(duì)于應(yīng)急撤離性能的影響是非常關(guān)鍵的。輔助設(shè)施系統(tǒng)的安裝需要進(jìn)行相應(yīng)的驗(yàn)證工作。應(yīng)急門輔助設(shè)施除完成TSO-C69驗(yàn)證試驗(yàn)外,還需要完成§25.810(a)(1)(v)的要求的5次連續(xù)拋放試驗(yàn)。對(duì)于應(yīng)急出口和輔助撤離設(shè)施組合有影響的更改,例如:滑梯裝飾罩、地板鉚釘突出等,存在影響應(yīng)急門運(yùn)動(dòng)和輔助撤離設(shè)施開啟的組合過程的因素,均需要進(jìn)行評(píng)估分析,視情況進(jìn)行試驗(yàn),并記錄試驗(yàn)結(jié)果。

3.2 過道和通道

3.2.1 應(yīng)急出口通道

§25.813中明確規(guī)定了主過道通往各類型出口和連通各個(gè)區(qū)域的通道的詳細(xì)尺寸要求。

3.2.2 應(yīng)急出口可達(dá)性

3.2.3 乘員輔助空間

必須按下列要求規(guī)定提供足夠的空間,便于機(jī)組人員協(xié)助旅客撤離:該輔助空間不得使用通道的無障礙寬度減少到低于出口所要求的無障礙寬度。

當(dāng)鄰近出口的區(qū)域被要求用于許可機(jī)組人員輔助乘客在使用逃生裝置,一個(gè)12×20英寸的輔助空間在長(zhǎng)矩形和清晰的20英寸靠近通道或相當(dāng)設(shè)備是被提供,這個(gè)地方是充足的允許乘務(wù)員直立站著去執(zhí)行需要的輔助服務(wù)在乘客撤離。較小的偏離從12×20英寸輔助空間是被允許如果已經(jīng)進(jìn)行了出口影響減少的評(píng)估。一個(gè)演示可能是需要的以顯示乘員能有效的撤離。

座椅椅背前折不應(yīng)該被使用侵占輔助空間。依賴輔助空間和坐墊壓縮是允許的。如果座椅是容易向前推動(dòng)和坐墊是容易壓縮的。

如果輔助空間是在頭頂上的架子下面,例如乘務(wù)員不能直立站直,增加空間是被要求的,例如免除外部座椅。輔助空間的效果必須要驗(yàn)證。

輔助空間不需要直接靠近出口。在一些情況下輔助空間可以是在出口稍稍靠里但在主要通道的外部。

輔助扶手是常常被提供在與地板水平的應(yīng)急出口為乘務(wù)員提供穩(wěn)定性在應(yīng)急撤離期間。對(duì)于輔助扶手沒有具體要求。在撤離演示中已經(jīng)使用了輔助扶手以符合規(guī)章要求,那么輔助扶手應(yīng)該安裝,并且在輔助空間上的位置不能更改。

3.2.4 過道寬度

§25.815對(duì)飛機(jī)應(yīng)具有符合性合格審定要求的最小無障礙過道和通道進(jìn)行了規(guī)定。這可以組合多模式特征。各種組合模式特征下的撤離速率的影響,需要進(jìn)行試驗(yàn)。最小的座椅寬度考慮了動(dòng)態(tài)試驗(yàn)座椅的變形影響。

通過§25.815(過道寬度)表明符合§25.807(應(yīng)急出口)是符合25.803的序幕。構(gòu)型滿足§25.807和§25.813(應(yīng)急出口通道)的要求的討論是應(yīng)急撤離能力分析的重要部分和可接受的重點(diǎn)。這一節(jié)定義了各種應(yīng)急出口的類型,各種類型數(shù)目的要求和易于接近和T■=T■+T■位置的要求。這些分析應(yīng)直接闡明客艙乘客分布的和出口能力分布的問題。當(dāng)物理約束,例如機(jī)體結(jié)構(gòu)、機(jī)翼和發(fā)動(dòng)機(jī)位置、防止艙門位置合適的幾何獨(dú)特性、提高應(yīng)急撤離能力的補(bǔ)償因素應(yīng)該被討論。出口的幾何分布,出口類型的規(guī)定能力,乘客艙區(qū)域客座椅密度應(yīng)該被記錄。布置圖上出口的幾何分布是明顯的。涉及到乘員分布的出口均勻分布可能不是立即可視的。

3.3 應(yīng)急照明

飛機(jī)應(yīng)急照明系統(tǒng)的設(shè)計(jì)需要滿足§25.812的要求。

3.4 乘員座椅位置

乘務(wù)員和提供的座位應(yīng)在合適的構(gòu)型中定義。

3.5 乘員培訓(xùn)

3.6 撤離者行為(猶豫不決等)對(duì)試驗(yàn)的影響

3.7 應(yīng)急撤離的其他客艙特征

例如:飛機(jī)外部影響應(yīng)急撤離的特征(例如發(fā)動(dòng)機(jī)和機(jī)翼副翼)應(yīng)詳細(xì)描述。

4 撤離時(shí)間的分析計(jì)算

4.1 撤離時(shí)間計(jì)算公式

FAA確定了撤離能力分析工作和一個(gè)可接受的標(biāo)準(zhǔn)的公式,基于撤離系統(tǒng)的時(shí)間鏈或全尺寸撤離演示錄像帶中觀察的事件的次序[4]。

T■=T■+T■ (1)

式中,T■表示總的撤離時(shí)間,即從演示開始到最后一個(gè)參與者到達(dá)地面的間隔事件;T■表示撤離出口前的時(shí)間,即從演示開始到第一個(gè)參與者到達(dá)地面的時(shí)間或站在出口前的時(shí)間;T■表示出口的撤離時(shí)間,即從第一個(gè)參與者到達(dá)地面到最后一個(gè)撤離者到達(dá)地面的時(shí)間。

其中,T■主要包括:

(1)開門時(shí)間;

(2)輔助設(shè)施拋放,和充氣(如適用);

(3)第一個(gè)參試者猶豫的時(shí)間(定義作為設(shè)備可以開始使用和第一個(gè)參與者已經(jīng)朝地面的動(dòng)作)和參試者到達(dá)地面的時(shí)間。

4.2 支持分析數(shù)據(jù)

(1)上文討論數(shù)據(jù)庫(kù)中包含了從試驗(yàn)和演示中得到的數(shù)據(jù),并定義了定義每一個(gè)數(shù)據(jù)的對(duì)于驗(yàn)證的需要程度。

(2)當(dāng)分析中使用的數(shù)據(jù)是一個(gè)時(shí)間間隔,數(shù)據(jù)庫(kù)中包含了在兩個(gè)事件時(shí)間中增加了時(shí)間間隔。事件是可視的和可直接驗(yàn)證的,因此間隔是源于事件時(shí)間。用于支持分析的所有的單一事件時(shí)間表格在數(shù)據(jù)庫(kù)中是易見的。

(3)一個(gè)不平常的數(shù)據(jù)影響時(shí)間間隔,例如一個(gè)參試者在輔助設(shè)施完全開啟前跳出,或輔助設(shè)施拋放在演示中,這些數(shù)據(jù)應(yīng)合適的調(diào)整。這樣的調(diào)整應(yīng)在分析中驗(yàn)證。

4.3 整體撤離時(shí)間計(jì)算

計(jì)算撤離時(shí)間和參與者計(jì)算在出口附近的可以被使用提供一個(gè)簡(jiǎn)單的圖標(biāo)結(jié)果。一個(gè)簡(jiǎn)單的構(gòu)型圖表可以滿意出口描述的多種目的。乘客和機(jī)組允許出口(客艙定義線)和每個(gè)出口的撤離時(shí)間。

4.4 成功判據(jù)

飛機(jī)在CCAR25部附錄J或CCAR121部附錄D確定的演示條件下具有總撤離時(shí)間小于90秒的撤離能力,出口撤離能力的時(shí)間裕度是需要的。

可以使用以下的公式定義時(shí)間裕度TM:

T■=∑■■90-T■ (2)

T■表示第i個(gè)出口的總體撤離時(shí)間(秒);n表示總體使用出口的數(shù)目。

在以上公式計(jì)算使用的可用裕度應(yīng)該等于或大于9秒。9秒的時(shí)間間隔(目前標(biāo)準(zhǔn)90秒的10%)是基于目前運(yùn)輸類飛機(jī)驗(yàn)證的能力[4]。

5 總結(jié)

使用分析與試驗(yàn)組合的方法替代全尺寸應(yīng)急撤離試驗(yàn),表明符合§25.803,是飛機(jī)設(shè)計(jì)驗(yàn)證發(fā)展的方向,其依靠大量的試驗(yàn)數(shù)據(jù)作為分析的支持?jǐn)?shù)據(jù),試驗(yàn)是飛機(jī)應(yīng)急撤離能力分析的基礎(chǔ)。同時(shí),申請(qǐng)人如果考慮采用此方法,需要盡可能早的與適航部門溝通討論,以確定所有的重要因素均得到考慮和評(píng)估,這些因素的考慮對(duì)于應(yīng)急撤離能力的分析是至關(guān)重要的。

數(shù)據(jù)分析方法論文:質(zhì)量管理數(shù)據(jù)分析方法在船舶設(shè)計(jì)中的應(yīng)用

摘要:采用一種全新的質(zhì)量管理數(shù)據(jù)分析方法,對(duì)某船送中國(guó)船級(jí)社(CCS)廣州審圖中心審查的所有圖樣文件進(jìn)行了統(tǒng)計(jì)和分析。通過采用此方法,能清晰地反映出各專業(yè)的技術(shù)力量情況,從而可根據(jù)需要對(duì)各專業(yè)進(jìn)行調(diào)整,最終達(dá)到提高產(chǎn)品項(xiàng)目設(shè)計(jì)質(zhì)量的目的。

關(guān)鍵詞:質(zhì)量管理,統(tǒng)計(jì)分析,船舶設(shè)計(jì)

1概述

在船舶設(shè)計(jì)項(xiàng)目質(zhì)量管理中,對(duì)設(shè)計(jì)圖紙的差錯(cuò)率進(jìn)行統(tǒng)計(jì)分析非常重要,不僅可以總結(jié)經(jīng)驗(yàn),還可以找出設(shè)計(jì)環(huán)節(jié)中的薄弱之處,進(jìn)而有針對(duì)性地采取改進(jìn)措施,降低圖紙差錯(cuò)率和圖紙修改率,最終達(dá)到提高設(shè)計(jì)質(zhì)量的目的。本文將一種全新的質(zhì)量管理數(shù)據(jù)分析方法應(yīng)用到船舶設(shè)計(jì)項(xiàng)目中,對(duì)某船送中國(guó)船級(jí)社(CCS)廣州審圖中心的各專業(yè)圖樣文件進(jìn)行了統(tǒng)計(jì)和分析。首先對(duì)CCS審圖意見類別及其導(dǎo)致修改的原因進(jìn)行統(tǒng)計(jì),然后對(duì)統(tǒng)計(jì)結(jié)果進(jìn)行分析,最后針對(duì)產(chǎn)生原因采取相應(yīng)的改進(jìn)措施。

2專業(yè)審圖意見類別和原因分析

對(duì)各專業(yè)分別進(jìn)行統(tǒng)計(jì)和分析,有利于了解各專業(yè)本身技術(shù)力量的實(shí)際情況,以便專業(yè)負(fù)責(zé)人做出適時(shí)的調(diào)整,對(duì)薄弱之處加以改進(jìn)和提高。根據(jù)CCS的審圖意見類別,對(duì)某船各專業(yè)的圖樣文件進(jìn)行統(tǒng)計(jì),然后根據(jù)CCS提出的意見進(jìn)行原因分析。

為了方便分析,設(shè)置下列不同的代碼,表示不同的審圖意見類別和原因分析含義。

(1)審圖意見類別代碼含義:

A-認(rèn)可無意見;

AC-認(rèn)可有意見;

N-備查無意見;

NC-備查有意見;

TS-轉(zhuǎn)送現(xiàn)場(chǎng)驗(yàn)船師審核;

RS-不予批準(zhǔn),需修改后重新送審。

(2)原因分析代碼含義:

B1-設(shè)計(jì)方案欠妥;

B2-設(shè)計(jì)接口不協(xié)調(diào);

B3-不符合現(xiàn)行有效的規(guī)范、法規(guī)要求;

B4-標(biāo)識(shí)不明或有誤;

B5-其它。

下面對(duì)輪機(jī)專業(yè)進(jìn)行舉例說明:

該專業(yè)的意見類別統(tǒng)計(jì)見表1,原因分析統(tǒng)計(jì)見表2。

表1輪機(jī)專業(yè)CCS審圖意見類別統(tǒng)計(jì)表

表2輪機(jī)專業(yè)原因分析統(tǒng)計(jì)表

由表1可清楚地看出某船輪機(jī)專業(yè)圖樣文件的退審意見分布情況。其它專業(yè)也分別如此進(jìn)行歸類和統(tǒng)計(jì),便能了解本專業(yè)圖樣文件的退審意見分布情況,并且還可將各專業(yè)的退審情況進(jìn)行比較。

由表2可清楚地看出某船輪機(jī)專業(yè)圖樣文件的差錯(cuò)分布較為集中在B3 (不符合現(xiàn)行有效的規(guī)范、法規(guī)要求),其次是B1(設(shè)計(jì)方案欠妥),說明輪機(jī)專業(yè)在這兩方面需采取措施加以改進(jìn)。其它專業(yè)也分別如此歸類和統(tǒng)計(jì),這樣就能清楚地了解各專業(yè)自身的薄弱環(huán)節(jié)在何處,從而可采取相應(yīng)的措施來改進(jìn)和提高。

3全船審圖意見類別和原因分析

為了使分析具有全局性,對(duì)各專業(yè)之間進(jìn)行比較之后,需對(duì)全船進(jìn)行統(tǒng)計(jì)和分析,這樣有利于找出整體中的薄弱環(huán)節(jié)在何處。某船全船圖樣文件的CCS審圖意見類別統(tǒng)計(jì)見表3;原因分析統(tǒng)計(jì)見表4。

表3全船CCS審圖意見類別數(shù)據(jù)統(tǒng)計(jì)表

表4全船原因分析統(tǒng)計(jì)表

由表3可清楚地看出各個(gè)專業(yè)退審圖樣文件的總體情況。由表4可看出各個(gè)專業(yè)圖樣文件的退審意見主要集中在B3(不符合現(xiàn)行有效的規(guī)范、法規(guī)要求),說明在這一環(huán)節(jié)所有專業(yè)均比較薄弱,特別是電氣專業(yè),因此需專門針對(duì)這一環(huán)節(jié)制定改進(jìn)措施。

通過對(duì)全船的退審圖樣文件進(jìn)行統(tǒng)計(jì)和分析后,使項(xiàng)目負(fù)責(zé)人能清楚地掌握各專業(yè)的實(shí)際工作情況與整個(gè)項(xiàng)目組中的薄弱環(huán)節(jié)所在,以便采取改進(jìn)措施,從全局出發(fā)對(duì)各專業(yè)的技術(shù)力量進(jìn)行調(diào)整,進(jìn)而提高產(chǎn)品項(xiàng)目設(shè)計(jì)質(zhì)量。

4結(jié)論

在船舶設(shè)計(jì)項(xiàng)目中采用這種全新的質(zhì)量管理數(shù)據(jù)分析方法,不僅能清晰地反映出各專業(yè)本身的優(yōu)劣勢(shì),還能反映出各個(gè)專業(yè)之間技術(shù)力量的強(qiáng)弱差別。這樣不但讓專業(yè)負(fù)責(zé)人能了解本專業(yè)的問題所在,并采取相應(yīng)的改進(jìn)措施,同時(shí)也能讓項(xiàng)目負(fù)責(zé)人掌控全局,根據(jù)需要對(duì)各專業(yè)進(jìn)行協(xié)調(diào),從而提高產(chǎn)品項(xiàng)目的質(zhì)量,降低圖樣文件的差錯(cuò)率。

數(shù)據(jù)分析方法論文:正交設(shè)計(jì)及數(shù)據(jù)分析方法在工業(yè)中的應(yīng)用

【摘 要】試驗(yàn)設(shè)計(jì)在工業(yè)生產(chǎn)中具有重要的地位,本文采用正交設(shè)計(jì)優(yōu)化試驗(yàn)方案,系統(tǒng)地對(duì)正交試驗(yàn)數(shù)據(jù)的分析方法進(jìn)行了研究,涉及極差分析與方差分析。探討了方差分析的幾種情況:有交互作用、無交互作用、有重復(fù)試驗(yàn)和無重復(fù)試驗(yàn)類型,并討論了其在工業(yè)中的應(yīng)用,總結(jié)出其編程實(shí)現(xiàn)。

【關(guān)鍵詞】正交設(shè)計(jì);方差分析;極差分析;試驗(yàn)設(shè)計(jì);工業(yè)應(yīng)用

一、正交設(shè)計(jì)的應(yīng)用類型

基本上有四種情況:有交互作用和無交互作用,重復(fù)試驗(yàn)和無重復(fù)試驗(yàn)。相應(yīng)的對(duì)這四種情況所構(gòu)造的正交表也有所區(qū)別具體情況如下:(1)無交互作用是指實(shí)驗(yàn)各因素之間是相互

獨(dú)立的,只是單個(gè)因素的水平變化對(duì)指標(biāo)有影響,因素間各水平的聯(lián)合搭配對(duì)指標(biāo)沒有影響或影響可以忽略不計(jì),這種情況對(duì)正交表的構(gòu)造沒有影響。(2)有交互作用是指在進(jìn)行實(shí)驗(yàn)時(shí),有時(shí)不僅因素的水平變化對(duì)指標(biāo)有影響,而且有些因素間各水平的聯(lián)合搭配對(duì)指標(biāo)也產(chǎn)生影響,這種聯(lián)合搭配作用稱為交互作用。當(dāng)出現(xiàn)了交互作用時(shí),正交表的構(gòu)造也要發(fā)生相應(yīng)的變

二、方差分析在工業(yè)上的應(yīng)用舉例

下面以一個(gè)三因素、三水平的無重復(fù)實(shí)驗(yàn),無交互作用的工業(yè)生產(chǎn)例子進(jìn)行分析一下:例,某水泥廠為了提高水泥的強(qiáng)度,需要通過試驗(yàn)選擇最好的生產(chǎn)方案,經(jīng)研究有三個(gè)因素影響水泥的強(qiáng)度,這三個(gè)因素生料中礦化劑的用量,燒成溫度,保溫時(shí)間,每個(gè)因素都考慮3個(gè)水平,具體情況如表,試驗(yàn)的考察指標(biāo)為28天的抗壓強(qiáng)度(Mpa),分別為44.1,45.3,46.7,48.2,46.2,47.0,45.3,43.2,46.3。問:對(duì)這3個(gè)因素的3個(gè)水平如何安排,才能獲得最高的水泥抗壓強(qiáng)度?

上述例子中指標(biāo)為抗壓強(qiáng)度,影響指標(biāo)的因素為A(礦化劑的用量),B(燒成溫度),C(保溫時(shí)間),例中只有三個(gè)因素,三個(gè)水平,L9(34)、L27(318)這兩張表都至少有四個(gè)列。因此,都可以用來安排這個(gè)試驗(yàn)。我們要求盡量少做試驗(yàn)。

對(duì)上述例子應(yīng)用SAS編程,只用輸入主效應(yīng)項(xiàng),運(yùn)行后的結(jié)果如下:

從輸出結(jié)果中可以看出,在A(礦化劑的用量)的第二個(gè)水平下的均值最大,在B(燒成溫度)的第三個(gè)水平下的均值最大,在C(保溫時(shí)間)的第三個(gè)水平下的均值最大。根據(jù)實(shí)際因素,(抗壓強(qiáng)度)越大越好,因此在A2B3C3的條件下,即在礦化劑的用量4%,燒成溫度1450℃,保溫時(shí)間40的條件下生產(chǎn),抗壓強(qiáng)度最大。

三、正交設(shè)計(jì)法的應(yīng)用步驟

(1)定指標(biāo),挑因素,選水平;(2)選擇正交表、排表頭;(3)排試驗(yàn)方案表,做試驗(yàn),填數(shù)據(jù);(4)分析數(shù)據(jù),選取合適的生產(chǎn)條件。通過驗(yàn)證試驗(yàn),找出較穩(wěn)定的較優(yōu)生產(chǎn)條件,進(jìn)行小批量考驗(yàn),最后納入技術(shù)文件,才算完成一項(xiàng)正交試驗(yàn)的全過程。