期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊(cè) 購(gòu)物車(0)

首頁(yè) > 精品范文 > 挖掘技術(shù)論文

挖掘技術(shù)論文精品(七篇)

時(shí)間:2023-01-30 05:03:41

序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來(lái)了七篇挖掘技術(shù)論文范文,愿它們成為您寫作過(guò)程中的靈感催化劑,助力您的創(chuàng)作。

挖掘技術(shù)論文

篇(1)

[關(guān)鍵詞]數(shù)據(jù)挖掘數(shù)據(jù)挖掘方法

隨著信息技術(shù)迅速發(fā)展,數(shù)據(jù)庫(kù)的規(guī)模不斷擴(kuò)大,產(chǎn)生了大量的數(shù)據(jù)。但大量的數(shù)據(jù)往往無(wú)法辨別隱藏在其中的能對(duì)決策提供支持的信息,而傳統(tǒng)的查詢、報(bào)表工具無(wú)法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據(jù)分析技術(shù)處理大量數(shù)據(jù),并從中抽取有價(jià)值的潛在知識(shí),數(shù)據(jù)挖掘(DataMining)技術(shù)由此應(yīng)運(yùn)而生。

一、數(shù)據(jù)挖掘的定義

數(shù)據(jù)挖掘是指從數(shù)據(jù)集合中自動(dòng)抽取隱藏在數(shù)據(jù)中的那些有用信息的非平凡過(guò)程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測(cè)未來(lái)可能發(fā)生的行為。數(shù)據(jù)挖掘的過(guò)程也叫知識(shí)發(fā)現(xiàn)的過(guò)程。

二、數(shù)據(jù)挖掘的方法

1.統(tǒng)計(jì)方法。傳統(tǒng)的統(tǒng)計(jì)學(xué)為數(shù)據(jù)挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術(shù)。貝葉斯推理是在知道新的信息后修正數(shù)據(jù)集概率分布的基本工具,處理數(shù)據(jù)挖掘中的分類問(wèn)題,回歸分析用來(lái)找到一個(gè)輸入變量和輸出變量關(guān)系的最佳模型,在回歸分析中有用來(lái)描述一個(gè)變量的變化趨勢(shì)和別的變量值的關(guān)系的線性回歸,還有用來(lái)為某些事件發(fā)生的概率建模為預(yù)測(cè)變量集的對(duì)數(shù)回歸、統(tǒng)計(jì)方法中的方差分析一般用于分析估計(jì)回歸直線的性能和自變量對(duì)最終回歸的影響,是許多挖掘應(yīng)用中有力的工具之一。

2.關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則是一種簡(jiǎn)單,實(shí)用的分析規(guī)則,它描述了一個(gè)事物中某些屬性同時(shí)出現(xiàn)的規(guī)律和模式,是數(shù)據(jù)挖掘中最成熟的主要技術(shù)之一。關(guān)聯(lián)規(guī)則在數(shù)據(jù)挖掘領(lǐng)域應(yīng)用很廣泛適合于在大型數(shù)據(jù)集中發(fā)現(xiàn)數(shù)據(jù)之間的有意義關(guān)系,原因之一是它不受只選擇一個(gè)因變量的限制。大多數(shù)關(guān)聯(lián)規(guī)則挖掘算法能夠無(wú)遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據(jù)中的所有關(guān)聯(lián)關(guān)系,但是,并不是所有通過(guò)關(guān)聯(lián)得到的屬性之間的關(guān)系都有實(shí)際應(yīng)用價(jià)值,要對(duì)這些規(guī)則要進(jìn)行有效的評(píng)價(jià),篩選有意義的關(guān)聯(lián)規(guī)則。

3.聚類分析。聚類分析是根據(jù)所選樣本間關(guān)聯(lián)的標(biāo)準(zhǔn)將其劃分成幾個(gè)組,同組內(nèi)的樣本具有較高的相似度,不同組的則相異,常用的技術(shù)有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內(nèi)部關(guān)系,從而對(duì)樣本結(jié)構(gòu)做出合理的評(píng)價(jià),此外,聚類分析還用于對(duì)孤立點(diǎn)的檢測(cè)。并非由聚類分析算法得到的類對(duì)決策都有效,在運(yùn)用某一個(gè)算法之前,一般要先對(duì)數(shù)據(jù)的聚類趨勢(shì)進(jìn)行檢驗(yàn)。

4.決策樹方法。決策樹學(xué)習(xí)是一種通過(guò)逼近離散值目標(biāo)函數(shù)的方法,通過(guò)把實(shí)例從根結(jié)點(diǎn)排列到某個(gè)葉子結(jié)點(diǎn)來(lái)分類實(shí)例,葉子結(jié)點(diǎn)即為實(shí)例所屬的分類。樹上的每個(gè)結(jié)點(diǎn)說(shuō)明了對(duì)實(shí)例的某個(gè)屬性的測(cè)試,該結(jié)點(diǎn)的每一個(gè)后繼分支對(duì)應(yīng)于該屬性的一個(gè)可能值,分類實(shí)例的方法是從這棵樹的根結(jié)點(diǎn)開始,測(cè)試這個(gè)結(jié)點(diǎn)指定的屬性,然后按照給定實(shí)例的該屬性值對(duì)應(yīng)的樹枝向下移動(dòng)。決策樹方法是要應(yīng)用于數(shù)據(jù)挖掘的分類方面。

5.神經(jīng)網(wǎng)絡(luò)。神經(jīng)網(wǎng)絡(luò)建立在自學(xué)習(xí)的數(shù)學(xué)模型基礎(chǔ)之上,能夠?qū)Υ罅繌?fù)雜的數(shù)據(jù)進(jìn)行分析,并可以完成對(duì)人腦或其他計(jì)算機(jī)來(lái)說(shuō)極為復(fù)雜的模式抽取及趨勢(shì)分析,神經(jīng)網(wǎng)絡(luò)既可以表現(xiàn)為有指導(dǎo)的學(xué)習(xí)也可以是無(wú)指導(dǎo)聚類,無(wú)論哪種,輸入到神經(jīng)網(wǎng)絡(luò)中的值都是數(shù)值型的。人工神經(jīng)元網(wǎng)絡(luò)模擬人腦神經(jīng)元結(jié)構(gòu),建立三大類多種神經(jīng)元網(wǎng)絡(luò),具有非線形映射特性、信息的分布存儲(chǔ)、并行處理和全局集體的作用、高度的自學(xué)習(xí)、自組織和自適應(yīng)能力的種種優(yōu)點(diǎn)。

6.遺傳算法。遺傳算法是一種受生物進(jìn)化啟發(fā)的學(xué)習(xí)方法,通過(guò)變異和重組當(dāng)前己知的最好假設(shè)來(lái)生成后續(xù)的假設(shè)。每一步,通過(guò)使用目前適應(yīng)性最高的假設(shè)的后代替代群體的某個(gè)部分,來(lái)更新當(dāng)前群體的一組假設(shè),來(lái)實(shí)現(xiàn)各個(gè)個(gè)體的適應(yīng)性的提高。遺傳算法由三個(gè)基本過(guò)程組成:繁殖(選擇)是從一個(gè)舊種群(父代)選出生命力強(qiáng)的個(gè)體,產(chǎn)生新種群(后代)的過(guò)程;交叉〔重組)選擇兩個(gè)不同個(gè)體〔染色體)的部分(基因)進(jìn)行交換,形成新個(gè)體的過(guò)程;變異(突變)是對(duì)某些個(gè)體的某些基因進(jìn)行變異的過(guò)程。在數(shù)據(jù)挖掘中,可以被用作評(píng)估其他算法的適合度。

7.粗糙集。粗糙集能夠在缺少關(guān)于數(shù)據(jù)先驗(yàn)知識(shí)的情況下,只以考察數(shù)據(jù)的分類能力為基礎(chǔ),解決模糊或不確定數(shù)據(jù)的分析和處理問(wèn)題。粗糙集用于從數(shù)據(jù)庫(kù)中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據(jù)庫(kù)中的屬性分為條件屬性和結(jié)論屬性,對(duì)數(shù)據(jù)庫(kù)中的元組根據(jù)各個(gè)屬性不同的屬性值分成相應(yīng)的子集,然后對(duì)條件屬性劃分的子集與結(jié)論屬性劃分的子集之間上下近似關(guān)系生成判定規(guī)則。所有相似對(duì)象的集合稱為初等集合,形成知識(shí)的基本成分。任何初等集合的并集稱為精確集,否則,一個(gè)集合就是粗糙的(不精確的)。每個(gè)粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補(bǔ)集元素的元素。粗糙集理論可以應(yīng)用于數(shù)據(jù)挖掘中的分類、發(fā)現(xiàn)不準(zhǔn)確數(shù)據(jù)或噪聲數(shù)據(jù)內(nèi)在的結(jié)構(gòu)聯(lián)系。

8.支持向量機(jī)。支持向量機(jī)(SVM)是在統(tǒng)計(jì)學(xué)習(xí)理論的基礎(chǔ)上發(fā)展出來(lái)的一種新的機(jī)器學(xué)習(xí)方法。它基于結(jié)構(gòu)風(fēng)險(xiǎn)最小化原則上的,盡量提高學(xué)習(xí)機(jī)的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過(guò)學(xué)習(xí)問(wèn)題,現(xiàn)已成為訓(xùn)練多層感知器、RBF神經(jīng)網(wǎng)絡(luò)和多項(xiàng)式神經(jīng)元網(wǎng)絡(luò)的替代性方法。另外,支持向量機(jī)算法是一個(gè)凸優(yōu)化問(wèn)題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點(diǎn)都是包括神經(jīng)元網(wǎng)絡(luò)在內(nèi)的其他算法所不能及的。支持向量機(jī)可以應(yīng)用于數(shù)據(jù)挖掘的分類、回歸、對(duì)未知事物的探索等方面。

事實(shí)上,任何一種挖掘工具往往是根據(jù)具體問(wèn)題來(lái)選擇合適挖掘方法,很難說(shuō)哪種方法好,那種方法劣,而是視具體問(wèn)題而定。

三、結(jié)束語(yǔ)

目前,數(shù)據(jù)挖掘技術(shù)雖然得到了一定程度的應(yīng)用,并取得了顯著成效,但仍存在著許多尚未解決的問(wèn)題。隨著人們對(duì)數(shù)據(jù)挖掘技術(shù)的深人研究,數(shù)據(jù)挖掘技術(shù)必將在更加廣泛的領(lǐng)域得到應(yīng)用,并取得更加顯著的效果。

篇(2)

常見(jiàn)數(shù)據(jù)挖掘技術(shù)包括:分類樹技術(shù)、關(guān)聯(lián)發(fā)現(xiàn)技術(shù)、聚類技術(shù)、人工神經(jīng)網(wǎng)絡(luò)、最優(yōu)集合規(guī)約技術(shù)以及可視數(shù)據(jù)挖掘技術(shù)等。軟件度量數(shù)據(jù)往往具有多維度、高耦合性,軟件工程數(shù)據(jù)挖掘中會(huì)采用一些特殊處理技術(shù),包括統(tǒng)計(jì)分析、回歸建模、分類樹以及神經(jīng)網(wǎng)絡(luò)等。在具體軟件工程實(shí)踐中,選擇何種挖掘技術(shù),其決定性因素為想要達(dá)成的目標(biāo)。

2數(shù)據(jù)挖掘?qū)崿F(xiàn)過(guò)程

通常,數(shù)據(jù)挖掘過(guò)程包括4個(gè)步驟,即選擇數(shù)據(jù)、預(yù)處理、實(shí)施挖掘以及吸收數(shù)據(jù)。數(shù)據(jù)挖掘整個(gè)過(guò)程具有交互性,有時(shí)數(shù)據(jù)需要重新選擇,有時(shí)也要對(duì)數(shù)據(jù)預(yù)處理進(jìn)行改進(jìn),也可能出現(xiàn)算法反復(fù)被調(diào)整現(xiàn)象,基于這種特征,數(shù)據(jù)挖掘時(shí)要設(shè)置反饋環(huán)。挖掘數(shù)據(jù)第1步是將管理和目標(biāo)反映到1個(gè)(或多個(gè))挖掘任務(wù)中,整個(gè)過(guò)程可主要?jiǎng)澐殖蔀榱N:1)評(píng)估、預(yù)測(cè)。評(píng)估包括對(duì)軟件產(chǎn)品、過(guò)程以及資源的屬性進(jìn)行相應(yīng)檢查就是整個(gè)評(píng)估過(guò)程,同時(shí)也需要根據(jù)這些屬性,賦值給未知屬性,當(dāng)然這些未知屬性需要進(jìn)行量化。評(píng)估工作完成后,要對(duì)屬性值進(jìn)行預(yù)測(cè)。2)分類。檢查1個(gè)特定實(shí)體屬性,根據(jù)結(jié)果將其劃分到另1個(gè)類別或范疇(事先定義好)中。3)關(guān)聯(lián)發(fā)現(xiàn)。關(guān)聯(lián)發(fā)現(xiàn)能夠識(shí)別出特定內(nèi)容中互相存在關(guān)聯(lián)某些屬性。如,可將找出在軟件開發(fā)屬性和產(chǎn)品屬性相互關(guān)聯(lián)的內(nèi)容找出來(lái)。4)聚類。將1個(gè)結(jié)構(gòu)不相同的群體劃分到另1個(gè)具有相同結(jié)構(gòu)的子群集合中,這個(gè)過(guò)程叫做聚類,它的劃分依據(jù)是成員之間具有高度相似性。5)數(shù)據(jù)可視化。數(shù)據(jù)可視化是利用可視化描述方法來(lái)定義復(fù)雜信息。6)可視數(shù)據(jù)探察??梢暬瘮?shù)據(jù)探察是對(duì)描述工作的相應(yīng)拓展,可利用數(shù)據(jù)可視化交互控制來(lái)分析和檢視海量數(shù)據(jù)[3]。它應(yīng)用具有可視化功能和數(shù)據(jù)挖掘技術(shù)來(lái)對(duì)數(shù)據(jù)進(jìn)行處理。

3挖掘技術(shù)在軟件工程中應(yīng)用

上文提及到軟件工程度量,部分可利用信息已在海量數(shù)據(jù)中被提取出來(lái),但普遍認(rèn)為更為有效且數(shù)量眾多的數(shù)據(jù)依然在軟件工程相關(guān)數(shù)據(jù)庫(kù)中隱藏,而沒(méi)有被發(fā)現(xiàn)。實(shí)際上,數(shù)據(jù)挖掘就是1種被公認(rèn)為提升軟件工程度量的技術(shù)。圖1為數(shù)據(jù)挖掘在軟件工程中的應(yīng)用。

3.1數(shù)據(jù)挖掘繁榮原因1)計(jì)算機(jī)硬件系統(tǒng)和軟件系統(tǒng)的基礎(chǔ)設(shè)施建立具備發(fā)現(xiàn)驅(qū)動(dòng)、分析數(shù)據(jù)等功能;2)每種技術(shù)都在實(shí)際應(yīng)用中不斷得到改進(jìn),其使用能力不斷提升。如,模式識(shí)別、神經(jīng)網(wǎng)絡(luò)等有明顯進(jìn)步趨勢(shì);3)數(shù)據(jù)存儲(chǔ)、貯藏、集成成本不高,海量數(shù)據(jù)可輕松獲得。數(shù)據(jù)挖掘技術(shù)被人們認(rèn)識(shí),并在實(shí)踐中逐漸被重視,同時(shí)也給研究和進(jìn)一步提高數(shù)據(jù)挖掘技術(shù)提供了便利條件。

3.2面臨挑戰(zhàn)軟件工程自身存在很多數(shù)據(jù)上的特殊性,給數(shù)據(jù)挖掘領(lǐng)域研究工作帶來(lái)制約和影響,主要表現(xiàn)在以下三個(gè)方面:1)數(shù)據(jù)復(fù)雜。軟件工程數(shù)據(jù)主要分為兩個(gè)組成部分,即結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)主要包括缺陷報(bào)告、版本信息等內(nèi)容,而非結(jié)構(gòu)化數(shù)據(jù)則包含數(shù)據(jù)代碼、相應(yīng)注釋以及文檔等內(nèi)容。結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)并不能同時(shí)適用一種算法,而且兩種數(shù)據(jù)間還存在對(duì)應(yīng)聯(lián)系。如,1個(gè)缺陷報(bào)告中往往包括缺陷代碼段。而結(jié)構(gòu)化數(shù)據(jù)里常常涵蓋部分非結(jié)構(gòu)化信息,非結(jié)構(gòu)化數(shù)據(jù)中亦是如此,這也是今后工作中需要重點(diǎn)解決的問(wèn)題之一。2)非傳統(tǒng)分析存在局限。數(shù)據(jù)挖掘最終想實(shí)現(xiàn)的目標(biāo)就是將轉(zhuǎn)化而來(lái)的信息傳達(dá)給用戶,實(shí)現(xiàn)信息共享。傳統(tǒng)數(shù)據(jù)挖掘技術(shù)在使用過(guò)程中,信息手段比較單一,如文字、圖表等表達(dá)形式。其實(shí),軟件開發(fā)商對(duì)信息的要求很高,1個(gè)統(tǒng)計(jì)結(jié)果根本不能滿足其工作需求。為促進(jìn)軟件開發(fā)不斷向上發(fā)展,開發(fā)人員需要相關(guān)信息作為參考依據(jù),包括開發(fā)實(shí)際案例、編程所需模板、系統(tǒng)缺陷定位以及軟件結(jié)構(gòu)設(shè)計(jì)等。研究數(shù)據(jù)挖掘技術(shù),提升其實(shí)際使用功能,需要不斷提交新信息、新知識(shí),并改進(jìn)相應(yīng)手方法。3)挖掘結(jié)果評(píng)價(jià)標(biāo)準(zhǔn)不夠具體。軟件工程數(shù)據(jù)挖掘尚未形成完善的結(jié)果表示體系,其評(píng)價(jià)體系也有待加強(qiáng)。人員在軟件開發(fā)過(guò)程中需要大量信心,這些信息非常具體且復(fù)雜,表示方法不盡相同,互相之間難以做出對(duì)比,也很難用定量方法去分析挖掘結(jié)果。

4結(jié)束語(yǔ)

篇(3)

關(guān)鍵詞 技術(shù)情報(bào)分析;數(shù)據(jù)挖掘

中圖分類號(hào)TP392 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2013)92-0211-02

1 概述

在面對(duì)海量的情報(bào)信息資源時(shí),如何高效、準(zhǔn)確的開展分析工作,為管理決策人員提供支持,已成為當(dāng)今科技工作的重要組成部分。可以說(shuō),情報(bào)分析方法和相關(guān)工具的合理使用決定了情報(bào)獲取的準(zhǔn)確性和有效性,并將直接影響制定戰(zhàn)略決策的有效性和科學(xué)性。

技術(shù)情報(bào)分析系統(tǒng)主要進(jìn)行與技術(shù)相關(guān)科技論文、專利、互聯(lián)網(wǎng)情報(bào)數(shù)據(jù)的分析,實(shí)現(xiàn)分析方法、算法、分析結(jié)果的表現(xiàn)形式以及分析報(bào)告自動(dòng)生成等技術(shù)。該情報(bào)分析系統(tǒng)除了基本的維度統(tǒng)計(jì)分析外,更多的側(cè)重于利用知識(shí)發(fā)現(xiàn)、數(shù)據(jù)挖掘等技術(shù)進(jìn)行情報(bào)數(shù)據(jù)的深度處理與分析。通過(guò)情報(bào)分析系統(tǒng)開發(fā)設(shè)計(jì),結(jié)合數(shù)據(jù)挖掘等技術(shù)的合理使用,使得系統(tǒng)使用者能夠快速、有效、全面地獲取技術(shù)的情報(bào)信息。

2 系統(tǒng)的設(shè)計(jì)與功能描述

2.3 數(shù)據(jù)挖掘技術(shù)設(shè)計(jì)

2.3.1數(shù)據(jù)文本特征表示

在進(jìn)行文本挖掘時(shí),對(duì)文本特征進(jìn)行處理,實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化的文本向結(jié)構(gòu)化轉(zhuǎn)換。情報(bào)分析系統(tǒng)采用向量空間模型(Vector Space Model,VSM)進(jìn)行文本的表示,并利用倒排文檔頻率TFIDF進(jìn)行專利文本的特征提取,以此作為論文、專利文本挖掘的基礎(chǔ)。

2.3.2關(guān)聯(lián)算法

在挖掘論文專利作者之間、機(jī)構(gòu)之間、國(guó)家之間的研究?jī)?nèi)容關(guān)聯(lián)性上,采用了基于文本挖掘的關(guān)聯(lián)算法。通過(guò)對(duì)技術(shù)關(guān)鍵詞的共生關(guān)系(Terms Co-occurrences)計(jì)算來(lái)識(shí)別、確定一組文獻(xiàn)內(nèi)部所包含的技術(shù)組(群)。

2.3.3 層次結(jié)構(gòu)可視化算法

情報(bào)分析系統(tǒng)中關(guān)于論文和專利的引證分析、專利同族分析采用了層次結(jié)構(gòu)可視化算法Hyperbolic Tree,即雙曲樹算法。其主要原理是將樹結(jié)構(gòu)在雙曲空間進(jìn)行布局,然后映射到歐式空間的龐萊卡圓盤進(jìn)行顯示。歐式空間中兩個(gè)相同大小的區(qū)域離龐萊卡圓盤中心越近,在雙曲空間中所占用的空間越??;反之,雙曲空間中兩個(gè)大小相同的區(qū)域離原點(diǎn)越近在龐萊卡圓盤中所占用的空間越大。

4 結(jié)論

本文提出運(yùn)用數(shù)據(jù)挖掘方法實(shí)現(xiàn)對(duì)大量數(shù)據(jù)的分析和判斷,可有效幫助科技情報(bào)機(jī)構(gòu)和人員提高綜合情報(bào)分析能力和決策的質(zhì)量。同時(shí),該方法可按照不同需要進(jìn)行功能拓展,實(shí)現(xiàn)向更多的技術(shù)情報(bào)領(lǐng)域延伸。

參考文獻(xiàn)

[1]Dongpeng Yang. Application of Data Mining in the Evaluation of Credibility, 第十一屆亞太地區(qū)知識(shí)發(fā)現(xiàn)與數(shù)據(jù)挖掘國(guó)際會(huì)議(PAKDD),IOS Press出版, 2007.

[2]樂(lè)明揚(yáng).公安情報(bào)分析中的數(shù)據(jù)挖掘應(yīng)用研究.信息與電腦.2012(8).

[3]蒲群瑩.基于數(shù)據(jù)挖掘的競(jìng)爭(zhēng)情報(bào)系統(tǒng)模型[J].情報(bào)雜志.2005,1.

篇(4)

關(guān)鍵詞:數(shù)據(jù)挖掘;決策樹;C4.5算法;教學(xué)管理;高校教學(xué)

中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2012)30-7150-04

隨著數(shù)字信息化社會(huì)的飛速發(fā)展,計(jì)算機(jī)技術(shù)和數(shù)據(jù)庫(kù)管理系統(tǒng)被廣泛應(yīng)用于科學(xué)探索、商業(yè)、金融業(yè)、電子商務(wù)、企業(yè)生產(chǎn)等各種行業(yè),已逐漸發(fā)展成為一種智能管理過(guò)程。數(shù)據(jù)挖掘作為一種新興的數(shù)據(jù)分析技術(shù),它的研究成果取得了令人矚目的成就[1]。利用數(shù)據(jù)庫(kù)技術(shù),通過(guò)對(duì)教務(wù)管理的大量數(shù)據(jù)進(jìn)行多層次、多維度的加工處理,從而實(shí)現(xiàn)人性化管理,為科學(xué)決策提供支持。

畢業(yè)論文在教學(xué)體系中占有十分重要的位置,是本科生培養(yǎng)計(jì)劃中衡量教學(xué)質(zhì)量的重要指標(biāo)。提高畢業(yè)論文教學(xué)質(zhì)量是一項(xiàng)系統(tǒng)工程,為研究在當(dāng)前的教學(xué)條件下如何提高畢業(yè)論文教學(xué)質(zhì)量,本文采用數(shù)據(jù)挖掘技術(shù)對(duì)影響畢業(yè)論文成績(jī)管理的多方面因素進(jìn)行了深入分析和挖掘,以期發(fā)現(xiàn)對(duì)學(xué)校畢業(yè)論文教學(xué)管理有用的知識(shí),將這些知識(shí)應(yīng)用于本科學(xué)生畢業(yè)論文教學(xué)實(shí)踐中,為學(xué)校管理者提供有用的信息,進(jìn)而獲得更好的管理效益,為學(xué)校未來(lái)的發(fā)展提供更廣闊的空間,發(fā)揮重要的作用。

1 數(shù)據(jù)挖掘簡(jiǎn)介

數(shù)據(jù)挖掘(Data Mining),又稱數(shù)據(jù)庫(kù)中的知識(shí)發(fā)現(xiàn)(Knowledge discovery in Database. KDD)[2],是通過(guò)分析每一個(gè)具體數(shù)據(jù),從大量的、有噪聲的、模糊的、隨機(jī)的海量數(shù)據(jù)中尋找其規(guī)律的技術(shù),它是數(shù)據(jù)庫(kù)研究中的一個(gè)很有應(yīng)用價(jià)值的新領(lǐng)域。

1.1 數(shù)據(jù)挖掘的定義

H包含如下功能:

綜上所述,數(shù)據(jù)挖掘具有三大特點(diǎn):其一是處理大型數(shù)據(jù);其二應(yīng)用數(shù)據(jù)挖掘的目的是發(fā)現(xiàn)未知的、有意義的模式或規(guī)律;其三是一個(gè)對(duì)大量數(shù)據(jù)處理的過(guò)程,有特定的步驟[3]。

1.2 數(shù)據(jù)挖掘的主要方法

數(shù)據(jù)挖掘是一個(gè)多學(xué)科交叉領(lǐng)域,它由人工智能、機(jī)器學(xué)習(xí)的方法起步,并與統(tǒng)計(jì)分析方法、模糊數(shù)學(xué)和可視化技術(shù)相融合,以數(shù)據(jù)庫(kù)為研究對(duì)象,圍繞面對(duì)應(yīng)用,為決策者提供服務(wù)。

數(shù)據(jù)挖掘的方法主要可分為六大類:統(tǒng)計(jì)分析方法、歸納學(xué)習(xí)方法、仿生物技術(shù)、可視化技術(shù)、聚類方法和模糊數(shù)學(xué)方法。歸納學(xué)習(xí)法是目前重點(diǎn)研究的方向,本文根據(jù)給定的訓(xùn)練樣本數(shù)據(jù)集,采用歸納學(xué)習(xí)法中的決策樹技術(shù)構(gòu)造分類模型,將事例分類成不同的類別。

2 決策樹算法基本理論

2.1 決策樹方法介紹

決策樹[4]方法是以事例學(xué)習(xí)為基礎(chǔ)的歸納推算法,著眼于從一組無(wú)序的,無(wú)規(guī)則的事例中推斷出類似條件下會(huì)得到什么值這類規(guī)則的方法,它是一種逼近離散值函數(shù)的方法,也可以看作一個(gè)布爾函數(shù)[5]。決策樹歸納方法是目前許多數(shù)據(jù)挖掘商用系統(tǒng)的基礎(chǔ),可以應(yīng)用于分析數(shù)據(jù),同樣也可以用來(lái)作預(yù)測(cè)。建模過(guò)程中,即樹的生長(zhǎng)過(guò)程是不斷的把數(shù)據(jù)進(jìn)行切分,采用“自頂向下,分而治之”的方法將問(wèn)題的搜索空間劃分為若干個(gè)互不交叉的子集,通常用來(lái)形成分類器和預(yù)測(cè)模型。如圖1所示,為決策樹的示意圖。

決策樹一種類似流程圖的樹形結(jié)構(gòu),是一種知識(shí)的表現(xiàn)形式。為了對(duì)未知樣本進(jìn)行分類,生成具體的分類規(guī)則,信息樣本的各個(gè)屬性值要在決策樹上進(jìn)行測(cè)試。主要分為兩個(gè)階段:在第一階段中生成樹。決策樹最上面的節(jié)點(diǎn)為根節(jié)點(diǎn),是整個(gè)決策樹的開始,然后遞歸的進(jìn)行數(shù)據(jù)分區(qū),每次切分對(duì)應(yīng)一個(gè)問(wèn)題,也對(duì)應(yīng)著一個(gè)節(jié)點(diǎn);在第二階段中對(duì)樹進(jìn)行修剪,此過(guò)程中去掉一些可能是噪音或異常的數(shù)據(jù),防止決策樹的過(guò)匹配,進(jìn)而保證生成決策樹的有效性和合理性。當(dāng)一個(gè)節(jié)點(diǎn)中的所有數(shù)據(jù)都屬于同一類別,或者沒(méi)有屬性可以再用于數(shù)據(jù)進(jìn)行分割時(shí),分割工作停止。具體的工作流程如圖2所示。

2.2 C4.5算法

1986年Ross Quinlan首次提出了ID3決策樹算法,它是最早的決策樹算法之一。ID3算法運(yùn)用信息熵理論,選擇當(dāng)前樣本中具有信息增益值的屬性作為測(cè)試屬性,對(duì)樣本的劃分則依據(jù)測(cè)試屬性的取值[6]。C4.5算法是在ID3算法基礎(chǔ)上發(fā)展起來(lái)的,它繼承了ID3算法的全部?jī)?yōu)點(diǎn),并增加了新的功能改進(jìn)了ID3算法中的不足,可以進(jìn)行連續(xù)值屬性處理并處理未知值的訓(xùn)練樣本。在應(yīng)用單機(jī)的決策樹算法中,C4.5算法不僅分類準(zhǔn)確而且執(zhí)行速度快。

C4.5通過(guò)兩個(gè)步驟來(lái)建立決策樹:第一階段樹的生成,第二階段樹的剪枝。C4.5算法采用信息增益率來(lái)記錄字段不同取值的選擇,首先計(jì)算各個(gè)屬性的信息增益率,尋找到規(guī)則信息的優(yōu)劣,選出信息增益率最大的屬性作為結(jié)點(diǎn),自頂向下生成決策樹。C4.5算法構(gòu)造決策樹的基本策略如下:

首先計(jì)算出給定樣本所需的期望信息,設(shè)S為一個(gè)包含s個(gè)數(shù)據(jù)樣本的集合,對(duì)于類別屬性,可以取m個(gè)不同取值,分別對(duì)應(yīng)于m個(gè)不同的類別[Ci(i∈1,2,...,m)]。假設(shè)類別[Ci]中的樣本個(gè)數(shù)為[si],期望信息為:

其中,[Pi]是任意樣本屬于[Ci]的概率,并用[sis]估計(jì)。

接著,計(jì)算當(dāng)前樣本集合所需用的信息熵,設(shè)一個(gè)屬性A具有n個(gè)不同的值[(a1,a2,...an)],利用屬性A可以將集合S劃分為n個(gè)子集[S1,S2,...Sn],其中[Sj]包含了S集合中屬性A取[aj]值的樣本數(shù)據(jù)。如果屬性A被選作測(cè)試屬性,設(shè)[Sij]為[Sj]中屬于[Ci]類別的樣本集,根據(jù)A劃分計(jì)算的熵為:

然后利用屬性A對(duì)當(dāng)前分支結(jié)點(diǎn)進(jìn)行相應(yīng)樣本集合劃分計(jì)算信息增益:

最后,求信息增益率,表達(dá)式為:

C4.5算法的偽代碼如下:

輸入:訓(xùn)練樣本Samples;目標(biāo)屬性Target—attribute;候選屬性的集合Attributes

輸出:一棵決策樹

1)創(chuàng)建根節(jié)點(diǎn)root;

2)If Samples都在同一類C Then;

3)返回label=類C的單結(jié)點(diǎn)樹root;

4)If Attributes為空Then;

5)返回單結(jié)點(diǎn)樹root,[label=Samples]中最普遍的Target-Atribute值;

6)Else;

7)For each測(cè)試屬性列表Attributes中的屬性;

8)IF測(cè)試屬性是連續(xù)的Then;

9)對(duì)測(cè)試屬性進(jìn)行離散化處理,找出使其信息增益比率最大的分割閾值;

10)Else;

11)計(jì)算測(cè)試屬性的信息增益比率;

20)添加子樹Generate Tree C4.5;

21)對(duì)已建立的決策樹計(jì)算每個(gè)結(jié)點(diǎn)的分類錯(cuò)誤,進(jìn)行剪枝,并返回根結(jié)點(diǎn)Root。

3 畢業(yè)論文成績(jī)管理系統(tǒng)的設(shè)計(jì)和實(shí)現(xiàn)

利用數(shù)據(jù)挖掘技術(shù)對(duì)學(xué)生的成績(jī)數(shù)據(jù)進(jìn)行提煉,所產(chǎn)生的結(jié)果和信息會(huì)對(duì)以后的教學(xué)管理工作提供有用的信息,進(jìn)而獲得更好的管理效益。解決問(wèn)題的重點(diǎn)在于怎樣對(duì)學(xué)生的畢業(yè)論文成績(jī)進(jìn)行全面且深度的分析,從而挖掘出成績(jī)與其他因素之間隱藏的內(nèi)在聯(lián)系。本文采用決策樹技術(shù)挖掘信息時(shí),主要操作步驟如下:

1)確定挖掘來(lái)源:清晰地定義挖掘?qū)ο?,明確挖掘目標(biāo)是數(shù)據(jù)挖掘所有工作中重要的一步。本文中應(yīng)用于挖掘的數(shù)據(jù)信息是畢業(yè)生的畢業(yè)論文成績(jī),旨在通過(guò)對(duì)大量成績(jī)數(shù)據(jù)進(jìn)行各層次的挖掘,全面了解具體影響學(xué)生畢業(yè)論文成績(jī)的各方面因素,正確的針對(duì)問(wèn)題擬定分析過(guò)程。

2)獲取相關(guān)知識(shí):數(shù)據(jù)是挖掘知識(shí)最原始的資料,根據(jù)確定的數(shù)據(jù)分析對(duì)象,抽象出數(shù)據(jù)分析中所需要的特征信息模型。領(lǐng)域問(wèn)題的數(shù)據(jù)收集完成之后,與目標(biāo)信息相關(guān)的屬性也隨之確定。這些數(shù)據(jù)有些是可以直接獲得的,有些則需要對(duì)學(xué)生進(jìn)行調(diào)查才能的得到。

3)數(shù)據(jù)預(yù)處理:此過(guò)程中是對(duì)已收集的大量數(shù)據(jù)進(jìn)行整合與檢查。因?yàn)榇娣旁跀?shù)據(jù)庫(kù)中的數(shù)據(jù)一般是不完整的、不一致的,通常還含有噪聲的存在。因此就需要對(duì)數(shù)據(jù)庫(kù)中數(shù)據(jù)進(jìn)行清理、整理和歸并,以提高挖掘過(guò)程的精度和性能。

4)數(shù)據(jù)轉(zhuǎn)換:對(duì)預(yù)處理后的數(shù)據(jù)建立分析模型,對(duì)于特定的任務(wù),需要選擇合適的算法來(lái)建立一個(gè)準(zhǔn)確的適合挖掘算法的分析模型。本文采用決策樹技術(shù)進(jìn)行分類建模來(lái)解決相應(yīng)的問(wèn)題。

5)分類挖掘知識(shí)和信息:此階段的工作目的是根據(jù)系統(tǒng)最終要實(shí)現(xiàn)的功能和任務(wù)來(lái)確定挖掘的分類模型。選擇合適的數(shù)據(jù)挖掘技術(shù)及算法,并采用恰當(dāng)?shù)某绦蛟O(shè)計(jì)語(yǔ)言來(lái)實(shí)現(xiàn)該算法,對(duì)凈化和轉(zhuǎn)換過(guò)得數(shù)據(jù)訓(xùn)練集進(jìn)行挖掘,獲得有價(jià)值的分析信息。

6)知識(shí)表示:將數(shù)據(jù)挖掘得到的分析信息進(jìn)一步的解釋和評(píng)價(jià),生成可用的、正確的、可理解的分類規(guī)則呈現(xiàn)給管理者,應(yīng)用于實(shí)踐。

7)知識(shí)應(yīng)用:將分析得到的規(guī)則應(yīng)用到教學(xué)管理中,教師可以利用所得到的知識(shí)針對(duì)性的開展畢業(yè)設(shè)計(jì)的教學(xué)活動(dòng),進(jìn)一步指導(dǎo)教學(xué)工作,提高教學(xué)水平和學(xué)生的畢業(yè)論文質(zhì)量。

4 結(jié)論

最終發(fā)現(xiàn)影響學(xué)生畢業(yè)論文成績(jī)主要的因素不是指導(dǎo)教師的職稱,學(xué)生的基礎(chǔ)及感興趣程度,而是指導(dǎo)教師的學(xué)歷高低。根據(jù)具體分類規(guī)則的結(jié)論,學(xué)校教學(xué)管理工作應(yīng)加重對(duì)教師的素質(zhì)及能力培養(yǎng),合理的分配每個(gè)教師的畢業(yè)論文指導(dǎo)工作,不僅能夠有效的完成畢業(yè)課題指導(dǎo)工作,更有助于學(xué)生整體論文質(zhì)量的提高。

在高校教學(xué)數(shù)字化的時(shí)代趨勢(shì)下,利用數(shù)據(jù)挖掘技術(shù)來(lái)挖掘提取教學(xué)工作中的全面而有價(jià)值信息,可以為教育管理者的教學(xué)工作提供有效的參考信息,改進(jìn)教學(xué)管理方法,提高教學(xué)質(zhì)量和學(xué)生的綜合素質(zhì),是高校保持良好的可持續(xù)發(fā)展的有力工具。

參考文獻(xiàn):

[1] 劉玉文.數(shù)據(jù)挖掘在高校招生中的研究與應(yīng)用[D].上海:上海師范大學(xué),2008.

[2] 魏萍萍,王翠茹,王保義,張振興.數(shù)據(jù)挖掘技術(shù)及其在高校教學(xué)系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)工程,2003.29(11):87-89.

[3] 劉林東. Web挖掘在考試系統(tǒng)中的應(yīng)用[J].計(jì)算機(jī)應(yīng)用研究,2005(2):150-154.

[4] Tom M Mitchell.(美)卡內(nèi)基梅隆大學(xué).機(jī)器學(xué)習(xí)[D].曾華軍,張銀奎,譯,北京:機(jī)械工業(yè)出版社,2003.

篇(5)

攻略1 醫(yī)學(xué)論文的基本要求

1.1 創(chuàng)新性 醫(yī)學(xué)論文的創(chuàng)新性是指文章要有新意,要發(fā)展醫(yī)學(xué)成就,破解醫(yī)學(xué)問(wèn)題。醫(yī)學(xué)論文有無(wú)創(chuàng)新,選題是關(guān)鍵。選題創(chuàng)新是醫(yī)學(xué)論文寫作的靈魂,是衡量醫(yī)學(xué)論文價(jià)值的重要標(biāo)準(zhǔn)??审w現(xiàn)在:①理論方面的選題應(yīng)有創(chuàng)新見(jiàn)解,既要反映作者在某些理論方面的獨(dú)創(chuàng)見(jiàn)解,又要提出這些見(jiàn)解的依據(jù);②應(yīng)用方面的選題應(yīng)有創(chuàng)新技術(shù)等,也就是要寫出新發(fā)明、新技術(shù)、新產(chǎn)品、新設(shè)備的關(guān)鍵,或揭示原有技術(shù)移植到新的醫(yī)學(xué)領(lǐng)域中的效果;③創(chuàng)新性還包括研究方法方面的改進(jìn)或突破。

1.2 可行性 所謂選題的可行性,是指能夠充分發(fā)揮作者的綜合條件和可以勝任及如期完成醫(yī)學(xué)論文寫作的把握程度。選題切忌好高鶩遠(yuǎn),脫離實(shí)際,但也不應(yīng)過(guò)低,影響主客觀的正常發(fā)揮,降低了醫(yī)學(xué)論文的水平。影響選題的可行性因素有:①主觀條件,包括作者知識(shí)素質(zhì)結(jié)構(gòu)、研究能力、技術(shù)水平及特長(zhǎng)和興趣等;②客觀條件,包括經(jīng)費(fèi)、資料、時(shí)間、設(shè)備等。

1.3 實(shí)用性 撰寫醫(yī)學(xué)論文的目的是為了交流及應(yīng)用。要從實(shí)際出發(fā),選擇夠指導(dǎo)科研、指導(dǎo)臨床、造福人類的主題,因此,選題的實(shí)用性尤為重要。

1.4 科學(xué)性 醫(yī)學(xué)論文是臨床和醫(yī)學(xué)科學(xué)研究工作的客觀反映,其寫作的具體內(nèi)容應(yīng)該是取材客觀真實(shí)、主題揭示本質(zhì)、科研設(shè)計(jì)合理、論證科學(xué)嚴(yán)謹(jǐn)、表達(dá)邏輯性強(qiáng)、經(jīng)過(guò)實(shí)踐檢驗(yàn)。所以,嚴(yán)格遵守選題的科學(xué)性原則,是醫(yī)學(xué)論文寫作的生命。

1.5 前瞻性 要選擇有研究?jī)r(jià)值及發(fā)展前途的主題,應(yīng)積極開發(fā)研究新領(lǐng)域、新學(xué)科和新理論。

攻略2 選題的基本方法

2.1 根據(jù)課題研究的結(jié)論來(lái)確定主題 這是常用的方法,可分為:①以科研的結(jié)論或部分結(jié)論作為醫(yī)學(xué)論文的主題;②科研結(jié)果與開題時(shí)預(yù)測(cè)不一致,待查出原因后,再尋找主題;③科研達(dá)不到預(yù)期結(jié)果,可總結(jié)經(jīng)驗(yàn),從反面挖掘主題。

2.2 在科研過(guò)程中選題 醫(yī)學(xué)科研的過(guò)程中,有時(shí)會(huì)出現(xiàn)意外的現(xiàn)象或問(wèn)題,作者如果能夠細(xì)心觀察、及時(shí)發(fā)現(xiàn),可以在這些偶然中獲得新的選題。

2.3 在臨床實(shí)踐中選題 臨床工作是醫(yī)學(xué)論文寫作取之不盡的源泉,作者在臨床中會(huì)經(jīng)常遇到許多需要解決的實(shí)際應(yīng)用問(wèn)題或理論問(wèn)題,對(duì)此,只要從本學(xué)科實(shí)際出發(fā),用心思考,會(huì)從中產(chǎn)生很多好的主題。其包括:①探討發(fā)病機(jī)制與預(yù)后情況;②分析臨床癥狀與表現(xiàn);③研究診斷方法和治療方法;④疾病的多因素分析等。

2.4 從文獻(xiàn)資料中選題 醫(yī)學(xué)文獻(xiàn)是人們長(zhǎng)期積累的寶貴財(cái)富,是醫(yī)學(xué)論文選題的重要來(lái)源。閱讀最新文獻(xiàn)資料,可以了解當(dāng)前醫(yī)學(xué)科學(xué)研究的進(jìn)展情況,開拓思路、激發(fā)靈感,從而挖掘提煉出好的醫(yī)學(xué)論文主題。

攻略3 醫(yī)學(xué)論文的一般體裁

3.1 實(shí)驗(yàn)研究 一般為病因、病理、生理、生化、藥理、生物、寄生蟲和流行病學(xué)等實(shí)驗(yàn)研究。主要包括:①對(duì)各種動(dòng)物進(jìn)行藥理、毒理實(shí)驗(yàn),外科手術(shù)實(shí)驗(yàn);②對(duì)某種疾病的病原或病因的體外實(shí)驗(yàn);③某些藥物的抗癌、抗菌、抗寄生蟲實(shí)驗(yàn);④消毒、殺蟲和滅菌的實(shí)驗(yàn)。

3.2 臨床分析 對(duì)臨床上某種疾病病例(百例以上為佳)的病因、臨床表現(xiàn)、分型、治療方法和療效觀察等進(jìn)行分析、討論,總結(jié)經(jīng)驗(yàn)教訓(xùn),并提出新建議、新見(jiàn)解,以提高臨床療效。

3.3 療效觀察 指使用某種新藥、新療法治療某種疾病,對(duì)治療的方法、效果、劑量、療程及不良反應(yīng)等進(jìn)行觀察、研究,或設(shè)立對(duì)照組對(duì)新舊藥物或療法的療效進(jìn)行比較,對(duì)比療效的高低、療法的優(yōu)劣、不良反應(yīng)的種類及程度,并對(duì)是否適于推廣應(yīng)用提出評(píng)價(jià)意見(jiàn)。

3.4 病例報(bào)告 主要報(bào)告罕見(jiàn)病及疑難重癥;雖然曾有少數(shù)類似報(bào)道但尚有重復(fù)驗(yàn)證或加深認(rèn)識(shí)的必要。

3.5 病例(理)討論 臨床病例討論主要是對(duì)某些疑難、復(fù)雜、易于誤診誤治的病例,在診斷和治療方面進(jìn)行集體討論,以求得正確的診斷和有效的治療。臨床病理討論則以對(duì)少見(jiàn)或疑難疾病的病理檢查、診斷及相關(guān)討論為主。

3.6 調(diào)查報(bào)告 在一定范圍的人群里,不施加人工處理因素,對(duì)某一疾病(傳染病、流行病、職業(yè)病、地方病等)的發(fā)病情況、發(fā)病因素、病理、防治方法及其效果進(jìn)行流行病學(xué)調(diào)查研究,給予評(píng)價(jià),并對(duì)防治方案等提出建議。

篇(6)

在近年信息處理與分析相關(guān)技術(shù)領(lǐng)域的進(jìn)展中,文本挖掘是最引人注目的領(lǐng)域之一。文本挖掘是一個(gè)方法群,涉及統(tǒng)計(jì)學(xué)、自然語(yǔ)言處理、信息抽取、可視化等多項(xiàng)信息技術(shù)。同很多新興領(lǐng)域一樣,文本挖掘目前并沒(méi)有統(tǒng)一的定義,沒(méi)有完全一致的方法與模型,但是,F(xiàn)eldman和sanger那個(gè)很籠統(tǒng)的定義:“可將文本挖掘大致定義為一個(gè)知識(shí)密集的過(guò)程,在此過(guò)程中用戶與文檔集合通過(guò)分析工具進(jìn)行交互”,清晰表明了這種方法與信息分析的內(nèi)在聯(lián)系。

信息分析方法可廣泛用于決策支持和科學(xué)研究,在社會(huì)科學(xué)問(wèn)題的研究中,它也具有一般社會(huì)科學(xué)研究方法所不具備的某些方法論優(yōu)勢(shì)。但情報(bào)學(xué)產(chǎn)生至今的數(shù)十年時(shí)間里,信息分析方法一直沒(méi)有成為社會(huì)科學(xué)研究的主流方法,造成這一現(xiàn)象的原因,除了情報(bào)學(xué)對(duì)本領(lǐng)域的理論與方法缺乏有效的宣傳之外,信息分析方法本身的效率問(wèn)題是一個(gè)關(guān)鍵因素。由于社會(huì)科學(xué)所需要的信息分析方法的效率不高,制約了它們大規(guī)模進(jìn)入社會(huì)科學(xué)研究的應(yīng)用領(lǐng)域。值得慶幸的是,隨著計(jì)算機(jī)技術(shù)的日漸成熟,高效率的文本挖掘方法出現(xiàn)了。盡管文本挖掘方法本身尚未完全成熟,仍在發(fā)展過(guò)程中,它在專門領(lǐng)域的應(yīng)用也需要情報(bào)學(xué)家根據(jù)信息分析的特點(diǎn)加以完善,但它作為一種優(yōu)秀的社會(huì)科學(xué)研究方法的前景已經(jīng)展示無(wú)疑了。

2010年,筆者承擔(dān)了國(guó)家社會(huì)科學(xué)重點(diǎn)項(xiàng)目“我國(guó)圖書館核心價(jià)值體系構(gòu)建研究”。考慮到我國(guó)圖書館核心價(jià)值會(huì)受到我國(guó)社會(huì)主流價(jià)值的制約,我們需要判斷國(guó)際上通行的圖書館核心價(jià)值是否為我國(guó)社會(huì)主流價(jià)值體系所認(rèn)同。這就需要從國(guó)際上所有已經(jīng)產(chǎn)生的圖書館核心價(jià)值中提取核心價(jià)值文本,并將其置入我國(guó)社會(huì)核心價(jià)值體系中進(jìn)行考察。由于我國(guó)社會(huì)并沒(méi)有形成“社會(huì)核心價(jià)值”,我們假定代表我國(guó)社會(huì)主流價(jià)值體系的文本,比如《人民日?qǐng)?bào)》全文庫(kù)或新華網(wǎng),包含了我國(guó)社會(huì)的核心價(jià)值體系,而這類代表我國(guó)主流價(jià)值體系的文本必定是海量的、非結(jié)構(gòu)化的,除非采用專門的方法與工具,否則無(wú)法發(fā)現(xiàn)這些文本中所包含的社會(huì)主流價(jià)值,也無(wú)法判斷它們與圖書館核心價(jià)值的聯(lián)系。

篇(7)

關(guān)鍵詞:科技期刊;媒體融合;知識(shí)服務(wù);精準(zhǔn)傳播

近年來(lái),隨著計(jì)算機(jī)技術(shù)的進(jìn)步,科技期刊出版正在經(jīng)歷著前所未有的巨大變革。目前,信息技術(shù)已呈現(xiàn)出“人-機(jī)-物”三元融合的態(tài)勢(shì),數(shù)據(jù)分析工具和基于云計(jì)算的數(shù)據(jù)資源成為期刊出版的重要特征[1],期刊出版的數(shù)字化和集群化發(fā)展成為當(dāng)下期刊發(fā)展的主流趨勢(shì),人工智能也將在學(xué)術(shù)期刊的出版、存取、質(zhì)量評(píng)價(jià)等多個(gè)環(huán)節(jié)上得到廣泛應(yīng)用,并推動(dòng)科技期刊出版方式的變革[2]。目前,在科技期刊界,學(xué)者們就如何促進(jìn)科技期刊媒體融合發(fā)展開展了大量的研究,既包括理論層面的探討,又包括從實(shí)踐和案例的角度開展的應(yīng)用研究[3-6]。與此同時(shí),我們注意到,全球的科學(xué)產(chǎn)出以極快的速度增長(zhǎng),從第二次世界大戰(zhàn)結(jié)束以來(lái),全球的科學(xué)產(chǎn)出相當(dāng)于每9年就會(huì)翻1番[7],讀者也更容易被無(wú)用的信息轟炸,難以在期刊論文的海洋中高效準(zhǔn)確地找到自己需要的內(nèi)容,科技期刊要想擴(kuò)大自身的影響力也愈來(lái)愈難。信息爆炸時(shí)代,科技期刊關(guān)注讀者“需要什么”比“提供了什么”更重要。在智能技術(shù)變革的時(shí)展潮流中,科技期刊應(yīng)如何順應(yīng)時(shí)展趨勢(shì),利用智能技術(shù)整合資源,更好地滿足讀者的需求,擴(kuò)大期刊的影響力,創(chuàng)造科技期刊人、出版商、作者、讀者的共贏局面?本文從以上問(wèn)題切入,嘗試從擴(kuò)展學(xué)術(shù)搜索的路徑、構(gòu)建個(gè)性化的精準(zhǔn)推送平臺(tái)和多元化的傳播模式、向用戶提供有針對(duì)性的服務(wù)方面探索在媒體融合形勢(shì)下如何提升科技期刊的精準(zhǔn)傳播能力,以期為我國(guó)科技期刊媒體融合建設(shè)增瓦添磚。

1借助人工智能,擴(kuò)展學(xué)術(shù)搜索的路徑

互聯(lián)網(wǎng)時(shí)代改變了人們獲取信息的方式,搜索引擎在促進(jìn)科技期刊的傳播、提高影響力等方面的功能逐漸凸顯。雖然現(xiàn)有的一些搜索門戶網(wǎng)站諸如Webofscience、PubMed、谷歌學(xué)術(shù)、各圖書館網(wǎng)站、中國(guó)知網(wǎng)、萬(wàn)方數(shù)據(jù)知識(shí)服務(wù)平臺(tái)等搜索引擎可以幫助讀者檢索科技論文,但是仍不能滿足用戶多樣化的檢索需求。Tancheva等[8]針對(duì)康奈爾大學(xué)圖書館開展的一項(xiàng)調(diào)查研究發(fā)現(xiàn)受訪者“往往既對(duì)搜索方法的效率感到滿意,同時(shí)又對(duì)搜索的棘手和費(fèi)力感到不滿……當(dāng)研究人員無(wú)法完成一個(gè)特定的搜索任務(wù),他們很可能放棄現(xiàn)有的方法(或工具或技術(shù)),而不是找出如何使它工作”。為了解決這一問(wèn)題,需要開發(fā)新的模式解決學(xué)術(shù)出版的過(guò)量負(fù)載,利用智能技術(shù)優(yōu)化搜索引擎的現(xiàn)有功能。目前很多科技公司都在探索開發(fā)基于人工智能的學(xué)術(shù)搜索引擎和知識(shí)服務(wù)。例如Springer網(wǎng)絡(luò)平臺(tái)不斷對(duì)其功能進(jìn)行集成,并提供個(gè)性化服務(wù)功能;Elsevier等出版商為用戶等提供搜索引擎培訓(xùn)課程;微軟學(xué)術(shù)(MicrosoftAcademic)通過(guò)在實(shí)體之間建立有意義的關(guān)聯(lián),自動(dòng)生成可視化的知識(shí)圖譜,引導(dǎo)學(xué)者閱讀[2];2014年,Wiley線上圖書館為用戶提供了增強(qiáng)型HTML文章服務(wù)(AnywhereArticle),它將可讀性、交互性和可移植性設(shè)為用戶體驗(yàn)的核心,使讀者能夠在頁(yè)面中快速找到最重要的信息[9]。一些關(guān)于科學(xué)出版的新模式和平臺(tái)被相繼開發(fā),如Chorus[10]通過(guò)集成服務(wù)和開放APIs,優(yōu)化了科技論文被搜索的路徑,并為政府機(jī)構(gòu)、出版商、研究人員、圖書館員和作者提供可持續(xù)的解決方案。目前我國(guó)已經(jīng)形成一些專業(yè)的期刊集群,一部分學(xué)術(shù)期刊數(shù)據(jù)庫(kù)平臺(tái)也開始進(jìn)行語(yǔ)義出版形式的探索,對(duì)科技期刊內(nèi)容進(jìn)行深度加工和挖掘。不同的科技期刊具有不同的特點(diǎn),在學(xué)術(shù)期刊的數(shù)據(jù)庫(kù)平臺(tái)建設(shè)過(guò)程中需要平臺(tái)開發(fā)團(tuán)隊(duì)與期刊編輯充分交流[11],發(fā)揮編輯的優(yōu)勢(shì)和主導(dǎo)作用,凸顯本學(xué)科的學(xué)科特色。

2利用智能算法,構(gòu)建個(gè)性化的精準(zhǔn)推送平臺(tái)

技術(shù)是科技期刊創(chuàng)新發(fā)展的重要推手,技術(shù)應(yīng)用能力也成為科技期刊發(fā)展的競(jìng)爭(zhēng)資源,充分利用技術(shù)強(qiáng)化科技期刊的知識(shí)服務(wù)和加工能力,創(chuàng)新出版和傳播模式,滿足數(shù)字化時(shí)代的讀者需求,對(duì)于科技期刊的精準(zhǔn)傳播和融合發(fā)展非常重要。在人工智能背景下,可以借助于算法實(shí)現(xiàn)科技期刊出版的智能化。算法的設(shè)計(jì)程序與設(shè)計(jì)者的思維密不可分,設(shè)計(jì)者選擇數(shù)據(jù)樣本、賦予數(shù)據(jù)意義、設(shè)計(jì)模型與算法,擁有數(shù)據(jù)并設(shè)定算法的智能化平臺(tái)具有很強(qiáng)的主導(dǎo)性[12],因此設(shè)計(jì)者需要盡可能考慮并消除算法偏見(jiàn)和利益沖突對(duì)精準(zhǔn)傳播帶來(lái)的負(fù)面影響。日前,騰訊研究院和騰訊AILab聯(lián)合的人工智能倫理報(bào)告指出“人工智能等新技術(shù)需要價(jià)值引導(dǎo),做到可用、可靠、可知、可控”[13]。目前“智能算法+學(xué)術(shù)期刊”已成為創(chuàng)新趨勢(shì),學(xué)術(shù)期刊可構(gòu)建信息數(shù)據(jù)基礎(chǔ)環(huán)境,進(jìn)一步完成動(dòng)態(tài)精準(zhǔn)信息推薦,最后以傳受關(guān)系交互實(shí)現(xiàn)長(zhǎng)期有效的黏性連接[14]。一方面可以通過(guò)算法整合資源,實(shí)現(xiàn)大量科技期刊的數(shù)字資源的聚合;另一方面可以通過(guò)算法分析用戶的閱讀興趣、研究領(lǐng)域,基于用戶的需求建立相關(guān)用戶數(shù)據(jù)信息,從而進(jìn)一步將數(shù)字資源和用戶數(shù)據(jù)相匹配,實(shí)現(xiàn)科技期刊的智能化精準(zhǔn)傳播。如中國(guó)知網(wǎng)推出的“CNKI全球?qū)W術(shù)快報(bào)”整合全球文獻(xiàn)和超星集團(tuán)推出的“域出版”超星學(xué)習(xí)通學(xué)術(shù)平臺(tái)[15],用戶不僅可以在其App上進(jìn)行文獻(xiàn)檢索、分版閱讀、專題閱讀等,還可以與作者進(jìn)行互動(dòng)交流。此外,還可以利用智能算法設(shè)計(jì)追蹤用戶的信息反饋,通過(guò)學(xué)術(shù)平臺(tái)進(jìn)一步增加用戶的體驗(yàn)感,提升科技期刊的精準(zhǔn)傳播能力。

3創(chuàng)新知識(shí)加工,構(gòu)建多元化的傳播模式

在人工智能和融媒體時(shí)代,除了運(yùn)用智能技術(shù)構(gòu)建個(gè)性化的知識(shí)服務(wù)平臺(tái),科技期刊也需要充分發(fā)揮社交媒體的作用,通過(guò)加強(qiáng)期刊網(wǎng)站建設(shè)、建立App客戶端、微信、微博等新媒體傳播平臺(tái),可以根據(jù)各自領(lǐng)域的特點(diǎn),對(duì)科技論文進(jìn)行多次加工和編輯,構(gòu)建個(gè)性化的傳播方式。如論文編輯平臺(tái)Kudos為作者提供了一種利用社交媒體使他們的論文更易下載和傳播的工具,通過(guò)為作者已發(fā)表的文章創(chuàng)建介紹并添加簡(jiǎn)短的標(biāo)題、易懂的摘要和補(bǔ)充內(nèi)容,可以使他們的文章對(duì)讀者更具吸引力[16],學(xué)術(shù)出版平臺(tái)也可以通過(guò)建立二維碼,為讀者提供開放增值服務(wù),使讀者進(jìn)一步了解論文的數(shù)據(jù)、圖片等資料,實(shí)現(xiàn)與用戶的精準(zhǔn)對(duì)接。如中國(guó)煤炭行業(yè)知識(shí)服務(wù)平臺(tái)為該平臺(tái)上的每篇論文制作了二維碼,用戶閱讀紙刊論文時(shí),通過(guò)掃描其中的二維碼可以免費(fèi)下載PDF、HTML文件,此外讀者還可以通過(guò)掃描二維碼向作者提問(wèn)或向責(zé)任編輯反饋意見(jiàn)[17]。目前,郵件推送也正在成為科技期刊提升精準(zhǔn)傳播能力的一個(gè)重要手段,國(guó)內(nèi)一些期刊在這方面做了大膽的嘗試。例如:《計(jì)算機(jī)工程》基于語(yǔ)義分析和智能分詞等技術(shù),設(shè)計(jì)了一套期刊內(nèi)容精準(zhǔn)推送系統(tǒng),將讀者—文章—標(biāo)準(zhǔn)關(guān)鍵詞進(jìn)行匹配,通過(guò)郵件為潛在讀者推送與其研究方向相關(guān)的最新研究論文[18];《應(yīng)用生態(tài)學(xué)報(bào)》通過(guò)運(yùn)用大數(shù)據(jù)和數(shù)理統(tǒng)計(jì)方法,構(gòu)建了科技期刊論文單篇推送客體指標(biāo)體系,通過(guò)郵件對(duì)讀者進(jìn)行單篇精準(zhǔn)推送,取得了較好的傳播效果[19]。此外,利用音頻、視頻、科學(xué)可視化等多媒體技術(shù)可以在短時(shí)間內(nèi)表達(dá)豐富的科學(xué)信息,增加科技論文的廣泛傳播。如虛擬現(xiàn)實(shí)/增強(qiáng)現(xiàn)實(shí)(VR/AR)為讀者提供沉浸式的閱讀環(huán)境,提升讀者的體驗(yàn)感,從而吸引了更多讀者的關(guān)注。中國(guó)科學(xué)技術(shù)大學(xué)王國(guó)燕博士及其團(tuán)隊(duì)開展的前沿科學(xué)可視化研究和設(shè)計(jì),使科技論文通過(guò)圖像的形式向讀者展現(xiàn),提高了科技論文的交流和傳播,她通過(guò)對(duì)頂級(jí)科技期刊《Nature》《Science》《Cell》的一項(xiàng)實(shí)證研究發(fā)現(xiàn),科技期刊封面故事和封面圖像的使用可以提高論文的引用率[20]?!渡虾4髮W(xué)學(xué)報(bào)(自然科學(xué)版)》借助第三方AR展示平臺(tái)實(shí)現(xiàn)了學(xué)術(shù)期刊的多模式AR融合出版,取得了很好的效果[21]。

4滿足用戶需求,提供有針對(duì)性的服務(wù)