期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊 購物車(0)

首頁 > 期刊知識 > 期刊知識數(shù)據(jù)來源處理

期刊知識數(shù)據(jù)來源處理

時間:2022-07-25 09:08:59

1前言

被引量作為論文學(xué)術(shù)影響力的主要評價指標(biāo),在人才評審、科研立項、科研獎勵等過程中發(fā)揮著重要的作用,并衍生出影響因子、H指數(shù)等一系列指標(biāo)。但是其時滯性、片面性及地域差異性等問題也逐漸受到學(xué)者的詬病。

隨著互聯(lián)網(wǎng)的發(fā)展,學(xué)術(shù)論文的電子化日漸普及,幾乎所有的期刊論文都能夠通過網(wǎng)絡(luò)數(shù)據(jù)庫被獲取,人們對學(xué)術(shù)文獻(xiàn)的使用得以被服務(wù)器記錄,這使得研究者開始關(guān)注一個新的學(xué)術(shù)文獻(xiàn)計量指標(biāo)———UsageMtricse,即使用量指標(biāo)。使用量指標(biāo)能夠即時反映論文被使用的情況,亦能在一定程度上反映在科學(xué)研究中被使用但未被體現(xiàn)在引用上的價值。隨著使用量指標(biāo)被眾多學(xué)者所接受,一些數(shù)據(jù)庫廠商也緊跟步伐,推出了基于自身平臺的使用量指標(biāo),如WebofSiencec平臺的Usage指標(biāo),Springer的Download指標(biāo),Nature的文章頁面瀏覽量指標(biāo)(ArticlePageViews),PLOS的ArticleLevelMtricse,以及中國知網(wǎng)的總下載量指標(biāo)、熱度指標(biāo)等。一般而言,學(xué)術(shù)論文在被引用前,對其的使用行為包括瀏覽、下載、閱讀等。以論文為載體,知識/信息刊出后,首先被讀者瀏覽發(fā)現(xiàn),其中一部分讀者被某一論文的標(biāo)題或文摘信息所吸引,進(jìn)而會進(jìn)行下載、閱讀,獲取該部分知識/信息,其中更小一部分讀者會在其撰寫的論文中進(jìn)行引用,然后經(jīng)同行評議后發(fā)表,知識/信息進(jìn)入一個新的使用-引用的循環(huán)中。在這個循環(huán)過程中,瀏覽行為夾雜著太多的隨意性,閱讀行為則難以統(tǒng)計,而下載行為則更具針對性也易于記錄。

雖然讀者可以通過共享、文獻(xiàn)傳遞等方式獲得所需論文,但是從總體上看,從數(shù)據(jù)庫下載仍為互聯(lián)網(wǎng)時代獲取論文最主要的途徑,下載量也是最接近、且最易獲取的反映論文實際使用量的指標(biāo)。因此,在已有研究中,一些學(xué)者將論文的使用量等同于下載量,更多的學(xué)者直接采用下載量作為主要的使用量指標(biāo),來探討其合理性、影響因素以及與被引量的相關(guān)性。上述研究為我們了解論文下載量數(shù)據(jù)的特性等方面提供了豐富的信息,且基本上都認(rèn)為下載量與被引量之間存在著某種程度的相關(guān)性,一些學(xué)者甚至提出可以用論文早期下載量來預(yù)測其后期被引量,以彌補被引量的時滯性問題。但是,上述研究在數(shù)據(jù)的選擇和處理上仍有不足之處,從而導(dǎo)致不同研究結(jié)果中論文下載量與被引量相關(guān)性的顯著水平存在較大差異,使得利用論文早期下載量預(yù)測后期被引量的可行性存在一定的爭論。

首先,由于受數(shù)據(jù)庫供應(yīng)商的限制,早期的一些研究只能從不同的數(shù)據(jù)庫獲取下載量和被引量數(shù)據(jù)。如Moed以期刊TetrahedronLtterse為例,其下載量來源于ScienceDrecti,而其被引量來源于SCI數(shù)據(jù)庫,結(jié)果顯示25個月后兩者的Spearman相關(guān)系數(shù)僅有0.220;Brody等則分別以arXv.orig和Cite-base作為其下載量和被引量數(shù)據(jù)的來源,來探討利用早期下載量預(yù)測后期被引量的可行性,發(fā)現(xiàn)兩者的相關(guān)系數(shù)從1個月后的0.270上升到24個月后的0.440;Guerrero-Boteh和Moya-Anegon從ScienceDrecti和Scopus獲取下載量和被引量數(shù)據(jù)來研究兩者之間的相關(guān)性,發(fā)現(xiàn)在期刊水平上兩者的相關(guān)系數(shù)為0.780,而在論文水平上兩者的相關(guān)系數(shù)僅為0.480;Schloegl等利用ScienceDrecti提供的下載量數(shù)據(jù),結(jié)合JCR或Scopus提供的被引量數(shù)據(jù),進(jìn)行了一系列相關(guān)研究,相關(guān)系數(shù)范圍為0.600—0.800。這些研究雖然通過數(shù)據(jù)處理,使得每一篇論文的下載量與被引量能夠一一對應(yīng),但由于不同數(shù)據(jù)庫平臺的使用者重合度無法測量,這樣得出的結(jié)果可能存在偏差。其次,在單篇論文的水平上,大多數(shù)數(shù)據(jù)庫只提供即時的累積下載量數(shù)據(jù),并未提供分年下載數(shù)據(jù),這使得研究者要么只能對某一時間剖面的下載量與被引量的相關(guān)性進(jìn)行分析,要么只能從期刊水平上進(jìn)行相關(guān)性的動態(tài)分析,而從單篇論文水平上的動態(tài)相關(guān)性分析則不多見。

而事實上,讀者使用的是論文本身,并非期刊整體,一本期刊所刊發(fā)的論文不會集中于完全一模一樣的主題和對象,因此在同一期刊上,也存在著不同的下載模式和引文模式,這些具有不同下載模式和引文模式的論文在下載量和引用量的相關(guān)性上有何異同尚未見研究報道。因此,本文擬通過對圖書情報領(lǐng)域中文學(xué)術(shù)期刊論文下載量與被引量相關(guān)性的動態(tài)變化過程進(jìn)行研究,來探尋不同下載模式和引文模式下,下載量與被引量相關(guān)性的變化規(guī)律。不同于已有文獻(xiàn),本研究的下載量和被引量數(shù)據(jù)均來源于同一數(shù)據(jù)庫———中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫(ChinaAademicJurnalNt-coeworkPblishinugDatabase,CAJD),這一世界上最大的連續(xù)動態(tài)更新的中國學(xué)術(shù)期刊全文數(shù)據(jù)庫。本研究擬研究的問題如下:(1)采用來源于同一數(shù)據(jù)庫的論文下載量與被引量的相關(guān)性,是否高于采用不同數(shù)據(jù)來源的論文下載量與被引量的相關(guān)性?不同下載模式和被引模式下,論文的下載量與被引量的相關(guān)性是否存在差異?(2)論文的早期下載量,在不同下載模式和被引模式下,是否都能用于預(yù)測論文后期被引量?

2數(shù)據(jù)和方法

2.1數(shù)據(jù)來源與處理

以中國學(xué)術(shù)期刊網(wǎng)絡(luò)出版總庫作為數(shù)據(jù)源,選擇其中的11種圖書情報領(lǐng)域期刊在2006—2008年發(fā)表,且在2015年12月31日前獲得過被引和下載的9042篇論文作為研究對象,選擇依據(jù)主要是由于這些期刊創(chuàng)刊時間較長,在數(shù)據(jù)庫中收錄完整,且其出版日和上線日基本一致,從而能夠獲得較為真實的下載量及被引量數(shù)據(jù)。而《圖書情報工作》、《中國圖書館學(xué)報》等期刊因為出版到上線的滯后期較長,未選擇其作為研究對象。將該原始數(shù)據(jù)集命名為DataSt1e。DataSt1e中,每篇論文所涉及的數(shù)據(jù)包含論文的基本題錄信息以及該論文在2006—2015年每一自然年的下載量和被引量,分別加總每一自然年的下載量和被引量,得到每篇論文自出版時到2015年12月31日的總下載量和總被引量;由于不同論文出版月份不同,有的在年初出版,有的在年末出版,因此出版月份較晚的論文在出版當(dāng)年的下載量和被引量無法體現(xiàn)其真實數(shù)量,為了更加準(zhǔn)確地呈現(xiàn)論文在出版后1年內(nèi)的下載量和被引量,本文假設(shè)每篇論文下載量和被引量在一年的不同月份不存在差異,首先采用如下公式計算絕對下載量。

2.2分析方法

2.2.1聚類分析

采用IBMSPSSStatistics23提供的兩步聚類法(Two-StepCluster),分別根據(jù)DataSt2e中每篇論文出版后每年的絕對被引量和絕對下載量進(jìn)行聚類分析,獲得不同的下載模式和引文模式。具體聚類步驟為:選擇DataSt2e中每年的絕對下載量作為連續(xù)變量,聚類準(zhǔn)則采用施瓦茲貝葉斯準(zhǔn)則(BIC),由于之前對數(shù)據(jù)已經(jīng)進(jìn)行了清理,因此對離群值不再使用噪聲處理,評估字段采用唯一的文件識別號,并勾選創(chuàng)建聚類成員變量,最終得到每一篇論文所屬下載模式。采用同樣的步驟獲得每一篇論文所屬引文模式。聚類質(zhì)量通過內(nèi)聚與分離輪廓測量指標(biāo)(Silhouettemeas-ureofcohesionandseparation)進(jìn)行評價,該值大于0表明聚類質(zhì)量較好。

2.2.2相關(guān)性分析

采用Spearman相關(guān)系數(shù)從單篇論文的角度對總下載量與總被引量的相關(guān)性進(jìn)行分析,同時分別對單篇論文的下載量及被引量進(jìn)行排序,分析兩者的秩序相關(guān)性。然后分別研究了總樣本集,以及不同下載模式和不同引文模式下,論文下載量與被引量相關(guān)性的變化趨勢。

免責(zé)聲明:以上文章內(nèi)容均來源于本站老師原創(chuàng)或網(wǎng)友上傳,不代表本站觀點,與本站立場無關(guān),僅供學(xué)習(xí)和參考。本站不是任何雜志的官方網(wǎng)站,直投稿件和出版請聯(lián)系出版社。