期刊大全 雜志訂閱 SCI期刊 投稿指導(dǎo) 期刊服務(wù) 文秘服務(wù) 出版社 登錄/注冊(cè) 購(gòu)物車(0)

首頁(yè) > 精品范文 > 神經(jīng)網(wǎng)絡(luò)文本分類

神經(jīng)網(wǎng)絡(luò)文本分類精品(七篇)

時(shí)間:2023-06-22 09:22:43

序論:寫作是一種深度的自我表達(dá)。它要求我們深入探索自己的思想和情感,挖掘那些隱藏在內(nèi)心深處的真相,好投稿為您帶來了七篇神經(jīng)網(wǎng)絡(luò)文本分類范文,愿它們成為您寫作過程中的靈感催化劑,助力您的創(chuàng)作。

神經(jīng)網(wǎng)絡(luò)文本分類

篇(1)

關(guān)鍵詞:個(gè)性化;信息檢索;文本分類

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2008)29-0265-02

Method of Text Categorization in Personalized Retrieval

PENG Ye-ping, XIAO Da-guang

(Information science and Engineering college,Central South University,Changsha 416000,China)

Abstract: Personalized retrieval is becoming a hot topic for research, this paper mainly discusses about the text categorization algorithm, its principles and scope of application.

Key words: personalized; retrieval; text categorization

1 引言

搜索引擎在信息檢索中起了重要作用,但是由于引擎的通用性,使其不能滿足不同目的,背景,時(shí)期的用戶查詢需求,因此需要針對(duì)擁護(hù)特征向用戶提供個(gè)性化服務(wù)。文本分類方法通過構(gòu)造某種分類模型,并以此判斷樣本所屬的類別。文本分類對(duì)合理組織,存儲(chǔ)文本信息,提高信息檢索速度,提高個(gè)性化信息檢索效率的基礎(chǔ)。

2 分類方法

2.1 樸素貝葉斯方法

樸素貝葉斯方法是一種在已知先驗(yàn)概率與條件的情況下的模式識(shí)別方法,假設(shè)詞條之間是相互獨(dú)立的。設(shè)d為一任意文本,它屬于文檔類C{c1,c2,…,ck}中的一類Cj,引用詞條和分類的聯(lián)合概率來計(jì)算給定文檔的分類概率的公式如下:

計(jì)算所有文本類在給定d情況下的概率,概率值最大的那個(gè)類就是文本d所屬的類,既:

2.2 貝葉斯網(wǎng)絡(luò)分類法

貝葉斯網(wǎng)絡(luò)分類法考慮了特征之間的依賴關(guān)系,該方法更能真實(shí)反映文本的情況,但是計(jì)算復(fù)雜度比樸素貝葉斯高的多。

2.3 決策樹方法

決策樹極強(qiáng)的學(xué)習(xí)反義表達(dá)能力使得其適合于文本分類,它是通過一組無序,無規(guī)則的實(shí)例推理出樹型的分類規(guī)則,采用自頂向下的遞歸方式,在決策樹的內(nèi)部結(jié)點(diǎn)進(jìn)行屬性值的比較并根據(jù)不同的屬性值進(jìn)行判斷從該結(jié)點(diǎn)向下的分支,在決策樹的葉結(jié)點(diǎn)得到結(jié)論,決策樹的建立算法有很多,文獻(xiàn)[5]其中包括基于信息增益的啟發(fā)式計(jì)算ID3;基于信息增益率的解決聯(lián)系屬性的算法C4.5;基于Gini系數(shù)的算法CART和可并行性算法SPRINT算法。決策樹方法特點(diǎn)是使用者只要將訓(xùn)練樣例能夠使用屬性-結(jié)合式的方法表達(dá)出來,就能夠用該方法來學(xué)習(xí),但是這種算法生成的仍是多叉樹。

2.4 K-鄰近方法

K-鄰近方法,根據(jù)測(cè)試文本在訓(xùn)練文本中與之最相近的K篇文本的類別來判定它的類別,其中,K是一個(gè)重要的參數(shù),文獻(xiàn)[4]K值過大,則與待分類文本實(shí)際上并不相似的一些文本也被包含,造成噪音增加;K值太小,則不能充分體現(xiàn)待分類文本的特點(diǎn).一般對(duì)K會(huì)選定一個(gè)初值,相似值的判定可取歐拉距離或余旋相似度等,若分類系統(tǒng)中相似值的計(jì)算采用余旋相似度,則公式如下:

Sim(x,di)為相似度公式,X為新文本的向量,y(di,cj)為類別屬性函數(shù),若d∈cj,則y(di,cj)=1;否則y(di,cj)=0;將新文本分到權(quán)重最大的類別中去。

2.5 支持向量機(jī)

Vapnik提出在結(jié)構(gòu)風(fēng)險(xiǎn)最小化準(zhǔn)則理論上的支持向量機(jī)方法,能有效解決小樣本集的機(jī)器學(xué)習(xí)問題,向量機(jī)主要是針對(duì)兩類分類問題,在高維空間尋找一個(gè)滿足分類要求的最優(yōu)超平作為兩類的分割,既保證分類精確度,又要使超平面兩側(cè)的空白區(qū)域最大化,以保證最小的分類錯(cuò)誤率,文獻(xiàn)[1]對(duì)于大于兩類的多類文本分類,就對(duì)每個(gè)類構(gòu)造一個(gè)超平面,將這一類與其余的類分開,有多個(gè)類就構(gòu)造多個(gè)超平面,測(cè)試時(shí)就看哪個(gè)超平面最適合測(cè)試樣本。支持向量機(jī)方法避免了局部性問題,樣本中的支持向量數(shù),能夠有效地用于解決高緯問題。

2.6 神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)網(wǎng)絡(luò)是模仿人腦神經(jīng)網(wǎng)絡(luò)的基本組織特性構(gòu)成的新型信息處理系統(tǒng),其性質(zhì)取決于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),網(wǎng)絡(luò)的權(quán)值和工作規(guī)則.通常由等于樣本特征數(shù)的輸入層,輸出層,等于樣本類數(shù)的神經(jīng)元組成。其中,每一個(gè)連接都有一定的權(quán)值,通過訓(xùn)練類來訓(xùn)練的過程就是調(diào)整這些權(quán)值的過程,從而使神經(jīng)網(wǎng)絡(luò)與可以正確地預(yù)測(cè)類別。

3 幾種方法的比較

3.1 樸素貝葉斯與網(wǎng)絡(luò)貝葉斯

樸素貝葉斯方法使用概率去表示所有形式的不確定性,學(xué)習(xí)或其他形式的推理都用概率規(guī)則來實(shí)現(xiàn),但是大部分情況是文本特征之間的依賴關(guān)系是相互存在的,所以特征獨(dú)立性會(huì)影響樸素貝葉斯分類的結(jié)果;網(wǎng)絡(luò)貝葉斯能夠考慮特征之間的依賴關(guān)系,但是計(jì)算復(fù)雜度比樸素貝葉斯高得多;

3.2 支持向量機(jī)方法

支持向量機(jī)方法的優(yōu)點(diǎn):首先,該方法是針對(duì)有限樣本情況的分類方法,其算法最終將轉(zhuǎn)化為一個(gè)二次型尋優(yōu)萬惡提,理論上得到的將是全局最優(yōu)點(diǎn),避免了局部極值問題;其次,該方法計(jì)算的復(fù)雜度不再取決于空間維度,而是取決于樣本數(shù),這可能有效地用于解決高維度問題;再次,該方法對(duì)稀疏數(shù)據(jù)不敏感,能更好地捕捉數(shù)據(jù)的內(nèi)在特征。缺點(diǎn)是:該方法參數(shù)的調(diào)整比較困難,分類比較費(fèi)時(shí)。

3.3 神經(jīng)網(wǎng)絡(luò)方法

神經(jīng)網(wǎng)絡(luò)方法的優(yōu)點(diǎn):首先,具有自適應(yīng)功能,它能根據(jù)所提供的數(shù)據(jù),通過學(xué)習(xí)找出輸出結(jié)果之間的內(nèi)在聯(lián)系,從而球的問題的解答;其次,神經(jīng)網(wǎng)絡(luò)善于聯(lián)想、概括、類比和推廣,任何局部的操作都不會(huì)影響整體效果;再次,具有高速尋找優(yōu)化解的能力。缺點(diǎn):該方法根據(jù)輸入輸出的關(guān)系訓(xùn)練網(wǎng)絡(luò),缺少解釋能力,受訓(xùn)練樣本影響大,訓(xùn)練過程較慢,不適應(yīng)大量數(shù)據(jù)的學(xué)習(xí)。

3.4 決策樹方法

決策樹方法的優(yōu)點(diǎn)是它在學(xué)習(xí)過程中不需要使用者了解很多背景知識(shí),只要訓(xùn)練樣例能夠使用屬性-結(jié)論式的方法表示出來,就能使用該方法。缺點(diǎn)是測(cè)試屬性的選擇對(duì)該方法影響較大。

3.5 K-鄰近方法

K-鄰近方法的優(yōu)點(diǎn)是該方法訓(xùn)練過程較快,且可隨時(shí)添加或更新訓(xùn)練文本來調(diào)整;缺點(diǎn)是因?yàn)樾枰艽蟮目臻g來保存文本,所以它分類的開銷很大,K值確定較慢,分類效果較差.

4 文本分類方法效果評(píng)價(jià)

1) 精確度(查全率):是指通過分類系統(tǒng)正確分類的文本數(shù)與實(shí)際分類的文本數(shù)的比值,其公式如下:

精確度:=

2) 召回率(查全率):是指通過分類系統(tǒng)正確分類的文本數(shù)與人工分類中應(yīng)有的文本數(shù)的比值,公式如下:

召回率:=

3) F1測(cè)試值:對(duì)查權(quán)率和查準(zhǔn)綠的綜合測(cè)試

F1測(cè)試值:=

參考文獻(xiàn):

[1] 史忠植.知識(shí)發(fā)現(xiàn)[M].北京:清華大學(xué)出版,2002.

[2] 朱明.數(shù)據(jù)挖掘[M].合肥:中國(guó)科技大學(xué)出版社,2002.

[3] 王繼成,潘金貴,張福炎.web文本挖掘技術(shù)研究[J].計(jì)算機(jī)研究與發(fā)展,2000,37(5):513-520.

篇(2)

關(guān)鍵詞:數(shù)據(jù)挖掘;貝葉斯;分類

中圖分類號(hào):TP311文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2008)23-1024-02

The Application of Bayesian Classification

ZHONG Dai-jun

(Chongqing University of Arts and Sciences, Chongqing 402160, China)

Abstract: This paper elaborates the necessity and importance of Bayesian classification when designing system using the technique of artiffisal intelligence,introduced the basic technique ofBayesian classification, given the advantage and disadvantage and future of it. Explained with some sample of theapplicationg of Bayesian classification.

Key words: data mining; bayes; classification

1 引言

數(shù)據(jù)的豐富帶來了對(duì)強(qiáng)有力的數(shù)據(jù)分析工具的需求,大量的數(shù)據(jù)被描述為“數(shù)據(jù)豐富,但信息貧乏”。快速增長(zhǎng)的海量數(shù)據(jù)收集、存放在大型和大量的數(shù)據(jù)庫(kù)中,沒有強(qiáng)有力的工具,理解它們已經(jīng)遠(yuǎn)遠(yuǎn)超出了人的能力。

分類作為數(shù)據(jù)挖掘的一種模式,可以用于提取描述重要數(shù)據(jù)的模型,通常是預(yù)測(cè)分類標(biāo)號(hào)(或離散值)。例如,可以建立一個(gè)分類模型,對(duì)銀行貸款的安全或風(fēng)險(xiǎn)進(jìn)行分類。許多分類的方法已被機(jī)器學(xué)習(xí)、專家系統(tǒng)、統(tǒng)計(jì)學(xué)和神經(jīng)生物學(xué)方面的研究者提出。

貝葉斯分類是數(shù)據(jù)分類中的一個(gè)基本技術(shù)。在大型數(shù)據(jù)庫(kù),貝葉斯分類已表現(xiàn)出高準(zhǔn)確率和高速度。貝葉斯分類中又有樸素貝葉斯分類和貝葉斯信念網(wǎng)絡(luò)。

2 什么是分類

數(shù)據(jù)分類(data classification)是一個(gè)兩步過程。第一步,建立一個(gè)模型,描述預(yù)定的數(shù)據(jù)類集。通過分析有屬性描述的數(shù)據(jù)庫(kù)元組來構(gòu)造模型。假定每個(gè)元組屬于一個(gè)預(yù)定義的類,由一個(gè)稱作類標(biāo)號(hào)屬性(class label attribute)的屬性確定。對(duì)于分類,數(shù)據(jù)元組也稱作樣本、實(shí)例或?qū)ο?。為建立模型而被分析的?shù)據(jù)元組形成訓(xùn)練數(shù)據(jù)集。訓(xùn)練數(shù)據(jù)集中的單個(gè)元組稱作訓(xùn)練樣本,并隨機(jī)地由樣本群選取。由于提供了每個(gè)訓(xùn)練樣本的類標(biāo)號(hào),該步也稱作有指導(dǎo)的學(xué)習(xí)(即模型的學(xué)習(xí)在被告知每個(gè)訓(xùn)練樣本屬于哪個(gè)類的“指導(dǎo)”下進(jìn)行)。它不同于無指導(dǎo)的學(xué)習(xí)(或聚類),那里每個(gè)訓(xùn)練樣本的類標(biāo)號(hào)是未知的,要學(xué)習(xí)的類集合或數(shù)量也可能事先不知道。

通常,學(xué)習(xí)模型用分類規(guī)則、判定樹或數(shù)學(xué)公式的形式提供。例如,給定一個(gè)顧客信用信息的數(shù)據(jù)庫(kù),可以學(xué)習(xí)分類規(guī)則,根據(jù)他們的信譽(yù)度優(yōu)良或相當(dāng)好來識(shí)別顧客。這些規(guī)則可以用來為以后的數(shù)據(jù)樣本分類,也能對(duì)數(shù)據(jù)庫(kù)的內(nèi)容提供更好的理解。

第二步,使用模型進(jìn)行分類。首先評(píng)估模型(分類法)的預(yù)測(cè)準(zhǔn)確率。模型在給定測(cè)試集上準(zhǔn)確率是正確被模型分類的測(cè)試樣本的百分比。對(duì)于每個(gè)測(cè)試樣本,將已知的類標(biāo)號(hào)與該樣本的學(xué)習(xí)模型類預(yù)測(cè)比較。如果模型的準(zhǔn)確率根據(jù)訓(xùn)練集評(píng)估,評(píng)估可能是樂觀的,因?yàn)閷W(xué)習(xí)模型傾向于過分適合數(shù)據(jù)。

如果認(rèn)為模型的準(zhǔn)確率可以接受,就可以用它對(duì)類標(biāo)號(hào)未知的數(shù)據(jù)元組或?qū)ο筮M(jìn)行分類。(這種數(shù)據(jù)在機(jī)器學(xué)習(xí)文獻(xiàn)中也稱為“未知的”或“先前未見到的”數(shù)據(jù))。

分類具有廣泛的應(yīng)用,包括信譽(yù)證實(shí)、醫(yī)療診斷、性能預(yù)測(cè)和選擇購(gòu)物。

3 Bayesian 分類技術(shù)介紹

3.1 Bayesian分類與其他分類技術(shù)的比較

基于統(tǒng)計(jì)的分類算法主要包括:相似度模型(Rocchio,K一近鄰)、概率模型(貝葉斯)、線性模型(LLSF,SVM)、非線性模型(決策樹、神經(jīng)網(wǎng)絡(luò))和組合模型.對(duì)于這些分類算法,國(guó)內(nèi)外很多研究者進(jìn)行了客觀評(píng)測(cè)。

分類方法可以根據(jù)下列標(biāo)準(zhǔn)進(jìn)行比較和評(píng)估:

預(yù)測(cè)的準(zhǔn)確率:這涉及模型正確地預(yù)測(cè)新的或先前未見過的數(shù)據(jù)的類標(biāo)號(hào)的能力。

速度:這涉及產(chǎn)生和使用模型的計(jì)算花費(fèi)。

強(qiáng)壯性:這涉及給定噪聲數(shù)據(jù)或具有空缺值的數(shù)據(jù),模型真切預(yù)測(cè)的能力。

可伸縮性:這涉及給定大量數(shù)據(jù),有效地構(gòu)造模型的能力。

可解釋性:上涉及學(xué)習(xí)模型提供的理解和洞察的層次。

數(shù)據(jù)庫(kù)研究界對(duì)數(shù)據(jù)挖掘的分類一直強(qiáng)調(diào)可伸縮性。

“貝葉斯分類的效率如何?”理論上講,與其他所有分類算法相比,貝葉斯分類具有最小的出錯(cuò)率。然而,實(shí)踐中并非總是如此。這是由于對(duì)其應(yīng)用的假定(如類條件獨(dú)立性)的不準(zhǔn)確性,以及缺乏可用的概率數(shù)據(jù)造成的。然而,種種實(shí)驗(yàn)研究表明,與判定樹和神經(jīng)網(wǎng)絡(luò)分類算法相比,在某些領(lǐng)域,該分類算法可以與之媲美。

貝葉斯分類還可用用來為不直接使用貝葉斯定理的其他分類算法提供理論判定。例如,在某種假定下,可用證明正如樸素貝葉斯分類一樣,許多神經(jīng)網(wǎng)絡(luò)和曲線擬合算法輸出最大的后驗(yàn)假定。

3.2 貝葉斯分類

3.2.1 貝葉斯定理

設(shè)X為一個(gè)類別未知的數(shù)據(jù)樣本,H為某個(gè)假設(shè),若數(shù)據(jù)樣本X屬于一個(gè)特定的類別C,那么分類問題就是決定P(H/X),即在獲得數(shù)據(jù)樣本X時(shí),H假設(shè)成立的概率P(X)是建立在H基礎(chǔ)之上的x成立的概率。具體公式描述如下:

3.2.2樸素貝葉斯分類(簡(jiǎn)單貝葉斯分類)

樸素貝葉斯分類方法[3]是機(jī)器學(xué)習(xí)中常用的方法之一。樸素貝葉斯分類法將訓(xùn)練實(shí)例I分解成特征向量W和決策類別變量C。樸素貝葉斯分類法假定特征向量的各分向量間相對(duì)于決策變量是相對(duì)獨(dú)立的。對(duì)文本分類來說,假設(shè)各個(gè)單詞wi和wj之間兩兩獨(dú)立。

設(shè)訓(xùn)練樣本集分為k類,記為C={C1,C2,…,Ck},則每個(gè)類Ci的先驗(yàn)概率為P(Ci), I=1,2, …,k,其值為Ci類的樣本數(shù)除以訓(xùn)練集總樣本數(shù)N。對(duì)于樣本d,其屬于Ci類的條件概率是P(d|Ci)。文本d有其包含的特征詞表示,即d= (w1, …,wi, …,wm),m是d的特征詞個(gè)數(shù)|d|,wj是第j個(gè)特征詞。根據(jù)貝葉斯定理,Ci類的后驗(yàn)概率為P(Ci|d)

因?yàn)镻(d)對(duì)于所以類均為常數(shù),樸素貝葉斯分類器將未知樣本歸于類的依據(jù),如下

文檔d由其包含的特征詞表示,即d=(w1, …,wi, …,wm) ,m是d的特征詞個(gè)數(shù)|d|,wj是第j個(gè)特征詞,由特征獨(dú)立性假設(shè),則得

式中P(wj|Ci)表示分類器預(yù)測(cè)單詞wj在類Ci的文檔中發(fā)生的概率。

3.3 改進(jìn)的貝葉斯分類在文本分類中的應(yīng)用

關(guān)鍵的一個(gè)技術(shù)是特征提取。文本分類征提取的步驟包括:詞語(yǔ)切分,詞頻統(tǒng)計(jì),加權(quán)計(jì)算和特征選擇(二者通常結(jié)合在一起進(jìn)行)。

在文本分類中有很多權(quán)重計(jì)算和特征選擇的公式,如信息增益、期望交叉嫡、文本證據(jù)權(quán)、zx統(tǒng)計(jì)量等,其中最著名的是TFIDF公式.那么,權(quán)重計(jì)算和特征選擇的公式究竟哪個(gè)為優(yōu)呢?其實(shí)在這些公式中,關(guān)鍵在于特征選擇時(shí)的傾向:高頻詞或稀有詞,也就是公式中的P(w)因子起很大作用。因此,在特征選擇時(shí),理想的做法應(yīng)該是充分考慮P(w)因子的作用,最好能兼顧到高權(quán)高頻詞和低頻高權(quán)詞。

有學(xué)者對(duì)TF*F和TF*IWF*IWFF公式進(jìn)行了分析并作了一些改進(jìn),認(rèn)為關(guān)鍵詞在某類的權(quán)重受3個(gè)因素的影響:該詞在當(dāng)前類中的出現(xiàn)頻率;該詞在總語(yǔ)料中的出現(xiàn)頻率;該詞在不同類別之間出現(xiàn)頻率的差異。最終得到關(guān)鍵詞在類中的權(quán)重計(jì)算公式:

類別區(qū)別度用來表示某一個(gè)詞語(yǔ)對(duì)于文本分類的貢獻(xiàn)程度,即詞語(yǔ)的領(lǐng)域區(qū)別程度。直觀地看,如果一個(gè)詞語(yǔ)在每一類中都比較均勻地出現(xiàn),那么它對(duì)于分類的貢獻(xiàn)幾乎為零,類別區(qū)別度很低;如果某一詞語(yǔ)只在某一類中出現(xiàn),那么它對(duì)于分類的貢獻(xiàn)很高,有的幾乎可以一詞定類,類別區(qū)別度也就很高了。比如,虛詞“的、我、在”的類別區(qū)別度很低,而“魔獸爭(zhēng)霸、重倉(cāng)股、手機(jī)操作系統(tǒng)”這樣的詞語(yǔ)其類別區(qū)別度就很高。

3.4 貝葉斯信念網(wǎng)絡(luò)

樸素貝葉斯分類假定類條件獨(dú)立,即給定樣本的類標(biāo)號(hào),屬性的值相互條件獨(dú)立。這一假定簡(jiǎn)化了計(jì)算。當(dāng)假定成立時(shí),與其他所有分類算法相比,樸素貝葉斯分類是最精確的。然而,在實(shí)踐中,變量之間的依賴可能存在。貝葉斯信念網(wǎng)絡(luò)(Bayesian belief network)說明聯(lián)合條件概率分布。它允許在變量的子集間定義類條件獨(dú)立性。它提供一種因果關(guān)系的圖形,可用在其上進(jìn)行學(xué)習(xí)。這種網(wǎng)絡(luò)也被稱為信念網(wǎng)絡(luò)、貝葉斯網(wǎng)絡(luò)和概率網(wǎng)絡(luò)。

信念網(wǎng)絡(luò)有兩部分定義。第一部分是有向無環(huán)圖,其每個(gè)節(jié)點(diǎn)代表一個(gè)隨機(jī)變量,而每條弧代表一個(gè)概率依賴。如果一條弧有節(jié)點(diǎn)Y到Z,則Y是Z的雙親或直接前驅(qū),而Z是Y的后繼。給定雙親,每個(gè)變量條件獨(dú)立于圖中的非后繼。變量可以是離散的或連續(xù)值的。它們可以對(duì)應(yīng)于數(shù)據(jù)中給定的實(shí)際屬性,或?qū)?yīng)于一個(gè)相信形成聯(lián)系的“隱藏變量”。

“貝葉斯信念網(wǎng)絡(luò)如何學(xué)習(xí)?”在學(xué)習(xí)或訓(xùn)練信念網(wǎng)絡(luò)時(shí),許多情況都是可能的。網(wǎng)絡(luò)結(jié)構(gòu)可能預(yù)先給定,或由數(shù)據(jù)導(dǎo)出。網(wǎng)絡(luò)變量可能是可見的,或隱藏在所有或某些訓(xùn)練樣本中。隱藏素凈的情況也稱為空缺值或不完全數(shù)據(jù)。

如果網(wǎng)絡(luò)結(jié)構(gòu)已知并且變量是可見的,訓(xùn)練網(wǎng)絡(luò)是直截了當(dāng)?shù)摹T撨^程由計(jì)算CPT(條件概率表)組成,與樸素貝葉斯分類涉及的計(jì)算概率類似。

當(dāng)網(wǎng)絡(luò)結(jié)構(gòu)給定,而某些變量是隱藏的時(shí),則可使用梯度下降方法訓(xùn)練信念網(wǎng)絡(luò)。目標(biāo)是學(xué)習(xí)CPT項(xiàng)的值。設(shè)S是s個(gè)訓(xùn)練樣本X1,X2,…,Xs的集合,Wijk是具有雙親Ui=uik的變量Y=yij的CPT項(xiàng)。Wijk可以看作權(quán),類似于神經(jīng)網(wǎng)絡(luò)中隱藏單元的權(quán)。權(quán)的集合總稱為w。這些權(quán)被初始化為隨機(jī)概率值。梯度下降策略采用貪心爬山法。在每次迭代中,修改這些權(quán),并最終收斂到一個(gè)局部最優(yōu)解。

4 結(jié)束語(yǔ)

簡(jiǎn)要闡述了分類在數(shù)據(jù)挖掘中的位置,著重介紹了貝葉斯分類的基本技術(shù)和它的相關(guān)應(yīng)用。

參考文獻(xiàn)

[1] 史忠植.知識(shí)發(fā)現(xiàn)[M].北京:清華大學(xué)出版社,2002.

篇(3)

關(guān)鍵詞: 情感分析; 情感傾向性; 詞典擴(kuò)充; 電力客服工單; 主動(dòng)服務(wù)

中圖分類號(hào): TN915.853?34; V249 文獻(xiàn)標(biāo)識(shí)碼: A 文章編號(hào): 1004?373X(2017)11?0163?04

Dictionary expansion based sentiment tendency analysis of power customer service order

GU Bin, PENG Tao, CHE Wei

(State Grid Jiangsu Electric Power Company, Nanjing 210000, China)

Abstract: In order to improve the customer satisfaction and active service consciousness of the electric power enterprises effectively, the textual characteristic of the power customer service order is combined to construct the sentiment analysis model of the power customer service order. The keywords of the service order are extracted according to TF?IDF thought. The word2vec training is used to get the word vector of each word. The cosine similarity is calculated to expand the high similarity field vocabulary to the sentiment dictionary. The service order sentiment analysis and text classification are performed. The validity of the method is verified with experimental analysis. The results show that, in comparison with the original sentiment dictionary, the method of dictionary expansion and service order sentiment tendency analysis is superior, has higher accuracy, and can provide a certain reference significance for the customer relation management of power enterprise.

Keywords: sentiment analysis; sentiment tendency; dictionary expansion; power customer service order; active service

0 引 言

隨著電力體制改革的逐步深化,配電市場(chǎng)競(jìng)爭(zhēng)不斷加劇,迫切需要供電企業(yè)改變傳統(tǒng)的思維方式和工作模式,進(jìn)一步樹立市場(chǎng)化服務(wù)意識(shí),從客戶需求出發(fā),挖掘客戶的潛在需求和內(nèi)在價(jià)值,從而提升客戶滿意度和運(yùn)營(yíng)效益。作為與客戶交流、溝通的重要窗口,電力企業(yè)95598客服系統(tǒng)記錄了海量的客戶信息,若能徹底挖掘客服工單中的客戶特征、情感信息并了解客戶的關(guān)注焦點(diǎn),對(duì)電力企業(yè)和客戶都將具有十分重要的意義[1]。

電力客服工單情感傾向性分析可以有效地發(fā)掘客戶情感信息和需求,可根據(jù)客戶情感傾向性識(shí)別潛在的投訴客戶,可根據(jù)反饋信息判別某項(xiàng)業(yè)務(wù)的實(shí)施效果等。針對(duì)文本情感傾向性分析,現(xiàn)有的理論研究比較側(cè)重于文本特征提取以及采用機(jī)器學(xué)習(xí)方法對(duì)文本進(jìn)行分類,但是基于具體業(yè)務(wù)特征進(jìn)行情感詞典擴(kuò)充的研究還比較少,導(dǎo)致情感傾向性計(jì)算往往會(huì)存在一定的差異,因此,根據(jù)電力行業(yè)的特c,進(jìn)行客戶服務(wù)工單情感詞典擴(kuò)充及情感傾向性的研究非常有必要。

情感分析是指利用文本挖掘、機(jī)器學(xué)習(xí)技術(shù)分析挖掘隱藏在文本中的情感信息,并將其分類為積極情感態(tài)度和消極情感態(tài)度[2]。目前,國(guó)內(nèi)外關(guān)于文本情感傾向性分析已經(jīng)進(jìn)行了較多的研究工作[3?7],文獻(xiàn)[3]基于情感詞間的點(diǎn)互信息和上下文約束,提出一種兩階段的領(lǐng)域情感詞典構(gòu)建算法,提升了情感詞情感傾向的識(shí)別能力。文獻(xiàn)[4]研究了基于矩陣投影(MP)和歸一化向量(NLV)的文本分類算法,實(shí)現(xiàn)對(duì)商品評(píng)價(jià)的情感分析,不僅可以有效識(shí)別商品評(píng)論情感性傾向,而且提升了識(shí)別效率。文獻(xiàn)[5]將詞級(jí)別向量和字級(jí)別向量作為原始特征,采用卷積神經(jīng)網(wǎng)絡(luò)提取文本特征并進(jìn)行情感傾向性分析,結(jié)果表明字級(jí)別向量可取得較高的準(zhǔn)確率。文獻(xiàn)[6]提出一種詞圖模型的方法,利用PageRank算法得到情感詞的褒貶權(quán)值,并將其作為條件隨機(jī)場(chǎng)模型特征預(yù)測(cè)情感詞傾向,提升了具體語(yǔ)境下預(yù)測(cè)的準(zhǔn)確性,但是針對(duì)文本數(shù)量較大的情況準(zhǔn)確率較低。文獻(xiàn)[7]結(jié)合句子結(jié)構(gòu)上下文語(yǔ)義關(guān)聯(lián)信息,提出一種基于深度神經(jīng)網(wǎng)絡(luò)的跨文本粒度情感分類模型,提升了分類準(zhǔn)確率,但該方法只適應(yīng)于特定領(lǐng)域,泛化能力較低。

鑒于以上研究現(xiàn)狀,本文以電力客戶服務(wù)領(lǐng)域文本特征為突破口,構(gòu)建了電力客服工單情感分析模型,基于工單關(guān)鍵詞提取對(duì)原始的情感詞典進(jìn)行擴(kuò)充,并對(duì)工單情感傾向性進(jìn)行分析,最后,通過算例應(yīng)用驗(yàn)證了本文所提方法的有效性。

1 相關(guān)工作

1.1 情感分類

情感分類技術(shù)的主要目標(biāo)是基于文本數(shù)據(jù)識(shí)別用戶所表達(dá)的情感信息,并將文本數(shù)據(jù)分為正類和負(fù)類。當(dāng)前,針對(duì)情感分類的研究,主要從監(jiān)督學(xué)習(xí)、基于規(guī)則方法、跨領(lǐng)域情感分析等方面展_研究,與此同時(shí),針對(duì)文本特征的提取和特征情感判別是情感分類研究的兩個(gè)關(guān)鍵問題。

1.2 Word2vec介紹

word2vec是Google在2013年開源的一款將詞表征為實(shí)數(shù)值向量(word vector)的高效工具,采用的模型有CBOW(Continuous Bag?of?Words,即連續(xù)的詞袋模型)和Skip?Gram兩種,word2vec采用的是Distributed Representation的詞向量表示方式,經(jīng)過對(duì)輸入集數(shù)據(jù)進(jìn)行訓(xùn)練,可以實(shí)現(xiàn)將文本詞匯轉(zhuǎn)換為維空間向量,然后基于空間向量相似度來表達(dá)文本語(yǔ)義相似度,模型輸出結(jié)果可用于自然語(yǔ)言處理領(lǐng)域相關(guān)工作,比如文本聚類、詞典擴(kuò)充、詞性分析等。

word2vec生成詞向量的基本思想來源于NNLM(Neural Network Language Model)模型,其采用一個(gè)三層神經(jīng)網(wǎng)絡(luò)構(gòu)建語(yǔ)言模型,假設(shè)某個(gè)詞的出現(xiàn)只與前個(gè)詞相關(guān),其原理示意圖如圖1所示。

圖1中,最下方的為前個(gè)輸入詞,并根據(jù)其預(yù)測(cè)下一個(gè)詞每個(gè)輸入詞被映射為一個(gè)向量,為詞語(yǔ)的詞向量。網(wǎng)絡(luò)的第一層(輸入層)為輸入詞語(yǔ)組成的維向量網(wǎng)絡(luò)第二層(隱藏層)計(jì)算為偏置因子,使用激活函數(shù)tanh;網(wǎng)絡(luò)第三層(輸出層)包含個(gè)節(jié)點(diǎn),每個(gè)節(jié)點(diǎn)表示下一詞的未歸一化log概率,并使用softmax激活函數(shù)將輸出值歸一化,最后使用隨機(jī)梯度下降法對(duì)模型進(jìn)行優(yōu)化。

圖1 NNLM原理模型圖

模型的目標(biāo)函數(shù)為:

需要滿足的約束條件為:

2 電力客服工單情感分析模型

本文以某電力公司客服工單數(shù)據(jù)為研究對(duì)象,在深入理解電力業(yè)務(wù)及工單文本語(yǔ)義特點(diǎn)的基礎(chǔ)上,建立了一種電力客服工單情感分析模型。首先,在進(jìn)行文本預(yù)處理的基礎(chǔ)上,對(duì)文本進(jìn)行分詞處理并且完成關(guān)鍵詞提??;然后,采用word2vec訓(xùn)練工單數(shù)據(jù),并基于關(guān)鍵詞進(jìn)行情感詞典擴(kuò)充,構(gòu)建電力客服領(lǐng)域?qū)S们楦性~典;最后,進(jìn)行工單情感傾向性分析。

2.1 工單文本預(yù)處理

由于工單文本數(shù)據(jù)中存在大量?jī)r(jià)值含量較低甚至沒有價(jià)值意義的數(shù)據(jù),在進(jìn)行分詞、情感分析中會(huì)對(duì)結(jié)果產(chǎn)生較大的影響,那么在文本挖掘之前就必須先進(jìn)行文本預(yù)處理,去除大量沒有挖掘意義的工單數(shù)據(jù)。工單文本預(yù)處理工作主要包括:刪除未標(biāo)注業(yè)務(wù)類型數(shù)據(jù)、分句處理、文本去重、短句刪除等。

分句處理:將工單數(shù)據(jù)處理成以句子為最小單位,以句尾標(biāo)點(diǎn)符號(hào)為標(biāo)志分割,包括“,”,“?!?,“;”,“!”等符號(hào)。

文本去重:就是去除工單數(shù)據(jù)中重復(fù)的部分,常用的方法有觀察比較刪除法、編輯距離去重法、Simhash算法去重等。

短句刪除:刪除過短的文本,如“還可以”,“非常好”等,設(shè)置文本字符數(shù)下限為10個(gè)國(guó)際字符。

2.2 電力客戶服務(wù)領(lǐng)域情感詞典構(gòu)建

2.2.1 分詞

本文采用python的jieba分詞工具對(duì)數(shù)據(jù)集進(jìn)行分詞,并完成詞性標(biāo)注和去除停用詞,由于情感分析通常由名詞、形容詞、副詞和連詞等反映出來,因此刪除詞性為動(dòng)詞的詞匯。jieba中文分詞工具包包含三種分詞模式:精確模式、全模式和搜索引擎模式,綜合分詞效果及后文的研究,本文選擇精確模式進(jìn)行分詞,三種模式的分詞效果如表1所示。

另外,在實(shí)際的分詞過程中,出現(xiàn)了個(gè)別分詞結(jié)果與實(shí)際的語(yǔ)義不符,原因是字典中缺少相關(guān)的專有名詞,或者是這些詞語(yǔ)的詞頻較低,比如“客戶/咨詢/抄/表示/數(shù)等/信息”,“客戶/查戶/號(hào)”,“變壓器/重/過載”,“查/分/時(shí)/電價(jià)”等,因此,需要對(duì)原有詞典進(jìn)行更新。python中采用jieba.load_userdict(dict.txt)語(yǔ)句添加自定義詞典,其中dict.txt是保存字典內(nèi)容的文件,其格式為每一行分三部分:一部分為詞語(yǔ);另一部分為詞頻;最后為詞性(可省略),用空格隔開。

2.2.2 關(guān)鍵詞提取

構(gòu)建電力客戶服務(wù)領(lǐng)域?qū)偾楦性~典,需要盡可能保證領(lǐng)域詞典的多樣性,關(guān)鍵詞的提取要求一方面能夠盡量反應(yīng)出這個(gè)特征項(xiàng)所屬的類別,另一方面能夠把自身屬于的類別與其他類別有效地區(qū)分開來,依據(jù)此原理,本文采用TF?IDF思想進(jìn)行電力客戶服務(wù)領(lǐng)域關(guān)鍵詞的提取,關(guān)鍵詞選取的權(quán)重決定了情感詞典的多樣性,為下文情感詞典的擴(kuò)充做好基礎(chǔ),算法原理如下。

將工單文檔和特征項(xiàng)構(gòu)建成二維矩陣,各條工單的特征向量可表示為:

式中:表示第個(gè)工單中第個(gè)特征中的詞頻。則與為:

式中:表示語(yǔ)料庫(kù)中的文件總數(shù);表示包含詞語(yǔ)的文件總數(shù),防止分母為零的情況,通常對(duì)分母做+1的處理。因此,的計(jì)算公式為:

實(shí)際應(yīng)用中,依據(jù)維度的大小確定相應(yīng)的權(quán)重大小,這樣就形成了代表語(yǔ)料特征的關(guān)鍵詞集。

2.2.3 基于word2vec進(jìn)行情感詞典擴(kuò)充

隨著經(jīng)濟(jì)技術(shù)的發(fā)展及客戶文化的差異,不同的客戶通常使用不同的詞匯描述同一個(gè)對(duì)象特征,且電力行業(yè)中存在許多專用詞匯,同樣也表達(dá)了一定情感,但這些詞脫離于現(xiàn)有的情感詞典,因此,有必要對(duì)現(xiàn)有的情感詞典進(jìn)行擴(kuò)充,進(jìn)而提升工單情感傾向性分析的準(zhǔn)確性[8]。選取中國(guó)知網(wǎng)情感詞集和大連理工大學(xué)林鴻飛教授整理和標(biāo)注的中文情感詞匯本體庫(kù)作為基礎(chǔ)的情感詞典,然后依據(jù)權(quán)重較大的關(guān)鍵詞對(duì)原有詞典進(jìn)行擴(kuò)充[9]?;谏衔碾娏蛻舴?wù)工單中提取的關(guān)鍵詞,采用word2vec工具對(duì)工單數(shù)據(jù)集進(jìn)行訓(xùn)練,根據(jù)CBOW模型或Skip?Gram模型訓(xùn)練出每個(gè)詞的詞向量,并通過計(jì)算余弦相似度得到文本語(yǔ)義上的相似度,并將相似度較高的詞語(yǔ)加入到情感詞典中。

依據(jù)上文分詞后得到的工單文本數(shù)據(jù),采用Linux Version2.6環(huán)境對(duì)數(shù)據(jù)進(jìn)行訓(xùn)練,操作命令如下:

./word2vec ?train data95598.txt ?output vectors_95598data.bin ?cbow 0 ?size 200 ?winodw 5 ?negative 0 ?hs 1 ?sample le?3 threads 12 ?binary 1

其中,data95598.txt為輸入數(shù)據(jù)集;vectors_95598data.bin為模型輸出文件;采用Skip?Gram模型進(jìn)行訓(xùn)練,詞向量維度設(shè)置為200;訓(xùn)練窗口大小設(shè)置為5;-sample表示采樣的閾值,訓(xùn)練結(jié)果采用二進(jìn)制方式存儲(chǔ)。這樣,得到的模型文件中就包含了每個(gè)詞的詞向量。

采用余弦相似度計(jì)算關(guān)鍵詞的相似詞,即基于生成的詞向量計(jì)算兩個(gè)維向量的相似度,因?yàn)閣ord2vec本身就是基于上下文語(yǔ)義生成的詞向量,因此,余弦值越大,表明兩個(gè)詞語(yǔ)的語(yǔ)義越相似。向量與的余弦計(jì)算公式如下:

通過distince命令計(jì)算輸入詞與其他詞的余弦相似度,經(jīng)過排序返回相似詞列表,再經(jīng)過人工篩選,將這些詞加入到原有情感詞典中,實(shí)現(xiàn)對(duì)原有情感詞典的擴(kuò)充。

2.3 工單情感傾向性分析

工單情感傾向性分析是基于構(gòu)建的情感詞典,計(jì)算每個(gè)客服工單的情感分值,從而判斷工單的情感傾向性。通過上文處理,每一個(gè)客服工單都可以被分割成一個(gè)個(gè)子句片段,表示為每個(gè)子句片段由一系列分詞后的詞語(yǔ)構(gòu)成,提取每個(gè)句子的情感詞、否定詞等,表示為依據(jù)情感詞典中給定詞的極性值計(jì)算每個(gè)子句的情感值,分別算每個(gè)句子的正向和負(fù)向情感分值,計(jì)算公式如下:

式中:SenSum表示某個(gè)客服工單的情感分值;表示第個(gè)子句中第個(gè)正向情感詞的極性值;表示第個(gè)子句中第個(gè)負(fù)向情感詞的極性值。

在否定子句中,當(dāng)為偶數(shù)時(shí),否定子句情感為正;當(dāng)為奇數(shù)時(shí),否定子句情感極性為負(fù)。對(duì)所有的子句情感分值求和并求均值,就得到了整個(gè)客服工單的情感值,進(jìn)而判斷客服工單的情感傾向性,若SenSum為正,表示工單情感為正向;否則,工單情感為負(fù)向。

3 實(shí)驗(yàn)分析

3.1 實(shí)驗(yàn)數(shù)據(jù)準(zhǔn)備

本文的實(shí)驗(yàn)環(huán)境基于Linux系統(tǒng),采用python語(yǔ)言進(jìn)行算法的實(shí)現(xiàn),抽取某電力公司95598客服工單數(shù)據(jù)作為研究對(duì)象,運(yùn)用jieba包進(jìn)行中文分詞處理,并采用word2vec訓(xùn)練數(shù)據(jù)生成詞向量及擴(kuò)充情感詞典。由于工單數(shù)據(jù)是按照業(yè)務(wù)類型生成的,因此選取業(yè)務(wù)類型為表?yè)P(yáng)的工單作為正類,選取業(yè)務(wù)類型為投訴的作為負(fù)類,其中,正類和負(fù)類數(shù)據(jù)比例為21,共得到20 000條數(shù)據(jù)作為實(shí)驗(yàn)數(shù)據(jù)集,隨后進(jìn)行情感傾向性分析,隨機(jī)選擇70%的數(shù)據(jù)作為訓(xùn)練集,30%的數(shù)據(jù)作為測(cè)試集。

3.2 評(píng)價(jià)指標(biāo)

當(dāng)前針對(duì)文本分類效果評(píng)估有許多方法,本文選擇準(zhǔn)確率(precision)、召回率(recall)和值進(jìn)行文本情感分類效果的評(píng)估,準(zhǔn)確率是對(duì)分類精確性的度量,召回率是對(duì)分類完全性的度量,值越大說明分類效果越好,準(zhǔn)確率和召回率是一組互斥指標(biāo),值是將二者結(jié)合的一個(gè)度量指標(biāo),值越大,分類效果越好,并將通過本文情感分析模型得到的結(jié)果與業(yè)務(wù)員標(biāo)注的類型做對(duì)比分析。它們的計(jì)算公式如下:

3.3 實(shí)驗(yàn)結(jié)果及分析

本文基于抽取到的客服工單數(shù)據(jù),結(jié)合設(shè)計(jì)的電力客服工單情感分析模型,實(shí)現(xiàn)對(duì)電力客戶服務(wù)領(lǐng)域情感詞典的擴(kuò)充,并基于構(gòu)建的電力客服領(lǐng)域?qū)僭~典進(jìn)行工單情感傾向性分析,70%的數(shù)據(jù)用于訓(xùn)練word2vec并進(jìn)行情感詞典的擴(kuò)充,30%的數(shù)據(jù)用于測(cè)試工單情感分類的準(zhǔn)確性。測(cè)試集共包含工單數(shù)6 000條,其中正類工單3 895條,負(fù)類工單2 105條。將采用本文情感分析模型得到的結(jié)果與原始基礎(chǔ)情感詞典得到的結(jié)果進(jìn)行對(duì)比分析,見表2。

由表2可知,采用本文構(gòu)建的電力客服工單詞典針對(duì)正向和負(fù)向的情感詞都有較高的準(zhǔn)確率、召回率和值,由此可知,本文設(shè)計(jì)的電力客服工單情感分析模型是合理的,且具有明顯的性能優(yōu)勢(shì)。

4 結(jié) 語(yǔ)

本文設(shè)計(jì)了一種電力客服工單情感分析模型,構(gòu)建了電力客服領(lǐng)域情感專用詞典并進(jìn)行工單情感傾向性分析。采用word2vec工具對(duì)采集到的數(shù)據(jù)進(jìn)行訓(xùn)練,并用測(cè)試集數(shù)據(jù)對(duì)本文提出的模型進(jìn)行驗(yàn)證分析,結(jié)果表明,本文所提方法具有一定的合理性和可行性,可為電力企業(yè)客戶關(guān)系管理提供一定的參考意義,促進(jìn)企業(yè)客戶滿意度及運(yùn)營(yíng)效益的提升。此外,本文主要研究了基于構(gòu)建的電力客服專用情感詞典進(jìn)行客戶情感傾向性分析,但是對(duì)于無監(jiān)督性學(xué)習(xí)方法情感傾向性分析以及情感強(qiáng)度的分析還有待進(jìn)一步研究。

參考文獻(xiàn)

[1] 李勝宇,高俊波,許莉莉.面向酒店評(píng)論的情感分析模型[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2017,26(1):227?231.

[2] SINGH VK, PIRYANI R, UDDIN A, et al. Sentiment analysis of movie reviews: a new feature?based heuristic for aspect?level sentiment classification [C]// Proceedings of 2013 International Multi?Conference on Automation, Computing, Communication, Control and Compressed Sensing (iMac4s). Kottayam: IEEE, 2013: 712?717.

[3] 郗亞輝.產(chǎn)品評(píng)論中領(lǐng)域情感詞典的構(gòu)建[J].中文信息學(xué)報(bào),2016,30(5):136?144.

[4] 鐘將,楊思源,孫啟干.基于文本分類的商品評(píng)價(jià)情感分析[J].計(jì)算機(jī)應(yīng)用,2014,34(8):2317?2321.

[5] 劉龍飛,楊亮,張紹武,等.基于卷積神經(jīng)網(wǎng)絡(luò)的微博情感傾向性分析[J].中文信息學(xué)報(bào),2015,29(6):159?165.

[6] 黃挺,姬東鴻.基于圖模型和多分類器的微博情感傾向性分析[J].計(jì)算機(jī)工程,2015,41(4):171?175.

[7] 劉金碩,張智.一種基于聯(lián)合深度神經(jīng)網(wǎng)絡(luò)的食品安全信息情感分類模型[J].計(jì)算機(jī)科學(xué),2016,43(12):277?280.

篇(4)

2.基于檢測(cè)樹的抗原合法性快速檢測(cè)方法孫秋麗,韓芳溪,王曉琳,SUNQiu-li,HANFang-xi,WANGXiao-lin

3.運(yùn)用改進(jìn)的SPEA2算法優(yōu)化網(wǎng)格工作流調(diào)度方法李金忠,夏潔武,曾勁濤,王翔,LIJin-zhong,XIAJie-wu,ZENGJin-tao,WANGXiang

4.一種基于AR模型的非線性盲源提取方法及其應(yīng)用蔡英,王剛,CAIYing,WANGGang

5.基于B樣條FFD模型配準(zhǔn)的虹膜圖像融合方法吳國(guó)瑤,馬立勇,WUGuo-yao,MALi-yong

6.關(guān)于T范數(shù)的廣義模糊子坡(理想)芮眀力,廖祖華,胡淼菡,陸金花,RUIMing-li,LIAOZu-hua,HUMiao-han,LUJin-hua

7.融合PSO算法思想的進(jìn)化算法劉建華,黃添強(qiáng),嚴(yán)曉明,LIUJian-hua,HUANGTian-qiang,YANXiao-ming

8.基于偏最小二乘降維的分類模型比較曾雪強(qiáng),李國(guó)正,ZENGXue-qiang,LIGuo-zheng

9.OPHCLUS:基于序關(guān)系保持的層次聚類算法雷小鋒,莊偉,程宇,丁世飛,謝昆青,LEIXiao-feng,ZHUANGWei,CHENGYu,DINGShi-fei,XIEKun-qing

10.采樣特異性因子及異常檢測(cè)孫靜宇,余雪麗,陳俊杰,李鮮花,SUNJing-yu,YUXue-li,CHENJun-jie,LIXian-hua

11.一種基于SVM的快速特征選擇方法戴平,李寧,DAIPing,LINing

12.一種ReliefF特征估計(jì)方法在無監(jiān)督流形學(xué)習(xí)中的應(yīng)用譚臺(tái)哲,梁應(yīng)毅,劉富春,TANTai-zhe,LIANGYing-yi,LIUFu-chun

13.基于agent的模式表示模型AIM程顯毅,朱倩,管致緊,CHENGXian-yi,ZHUQian,GUANZhi-jin

14.歌詞與內(nèi)容相結(jié)合的流行音樂結(jié)構(gòu)分析梁塽,許潔萍,李欣,LIANGShuang,XUJie-ping,LIXin

15.基于免疫網(wǎng)絡(luò)的無監(jiān)督式分類算法梁春林,彭凌西,LIANGChun-lin,PENGLing-xi

16.舌體圖像分割技術(shù)的實(shí)驗(yàn)分析與改進(jìn)李國(guó)正,史淼晶,李福鳳,王憶勤,LIGuo-zheng,SHIMiao-jing,LIFu-feng,WANGYi-qin

17.基于退火遺傳算法的NURBS曲線逼近劉彬,張仁津,LIUBin,ZHANGRen-jin

18.基于Harris角點(diǎn)的木材CT圖像配準(zhǔn)張訓(xùn)華,業(yè)寧,王厚立,ZHANGXun-hua,YENing,WANGHou-li

19.基于詞語(yǔ)量化相關(guān)關(guān)系的句際相關(guān)度計(jì)算鐘茂生,劉慧,鄒箭,ZHONGMao-sheng,LIUHui,ZOUJian

20.iCome:基于多義性的圖像檢索系統(tǒng)陳虎,黎銘,姜遠(yuǎn),周志華,CHENHu,LIMing,JIANGYuan,ZHOUZhi-hua

21.基于字的詞位標(biāo)注漢語(yǔ)分詞于江德,睢丹,樊孝忠,YUJiang-de,SUIDan,F(xiàn)ANXiao-zhong

22.不均衡問題中的特征選擇新算法:Im-IG尤鳴宇,陳燕,李國(guó)正,YOUMing-yu,CHENYan,LIGuo-zheng

23.基于流形學(xué)習(xí)的圖像檢索算法研究賀廣南,楊育彬,HEGuang-nan,YANGYu-bin

24.基于BIRCH的木材缺陷識(shí)別吳東洋,業(yè)寧,WUDong-yang,YENing

25.基于自擴(kuò)展與最大熵的領(lǐng)域?qū)嶓w關(guān)系自動(dòng)抽取雷春雅,郭劍毅,余正濤,毛存禮,張少敏,黃甫,LEIChun-ya,GUOJian-yi,YUZheng-tao,MAOCun-li,ZHANGShao-min,HUANGPu

26.層次聚類算法的有效性研究胡曉慶,馬儒寧,鐘寶江,HUXiao-qing,MARu-ning,ZHONGBao-jiang

27.基于相異性和不變特征的半監(jiān)督圖像檢索宿洪祿,李凡長(zhǎng),SUHong-lu,LIFan-zhang

28.基于方向場(chǎng)信息的指紋圖像質(zhì)量評(píng)測(cè)李鐵軍,劉倩,張宇,LITie-jun,LIUQian,ZHANGYu

29.一種基于概念格的用戶興趣預(yù)測(cè)方法茅琴嬌,馮博琴,李燕,潘善亮,MAOQin-jiao,F(xiàn)ENGBo-qin,LIYan,PANShan-liang

30.基于魯棒性神經(jīng)模糊網(wǎng)絡(luò)的脈沖噪聲濾波算法李岳陽(yáng),王士同,LIYue-yang,WANGShi-tong

31.CAN2:構(gòu)件組合式神經(jīng)網(wǎng)絡(luò)吳和生,王崇駿,謝俊元,WUHe-sheng,WANGChong-jun,XIEJun-yuan

1.基于半馬爾可夫?qū)Σ叩亩鄼C(jī)器人分層強(qiáng)化學(xué)習(xí)沈晶,劉海波,張汝波,吳艷霞,程曉北,SHENJing,LIUHai-bo,ZHANGRu-bo,WUYan-xia,CHENGXiao-bei

2.文本分類中一種新的特征選擇方法王法波,許信順,WANGFa-bo,XUXin-shun

3.模因機(jī)制下人類元音系統(tǒng)演化的計(jì)算模型云健,江荻,潘悟云,YUNJian,JIANGDi,PANWu-yun

4.基于ICA的語(yǔ)音信號(hào)表征和特征提取方法董治強(qiáng),劉琚,鄒欣,杜軍,DONGZhi-qiang,LIUJu,ZOUXin,DUJun

5.預(yù)測(cè)狀態(tài)表示綜述王歷,高陽(yáng),王巍巍,WANGLi,GAOYang,WANGWei-wei

6.基于多天線的機(jī)器人定位和高效節(jié)能無線互聯(lián)網(wǎng)絡(luò)孫毅,肖繼忠,F(xiàn)lavioCabrera-Mora,SUNYi,XIAOJi-zhong,F(xiàn)lavioCabrera-Mora

7.基于均值距離的圖像分割方法王新沛,劉常春,白曈,WANGXin-pei,LIUChang-chun,BAITong

8.整車物流企業(yè)聯(lián)盟的協(xié)同收益分配模型劉鵬,吳耀華,許娜,LIUPeng,WUYao-hua,XUNa

9.蒙特卡羅方法模擬生物組織中光的分布高迪,魏守水,任曉楠,崔建強(qiáng),徐從娟,GAODi,WEIShou-shui,RENXiao-nan,CUIJian-qiang,XUCong-juan

10.變時(shí)滯神經(jīng)網(wǎng)絡(luò)的時(shí)滯相關(guān)全局漸近穩(wěn)定新判據(jù)劉國(guó)彩,劉玉常,鞠培軍,LIUGuo-cai,LIUYu-chang,JUPei-jun

11.用H∞控制器抑制Buck變換器中的參數(shù)擾動(dòng)賢燕華,馮久超,XIANYan-hua,F(xiàn)ENGJiu-chao

12.云神經(jīng)網(wǎng)絡(luò)的函數(shù)逼近能力于少偉,YUShao-wei

13.一種膠原支架材料的結(jié)構(gòu)與性能表征胡順鵬,趙洪石,王冠聰,曹成波,劉宏,李文波,楊曉宇,HUShun-peng,ZHAOHong-shi,WANGGuan-cong,CAOCheng-bo,LIUHong,LIWen-bo,YANGXiao-yu

14.TiO2/ZnO納米光催化劑的制備及性能研究徐青,呂偉,XUQing,L(U)Wei

15.溶劑熱法合成CeO2納米微晶于麗麗,劉寶,錢立武,錢雪峰,YULi-li,LIUBao,QIANLi-wu,QIANXue-feng

16.碳纖維用流化爐計(jì)算機(jī)控制與性能測(cè)試高學(xué)平,朱波,于寬,GAOXue-ping,ZHUBo,YUKuan

17.地鐵隧道襯砌管片承載力試驗(yàn)及計(jì)算方法周海鷹,李立新,陳廷國(guó),ZHOUHai-ying,LILi-xin,CHENTing-guo

18.濟(jì)南城市防洪汛情預(yù)警等級(jí)判定方法王育奎,徐幫樹,李術(shù)才,WANGYu-kui,XUBang-shu,LIShu-cai

19.分散性土的鑒別及改性試驗(yàn)李華鑾,高培法,穆乃敏,王琳,LIHua-luan,GAOPei-fa,MUNai-min,WANGLin

20.大跨度鋼管拱吊裝中溫度荷載效應(yīng)分析及應(yīng)用孫國(guó)富,李術(shù)才,張波,SUNGuo-fu,LIShu-cai,ZHANGBo

21.地震作用下大型橋梁群樁基礎(chǔ)動(dòng)水壓力效應(yīng)分析李富榮,何山,王志華,LIFu-rong,HEShan,WANGZhi-hua

22.兩性熒光增白劑的合成及其性能楊曉宇,曹成波,周晨,胡順鵬,YANGXiao-yu,CAOCheng-bo,ZHOUChen,HUShun-peng

23.[BPy]Br和[BMIm]Br微波輔助合成動(dòng)力學(xué)徐鳴,XUMing

24.聚合物/表面活性劑二元體系油水乳化過程動(dòng)態(tài)表征方法研究馬寶東,高寶玉,盧磊,張永強(qiáng),MABao-dong,GAOBao-yu,LULei,ZHANGYong-qiang

25.天然氣發(fā)動(dòng)機(jī)三效催化劑張強(qiáng),李娜,李國(guó)祥,ZHANGQiang,LINa,LIGuo-xiang

26.單軸并聯(lián)式混合動(dòng)力客車動(dòng)力總成匹配牛禮民,趙又群,楊攀,李佳,NIULi-min,ZHAOYou-qun,YANGPan,LIJia

27.二級(jí)增壓系統(tǒng)中高壓級(jí)壓氣機(jī)性能研究何義團(tuán),HEYi-tuan

28.高精度電阻數(shù)據(jù)自動(dòng)采集與動(dòng)態(tài)顯示系統(tǒng)設(shè)計(jì)王澤靜,秦敬玉,米春旭,WANGZe-jing,QINJing-yu,MIChun-xu

29.循環(huán)泵啟動(dòng)瞬間排水系統(tǒng)壅水?dāng)?shù)值模型分析高坤華,張成義,胡亦工,徐士倩,鄭冠軍,王偉,GAOKun-hua,ZHANGCheng-yi,HUYi-gong,XUShi-qian,ZHENGGuan-jun,WANGWei

30.基于對(duì)偶樹復(fù)小波-Contourlet變換的自適應(yīng)多傳感圖像融合算法趙文忠,ZHAOWen-zhong

31.激活能測(cè)試裝置設(shè)計(jì)及微晶硅薄膜激活能測(cè)試陳慶東,王俊平,張宇翔,盧景霄,CHENQing-dong,WANGJun-ping,ZHANGYu-xiang,LUJing-xiao

32.Mintegration:一種針對(duì)大規(guī)模數(shù)據(jù)的并發(fā)數(shù)據(jù)集成方案陳勝利,李俊奎,劉小東,CHENSheng-li,LIJun-kui,LIUXiao-dong

1.基于極大圓盤引導(dǎo)的形狀插值實(shí)現(xiàn)三維表面重建秦通,孫豐榮,王麗梅,王慶浩,李新彩,QINTong,SUNFeng-rong,WANGLi-mei,WANGQing-hao,LIXin-cai

2.結(jié)構(gòu)大間隔單類分類器馮愛民,劉學(xué)軍,陳斌,F(xiàn)ENGAi-min,LIUXue-jun,CHENBin

3.基于蟻群系統(tǒng)的聚類算法研究沙露,鮑培明,李尼格,SHALu,BAOPei-ming,LINi-ge

4.一種采用動(dòng)態(tài)策略的模擬捕魚優(yōu)化方法王勇,龐興,WANGYong,PANGXing

5.一種基于微粒群思想的蟻群參數(shù)自適應(yīng)優(yōu)化算法夏輝,王華,陳熙,XIAHui,WANGHua,CHENXi

6.基于雷達(dá)圖像的運(yùn)動(dòng)目標(biāo)形態(tài)檢測(cè)及跟蹤技術(shù)劉文亮,朱維紅,陳滌,張泓泉,LIUWen-liang,ZHUWei-hong,CHENDi,ZHANGHong-quan

7.人機(jī)交互中基于可穿戴式計(jì)算的手勢(shì)和活動(dòng)辨識(shí)盛衛(wèi)華,祝純,SHENGWei-hua,ZHUChun

8.基于煉油過程生產(chǎn)特性的優(yōu)化調(diào)度模型李明,李歧強(qiáng),郭慶強(qiáng),丁然,LIMing,LIQi-qiang,GUOQing-qiang,DINGRan

9.一種新型微流體主動(dòng)混合器的仿真與分析徐昊,魏守水,張敬濤,XUHao,WEIShou-shui,ZHANGJing-tao

10.混合變時(shí)滯二重邊復(fù)雜網(wǎng)絡(luò)自適應(yīng)同步反饋控制趙永清,江明輝,ZHAOYong-qing,JIANGMing-hui

11.超高強(qiáng)度鋼板熱沖壓及模內(nèi)淬火工藝的發(fā)展現(xiàn)狀李輝平,趙國(guó)群,張雷,賀連芳,LIHui-ping,ZHAOGuo-qun,ZHANGLei,HELian-fang

12.萊鋼120噸轉(zhuǎn)爐冶煉超低硫鋼工藝優(yōu)化王慶春,李木森,范樹璐,張繼軍,WANGQing-chun,LIMu-sen,F(xiàn)ANShu-lu,ZHANGJi-jun

13.熱加工材料動(dòng)態(tài)再結(jié)晶介觀組織模擬模型的研究進(jìn)展王麗君,關(guān)小軍,禹寶軍,趙健,WANGLi-jun,GUANXiao-jun,YUBao-jun,ZHAOJian

14.模擬體液中類骨羥基磷灰石的合成張愛娟,ZHANGAi-juan

15.洋蔥狀富勒烯的硬脂酸修飾姚延立,馬國(guó)利,YAOYan-li,MAGuo-li

16.Eu3+摻雜生物多孔硅酸鈣發(fā)光材料性能趙其斌,周淑君,范同祥,丁劍,張獲,ZHAOQi-bin,CHOWSuk-kwun,F(xiàn)ANTong-xiang,DINGJian,ZHANGDi

17.Al-Zn-Mg-(Sc)-(Zr)合金時(shí)效初期微結(jié)構(gòu)演化的MonteCarlo模擬孫媛,王桂青,SUNYuan,WANGGui-qing

18.地下工程突水機(jī)理及其研究最新進(jìn)展李利平,路為,李術(shù)才,張慶松,許振浩,石少帥,LILi-ping,LUWei,LIShu-cai,ZHANGQing-song,XUZhen-hao,SHIShao-shuai

19.基于趨勢(shì)檢查法的遺傳神經(jīng)網(wǎng)絡(luò)模型及工程應(yīng)用邱道宏,張樂文,崔偉,蘇茂鑫,孫懷鳳,QIUDao-hong,ZHANGLe-wen,CUIWei,SUMao-xin,SUNHuai-feng

20.新陳代謝GM(1,1)模型在建筑物沉降預(yù)測(cè)中的應(yīng)用邊培松,王登杰,于少華,BIANPei-song,WANGDeng-jie,YUShao-hua

21.地鐵管片抗裂度及裂縫寬度試驗(yàn)和計(jì)算方法周海鷹,李立新,陳廷國(guó),ZHOUHai-ying,LILi-xin,CHENTing-guo

22.信息動(dòng)態(tài)

23.FRP-螺栓聯(lián)合加固技術(shù)錨固參數(shù)的研究管延華,苗海濤,宋修廣,GUANYan-hua,MIAOHai-tao,SONGXiu-guang

24.多孔安山巖在瀝青路面中的應(yīng)用研究郭德棟,許宏妹,李小剛,GUODe-dong,XUHong-mei,LIXiao-gang

25.基于自治域的RBAC訪問控制模型龍軍,曾小仨,張祖平,LONGJun,ZENGXiao-sa,ZHANGZu-ping

26.無線傳感器網(wǎng)絡(luò)節(jié)點(diǎn)定位算法夏少波,許娥,XIAShao-bo,XUE

27.微切削加工A17050-T7451過程切屑形貌及尺度效應(yīng)研究周軍,李劍峰,孫杰,ZHOUJun,LIJian-feng,SUNJie

28.乙酸乙酯生成過程的間歇反應(yīng)精餾的模擬和優(yōu)化馮震恒,張忠誠(chéng),F(xiàn)ENGZhen-heng,ZHANGZhong-cheng

1.知識(shí)保持的嵌入方法張道強(qiáng),ZHANGDao-qiang

2.基于多級(jí)結(jié)構(gòu)相似度的快速指紋匹配算法楊棟,楊公平,尹義龍,張利明,YANGDong,YANGGong-ping,YINYi-long,ZHANGLi-ming

3.基于混沌動(dòng)力學(xué)模型的群體目標(biāo)檢測(cè)與分類喬偉,王匯源,吳曉娟,劉鵬威,QIAOWei,WANGHui-yuan,WUXiao-juan,LIUPeng-wei

4.基于圖像分解的敦煌壁畫圖像修復(fù)方法黃偉,王書文,楊筱平,賈建芳,HUANGWei,WANGShu-wen,YANGXiao-ping,JIAJian-fang

5.基于模糊神經(jīng)網(wǎng)絡(luò)的移動(dòng)機(jī)器人自適應(yīng)行為設(shè)計(jì)李貽斌,李彩虹,,LIYi-bin,LICai-hong,SONGYong

6.約束環(huán)境下的多移動(dòng)機(jī)器人自適應(yīng)伸展算法談金東,陳曦,TANJin-dong,CHENXi

7.配送中心分揀訂單合批策略的研究王艷艷,吳耀華,孫國(guó)華,于洪鵬,WANGYan-yan,WUYao-hua,SUNGuo-hua,YUHong-peng

8.基于四元數(shù)MUSIC的雙極化散射中心參量提取蔡倩,汪飛,張煥春,CAIQian,WANGFei,ZHANGHuan-chun

9.雙軸壓縮試驗(yàn)中砂土剪切帶形成的離散元模擬分析蔣明鏡,李秀梅,JIANGMing-jing,LIXiu-mei

10.長(zhǎng)期交通荷載作用下粉砂土累積變形本構(gòu)模型構(gòu)建及數(shù)值積分格式張宏博,苗海濤,宋修廣,ZHANGHong-bo,MIAOHai-tao,SONGXiu-guang

11.多元多方程地應(yīng)力反演與工程應(yīng)用研究岳曉蕾,李術(shù)才,陳啟輝,葛雁平,YUEXiao-lei,LIShu-cai,CHENQi-hui,GEYan-ping

12.蒸壓粉煤灰多孔磚砌體偏心受壓承載力試驗(yàn)研究徐春一,劉明,王廣林,XUChun-yi,LIUMing,WANGGuang-lin

13.二層框架填充墻出平面反應(yīng)分析的試驗(yàn)研究程云,劉明,劉曉偉,CHENGYun,LIUMing,LIUXiao-wei

篇(5)

一、數(shù)據(jù)挖掘的層次

一直想整理下對(duì)數(shù)據(jù)挖掘不同層次的理解,這也是這兩年多的時(shí)間里面,和很多金融領(lǐng)域、互聯(lián)網(wǎng)做數(shù)據(jù)相關(guān)工作的小伙伴,聊天交流的一些整理和歸納。大概可以分為四類。

(一)純粹的數(shù)據(jù)加工

側(cè)重于變量加工和預(yù)處理,從源系統(tǒng)或數(shù)據(jù)倉(cāng)庫(kù),對(duì)相關(guān)數(shù)據(jù)進(jìn)行提取、加工、衍生處理,生成各種業(yè)務(wù)表。然后,以客戶號(hào)為主鍵,把這些業(yè)務(wù)表整合匯總,最終可以拉出一張大寬表,這張寬表就可以稱之為“客戶畫像”。即,有關(guān)客戶的很多變量和特征的集合。

在這個(gè)階段,主要的數(shù)據(jù)加工工具為SQL和SASbase。

(二)傻瓜式的挖掘工具

較為典型的就是SASEM和clementine,里面嵌入很多較為傳統(tǒng)成熟的算法、模塊和節(jié)點(diǎn)(例如邏輯回歸、決策樹、SVM、神經(jīng)網(wǎng)絡(luò)、KNN、聚類等)。通過鼠標(biāo)的托拉拽,流程式的節(jié)點(diǎn),基本上就可以實(shí)現(xiàn)你挖掘數(shù)據(jù)的需求。

傻瓜式操作的優(yōu)點(diǎn)就是使得數(shù)據(jù)挖掘,入手非常快,較為簡(jiǎn)單。但是,也存在一些缺陷,即,使得這個(gè)挖掘過程變得有點(diǎn)單調(diào)和無趣。沒辦法批量運(yùn)算模型,也沒辦法開發(fā)一些個(gè)性化的算法和應(yīng)用。用的比較熟練,并且想要進(jìn)一步提升的時(shí)候,建議把這兩者拋棄。

(三)較為自由的挖掘工具

較為典型的就是R語(yǔ)言和Python。這兩個(gè)挖掘工具是開源的,前者是統(tǒng)計(jì)學(xué)家開發(fā)的,后者是計(jì)算機(jī)學(xué)家開發(fā)的。

一方面,可以有很多成熟的、前沿的算法包調(diào)用,另外一方面,還可以根據(jù)自己的需求,對(duì)既有的算法包進(jìn)行修改調(diào)整,適應(yīng)自己的分析需求,較為靈活。此外,Python在文本、非結(jié)構(gòu)化數(shù)據(jù)、社會(huì)網(wǎng)絡(luò)方面的處理,功能比較強(qiáng)大。

(四)算法拆解和自行開發(fā)

一般會(huì)利用python、c、c++,自己重新編寫算法代碼。例如,通過自己的代碼實(shí)現(xiàn)邏輯回歸運(yùn)算過程。甚至,根據(jù)自己的業(yè)務(wù)需求和數(shù)據(jù)特點(diǎn),更改其中一些假定和條件,以便提高模型運(yùn)算的擬合效果。尤其,在生產(chǎn)系統(tǒng)上,通過C編寫的代碼,運(yùn)行速度比較快,較易部署,能夠滿足實(shí)時(shí)的運(yùn)算需求。

一般來說,從互聯(lián)網(wǎng)的招聘和對(duì)技能的需求來說,一般JD里面要求了前三種,這樣的職位會(huì)被稱為“建模分析師”。但是如果增加上了最后一條,這樣的職位或許就改稱為“算法工程師”。

二、模型的理解:傳統(tǒng)的和時(shí)髦的

據(jù)理解,模型應(yīng)該包括兩種類型。一類是傳統(tǒng)的較為成熟的模型,另外一類是較為時(shí)髦有趣的模型。對(duì)于后者,大家會(huì)表現(xiàn)出更多的興趣,一般是代表著新技術(shù)、新方法和新思路。

(一)傳統(tǒng)的模型

傳統(tǒng)的模型,主要就是為了解決分類(例如決策樹、神經(jīng)網(wǎng)絡(luò)、邏輯回歸等)、預(yù)測(cè)(例如回歸分析、時(shí)間序列等)、聚類(kmeans、系譜、密度聚類等)、關(guān)聯(lián)(無序關(guān)聯(lián)和有序關(guān)聯(lián))這四類問題。這些都是較為常規(guī)和經(jīng)典的。

(二)時(shí)髦有趣的模型

比較有趣、前沿的模型,大概包括以下幾種類型,即社會(huì)網(wǎng)絡(luò)分析、文本分析、基于位置的服務(wù)(Location-BasedService,LBS)、數(shù)據(jù)可視化等。

它們之所以比較時(shí)髦,可能的原因是,采用比較新穎前沿的分析技術(shù)(社會(huì)網(wǎng)絡(luò)、文本分析),非常貼近實(shí)際的應(yīng)用(LBS),或者是能夠帶來更好的客戶體驗(yàn)(數(shù)據(jù)可視化)。

(1)社會(huì)網(wǎng)絡(luò)的應(yīng)用

傳統(tǒng)的模型將客戶視為單一個(gè)體,忽視客戶之間的關(guān)系,基于客戶的特征建立模型。社會(huì)網(wǎng)絡(luò)是基于群體的,側(cè)重研究客戶之間的關(guān)聯(lián),通過網(wǎng)絡(luò)、中心度、聯(lián)系強(qiáng)度、密度,得到一些非常有趣的結(jié)果。典型的應(yīng)用,例如,關(guān)鍵客戶的識(shí)別、新產(chǎn)品的滲透和擴(kuò)散、微博的傳播、風(fēng)險(xiǎn)的傳染、保險(xiǎn)或信用卡網(wǎng)絡(luò)團(tuán)伙欺詐、基于社會(huì)網(wǎng)絡(luò)的推薦引擎開發(fā)等。

(2)文本挖掘的應(yīng)用

文本作為非結(jié)構(gòu)化數(shù)據(jù),加工分析存在一定的難度,包括如何分詞、如何判斷多義詞、如何判斷詞性,如何判斷情緒的強(qiáng)烈程度。典型的應(yīng)用,包括搜索引擎智能匹配、通過投訴文本判斷客戶情緒、通過輿情監(jiān)控品牌聲譽(yù)、通過涉訴文本判定企業(yè)經(jīng)營(yíng)風(fēng)險(xiǎn)、通過網(wǎng)絡(luò)爬蟲抓取產(chǎn)品評(píng)論、詞云展示等。

文本和濕人。關(guān)于文本分析,最近朋友圈有篇分享,很有意思,號(hào)稱可以讓你瞬間變成濕人。原理很簡(jiǎn)單,就是先把《全宋詞》分詞,然后統(tǒng)計(jì)頻數(shù)前100的詞語(yǔ)。然后你可以隨機(jī)湊6個(gè)數(shù)(1-100),這樣就可以拼湊出兩句詩(shī)。比如,隨機(jī)寫兩組數(shù)字,(2,37,66)和(57,88,33),對(duì)應(yīng)的詞語(yǔ)為(東風(fēng)、無人、黃花)和(憔悴、今夜、風(fēng)月)。組成兩句詩(shī),即“東風(fēng)無人黃花落,憔悴今夜風(fēng)月明”。還真像那么一回事,有興趣可以玩一玩。

(3)LBS應(yīng)用

即基于位置的服務(wù),即如何把服務(wù)和用戶的地理位置結(jié)合。當(dāng)下的APP應(yīng)用,如果不能很好地和地理位置結(jié)合,很多時(shí)候很難有旺盛的生命力。典型的APP,例如大眾點(diǎn)評(píng)(餐飲位置)、百度地圖(位置和路徑)、滴滴打車、微信位置共享、時(shí)光網(wǎng)(電影院位置)等服務(wù)。此外,銀行其實(shí)也在研究,如何把線上客戶推送到距離客戶最近的網(wǎng)點(diǎn),完成O2O的完美對(duì)接,從而帶來更好的客戶體驗(yàn)。

(4)可視化應(yīng)用

基于地圖的一些可視化分析,比較熱門,例如,春節(jié)人口遷徙圖、微信活躍地圖、人流熱力圖、擁堵數(shù)據(jù)的可視化、社會(huì)網(wǎng)絡(luò)擴(kuò)散可視化等。

如果你想讓你的分析和挖掘比較吸引眼球,請(qǐng)盡量往以上四個(gè)方面靠攏。

三、互聯(lián)網(wǎng)和金融數(shù)據(jù)挖掘的差異

博士后兩年,對(duì)銀行領(lǐng)域的數(shù)據(jù)挖掘有些基本的了解和認(rèn)識(shí),但是面對(duì)浩瀚的數(shù)據(jù)領(lǐng)域,也只能算剛剛?cè)腴T。很多時(shí)候,會(huì)很好奇互聯(lián)網(wǎng)領(lǐng)域,做數(shù)據(jù)挖掘究竟是什么樣的形態(tài)。

很早之前,就曾在知乎上提了個(gè)問題,“金融領(lǐng)域的數(shù)據(jù)挖掘和互聯(lián)網(wǎng)中的數(shù)據(jù)挖掘,究竟有什么的差異和不同”。這個(gè)問題掛了幾個(gè)月,雖有寥寥的回答,但是沒有得到想要的答案。

既然沒人能夠提供想要的答案,那就,根據(jù)自己的理解、一些場(chǎng)合的碰壁、以及和一些互聯(lián)網(wǎng)數(shù)據(jù)小伙伴的接觸,試圖歸納和回答下。應(yīng)該有以下幾個(gè)方面的差異。

(一)“分析”和“算法”

在互聯(lián)網(wǎng)中,“分析”和“算法”,分得非常開,對(duì)應(yīng)著“數(shù)據(jù)分析師”和“算法工程師”兩種角色。前者更多側(cè)重?cái)?shù)據(jù)提取、加工、處理、運(yùn)用成熟的算法包,開發(fā)模型,探索數(shù)據(jù)中的模式和規(guī)律。后者更多的是,自己寫算法代碼,通過C或python部署到生產(chǎn)系統(tǒng),實(shí)時(shí)運(yùn)算和應(yīng)用。

在銀行領(lǐng)域,基本上,只能看到第一種角色。數(shù)據(jù)基本上來源于倉(cāng)庫(kù)系統(tǒng),然后運(yùn)用SQL、SAS、R,提取、加工、建模和分析。

(二)數(shù)據(jù)類型

數(shù)據(jù)類型,主要包括“結(jié)構(gòu)化”和“非結(jié)構(gòu)化”兩類數(shù)據(jù)。前者就是傳統(tǒng)的二維表結(jié)構(gòu)。一行一條記錄,一列一個(gè)變量。后者包括文本、圖像、音頻、視頻等。

銀行里面的數(shù)據(jù),更多的是結(jié)構(gòu)化數(shù)據(jù),也有少量的非結(jié)構(gòu)化數(shù)據(jù)(投訴文本、貸款審批文本等)。業(yè)務(wù)部門對(duì)非結(jié)構(gòu)化數(shù)據(jù)的分析需求比較少。因此,在非結(jié)構(gòu)化數(shù)據(jù)的分析建模方面,稍顯不足。

互聯(lián)網(wǎng),更多的是網(wǎng)絡(luò)日志數(shù)據(jù),以文本等非結(jié)構(gòu)化數(shù)據(jù)為主,然后通過一定的工具將非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)變?yōu)榻Y(jié)構(gòu)化數(shù)據(jù),進(jìn)一步加工和分析。

(三)工具、存儲(chǔ)和架構(gòu)

互聯(lián)網(wǎng),基本上是免費(fèi)導(dǎo)向,所以常常選擇開源的工具,例如MySql、R、Python等。常常是基于hadoop的分布式數(shù)據(jù)采集、加工、存儲(chǔ)和分析。

商業(yè)銀行一般基于成熟的數(shù)據(jù)倉(cāng)庫(kù),例如TD,以及一些成熟的數(shù)據(jù)挖掘工具,SASEG和EM。

(四)應(yīng)用場(chǎng)景

在應(yīng)用場(chǎng)景上,兩者之間也存在著非常大的差異。

(1)金融領(lǐng)域

金融領(lǐng)域的數(shù)據(jù)挖掘,不同的細(xì)分行業(yè)(如銀行和證券),也是存在差別的。

銀行領(lǐng)域的統(tǒng)計(jì)建模。銀行內(nèi)的數(shù)據(jù)挖掘,較為側(cè)重統(tǒng)計(jì)建模,數(shù)據(jù)分析對(duì)象主要為截面數(shù)據(jù),一般包括客戶智能(CI)、運(yùn)營(yíng)智能(OI)和風(fēng)險(xiǎn)智能(RI)。開發(fā)的模型以離線為主,少量模型,例如反欺詐、申請(qǐng)?jiān)u分,對(duì)實(shí)時(shí)性的要求比較高。

證券領(lǐng)域的量化分析。證券行業(yè)的挖掘工作,更加側(cè)重量化分析,分析對(duì)象更多的是時(shí)間序列數(shù)據(jù),旨在從大盤指數(shù)、波動(dòng)特點(diǎn)、歷史數(shù)據(jù)中發(fā)現(xiàn)趨勢(shì)和機(jī)會(huì),進(jìn)行短期的套利操作。量化分析的實(shí)時(shí)性要求也比較高,可能是離線運(yùn)算模型,但是在交易系統(tǒng)部署后,實(shí)時(shí)運(yùn)算,捕捉交易事件和交易機(jī)會(huì)。

(2)互聯(lián)網(wǎng)

互聯(lián)網(wǎng)的實(shí)時(shí)計(jì)算?;ヂ?lián)網(wǎng)的應(yīng)用場(chǎng)景,例如推薦引擎、搜索引擎、廣告優(yōu)化、文本挖掘(NLP)、反欺詐分析等,很多時(shí)候需要將模型部署在生產(chǎn)系統(tǒng),對(duì)實(shí)時(shí)響應(yīng)要求比較高,需要保證比較好的客戶體驗(yàn)。

四、數(shù)據(jù)挖掘在金融領(lǐng)域的典型應(yīng)用

別人常常會(huì)問,在銀行里面,數(shù)據(jù)挖掘究竟是做什么的。也常常在思考如何從對(duì)方的角度回答這個(gè)問題。舉幾個(gè)常見的例子做個(gè)詮釋。

(一)信用評(píng)分

申請(qǐng)?jiān)u分。當(dāng)你申請(qǐng)信用卡、消費(fèi)貸款、經(jīng)營(yíng)貸款時(shí),銀行是否會(huì)審批通過,發(fā)放多大規(guī)模的額度?這個(gè)判斷很可能就是申請(qǐng)?jiān)u分模型運(yùn)算的結(jié)果。通過模型計(jì)算你的還款能力和還款意愿,綜合評(píng)定放款額度和利率水平。

行為評(píng)分。當(dāng)你信用卡使用一段時(shí)間后,銀行會(huì)根據(jù)你的刷卡行為和還款記錄,通過行為評(píng)分模型,判斷是否給你調(diào)整固定額度。

(二)個(gè)性化產(chǎn)品推薦

很多時(shí)候,你可能會(huì)收到銀行推送的短信或者接到銀行坐席的外呼,比如,向你推薦某款理財(cái)產(chǎn)品。這背后,很可能就是產(chǎn)品響應(yīng)模型運(yùn)算的結(jié)果。銀行會(huì)通過模型,計(jì)算你購(gòu)買某款理財(cái)產(chǎn)品的概率,如果概率比價(jià)高的話,就會(huì)向你推送這款理財(cái)產(chǎn)品。

此外,很多時(shí)候,不同的客戶,銀行會(huì)個(gè)性化的推薦不同的產(chǎn)品,很可能就是產(chǎn)品關(guān)聯(lián)分析模型運(yùn)算的結(jié)果。

篇(6)

關(guān)鍵詞:Hashtag推薦;K最近鄰;文本表示;深度學(xué)習(xí)

中圖分類號(hào): G252 文獻(xiàn)標(biāo)識(shí)碼: A DOI: 10.11968/tsygb.1003-6938.2015057

Abstract According to the summary of various Hashtag recommendation technologies and short text representation methods, this paper uses a Hashtag recommendation method based on K-Nearest Neighbor. Firstly, we represent the texts of microblog into vectors, calculate similarities between user’s text and training text. Then we extract the most similar blogs from the corpora. The results of four text representation methods named Vector space model, Latent semantic analysis, Latent Dirichlet allocation, Deep Learning for Hashtag recommendation are compared with each other. We use H7N9 Corpus on Twitter as our test dataset. Experimental results show that deep learning text representation method has achieved the best performance among all the methods.

Key words Hashtag Recommendation; K-Nearest Neighbor; Text Representation; Deep Learning

1 引言

當(dāng)前,各種主流微博平臺(tái)都提供Hashtag標(biāo)注功能,如關(guān)于馬航墜機(jī)事件的Hashtag在Twitter中為“#MH370”,在新浪微博中為“#MH370#”,雖然不同微博平臺(tái)中Hashtag的具體標(biāo)記形式可能不同,但功能基本相同,都具有主題標(biāo)注和話題參與的功能[1-3]。主題標(biāo)注功能指Hashtag能夠表達(dá)一條微博中的主題信息;話題參與功能指用戶使用Hashtag參與同一個(gè)話題的討論。在微博平臺(tái)中,上述功能使Hashtag在信息組織和信息檢索方面具有優(yōu)勢(shì),因此越來越多的學(xué)者開始深入研究Hashtag[4-6]。但在實(shí)際的微博數(shù)據(jù)中Hashtag的標(biāo)注數(shù)量較少,這大大降低了Hashtag的信息檢索和信息組織的效率。Potts主要有兩種因素降低了Hashtag的標(biāo)注數(shù)量和標(biāo)注質(zhì)量:(1)大部分用戶不對(duì)自己的微博標(biāo)注Hashtag;(2)有些用戶隨意的標(biāo)注Hashtag,出現(xiàn)許多難以理解的和使用的Hashtag,導(dǎo)致信息傳播效率降低[7]。因此,為了提高Hashtag的標(biāo)注數(shù)量和質(zhì)量,學(xué)者們提出了多種不同的Hashtag推薦方法,為用戶自動(dòng)推薦合適的Hashtag。

當(dāng)前,Hashtag推薦方法主要有基于頻次和相似度的方法、基于機(jī)器學(xué)習(xí)的方法和基于主題模型的方法等。K最近鄰作為一種經(jīng)典的文本分類方法,無需標(biāo)注語(yǔ)料,并且無需花費(fèi)大量時(shí)間訓(xùn)練模型。因此,本文嘗試將K最近鄰方法用于微博的Hashtag推薦。由于傳統(tǒng)的權(quán)重計(jì)算方法和文本表示方法不適合短文本的處理[8]。為此,本文對(duì)比了向量空間模型(Vector Space Model)、潛在語(yǔ)義分析(Latent Semantic Analysis)、隱含狄利克雷分布模型(Latent Dirichlet Allocation)和基于深度學(xué)習(xí)(Deep Learning)的文本表示等四種方法,以選擇適合于基于KNN的Hashtag推薦任務(wù)的文本表示方法。

2 Hashtag推薦相關(guān)研究概述

Hashtag推薦主要依據(jù)文本內(nèi)容與用戶信息,目的是從微博文本中抽取關(guān)鍵詞或者直接提取已有的Hashtag推薦給用戶,用以提高Hashtag的標(biāo)注數(shù)量和質(zhì)量。在Hashtag推薦中,對(duì)微博短文本預(yù)處理和表示的效果直接影響到最后結(jié)果的好壞,因此需要對(duì)微博文本進(jìn)行預(yù)處理,并深入挖掘文本,以表示出詞匯之間的語(yǔ)義信息。

2.1 Hashtag推薦方法

Hashtag推薦技術(shù)包括基于頻次或相似度排序方法、分類算法、主題模型、協(xié)同過濾、神經(jīng)網(wǎng)絡(luò)等方法。其中按頻次或相似度排序的方法是指對(duì)最終的候選Hashtag按其頻次排序,或者按照Hashtag之間相似度或Tweets之間的相似度對(duì)Hashtag進(jìn)行排序。所利用的信息可分為三種:Tweets的內(nèi)容特征;用戶的偏好特征;Hashtag的頻次和時(shí)間特征。其中用戶的偏好特征指用戶的關(guān)注關(guān)系,興趣等特征。

Mazzia和Shin等將Hashtag推薦問題轉(zhuǎn)化為分類問題,利用樸素貝葉斯[9]、支持向量機(jī)[10]等方法選擇合適的Hashtag?;谥黝}模型的方法主要依據(jù)文本的主題信息推薦Hashtag[11-12],Zhang和Ding提出主題翻譯模型,取得了很好效果[13-14]。與以上方法相比,K最近鄰方法較為簡(jiǎn)單,模型中考慮的信息較少,無需標(biāo)注語(yǔ)料、訓(xùn)練模型等步驟,并且能夠取得令人滿意的效果。2009年,張慶國(guó)等利用VSM進(jìn)行文本表示,依據(jù)K最近鄰方法抽取關(guān)學(xué)術(shù)論文的關(guān)鍵詞,其實(shí)驗(yàn)表明該方法有效的提高了準(zhǔn)確率和召回率[15]。與該工作不同的是,本文以微博短文本作為研究對(duì)象,考察四種不同文本表示方法在基于KNN的Hashtag推薦中的實(shí)際效果,以期找到適合微博短文本的文本表示方法,從而提高基于KNN的Hashtag推薦效果。

3.2.2 潛在語(yǔ)義分析模型

潛在語(yǔ)義分析是由Dumais等提出的信息檢索模型[26],使用奇異值分解(Singular Value Decomposition,SVD)將高維的向量空間模型映射到低維的語(yǔ)義空間中,對(duì)原本的文檔向量進(jìn)行了降維,去除了一些“噪音”,并且反映出詞語(yǔ)之間隱含的語(yǔ)義關(guān)系。

潛在語(yǔ)義分析是對(duì)“詞匯-文檔”矩陣進(jìn)行奇異值分解,因此首先構(gòu)造“詞匯-文檔”矩陣,在這個(gè)矩陣中,對(duì)其中的詞匯計(jì)算權(quán)重,區(qū)別每個(gè)詞語(yǔ)的重要性。本文使用TF*IDF計(jì)算矩陣中每個(gè)詞匯的權(quán)重。首先構(gòu)建“詞項(xiàng)-文檔矩陣”C(見圖2)。

矩陣中列代表文檔,行代表詞匯,xnm為第m篇文檔的第n個(gè)詞所對(duì)應(yīng)的權(quán)重。然后對(duì)矩陣C進(jìn)行奇異值分解分解,計(jì)算公式為:

C=UVP (4)

保留矩陣U、V、P的前K列,將其它列去除后得到Uk、Vk、Pk,再重新構(gòu)建矩陣Ck:

Ck=UkVkPk (5)

這時(shí)新的Ck即為文本的向量形式,潛在語(yǔ)義分析通過SVD這種數(shù)學(xué)方法對(duì)原矩陣進(jìn)行降維,最終結(jié)果可解釋性較差[26]。

3.2.3 隱含狄利克雷分布模型

隱含狄利克雷分布LDA是由Blei提出的一種概率主題模型[27],與LSA有著密切的聯(lián)系。由于LSA生成的向量無法被很好的解釋,因此Huffman等針對(duì)LSA的缺點(diǎn)提出了概率潛在語(yǔ)義分析(probabilistic latent semantic analysis,PLSA)較好的解決了多義詞的問題,每個(gè)維度可以被解釋為詞典中的概率分布[28]。PLSA中參數(shù)數(shù)量會(huì)隨著文檔的增加而增加,并且容易出現(xiàn)過擬合。2003年,Blei等為了克服PLSA的上述缺點(diǎn),引入了狄利克雷先驗(yàn)分布,提出了LDA模型。

LDA能夠?qū)⒏呔S的向量空間映射到低維的主題空間,避免了特征稀疏問題的出現(xiàn)。微博這類短文本不僅詞匯少,且存在縮寫詞匯、網(wǎng)絡(luò)俚語(yǔ)以及大量未登錄詞,這些干擾因素都會(huì)影響文本間相似度的計(jì)算,LDA用主題分布的概率對(duì)文本進(jìn)行表示,減少了上述噪音的影響。與上述兩種方法相比,由于加入了狄利克雷先驗(yàn)分布,因此LDA的缺點(diǎn)是計(jì)算量大。LDA是一個(gè)三層貝葉斯概率模型,包含詞項(xiàng)、主題和文檔三層結(jié)構(gòu)(見圖3)。

其中φ表示主題中的詞項(xiàng)概率分布,θ表示第m篇文檔的主題概率分布,φ和θ分別作為多項(xiàng)式分布的參數(shù)用于生成主題和單詞。K代表主題數(shù)量,W和Z分別表示第m篇文檔中第n個(gè)單詞及其主題。其中α和β是LDA的先驗(yàn)參數(shù),α反應(yīng)了文本集合中主題的相對(duì)強(qiáng)弱,β則代表了所有主題自身的概率分布。在LDA中,首先生成整個(gè)文檔集合的主題分布,然后計(jì)算每個(gè)文檔對(duì)每個(gè)主題的概率分布,將文檔映射到主題空間,以此將文本用整個(gè)文檔集合的主題進(jìn)行表示。

3.2.4 深度學(xué)習(xí)模型

目前常用的詞匯表示方法是 “One-Hot Representation”,詞匯出現(xiàn)的位置值為“1”,其它位置為“0”。這種方法無法表示出詞匯之間的語(yǔ)義關(guān)系[29]。Hinton提出的分布式特征表示方法(Distributed representation)克服了“One-Hot Representation”的缺點(diǎn)[30]。

Bengio等基于分布式表示的思想,提出了使用神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型的方法,詞向量就是在訓(xùn)練語(yǔ)言模型的過程中得到的[30]。詞項(xiàng)量包含詞匯的上下文信息,通過一些相似度的計(jì)算方法,能夠準(zhǔn)確的衡量不同詞匯的語(yǔ)義關(guān)系。Mikolov等提出使用循環(huán)神經(jīng)網(wǎng)絡(luò)訓(xùn)練語(yǔ)言模型的方法[31],并深度學(xué)習(xí)的開源工具“Word2vec”[32],大大提高了詞向量的訓(xùn)練速度。

在Word2vec中將詞匯使用Huffman樹存儲(chǔ),在訓(xùn)練語(yǔ)言模型時(shí),輸入層為詞匯的上下文,輸出為經(jīng)過隱含層轉(zhuǎn)換之后的向量。將從Huffman樹的根節(jié)點(diǎn)出發(fā)到查找到該詞匯的過程看作一個(gè)連續(xù)的二分類的過程,該詞匯在該上下文環(huán)境下出現(xiàn)的概率即為二分類過程的乘積,當(dāng)語(yǔ)言模型訓(xùn)練完成時(shí),輸出層的向量即為最終的詞量。

基于上述工作,Le和Mikolov等于2014年提出了基于深度學(xué)習(xí)的句子向量和文檔向量的訓(xùn)練方法[33],本文使用該方法作為文本的表示方法,并將其記為“Doc2vec”。由深度學(xué)習(xí)得到的文本向量與詞項(xiàng)量具有相同的優(yōu)點(diǎn),含有豐富的語(yǔ)義信息。對(duì)于微博短文本來說,這種方法能夠表示出縮寫詞、網(wǎng)絡(luò)俚語(yǔ)和正常詞語(yǔ)之間的語(yǔ)義關(guān)系,相似度的計(jì)算更加準(zhǔn)確。

在Doc2vec中“Paragraph id”代表一個(gè)段落,與Word2vec的方法相似,通過詞匯的上下文來預(yù)測(cè)這個(gè)詞匯的概率,區(qū)別是doc2vec中將段落也看作一個(gè)詞,這個(gè)詞由段落的矩陣表示“Paragraph matrix”。段落中也包含了該詞匯的上下文信息,在這個(gè)模型中由于詞匯之間有著前后的關(guān)系,因此這種方稱為“Distributed Memory Model”,另外一種不區(qū)分詞匯順序的方法使用了詞袋模型,稱為“Distributed Bag of Words”,Doc2vec訓(xùn)練的過程與Word2vec相似(見圖4)。

4 實(shí)驗(yàn)與結(jié)果分析

4.1 實(shí)驗(yàn)數(shù)據(jù)概述

Twitter是世界著名的微博平臺(tái),使用人數(shù)眾多,在Twitter中用戶發(fā)表的微博文本為Tweets,本文使用從Twitter中采集的Tweets作為實(shí)驗(yàn)數(shù)據(jù)。在Twitter中以“H7N9”為主題采集數(shù)據(jù),具體查詢式為“h7n9 lang:en since:2014-03-08 until:2015-03-08”,從2014年3月8日到 2015年3月8日在Twitter中進(jìn)行搜索,一共采集了87382條Tweets,其中Hashtag被使用的總次數(shù)為81305次,將這些數(shù)據(jù)作為訓(xùn)練集(具體的信息見表1)。

[2] Zappavigna M. Discourse of Twitter and social media: How we use language to create affiliation on the web [M]. A&C Black, 2012.

[3] Ivanova M. Understanding microblogging hashtags for learning enhancement [J]. Form@ re-Open Journal per la formazione in rete, 2013, 11(74): 17-23.

[4] Dixon K. Feminist Online Identity: Analyzing the Presence of Hashtag Feminism [J]. Journal of Arts and Humanities, 2014, 3(7): 34-40.

[5] Komori L. We shouldn't have to smoke and hide The legalize hashtag as a platform for collective identity and collective action framing [D].University of Alberta, 2013.

[6] Skalbeck R V. Anatomy of a Conference Twitter Hashtag:#AALL2010[J/OL].[2015-05-16].http://scholarship.law.georgetown.

edu/digitalpreservation_publications/5.

[7] Potts L, Seitzinger J, Jones D, et al. Tweeting disaster: hashtag constructions and collisions [C].Proceedings of the Proceedings of the 29th ACM international conference on Design of communication, ACM, 2011: 235-240.

[8] Li Z, Zhou D, Juan Y-F, et al. Keyword extraction for social snippets [C].Proceedings of the Proceedings of the 19th international conference on World wide web, ACM, 2010: 1143-1144.

[9] Mazzia A, Juett J. Suggesting hashtags on twitter[R].Machine Learning, Computer Science and Engineering, University of Michigan, 2009.

[10] Shin Y, Lee S-J, Park J. Composition pattern oriented tag extraction from short documents using a structural learning method [J]. Knowledge and information systems, 2014, 38(2): 447-468.

[11] She J, Chen L. Tomoha: Topic model-based hashtag recommendation on twitter [C].Proceedings of the Proceedings of the companion publication of the 23rd international conference on World wide web companion, International World Wide Web Conferences Steering Committee, 2014: 371-372.

[12] Ma Z, Sun A, Yuan Q, et al. Tagging Your Tweets: A Probabilistic Modeling of Hashtag Annotation in Twitter [C].Proceedings of the Proceedings of the 23rd ACM International Conference on Conference on Information and Knowledge Management, ACM, 2014: 999-1008.

[13] Zhang Q, Gong Y, Sun X, etal.Time-aware Personalized Hashtag Recommendation on Social Media[J/OL].[2015-05-16].

http://p.nus.edu.sg/~antho/C/C14/C14-1021.pdf.

[14] Ding Z, Qiu X, Zhang Q, et al. Learning topical translation model for microblog hashtag suggestion[C].Proceedings of the Proceedings of the Twenty-Third international joint conference on Artificial Intelligence, AAAI Press, 2013: 2078-2084.

[15] 張慶國(guó), 章成志, 薛德軍, 等. 適用于隱含主題抽取的 K 最近鄰關(guān)鍵詞自動(dòng)抽取[J]. 情報(bào)學(xué)報(bào), 2009, (2):163-168.

[16] Xiao F, Noro T, Tokuda T. News-topic oriented hashtag recommendation in Twitter based on characteristic co-occurrence word detection [M]. Web Engineering. Springer,2012: 16-30.

[17] Tariq A, Karim A, Gomez F, et al. Exploiting Topical Perceptions over Multi-Lingual Text for Hashtag Suggestion on Twitter [C].Proceedings of the FLAIRS Conference, 2013.

[18] Zangerle E, Gassler W, Specht G. On the impact of text similarity functions on hashtag recommendations in microblogging environments [J]. Social Network Analysis and Mining, 2013, 3(4): 889-898.

[19] Otsuka E, Wallace S A, Chiu D. Design and evaluation of a Twitter hashtag recommendation system [C].Proceedings of the Proceedings of the 18th International Database Engineering & Applications Symposium, ACM, 2014: 330-333.

[20] Yan X, Zhao H. Chinese microblog topic detection based on the latent semantic analysis and structural property [J]. Journal of Networks, 2013, 8(4): 917-923.

[21] Liang D, Yong-ping D. Application of LDA Model in Microblog User Recommendation [J]. Computer Engineering, 2014, 5(002).

[22] Tomar A, Godin F, Vandersmissen B, et al. Towards Twitter hashtag recommendation using distributed word representations and a deep feed forward neural network [C].Proceedings of the Advances in Computing, Communications and Informatics (ICACCI, 2014 International Conference on, IEEE, 2014: 362-368.

[23] Lucas Vergeest. Using N-grams and Word Embeddings for Twitter Hashtag Suggestion[D]. Holland Tilburg:Tilburg University, 2014.

[24] Cover T, Hart P. Nearest neighbor pattern classification [J]. Information Theory, IEEE Transactions on, 1967, 13(1): 21-27.

[25] Salton G, Wong A, Yang C-S. A vector space model for automatic indexing [J]. Communications of the ACM, 1975, 18(11): 613-620.

[26] Dumais S, Platt J, Heckerman D, et al. Inductive learning algorithms and representations for text categorization [C].Proceedings of the Proceedings of the seventh international conference on Information and knowledge management, ACM, 1998: 148-155.

[27] Blei D M, Ng A Y, Jordan M I. Latent dirichlet allocation[J].The Journal of machine Learning research,2003(3):993-1022.

[28] Hofmann T. Probabilistic latent semantic indexing [C].Proceedings of the Proceedings of the 22nd annual international ACM SIGIR conference on Research and development in information retrieval, ACM, 1999: 50-57.

[29] Turian J, Ratinov L, Bengio Y. Word representations: a simple and general method for semi-supervised learning [C].Proceedings of the Proceedings of the 48th annual meeting of the association for computational linguistics, Association for Computational Linguistics, 2010: 384-394.

[30] Hinton, McClelland. Distributed representations[A].D.E. Rumelhart & J.L. McCleland(Eds.), Parallel distributed processing: Explorations in the microstructure of cognition{M}. Cambridge, MA: MIT Press, 1986:77-109.

[28] Bengio Y, Ducharme R, Vincent P, et al. A neural probabilistic language model [J]. The Journal of Machine Learning Research, 2003(3):1137-1155.

[31] Mikolov T, Karafiát M, Burget L, et al. Recurrent neural network based language model [C].Proceedings of the INTERSPEECH 2010, 11th Annual Conference of the International Speech Communication Association, Makuhari, Chiba, Japan, September 26-30, 2010, 2010: 1045-1048.

[32] Mikolov T, Chen K, Corrado G, et al. Efficient estimation of word representations in vector space[J]. arXiv preprint arXiv:1301.3781, 2013.

[33] Le Q V, Mikolov T. Distributed representations of sentences and documents[J]. arXiv preprint arXiv:1405.4053, 2014.

[34] Kywe S M, Hoang T-A, Lim E-P, et al. On recommending hashtags in twitter networks [M]. Social Informatics. Springer. 2012: 337-350.

[35] ehek R, Sojka P. Software framework for topic modelling with large corpora[C]. Proceedings of the LREC 2010 Workshop on new Challenges for NLP Frameworks, Valletta, Malta: ELRA, 2010: 45-50.

篇(7)

關(guān)鍵詞:彝文;自動(dòng)分詞;分詞算法;難點(diǎn)分析;發(fā)展方向

中圖分類號(hào):TP391.1文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2012) 04-0944-03

Status of the Research and Difficulties in Word Segmentation Technology

WANG Cheng-ping

(Nationalities Languages Information Processing Experiment Center, Southwest University for Nationalities, Chengdu 610041, China)

Abstract: Yi word automatic segmentation is a basic Yi language information processin research. The article first analyzes the characteristics of Yi language. Second, the concept of word of Yi and application, and a variety of Yi segmentation algorithm has done a systematic introduction. Then combined with the characteristics of Yi Yi automatic segmentation to achieve the difficulties faced where the word Yi pointed out the future direction of technology.

Key words: Yi language; automatic segmentation; segmentation algorithm; difficulties analysis; development direction

彝文屬于是大字符集,因此,彝文信息處理就增加了大字符集處理和字串到詞串處理這兩大塊任務(wù)。彝文信息處理應(yīng)用系統(tǒng)只要涉及到檢索、機(jī)器翻譯、文摘、校對(duì)等就需要以詞為基本單位。彝文信息處理應(yīng)用系統(tǒng)只要涉及到檢索、機(jī)器翻譯、文摘、校對(duì)等就需要以詞為基本單位。然而由于彝文本身的復(fù)雜性,使得彝文分詞成為了語(yǔ)言分詞技術(shù)中的一個(gè)難點(diǎn)。

1彝文的特點(diǎn)

字形上,彝文大部分是獨(dú)體字,是不可再分的文字;音節(jié)上,彝文是單音節(jié)的文字,一個(gè)字代表一個(gè)音節(jié),也即是一個(gè)具有獨(dú)立意義的詞;語(yǔ)法上,彝語(yǔ)是以詞序和虛詞為表達(dá)語(yǔ)法意義的主要手段。

彝文同漢文一樣,每個(gè)字的大小基本相同,漢文被稱為“方塊字”,彝文被稱為“石塊字”。而且,字與字之間有明顯的分界,字與詞或詞與詞之間也沒有明顯的界限,不按詞分寫。此外彝語(yǔ)中的詞沒有固定或明顯的詞頭、詞尾和性、數(shù)、格變化等分詞標(biāo)志。彝文和漢文的這些相同的特點(diǎn),決定了在彝文信息處理領(lǐng)域彝文同樣面臨著分詞技術(shù)問題。

2彝文分詞概念與研究方法

2.1彝文分詞概念

彝文分詞屬于自然語(yǔ)言理解技術(shù)的范疇,是語(yǔ)義理解的首要環(huán)節(jié),是按照特定的規(guī)范,將彝文語(yǔ)句中具有確定的語(yǔ)義或語(yǔ)法功能的詞和詞組按分詞單位進(jìn)行劃分一種技術(shù),它是彝文文本分類、自動(dòng)標(biāo)注、信息檢索、機(jī)器翻譯、語(yǔ)音識(shí)別與合成等領(lǐng)域的基礎(chǔ)。從信息處理過程來看,可以把彝文自動(dòng)分詞看作是用計(jì)算機(jī)自動(dòng)識(shí)別彝文文本中的詞,并在詞與詞之間加入明顯切分標(biāo)記的過程。而從應(yīng)用需求來看,彝文自動(dòng)分詞的主要目的是確定自然語(yǔ)言處理的基本分析單位,為進(jìn)一步開展彝文的自動(dòng)分析進(jìn)而為實(shí)現(xiàn)機(jī)器翻譯、篇章理解、自動(dòng)文摘、文本校對(duì)、自動(dòng)標(biāo)引等應(yīng)用處理系統(tǒng)做好前期準(zhǔn)備工作。

2.2彝文信息處理自動(dòng)分詞技術(shù)研究方法

目前彝文自動(dòng)分詞研究采用的方法歸納起來主要有以下三種類型:

2.2.1機(jī)械分詞法

主要有最大匹配法、逆向最大匹配法、逐詞匹配法、部件詞典法、詞頻統(tǒng)計(jì)法、設(shè)立標(biāo)志法、并行分詞法、詞庫(kù)劃分和聯(lián)想匹配法等,如:西南民族大學(xué)民族語(yǔ)言文字信息處理實(shí)驗(yàn)中心就采用了正向最大匹配法來設(shè)計(jì)與開發(fā)了“基于既定詞表的彝文自動(dòng)分詞系統(tǒng)”,分詞正確率達(dá)到了85%以上。

2.2.2語(yǔ)義分詞法

引入了語(yǔ)義分析,對(duì)自然語(yǔ)言自身的語(yǔ)言信息進(jìn)行更多的處理,如擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)法、知識(shí)分詞語(yǔ)義分析法、鄰接約束法、綜合匹配法、后綴分詞法、特征詞庫(kù)法、約束矩陣法、語(yǔ)法分析法等,如:西南民族大學(xué)民族語(yǔ)言文字信息處理實(shí)驗(yàn)中心就采用了彝語(yǔ)語(yǔ)法分析法與綜合匹配法來設(shè)計(jì)與開發(fā)了“基于語(yǔ)料特征的彝文自動(dòng)分詞系統(tǒng)”,分詞正確率達(dá)到了95%以上,也是目前彝文自動(dòng)分詞技術(shù)研究的一個(gè)代表。

2.2.3人工智能法

是對(duì)信息進(jìn)行智能化處理的一種模式,又稱理解分詞法,主要有兩種處理方式:一種是基于心理學(xué)的符號(hào)處理方法。模擬人腦的功能,像專家系統(tǒng)。即希望模擬人腦的功能,構(gòu)造推理網(wǎng)絡(luò),經(jīng)過符號(hào)轉(zhuǎn)換,從而可以進(jìn)行解釋性處理。一種是基于生理學(xué)的模擬方法。神經(jīng)網(wǎng)絡(luò)旨在模擬人腦的神經(jīng)系統(tǒng)機(jī)構(gòu)的運(yùn)作機(jī)制來實(shí)現(xiàn)一定的功能。目前西南民族大學(xué)民族語(yǔ)言文字信息處理實(shí)驗(yàn)中心正在研發(fā)的“信息處理用彝文智能分詞系統(tǒng)”就采用了此方法。

這三種方法又可分為兩大類:一類是基于規(guī)則的,目前大多數(shù)彝文自動(dòng)分詞方法都采用此方法,如:基于既定詞表的彝文自動(dòng)分詞系統(tǒng);一類是基于語(yǔ)料庫(kù)的,如:基于語(yǔ)料特征的彝文自動(dòng)分詞系統(tǒng)。基于規(guī)則的分詞算法的計(jì)算模型均是概率論中的馬爾可夫過程又稱元語(yǔ)法、隱馬爾可夫過程和通信中的信道噪聲模型。但無論是馬爾可夫過程還是信道噪聲模型,最后都?xì)w結(jié)為計(jì)算彝文詞頻的統(tǒng)計(jì)信息,串頻和互信息是詞頻的另一種表現(xiàn)形式。

4結(jié)束語(yǔ)

由于在彝語(yǔ)中詞與詞之間沒有明顯的切分標(biāo)志,因此在彝文信息處理中彝文分詞這一研究領(lǐng)域應(yīng)運(yùn)而生,并成為彝文信息處理中的基礎(chǔ)課題之一。彝文自動(dòng)分詞技術(shù)在彝文信息檢索、文字識(shí)別、機(jī)器翻譯,語(yǔ)音識(shí)別與合成等領(lǐng)域中將有著廣泛的應(yīng)用前景。本文主要是對(duì)現(xiàn)有彝文的各類分詞算法做出了系統(tǒng)的介紹,同時(shí)結(jié)合彝文的特,從語(yǔ)言學(xué)和計(jì)算機(jī)技術(shù)兩個(gè)不同學(xué)科角度分析了實(shí)現(xiàn)彝文自動(dòng)分詞的難點(diǎn)所在,為以后信息處理彝文自動(dòng)分詞技術(shù)研究工作奠定了一個(gè)良好的基礎(chǔ)。

參考文獻(xiàn):

[1]馮志偉.計(jì)算機(jī)中文信息處理[M].北京:北京出版社,2001:20-145.

[2]沙馬拉毅.計(jì)算機(jī)彝文信息處理[M].北京:電子工業(yè)出版社,2000:21-67.

[3]陳小荷.現(xiàn)代漢語(yǔ)自動(dòng)分析[M].北京:北京語(yǔ)言文化大學(xué)出版社,2000:35-80.

[4]鄧宏濤.中文自動(dòng)分詞系統(tǒng)的設(shè)計(jì)模型[J].計(jì)算機(jī)與數(shù)字工程,2005(4):138-140.

[5]孫鐵利,劉延吉.中文分詞技術(shù)的研究現(xiàn)狀與困難[J].信息技術(shù),2009(7):187-189.