轉(zhuǎn)帖|行業(yè)資訊|編輯:陳俊吉|2016-07-05 09:37:47.000|閱讀 440 次
概述: 現(xiàn)在提到數(shù)據(jù)挖掘,不再像以前一樣,讓大家覺(jué)得神秘莫測(cè),數(shù)據(jù)挖掘的應(yīng)用已經(jīng)深入到各個(gè)行業(yè),不管是傳統(tǒng)的銀行、電信、零售、制造,還是當(dāng)前火熱的互聯(lián)網(wǎng)應(yīng)用,都在使用這類技術(shù),深入業(yè)務(wù)分析,為業(yè)務(wù)決策提供客觀的數(shù)據(jù)支持。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
數(shù)據(jù)挖掘項(xiàng)目的成功與否,很大一部分取決于IT部門與業(yè)務(wù)部門的緊密配合,由于數(shù)據(jù)挖掘與業(yè)務(wù)的結(jié)合非常緊密,既需要數(shù)據(jù),又需要專業(yè)的業(yè)務(wù)經(jīng)驗(yàn)與理解,數(shù)據(jù)一般在IT部門手上,而業(yè)務(wù)人員當(dāng)然最了解自己的業(yè)務(wù),因此,這彼此之間的溝通與協(xié)調(diào)經(jīng)常會(huì)遇到一些問(wèn)題。之前有過(guò)不少血的教訓(xùn),IT人員好不容易分析出來(lái)的模型,業(yè)務(wù)部門對(duì)此信任度不高,對(duì)分析結(jié)果執(zhí)行不到位,沒(méi)能很好的反饋給IT人員做進(jìn)一步的優(yōu)化,造成模型沒(méi)能真正應(yīng)用到業(yè)務(wù)中,也沒(méi)能進(jìn)一步優(yōu)化模型,造成時(shí)間、成本的浪費(fèi)。
為了讓業(yè)務(wù)人員能夠相信分析結(jié)果能夠給業(yè)務(wù)帶來(lái)價(jià)值,需要讓他們更多地參與到項(xiàng)目中,讓業(yè)務(wù)人員了解、參與、甚至自己動(dòng)手分析的過(guò)程,是當(dāng)前企業(yè)做此類項(xiàng)目的趨勢(shì)。只有這樣,才能讓數(shù)據(jù)挖掘分析結(jié)果更好地應(yīng)用于業(yè)務(wù)。
我們一直強(qiáng)調(diào),最大的優(yōu)勢(shì)就是易用性,它提供了圖形化界面,讓使用人員可以非常方便地通過(guò)拖拽的方式實(shí)現(xiàn)數(shù)據(jù)分析流程,讓我們有更多的時(shí)間和精力集中在業(yè)務(wù)理解上,而不是編程的調(diào)試上。這個(gè)聽(tīng)起來(lái)會(huì)讓人覺(jué)得有點(diǎn)忽悠的感覺(jué),我們下面通過(guò)一個(gè)例子,來(lái)體驗(yàn)下,當(dāng)然要有比較才會(huì)有區(qū)別,我們分別用R和SPSS來(lái)實(shí)現(xiàn)一個(gè)聚類分析,看看兩者實(shí)現(xiàn)過(guò)程的優(yōu)劣。
對(duì)電信客戶做聚類分析,了解各類客戶特征。
已有的數(shù)據(jù)包括:客戶ID、RatePlan、LongDistance(長(zhǎng)途話費(fèi))、International(國(guó)際話費(fèi))、Local(本地話費(fèi))、Drop(掉線次數(shù))、Paymethod(付款方式)、LocalBilltype(本地話費(fèi)類型)和LongDistanceBilltype(長(zhǎng)途話費(fèi)類型)。
讀取數(shù)據(jù)源、選擇要作為輸入因素的指標(biāo)、使用聚類算法實(shí)現(xiàn)建模、導(dǎo)出分析結(jié)果。
通過(guò)R實(shí)現(xiàn)分析過(guò)程
如果用R實(shí)現(xiàn),我們需要以下代碼:
這個(gè)代碼看起來(lái)也并不復(fù)雜,R語(yǔ)言的強(qiáng)大之處也在于它的語(yǔ)言很簡(jiǎn)潔,我們來(lái)看它的分析結(jié)果,下圖就是顯示聚類結(jié)果:
將這個(gè)聚類的結(jié)果與原來(lái)的數(shù)據(jù)合并在一起,可以看到每個(gè)客戶所屬的類別。
如果你是業(yè)務(wù)人員,您能看得出這個(gè)結(jié)果的優(yōu)劣嗎?或者您能從中看明白了什么樣的業(yè)務(wù)結(jié)果嗎?思考一下,我們接下來(lái)看使用SPSS分析是怎么個(gè)過(guò)程?
按照剛才的步驟,我們?cè)诮缑嫔贤献嚓P(guān)的功能節(jié)點(diǎn),連接起來(lái)得到的數(shù)據(jù)分析流如下圖,
每個(gè)功能節(jié)點(diǎn)都可以添加注釋,解釋所實(shí)現(xiàn)的功能,可以讓業(yè)務(wù)人員一目了然:
接下來(lái)我們看下的分析結(jié)果,雙擊生成的模型 ,可以看到以下結(jié)果:
首先,左邊的模型概要結(jié)果,通過(guò)聚類質(zhì)量數(shù)值告訴我們模型聚類結(jié)果的優(yōu)劣,越接近1是越好的,這個(gè)業(yè)務(wù)人員很好理解,當(dāng)然,如果要追溯到本質(zhì),到底這個(gè)聚類質(zhì)量數(shù)值是什么樣的統(tǒng)計(jì)指標(biāo),那我們通過(guò)它自帶的幫助文檔也可以知道,這個(gè)值其實(shí)是Silhouette 測(cè)量:測(cè)量所有記錄的平均值,(B−A)/ max(A,B),其中 A 是記錄與其聚類中心的距離,B 是記錄與其非所屬最近聚類中心的距離。作為業(yè)務(wù)人員,可以不必深究這個(gè)統(tǒng)計(jì)指標(biāo),只需要通過(guò)這個(gè)數(shù)值比較各種聚類結(jié)果的優(yōu)劣。
右邊的餅圖直觀地看到各類的占比,我們可以通過(guò)各類的占比判斷各類分布是否均勻,如果不均勻,從業(yè)務(wù)上會(huì)不會(huì)不好落實(shí)管理。
除此之外,我們需要了解,到底哪些因素影響了我的聚類結(jié)果,哪些因素是重要的,哪些是不重要的影響因素,我們可以通過(guò)預(yù)測(cè)變量重要性來(lái)了解,如下圖:
另外,我們?cè)谙路讲榭催x擇框中選擇“聚類”和“聚類比較”,可以看到以下結(jié)果:
左邊的圖形中,我們可以看到,每一類,各個(gè)指標(biāo)的平均值,我們想到剛才通過(guò)R實(shí)現(xiàn)的聚類結(jié)果,也有各類的平均值,這個(gè)理論上來(lái)說(shuō)是一樣的,但為什么結(jié)果看起來(lái)不一樣呢?這個(gè)我們后面再解釋。我們先看從上面這個(gè)圖,我們可以怎樣從業(yè)務(wù)上理解這個(gè)分析結(jié)果。
從上圖中,我們可以清楚看到每個(gè)類別各個(gè)指標(biāo)的平均值,可以先從數(shù)值上分析出各類有哪些指標(biāo)比較異于其它類別,比如說(shuō),聚類5,掉線次數(shù)平均值為3.52,遠(yuǎn)遠(yuǎn)高于其它類別,這個(gè)從下面的箱圖也可以明顯看出(黑色框標(biāo)識(shí)出)。
通過(guò)這兩個(gè)圖形,我們可以很快地找出每一類異于其它類別的特征,并從業(yè)務(wù)的角度來(lái)描述這一群人的特征,比如第5類,我們可以大概總結(jié)為:掉線次數(shù)最多,國(guó)際長(zhǎng)途幾乎沒(méi)有,本地話費(fèi)和長(zhǎng)途話費(fèi)最多等等。SPSS Modeler這樣的分析展現(xiàn)結(jié)果,我們業(yè)務(wù)人員可以很好的結(jié)合自己的業(yè)務(wù)經(jīng)驗(yàn)來(lái)對(duì)群組進(jìn)行特征描述,然后根據(jù)每一類的特征,我們?cè)俑鶕?jù)我們的業(yè)務(wù)目標(biāo),制定營(yíng)銷策略或者是管理策略,這就是業(yè)務(wù)人員擅長(zhǎng)的問(wèn)題了。
最終的分析結(jié)果,每個(gè)客戶到底屬于哪一類,我們直接通過(guò)表格就可以看到:
從以上的例子,我們做下總結(jié):
1.從使用者的視角來(lái)看,R語(yǔ)言當(dāng)然有它強(qiáng)大的地方,但對(duì)于不懂R語(yǔ)言編程或者不是很熟練的人員來(lái)說(shuō),還是會(huì)有一定的障礙,每個(gè)函數(shù)其實(shí)都包括了相關(guān)的參數(shù),要搞懂這些參數(shù)必須查閱幫助文檔,全是英文版本,如果英文不太好的話,又是另外的障礙。如果沒(méi)有花費(fèi)一定的時(shí)間,也不容易熟練地掌握R語(yǔ)言,而且對(duì)于最終模型的維護(hù)與優(yōu)化也是要花時(shí)間與人力成本的。
2.從分析過(guò)程及結(jié)果來(lái)看,我們可以看到兩個(gè)分析結(jié)果,雖然都是用了K-Means算法,都是分成5類,但結(jié)果截然不同,為什么呢?主要有兩個(gè)原因:
(1)K-Means算法邏輯中,是用距離來(lái)做計(jì)算,因此一般要求分析前,需要對(duì)指標(biāo)做歸一化,如果0-1的指標(biāo)與10000-100000的指標(biāo)同時(shí)來(lái)計(jì)算距離的話,結(jié)果肯定會(huì)聚焦在10000-100000這個(gè)指標(biāo)上,而上面用R計(jì)算的時(shí)候,我是沒(méi)有做歸一化的,那如果使用人員對(duì)這一邏輯不熟悉,那么出來(lái)的結(jié)果肯定會(huì)有問(wèn)題。而SPSS Modeler里面的K-Means算法,它已經(jīng)考慮了這個(gè)問(wèn)題,在這個(gè)算法中,已經(jīng)涵蓋了將數(shù)據(jù)歸一化這一處理,因此即使不太懂K-Means計(jì)算邏輯,使用這個(gè)算法,也不會(huì)有太大的問(wèn)題。
(2)K-Means算法本身在選擇初始中心點(diǎn)的時(shí)候,是隨機(jī)的,因此也可能造成結(jié)果的不一致。
3.封裝的算法,為了讓不是很懂算法的人員也可以使用,它的算法里面會(huì)內(nèi)嵌一些數(shù)據(jù)處理功能,還是以K-Means為例,本身K-Means只支持?jǐn)?shù)值型數(shù)據(jù),如果使用R平臺(tái),如果數(shù)據(jù)中有空白值,需要先處理,不然會(huì)報(bào)錯(cuò)。但SPSS Modeler中,如果數(shù)據(jù)有分類型數(shù)據(jù),而且有些數(shù)據(jù)存在空白值,它仍然能夠計(jì)算得到分析結(jié)果,也是緣于它已經(jīng)提前做了數(shù)據(jù)處理,把分類型的轉(zhuǎn)為數(shù)值型的,有空白值做了填補(bǔ)。這也是它為什么受業(yè)務(wù)人員或者是沒(méi)有太多統(tǒng)計(jì)學(xué)背景的人員喜歡的原因。
4.R語(yǔ)言也有它自己非常大的優(yōu)勢(shì),由于是開(kāi)源的,它的算法非常廣泛,特別是一些創(chuàng)新的算法,有時(shí)候使用者也非常希望可以嘗試使用。IBM也看到了這一點(diǎn),從SPSS Modeler 16版本起,已經(jīng)封裝了R節(jié)點(diǎn),可以直接在SPSS Modeler的R節(jié)點(diǎn)上,編寫R代碼,引入新的算法;甚至還可以自己設(shè)計(jì)面板,自定義封裝R算法,下次使用時(shí),也不需要再修改代碼,直接使用即可。如果大家對(duì)這個(gè)感興趣,我們可以下回再做具體介紹。
的可視化、易用性不僅僅體現(xiàn)在它的圖形化界面上,更多的是體現(xiàn)在它里面對(duì)算法封裝時(shí)考慮的全面性,分析結(jié)果的可讀性,即使你不太懂得統(tǒng)計(jì)分析,同樣可以借助它來(lái)實(shí)現(xiàn)業(yè)務(wù)分析,帶來(lái)業(yè)務(wù)價(jià)值。
試用版下載地址:
via:華南IBM大數(shù)據(jù)支持團(tuán)隊(duì)
詳情請(qǐng)咨詢!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn