轉(zhuǎn)帖|行業(yè)資訊|編輯:陳俊吉|2016-06-07 10:34:41.000|閱讀 547 次
概述:本文主要給大家介紹下SPSS Modeler最新版本 17.0新增空間數(shù)據(jù)分析的相關(guān)功能及Demo演示。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷(xiāo)售中 >>
作為大數(shù)據(jù)分析應(yīng)用層數(shù)據(jù)挖掘平臺(tái),受到業(yè)界的廣泛好評(píng)與喜愛(ài),這也依賴于產(chǎn)品本身技術(shù)的不斷的發(fā)展與完善,IBM SPSS的研發(fā)團(tuán)隊(duì)在中國(guó)歷史文化名城—西安,擁有超過(guò)300多名技術(shù)研發(fā)人員,致立于產(chǎn)品新技術(shù)的引入與研發(fā),為產(chǎn)品本身提供源源不斷發(fā)展動(dòng)力,更好地為我們的客戶服務(wù)。在我們優(yōu)秀團(tuán)隊(duì)的帶領(lǐng)下,我們的產(chǎn)品每年都有新的版本、新的技術(shù)發(fā)布,那么接下來(lái),我給大家介紹下,SPSS Modeler最新版本 17.0新增空間數(shù)據(jù)分析的相關(guān)功能及Demo演示。
I.引入地圖文件及地圖可視化展現(xiàn)
在平臺(tái)上,我們新增了讀取地理位置信息的源節(jié)點(diǎn),以及地圖展現(xiàn)的輸出節(jié)點(diǎn);
連接方式:我們有兩種方式可以連接地圖文件,分別是
1、通過(guò)形狀文件 (.shp) 進(jìn)行導(dǎo)入;
2、通過(guò)連接到包含地圖文件的分層文件系統(tǒng)所在的 ESRI 服務(wù)器進(jìn)行導(dǎo)入。
功能:讀取地圖文件,與其它數(shù)據(jù)信息融合在一起,以直觀的地圖的方式展現(xiàn)最終的分析結(jié)果;
應(yīng)用場(chǎng)景:需要將分析結(jié)果與地圖結(jié)合起來(lái)的場(chǎng)景,比如購(gòu)物中心的客流分布、交通狀態(tài)、運(yùn)輸物流等。
II.新增算法:空間-時(shí)間預(yù)測(cè)(Spatio-temporal prediction)
功能:將地理位置信息和時(shí)間都作為分析場(chǎng)景的輸入影響因素,預(yù)測(cè)未來(lái)具體時(shí)間點(diǎn)以及具體位置發(fā)生某類(lèi)事件的可能性。
計(jì)算邏輯:在回歸的基礎(chǔ),添加了空間協(xié)方差矩陣和時(shí)間序列來(lái)處理時(shí)間和空間信息;
應(yīng)用場(chǎng)景:可用于預(yù)測(cè)未來(lái)某一時(shí)間某些地點(diǎn)可能發(fā)生的事件,比如疾病多發(fā)區(qū)、犯罪多發(fā)地的預(yù)測(cè);
大數(shù)據(jù)支持:可以通過(guò)Analytic Server進(jìn)行Map-Reduce計(jì)算,提升計(jì)算效率。
III.新增算法:關(guān)聯(lián)規(guī)則
功能:可將空間地理信息作為分析因素,分析出事件發(fā)生的模式或規(guī)則;
應(yīng)用場(chǎng)景:犯罪模式分析、流行病/傳染病監(jiān)控等;
大數(shù)據(jù)支持:可以通過(guò)Analytic Server進(jìn)行Map-Reduce計(jì)算,提升計(jì)算效率。
介紹了以上功能后,我們通過(guò)Demo來(lái)了解如何應(yīng)用空間數(shù)據(jù),實(shí)現(xiàn)對(duì)犯罪事件發(fā)生類(lèi)型的預(yù)測(cè)。
I.分析場(chǎng)景:
我們有美國(guó)芝加哥州包括的10個(gè)鄉(xiāng)鎮(zhèn)以往發(fā)生犯罪事件的記錄,我們要分析的目標(biāo)就是根據(jù)以往的犯罪事件發(fā)生的情況,研究在哪些區(qū)域可能是犯罪事件高發(fā)區(qū)域,并通過(guò)地圖的方式展現(xiàn)分析結(jié)果。
II.分析思路:
結(jié)合犯罪事件發(fā)生的地理位置,通過(guò)關(guān)聯(lián)規(guī)則分析各類(lèi)犯罪事件發(fā)生的規(guī)則。
III.分析步驟:
整個(gè)分析數(shù)據(jù)流如下圖,分為3個(gè)步驟,分別是數(shù)據(jù)整理、建模和地圖展現(xiàn)。
1.連接犯罪事件數(shù)據(jù)源文件InsuranceData.sav
文件記錄了歷史發(fā)生犯罪事件的地理位置(經(jīng)、緯度)以及發(fā)生的犯罪事件類(lèi)型,包括以下內(nèi)容:
2.連接各個(gè)country(鄉(xiāng)鎮(zhèn))的屬性信息文件CountyData.sav
文件收集了各個(gè)鄉(xiāng)鎮(zhèn)人口、收入等相關(guān)信息,包括以下內(nèi)容:
3.連接芝加哥地圖文件ChicagoAreaCounties.shp
文件包括各個(gè)鄉(xiāng)鎮(zhèn)(Country)的地理位置信息,包括以下內(nèi)容:
1、鄉(xiāng)鎮(zhèn)ID號(hào)(ObjectieID)
2、鄉(xiāng)鎮(zhèn)名稱(chēng)(Name)
3、圖層信息(MultiPolygon)
可以用的地圖展現(xiàn)如下:
4.生成新的地理空間字段POINT
對(duì)記錄犯罪事件發(fā)生的InsuranceData.sav文件中的經(jīng)度和緯度兩列數(shù)據(jù)(Latitude、Longitude)合并到地理空間上,字段類(lèi)型為地理空間,節(jié)點(diǎn)命名為POINT,為下面與地圖數(shù)據(jù)的合并做準(zhǔn)備。
5.將犯罪事件記錄數(shù)據(jù)與各鄉(xiāng)鎮(zhèn)屬性信息合并
即對(duì)CountyData.sav和InsuranceData.sav兩份數(shù)據(jù)按關(guān)鍵字Country合并。
6.將上面整理好的數(shù)據(jù)與芝加哥地圖文件再做合并
至此,我們將數(shù)據(jù)整理完成,合并后的數(shù)據(jù)內(nèi)容包括:
其中以DS2開(kāi)頭的三列數(shù)據(jù),表示事件發(fā)生的位置對(duì)應(yīng)地圖上的對(duì)象、區(qū)域和名稱(chēng)。
7.選擇關(guān)聯(lián)規(guī)則算法建模
我們使用關(guān)聯(lián)規(guī)則算法,生成犯罪事件發(fā)生的規(guī)則模型,只需要將犯罪類(lèi)型(Type)設(shè)置為預(yù)測(cè),并選擇影響因素作為條件,然后點(diǎn)擊運(yùn)行則會(huì)自動(dòng)生成業(yè)務(wù)規(guī)則模型。
8.生成模型,得到規(guī)則
以下可以看到規(guī)則結(jié)果(列出部分規(guī)則)。
比如可以看到第三條規(guī)則(Rule ID=3)
條件(Condition)
PopUnder5yrs ≥ 6.600
PopOver65yrs ≤ 11.600
預(yù)測(cè)結(jié)果(Prediction)
Type = Collision
結(jié)果解讀
如果5歲以下人口占比大于等于6.6%,65歲以上人口占比小于等于11.6%,則可能發(fā)生的犯罪類(lèi)型為Collision(沖突).該規(guī)則的支持度為9.51% (即有9.51%條記錄符合該規(guī)則) ,置信度為63.18%(即符合條件"PopUnder5yrs ≥ 6.600 and PopOver65yrs ≤ 11.600"的這些區(qū)域里面,有63.18%的區(qū)域發(fā)生了Collision事件),因此在做接下來(lái)的預(yù)測(cè)時(shí),如果有區(qū)域符合以上規(guī)則(Ruld ID=3),那么我們判斷該區(qū)域發(fā)生Collision事件的概率為63.18%。
9.連接原來(lái)的芝加哥地圖文件,讓預(yù)測(cè)結(jié)果展現(xiàn)在地圖層之上
10.地圖展現(xiàn)預(yù)測(cè)結(jié)果
接下來(lái)我們把預(yù)測(cè)結(jié)果與地圖展現(xiàn)結(jié)合在一起,如下圖所示。
從這地圖我們可以很清晰看到,我們對(duì)各類(lèi)犯罪事件發(fā)生預(yù)測(cè)結(jié)果的分布情況,根據(jù)該預(yù)測(cè)結(jié)果,我們可以有在針對(duì)性地部署相關(guān)的警力,預(yù)防犯罪事件的發(fā)生。
以上我們通過(guò)關(guān)聯(lián)規(guī)則對(duì)犯罪事件的發(fā)生進(jìn)行了預(yù)測(cè),如果使用空間-時(shí)間預(yù)測(cè)也可以實(shí)現(xiàn)類(lèi)似的應(yīng)用場(chǎng)景,只是分析的計(jì)算邏輯不一樣。
SPSS Modeler對(duì)空間數(shù)據(jù)分析除了將其作為影響因素加入到分析過(guò)程之外,還可以通過(guò)運(yùn)動(dòng)軌跡(包括時(shí)間和地點(diǎn))來(lái)判斷人物事件的特征,我們稱(chēng)之為空間-時(shí)間框(STB),比如我們通過(guò)的士的運(yùn)動(dòng)軌跡及乘客的運(yùn)動(dòng)軌跡,來(lái)精準(zhǔn)地告訴的士司機(jī),哪些時(shí)間點(diǎn),在哪些區(qū)域,有更大的乘車(chē)需求;也可以通過(guò)人員的運(yùn)動(dòng)軌跡對(duì)群體做細(xì)分,通過(guò)設(shè)定活動(dòng)范圍,找出哪些人員是家庭主婦、哪些是商務(wù)人士、哪些是白領(lǐng)等等,這可以更好地完善我們的客戶畫(huà)像。這些分析都挺有意思的,我們可以下次再做具體介紹,敬請(qǐng)期待吧.....
via:華南IBM大數(shù)據(jù)支持團(tuán)隊(duì)
詳情請(qǐng)咨詢“”!
客服熱線:023-66090381
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn