原創(chuàng)|行業(yè)資訊|編輯:蔣永|2018-02-01 15:24:59.000|閱讀 379 次
概述:一說大數(shù)據(jù)大家都很熟悉,但你知道大數(shù)據(jù)究竟說的是什么嗎?別急,看完這個漫畫你就明白了。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
一說大數(shù)據(jù)大家都很熟悉,但你知道大數(shù)據(jù)究竟說的是什么嗎?別急看完這個漫畫你就明白了。
大數(shù)據(jù)是具有海量、高增長率和多樣化的信息資產(chǎn),它需要全新的處理模式來增強決策力、洞察發(fā)現(xiàn)力和流程優(yōu)化能力。
大數(shù)據(jù)通常都擁有海量的數(shù)據(jù)存儲。僅根據(jù)2013年的統(tǒng)計,互聯(lián)網(wǎng)搜索巨頭百度已擁有數(shù)據(jù)量接近EB級別、阿里、騰訊聲明自己存儲的數(shù)據(jù)總量都達到了百PB以上。此外,電信、醫(yī)療、金融、公共安全、交通、氣象等各個方面保存的數(shù)據(jù)量也都達到數(shù)十或者上百PB級別。
面對這樣規(guī)模的數(shù)據(jù)存儲量,依靠單臺數(shù)據(jù)庫服務器顯然是不夠的,需要以分布式文件系統(tǒng)(例如 HDFS)作為基石。
在傳統(tǒng)的關(guān)系型數(shù)據(jù)庫中,所存儲的數(shù)據(jù)都是結(jié)構(gòu)化的,例如:
但是在現(xiàn)實生活中,信息往往并沒有嚴格的結(jié)構(gòu)限制。比如一個電商網(wǎng)站需要記錄如下用戶行為:
用戶張三, 于某某時間在商品搜索欄搜索了“蘋果手機”一詞,然后進入 XXX 商鋪進行瀏覽,經(jīng)過與店家溝通,討價還價,最終以6000元的價格購買了 iPhone 7 “鋼琴黑”款式手機一部。
諸如此類的用戶行為數(shù)據(jù)屬于非結(jié)構(gòu)化數(shù)據(jù),很難用關(guān)系型數(shù)據(jù)庫存儲。因此諸多No-SQL數(shù)據(jù)庫(例如 HBase)成為了存儲大數(shù)據(jù)的更好選擇。
如果沒有更加快速有效的海量數(shù)據(jù)解決方案,那么如此大量多樣的數(shù)據(jù)不但沒有帶來更多價值,反而成為了系統(tǒng)的負擔。關(guān)于這一點,谷歌公司率先提出的MapReduce模型為我們帶來了新的道路。
MapReduce可以簡單的理解成一種分治方法:把龐大的任務分成若干小任務,交給多個節(jié)點進行并行處理,然后再把所有節(jié)點的處理結(jié)果合并起來,從而大大提升了數(shù)據(jù)處理效率。
人工智能:
以大數(shù)據(jù)作為機器學習的訓練集,從而訓練出擁有一定決策能力的人工智能。典型的代表案例就是谷歌的AlphaGo, 通過大量圍棋棋局的學習,最終擁有了打敗圍棋世界冠軍的能力。
商業(yè)分析:
從大量的用戶行為數(shù)據(jù)中挖掘出有價值的商業(yè)信息。典型代表是著名社交公司LinkedIn,他們通過用戶之間的關(guān)聯(lián)關(guān)系,繪畫出學校、公司、人才之間龐大而復雜的信息網(wǎng)絡。不僅如此,LinkedIn還通過大量求職者和招聘方的信息,分析出哪些公司正在迅速擴張,哪些公司正在流失人才,哪些公司之間正在展開人才市場的爭奪。這些對于客戶公司來說,都是無價之寶。
犯罪預測:
洛杉磯警察局曾經(jīng)借助一套原本用于預測地震后余震的大數(shù)據(jù)模型,把過去80年內(nèi)的130萬個犯罪記錄數(shù)據(jù)輸入進去,結(jié)果發(fā)現(xiàn)其預測出的犯罪高發(fā)地點與現(xiàn)實驚人的吻合。后來該預測算法經(jīng)過改進,已經(jīng)成為了當?shù)鼐种匾膮⒖家罁?jù),大大降低了當?shù)氐姆缸锫省?/span>
這里所介紹的相關(guān)知識,只是作者對于大數(shù)據(jù)領(lǐng)域的淺層次理解。通過這篇漫畫,希望沒有從事過IT行業(yè),或者不了解大數(shù)據(jù)的朋友們能夠?qū)Υ髷?shù)據(jù)有一些初步的認知。
歡迎在評論區(qū)發(fā)表你對大數(shù)據(jù)的看法哦~
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn