原創(chuàng)|大數(shù)據(jù)新聞|編輯:鄭恭琳|2020-04-29 11:05:18.747|閱讀 297 次
概述:隨著互聯(lián)網(wǎng)的發(fā)展,物聯(lián)網(wǎng)的到來(lái),數(shù)據(jù)爆炸式的增長(zhǎng)。本文主要講解大數(shù)據(jù)Cloudera助力證券行業(yè)轉(zhuǎn)型,其技術(shù)方面的優(yōu)勢(shì)。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
隨著互聯(lián)網(wǎng)的發(fā)展,物聯(lián)網(wǎng)的到來(lái),數(shù)據(jù)爆炸式的增長(zhǎng)。大數(shù)據(jù)最終可以歸類為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)。結(jié)構(gòu)化數(shù)據(jù)特指表單類型的數(shù)據(jù)存儲(chǔ)結(jié)構(gòu);而半結(jié)構(gòu)化介于結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)之間的,例如 XML、HTML 文檔就屬于半結(jié)構(gòu)化數(shù)據(jù),半結(jié)構(gòu)化數(shù)據(jù)在用戶畫像、物聯(lián)網(wǎng)設(shè)備日志采集、應(yīng)用點(diǎn)擊流分析等場(chǎng)景中得到大規(guī)模使用;非結(jié)構(gòu)化數(shù)據(jù)包含文本、圖象、聲音、影視、超媒體等典型信息,非結(jié)構(gòu)化數(shù)據(jù)中沒(méi)有限定結(jié)構(gòu)形式,表示靈活,蘊(yùn)含了豐富的信息。半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)占總數(shù)據(jù) 85%以上。
在證券行業(yè)遠(yuǎn)程開(kāi)戶、柜面無(wú)紙化和雙錄等業(yè)務(wù),以及會(huì)計(jì)檔案管理、影像系統(tǒng)等系統(tǒng),產(chǎn)生的客戶證件、遠(yuǎn)程開(kāi)戶錄像、合同掃描件、客服中心語(yǔ)音、企業(yè)相關(guān)電子文檔資料等大量的非結(jié)構(gòu)化數(shù)據(jù)。這些來(lái)源廣闊體量巨大的非結(jié)構(gòu)數(shù)據(jù)更貼近客戶,商業(yè)價(jià)值更大,內(nèi)涵更豐富,更具科學(xué)性,更具有前瞻性,對(duì)企業(yè)指導(dǎo)作用更具真實(shí)性。傳統(tǒng)技術(shù)處理這些數(shù)據(jù),效果是十分有限的,而利用大數(shù)據(jù)技術(shù)可以有效的存儲(chǔ)于管理海量的非結(jié)構(gòu)化數(shù)據(jù),并挖掘這些數(shù)據(jù)背后的價(jià)值,達(dá)到以數(shù)據(jù)驅(qū)動(dòng)為企業(yè)轉(zhuǎn)型的目的。大數(shù)據(jù)數(shù)據(jù)類型如圖所示:
大數(shù)據(jù)離線分析的數(shù)據(jù)具有數(shù)據(jù)量巨大,數(shù)據(jù)保持周期長(zhǎng),大量數(shù)據(jù)上做復(fù)雜的批量運(yùn)算等特點(diǎn),大數(shù)據(jù)把這種離線分析技術(shù)稱為 OLAP,主要應(yīng)用在統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)、搜索引擎的反向索引計(jì)算、推薦引擎的計(jì)算等場(chǎng)景,離線分析主要有五個(gè)環(huán)節(jié):
(1) 數(shù)據(jù)采集
(2) 數(shù)據(jù)預(yù)處理
(3) 統(tǒng)計(jì)分析
(4) 數(shù)據(jù)挖掘
(5) 數(shù)據(jù)查詢展示。
對(duì)應(yīng)于 OLAP 技術(shù),主要架構(gòu)如圖所示:
日志主要包括系統(tǒng)日志、應(yīng)用程序日志和安全日志等,系統(tǒng)運(yùn)維和開(kāi)發(fā)人員可以通過(guò)日志了解服務(wù)器軟硬件信息、檢查配置過(guò)程中的錯(cuò)誤及錯(cuò)誤發(fā)生的原因。經(jīng)常分析日志可以了解服務(wù)器的負(fù)荷,性能安全性,從而及時(shí)采取措施糾正錯(cuò)誤。日志分析系統(tǒng)需要將分布在每個(gè)服務(wù)器的日志采集和集中管理,并能實(shí)現(xiàn)復(fù)雜的查詢、排序和統(tǒng)計(jì)等要求,以達(dá)到信息查詢,服務(wù)診斷,數(shù)據(jù)分析的需求。
實(shí)時(shí)日志解析和檢索主要涉及以下四個(gè)環(huán)節(jié)包括日志實(shí)時(shí)采集、消息中間件、日志實(shí)時(shí)解析和日志實(shí)時(shí)檢索;日志實(shí)時(shí)采集有 Apache Flume、Fluentd、Logstash、Chukwa、Scribe等可供選擇,消息中間件 Kafka 是很理想的選擇,日志實(shí)時(shí)解析可以使用 Storm 或者 SparkStreaming,實(shí)時(shí)日志檢索可以選擇 Solr 或者 ElasticSearch。
技術(shù)架構(gòu)流程圖如圖所示:
Lambda 架構(gòu)的目標(biāo)是設(shè)計(jì)出一個(gè)能滿足實(shí)時(shí)大數(shù)據(jù)系統(tǒng)關(guān)鍵特性的架構(gòu),包括有高容錯(cuò)、低延時(shí)和可擴(kuò)展等特性。Lambda 架構(gòu)整合離線計(jì)算和實(shí)時(shí)計(jì)算,融合不可變性的特征,讀寫分離和復(fù)雜性隔離等一系列架構(gòu)原則,可集成 Hadoop、Kafka、Storm、Spark 和 Hbase 等各類大數(shù)據(jù)重要的組件。
主要思想就是將大數(shù)據(jù)系統(tǒng)構(gòu)建為多個(gè)層次,三層架構(gòu)分別為批處理層 (BatchLayer)、實(shí)時(shí)處理層 (SpeedLayer) 和服務(wù)層 (ServingLayer),技術(shù)架構(gòu)圖如圖所示:
Lambda 架構(gòu)優(yōu)勢(shì)不僅包括如下幾點(diǎn):
1) 實(shí)時(shí),低延遲處理數(shù)據(jù);
2) 數(shù)據(jù)不可變性,架構(gòu)給出的數(shù)據(jù)傳輸模型是在初始化階段對(duì)數(shù)據(jù)進(jìn)行實(shí)例化,這樣的做法是能獲益良多的,能夠使得大量的 MapReduce 工作變得有跡可循,從而便于在不同階段進(jìn)行獨(dú)立調(diào)試;
3) 復(fù)雜性分離、讀寫分離;
4) 數(shù)據(jù)的重新計(jì)算,比方說(shuō)某工作流的數(shù)據(jù)輸出是由輸入決定的,那么一旦代碼發(fā)生變動(dòng),將不得不重新計(jì)算來(lái)檢視變更的效度。
如圖所示,Lambda 架構(gòu)在數(shù)據(jù)存儲(chǔ)上使用 HBase+HDFS 混合架構(gòu)來(lái)提供高性能的順序掃描和隨機(jī)查詢。這種混合架構(gòu)對(duì)應(yīng)用開(kāi)放和維護(hù)上帶來(lái)一定的復(fù)雜性。
如果使用不可更改的存儲(chǔ)(如 HDFS 文件),將會(huì)非常不便。
Cloudera 在 Hadoop 數(shù)據(jù)存儲(chǔ)上提供了第三種解決方案 - Kudu。Kudu 的設(shè)計(jì)目標(biāo)是提供大數(shù)據(jù)量訪問(wèn)時(shí)(順序掃描)的高吞吐率,訪問(wèn)少量數(shù)據(jù)時(shí)(隨機(jī)掃描)的低延時(shí),并提供類似的數(shù)據(jù)庫(kù)語(yǔ)義 ( 目前提供單行記錄的 ACID) 支持。Kudu 適合需要同時(shí)支持順序和隨機(jī)讀和寫的應(yīng)用場(chǎng)景。例如時(shí)間序列,機(jī)器數(shù)據(jù)分析和在線分析等業(yè)務(wù)應(yīng)用。Kudu 的出現(xiàn),給Lamdba 架構(gòu)帶來(lái)了革新。改進(jìn)后的 Lamdba 架構(gòu)的數(shù)據(jù)存儲(chǔ)處理方式如圖所示。傳統(tǒng)的 Lamdba 架構(gòu)中存在的業(yè)務(wù),開(kāi)發(fā)和運(yùn)維問(wèn)題都得到了改善或根本解決。
大數(shù)據(jù)的四 V 特性中,有一個(gè) V 表示速度快,即數(shù)據(jù)處理速度快,也就是大數(shù)據(jù)的實(shí)時(shí)分析處理技術(shù),用來(lái)處理那些時(shí)效性要求高的場(chǎng)景。例如欺詐行為檢測(cè),系統(tǒng)入侵檢測(cè),推薦系統(tǒng)等等場(chǎng)景,這些場(chǎng)景都是事后難以彌補(bǔ)的,都是要求實(shí)時(shí)分析處理。
大數(shù)據(jù)實(shí)時(shí)分析技術(shù)主要包括數(shù)據(jù)實(shí)時(shí)采集傳輸、實(shí)時(shí)數(shù)據(jù)處理、數(shù)據(jù)實(shí)時(shí)檢索等。數(shù)據(jù)實(shí)時(shí)采集傳輸當(dāng)前常用的開(kāi)源技術(shù)包括 Flume,Chukwa,Logstash,Kafka,RocketMQ, RabbitMQ,ActiveMQ。目前大數(shù)據(jù)開(kāi)源實(shí)時(shí)處理架構(gòu)最常見(jiàn)的是 Storm 和 Spark Streaming,相比 SparkStreaming 準(zhǔn)實(shí)時(shí)批處理系統(tǒng),Storm 是更純粹的實(shí)時(shí)處理系統(tǒng),即來(lái)一條事件就處理一條,具有更高的實(shí)時(shí)性。
數(shù)據(jù)實(shí)時(shí)檢索主要涉及技術(shù)有 Redis,HBase,Solr,ElasticSearch 等。典型的實(shí)時(shí)處理架構(gòu)如圖所示:
大數(shù)據(jù)最主要的價(jià)值是在體現(xiàn)在數(shù)據(jù)挖掘上,大數(shù)據(jù)挖掘是從海量、不完全的、有噪聲的、模糊的、隨機(jī)的大型數(shù)據(jù)庫(kù)中發(fā)現(xiàn)隱含在其中有價(jià)值的、潛在有用的信息和知識(shí)的過(guò)程,也是一種決策支持過(guò)程。其主要基于人工智能,機(jī)器學(xué)習(xí),模式學(xué)習(xí),統(tǒng)計(jì)學(xué)等。大數(shù)據(jù)挖掘在行業(yè)上有很多的典型應(yīng)用和成果,像著名的 PageRank 算法進(jìn)行網(wǎng)站價(jià)值衡量,推薦算法進(jìn)行精準(zhǔn)營(yíng)銷等等。
大數(shù)據(jù)挖掘算法的主要算法庫(kù)有 Apache Mahout 與 Spark MLlib,這兩個(gè)算法涵蓋了常用的算法類型,如分類算法,回歸分析算法,聚類算法,關(guān)聯(lián)規(guī)則算法,協(xié)同過(guò)濾算法,神經(jīng)網(wǎng)絡(luò)算法,Web 數(shù)據(jù)挖掘算法,深度學(xué)習(xí)算法,集成算法等類型算法。
自然語(yǔ)言處理(Natural Language Processing,簡(jiǎn)稱 NLP), 是為了讓計(jì)算機(jī)能夠分析、理解和生成自然語(yǔ)言。隨著人工智能從感知智能向認(rèn)知智能升級(jí),自然語(yǔ)言處理(NLP)的重要性日益凸顯,自然語(yǔ)言處理當(dāng)前主要的應(yīng)用場(chǎng)景有機(jī)器翻譯,智能客服,智能音箱等。
NLP 由兩個(gè)主要的技術(shù)領(lǐng)域構(gòu)成,分別是自然語(yǔ)言理解和自然語(yǔ)言生成。自然語(yǔ)言理解方向主要的目標(biāo)是幫助機(jī)器更好理解人的語(yǔ)言,包括基礎(chǔ)的詞法、句法等語(yǔ)義理解,以及需求、篇章、情感層面的高層理解。自然語(yǔ)言生成主要目標(biāo)是幫助機(jī)器生成人能夠理解的語(yǔ)言,比如文本生成、自動(dòng)文摘等。主要涉及技術(shù)包括情感傾向分析,評(píng)論觀點(diǎn)抽取,詞義相似度計(jì)算,詞法分析,短文本相似度,DNN 語(yǔ)言模型,詞向量表示,依存句法分析。目前開(kāi)源的 NLP 庫(kù)包括自然語(yǔ)言工具包 (NLTK),Apache 的 OpenNLP,斯坦福大學(xué) NLP 套件等。
數(shù)字圖像處理是指利用計(jì)算機(jī)或其他數(shù)字設(shè)備對(duì)圖像信息進(jìn)行各種加工和處理,結(jié)合大數(shù)據(jù)技術(shù),數(shù)字圖像處理技術(shù)正在向處理算法更優(yōu)化、處理速度更快、處理后的圖像清晰度更高的方向發(fā)展,逐漸實(shí)現(xiàn)圖像的智能生成、處理、識(shí)別和理解是數(shù)字圖像處理的目標(biāo)。
對(duì)圖像進(jìn)行處理主要目的有三個(gè)方面:
(1) 提高圖像的視感質(zhì)量;
(2) 提取圖像中所包含的某些特征或特殊信息,這些被提取的特征或信息往往為計(jì)算機(jī)分析圖像提供便利;
(3) 圖像數(shù)據(jù)的變換、編碼和壓縮,以便于圖像的存儲(chǔ)和傳輸。
數(shù)字圖像處理過(guò)程主要涉及以下幾個(gè)過(guò)程:
(1) 圖像的數(shù)字化 通過(guò)取樣和量化將一個(gè)以自然形態(tài)存在的圖像變換為適于計(jì)算機(jī)處理的數(shù)字形式;
(2) 圖像的壓縮,其目的是在不改變圖像的質(zhì)量基礎(chǔ)上壓縮圖像的信息量,以滿足傳輸與存儲(chǔ)的要求;
(3) 圖像增強(qiáng)與復(fù)原,其目的是將圖像轉(zhuǎn)換為更適合人和機(jī)器的分析的形式。常用的增強(qiáng)方法有:灰度等級(jí)直方圖處理;干擾抵制;邊緣銳化;偽彩色處理;
(4) 圖像的分割,圖像的分割是將圖像劃分為一些不重疊的區(qū)域;
(5) 圖像的分析,圖像分析從圖像中抽取某些有用的度量、數(shù)據(jù)和信息,以的到某種數(shù)值結(jié)果。
人臉識(shí)別技術(shù)是一種依據(jù)人的面部特征,自動(dòng)進(jìn)行身份鑒別的一種技術(shù),它綜合運(yùn)用了數(shù)字圖像、視頻處理、模式識(shí)別等多種技術(shù)。通過(guò)人臉特征提取和相似度比對(duì),對(duì)于已經(jīng)矯正好的兩個(gè)人臉,會(huì)通過(guò)某種表達(dá)提取初始特征,然后應(yīng)用知識(shí)模型對(duì)特征進(jìn)行處理,最后再在度量空間里來(lái)計(jì)算兩個(gè)特征的相似度。這個(gè)分值會(huì)告訴你這兩個(gè)臉是不是同一個(gè)人的。人臉識(shí)別的過(guò)程包括:數(shù)據(jù)采集、人臉檢測(cè)、五官定位、人臉預(yù)處理、特征提取。
常用的場(chǎng)景包括:
(1) 門禁系統(tǒng),受安全保護(hù)的地區(qū)可以通過(guò)人臉識(shí)別辨識(shí)試圖進(jìn)入者的身份,比如小區(qū)、學(xué)校、企業(yè)等。敏感地點(diǎn)也可以使用人臉識(shí)別門禁,未登記人員訪問(wèn)將觸發(fā)報(bào)警;
(2) 攝像監(jiān)視系統(tǒng),在例如銀行、機(jī)場(chǎng)、體育場(chǎng)、商場(chǎng)、超級(jí)市場(chǎng)等公共場(chǎng)所對(duì)人群進(jìn)行監(jiān)視,以達(dá)到身份識(shí)別的目的。同時(shí)疑犯布控追蹤也是較為常見(jiàn)的應(yīng)用場(chǎng)景。
(3) 學(xué)生考勤系統(tǒng),香港及澳門的中、小學(xué)已開(kāi)始將智能卡配合人臉識(shí)別來(lái)為學(xué)生進(jìn)行每天的出席點(diǎn)名記錄,內(nèi)地高校也進(jìn)行了有關(guān)試點(diǎn)。
(4) 娛樂(lè)應(yīng)用,動(dòng)美妝美圖、人臉屬性識(shí)別、顏值分析,都是已經(jīng)成熟使用的娛樂(lè)場(chǎng)景。
人臉識(shí)別所涉及的十大關(guān)鍵技術(shù):
1) 人臉檢測(cè),檢測(cè)出圖像中人臉?biāo)谖恢?/span>;
2) 人臉配準(zhǔn),定位出人臉上五官關(guān)鍵點(diǎn)坐標(biāo);
3) 人臉屬性識(shí)別,識(shí)別出人臉的性別、年齡、姿態(tài)、表情等屬性值;
4) 人臉特征,將一張人臉圖像轉(zhuǎn)化為可以表征人臉特點(diǎn)的特征,具體表現(xiàn)形式為一串固定長(zhǎng)度的數(shù)值;
5) 人臉比對(duì),實(shí)現(xiàn)的目的是衡量?jī)蓚€(gè)人臉之間相似度;
6) 人臉驗(yàn)證,判定兩個(gè)人臉圖是否為同一人;
7) 人臉識(shí)別,識(shí)別出輸入人臉圖對(duì)應(yīng)身份;
8) 人臉檢索,是查找和輸入人臉相似的人臉序列;
9) 人臉聚類,將一個(gè)集合內(nèi)的人臉根據(jù)身份進(jìn)行分組;
10)人臉活體,是判斷人臉圖像是來(lái)自真人還是來(lái)自攻擊假體。
基本的功能模塊圖如圖所示:
以物聯(lián)網(wǎng)、云計(jì)算大數(shù)據(jù)為代表的新一代信息技術(shù)的飛速發(fā)展,與我國(guó)新型工業(yè)化、城鎮(zhèn)化、信息化、農(nóng)業(yè)現(xiàn)代化建設(shè)深度交匯,對(duì)新一輪產(chǎn)業(yè)變革和經(jīng)濟(jì)社會(huì)綠色、智能、可持續(xù)發(fā)展具有重要意義。
目前我國(guó)已成為全球物聯(lián)網(wǎng)最大市場(chǎng),并成為產(chǎn)生和積累數(shù)據(jù)量最大、數(shù)據(jù)類型最豐富的國(guó)家之一。工業(yè)和信息化部將繼續(xù)加大投入,加強(qiáng)信息基礎(chǔ)設(shè)施建設(shè) ; 加強(qiáng)數(shù)據(jù)共享,促進(jìn)跨行業(yè)融合發(fā)展 ; 探索創(chuàng)新模式,推動(dòng)規(guī)模化應(yīng)用。加快物聯(lián)網(wǎng)與移動(dòng)互聯(lián)網(wǎng)、大數(shù)據(jù)、云計(jì)算等新業(yè)態(tài)融合創(chuàng)新,推動(dòng)信息化與實(shí)體經(jīng)濟(jì)深度融合發(fā)展,支撐制造強(qiáng)國(guó)和網(wǎng)絡(luò)強(qiáng)國(guó)建設(shè)。
而云計(jì)算、大數(shù)據(jù)與物聯(lián)網(wǎng)有著密不可分的關(guān)系,物聯(lián)網(wǎng)對(duì)應(yīng)了互聯(lián)網(wǎng)的感覺(jué)和運(yùn)動(dòng)神經(jīng)系統(tǒng)。云計(jì)算是互聯(lián)網(wǎng)的核心硬件層和核心軟件層的集合,也是互聯(lián)網(wǎng)中樞神經(jīng)系統(tǒng)萌芽。大數(shù)據(jù)代表了互聯(lián)網(wǎng)的信息層 ( 數(shù)據(jù)海洋 ),是互聯(lián)網(wǎng)智慧和意識(shí)產(chǎn)生的基礎(chǔ)。包括物聯(lián)網(wǎng),傳統(tǒng)互聯(lián)網(wǎng),移動(dòng)互聯(lián)網(wǎng)在源源不斷的向互聯(lián)網(wǎng)大數(shù)據(jù)層匯聚數(shù)據(jù)和接受數(shù)據(jù)。云計(jì)算與物聯(lián)網(wǎng)推動(dòng)大數(shù)據(jù)發(fā)展。
物聯(lián)網(wǎng)的傳感器與云計(jì)算的大數(shù)據(jù)相結(jié)合,一個(gè)提供感應(yīng),一個(gè)提供反應(yīng),在大數(shù)據(jù)的提供下進(jìn)行便利的生活,辦公。隨著物聯(lián)網(wǎng)的不斷發(fā)展,運(yùn)營(yíng)商推進(jìn)物聯(lián)網(wǎng)與云計(jì)算的融合,為實(shí)現(xiàn)通信業(yè)的快速轉(zhuǎn)型和升級(jí)做到以物聯(lián)網(wǎng)、云計(jì)算創(chuàng)新應(yīng)用為載體,對(duì)人們的衣食住行和公共安全領(lǐng)域進(jìn)行智能防護(hù),遵循科學(xué)發(fā)展觀,順應(yīng)自然發(fā)展規(guī)律,開(kāi)發(fā)使用低碳環(huán)保新能源,使得現(xiàn)代水利、電力和商業(yè)等與公眾相關(guān)的產(chǎn)業(yè)變得智能,滿足人們的需求。云計(jì)算、大數(shù)據(jù)和物聯(lián)網(wǎng)代表了 IT 領(lǐng)域最新的技術(shù)發(fā)展趨勢(shì),三者既有區(qū)別又有聯(lián)系。三者的關(guān)系如圖所示:
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供Cloudera大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢,定制開(kāi)發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢慧都在線客服,我們有專業(yè)的大數(shù)據(jù)團(tuán)隊(duì),為您提供免費(fèi)大數(shù)據(jù)相關(guān)業(yè)務(wù)咨詢!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn