原創(chuàng)|大數(shù)據(jù)新聞|編輯:蔣永|2019-03-05 15:18:28.000|閱讀 297 次
概述:在本文中,第一部分將首先將介紹深度學(xué)習(xí)及其基礎(chǔ),作為我們學(xué)習(xí)的第一部分。第二部分,我們將介紹 Cloudera 數(shù)據(jù)和機(jī)器學(xué)習(xí)的統(tǒng)一平臺(tái),并提供六個(gè)實(shí)用技巧,幫助您的組織開始進(jìn)行深度學(xué)習(xí)。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
如今大家都在說深度學(xué)習(xí)。
人們往往為技術(shù)而興奮。但深度學(xué)習(xí)是企業(yè)用來解決實(shí)際問題的工具。僅此而已, 毋庸夸大,也無需貶低。
在本文中,第一部分將首先將介紹深度學(xué)習(xí)及其基礎(chǔ),作為我們學(xué)習(xí)的第一部分。第二部分,我們將介紹 Cloudera 數(shù)據(jù)和機(jī)器學(xué)習(xí)的統(tǒng)一平臺(tái),并展示實(shí)施深度學(xué)習(xí)的四種方法。
最后,我們提供六個(gè)實(shí)用技巧,幫助您的組織開始進(jìn)行深度學(xué)習(xí)。
機(jī)器學(xué)習(xí)是一組算法和方法用以發(fā)現(xiàn)數(shù)據(jù)中有用的模式。數(shù)據(jù)科學(xué)家有數(shù)百種不同的算法可用,包括:
神經(jīng)網(wǎng)絡(luò)是一類機(jī)器學(xué)習(xí)技術(shù)。 20 世紀(jì) 40 年代由神經(jīng)科學(xué)家開發(fā),以模擬人類和動(dòng)物大腦的行為,數(shù)據(jù)科學(xué)家在許多不同的業(yè)務(wù)應(yīng)用中使用它們。它們包含在一些開源軟件庫和商業(yè)軟件包中。
如果具有特定的屬性,神經(jīng)網(wǎng)絡(luò)是有“深度”的,我們將在下文深度學(xué)習(xí) 101 中進(jìn) 行討論。“深度學(xué)習(xí)”是指數(shù)據(jù)科學(xué)家用來訓(xùn)練和部署深層神經(jīng)網(wǎng)絡(luò)的工具和方法。 這些技術(shù)可追溯到20世紀(jì)80年代;然而,其應(yīng)用由于計(jì)算復(fù)雜性和所需資源而滯后。 降低的計(jì)算成本,數(shù)字化數(shù)據(jù)的大量涌現(xiàn)和改進(jìn)的算法使深度學(xué)習(xí)在當(dāng)今變得可行。
深度學(xué)習(xí)成為一個(gè)有用的工具是當(dāng)實(shí)踐者成功地使用它在諸如文件分析和識(shí)別、 交通標(biāo)志識(shí)別、醫(yī)學(xué)成像和生物信息學(xué)等領(lǐng)域贏得競爭。當(dāng)今,數(shù)據(jù)科學(xué)家們將 深度學(xué)習(xí)應(yīng)用于各種實(shí)際問題:
深度學(xué)習(xí)是一種成熟的技術(shù),是數(shù)字轉(zhuǎn)型的關(guān)鍵驅(qū)動(dòng)力。隨著管理人員更多地了 解其成功的應(yīng)用,對工具和基礎(chǔ)架構(gòu)的需求將會(huì)全面激增。
在本節(jié)中,我們將簡要介紹神經(jīng)網(wǎng)絡(luò)和深度學(xué)習(xí)。有關(guān)更詳細(xì)的處理,請參閱本 文末尾附加閱讀部分中鏈接內(nèi)容。
數(shù)據(jù)科學(xué)家使用神經(jīng)網(wǎng)絡(luò)指定一個(gè)問題作為節(jié)點(diǎn)網(wǎng)絡(luò),或神經(jīng)元,以分層布置。 定向圖將節(jié)點(diǎn)彼此連接。數(shù)據(jù)科學(xué)家使用一個(gè)優(yōu)化算法來找到模型的最優(yōu)參數(shù)集, 例如連接節(jié)點(diǎn)的邊緣的權(quán)重。
人造神經(jīng)網(wǎng)絡(luò)中的神經(jīng)元接受來自其他神經(jīng)元的數(shù)據(jù)作為輸入。他們用數(shù)學(xué)函數(shù) 處理數(shù)據(jù)以產(chǎn)生計(jì)算結(jié)果。數(shù)據(jù)科學(xué)家指定神經(jīng)元應(yīng)用于輸入數(shù)據(jù)的功能類型。
在人工神經(jīng)網(wǎng)絡(luò)中,數(shù)據(jù)科學(xué)家將神經(jīng)元分層布置。人工神經(jīng)網(wǎng)絡(luò)中有三種類型 的層。輸入層中的神經(jīng)元接受數(shù)據(jù),而輸出層中的神經(jīng)元呈現(xiàn)模型計(jì)算的結(jié)果。 神經(jīng)網(wǎng)絡(luò)的輸入和輸出層代表真實(shí)世界的事實(shí):輸入層表示數(shù)據(jù)向量,輸出層表 示我們想要預(yù)測、分類或推斷的對象。例如,在圖像分類問題中,輸入是位映射 圖像數(shù)據(jù)的向量,輸出是指示圖像表示什么的標(biāo)簽 -- 例如“貓”。
隱藏層中的神經(jīng)元執(zhí)行中間計(jì)算。隱藏層是不可直接解釋的抽象;它們僅僅用于 提高模型的質(zhì)量。隱藏層可以使神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)任意復(fù)雜的功能。
如果人工神經(jīng)網(wǎng)絡(luò)具有兩個(gè)或更多隱藏層,則它是一個(gè)深度神經(jīng)網(wǎng)絡(luò)。
數(shù)據(jù)科學(xué)家使用術(shù)語“架構(gòu)”來描述指定神經(jīng)網(wǎng)絡(luò)的不同方法。有許多不同的神 經(jīng)網(wǎng)絡(luò)架構(gòu),其特征在于拓?fù)浣Y(jié)構(gòu)、信息流動(dòng)、數(shù)學(xué)功能和訓(xùn)練方法。一些廣泛 使用的設(shè)計(jì)包括:
例如,在圖像識(shí)別中,一個(gè)神經(jīng)元表示圖像中的一個(gè)像素。在卷積網(wǎng)絡(luò)中,該神經(jīng)元可以連接到代表周圍像素的神經(jīng)元,而不是連接到代表圖像的遠(yuǎn)角中的像素的神經(jīng)元。
還有許多其他類型的神經(jīng)網(wǎng)絡(luò),包括徑向基函數(shù)網(wǎng)絡(luò)、限制波爾茲曼機(jī)器、深度 信念網(wǎng)絡(luò)、深度自動(dòng)編碼器、遞歸神經(jīng)網(wǎng)絡(luò)和堆疊去噪自動(dòng)編碼器。
神經(jīng)網(wǎng)絡(luò)中的每個(gè)數(shù)學(xué)函數(shù)具有一個(gè)或多個(gè)參數(shù)或權(quán)重。參數(shù)的數(shù)量隨模型的大 小和復(fù)雜程度而增加;在一個(gè)極端的例子中,Cloudera 合作伙伴 Digital Reasoning報(bào)告了用 1600 萬個(gè)參數(shù)來訓(xùn)練自然語言處理網(wǎng)絡(luò)。一個(gè)大的計(jì)算問題需要一個(gè)高效的優(yōu)化算法,如隨機(jī)梯度下降或 L-BFGS。
數(shù)據(jù)科學(xué)家通過運(yùn)行具有訓(xùn)練數(shù)據(jù)的優(yōu)化算法來訓(xùn)練神經(jīng)網(wǎng)絡(luò)。對于預(yù)測和推理 問題,訓(xùn)練數(shù)據(jù)包括具有已知結(jié)果的歷史示例。優(yōu)化算法確定一組預(yù)測誤差最小 化的參數(shù)。
大模型需要大量數(shù)據(jù)。例如,完成 ImageNet 基準(zhǔn)測試的微軟團(tuán)隊(duì)使用了 130 萬張圖像的數(shù)據(jù)。
像所有機(jī)器學(xué)習(xí)技術(shù)一樣,當(dāng)組織機(jī)構(gòu)將訓(xùn)練過的模型應(yīng)用于新的信息時(shí),人工 神經(jīng)網(wǎng)絡(luò)可以提供業(yè)務(wù)價(jià)值。數(shù)據(jù)科學(xué)家稱之為推論。推論與訓(xùn)練正好相反。在 訓(xùn)練任務(wù)中,數(shù)據(jù)科學(xué)家使用一系列廣泛的歷史樣本與已知的結(jié)果來估計(jì)模型的 參數(shù)。推論使用經(jīng)過訓(xùn)練的模型來預(yù)測或者推算未知。
深度學(xué)習(xí)有兩個(gè)關(guān)鍵優(yōu)勢,使其與其他機(jī)器學(xué)習(xí)技術(shù)區(qū)分開。其中第一個(gè)是特征 學(xué)習(xí)。用其他的技術(shù),數(shù)據(jù)科學(xué)家需要手動(dòng)轉(zhuǎn)換特征以通過特定算法獲得最佳結(jié)果。 這個(gè)過程需要時(shí)間,也需要大量的猜測。相比之下,深度學(xué)習(xí)從多層次的輸入數(shù) 據(jù)中學(xué)習(xí)更高層次的抽象。數(shù)據(jù)科學(xué)家不用猜測如何組合、重新編碼或總結(jié)輸入。
此外,深度學(xué)習(xí)還可以檢測表面上看不見的變量之間的相互作用。它可以檢測非線 性相互作用并近似任意函數(shù)。雖然可以使用更簡單的方法來適應(yīng)互動(dòng)效應(yīng),但是這 些方法需要手動(dòng)指定和數(shù)據(jù)科學(xué)家的更多猜測。深度學(xué)習(xí)會(huì)自動(dòng)學(xué)習(xí)這些關(guān)系。
特征學(xué)習(xí)和檢測復(fù)雜關(guān)系的能力往往使深度學(xué)習(xí)成為某些類型數(shù)據(jù)的不錯(cuò)選擇:
高基數(shù)結(jié)果。對于諸如語音識(shí)別和圖像識(shí)別等問題,學(xué)習(xí)者必須區(qū)分大量離散類別。(例如,語言識(shí)別應(yīng)用程序必須在英語中區(qū)分近 20 萬個(gè)單詞。)數(shù)學(xué)家稱此屬性為基數(shù)。傳統(tǒng)的機(jī)器學(xué)習(xí)技術(shù)往往在這個(gè)任務(wù)中失敗;深度學(xué)習(xí)可以解決成千上萬的元素的分類問題。
高維數(shù)據(jù)。在諸如視頻分析、粒子物理或基因組分析等問題中,數(shù)據(jù)集可以具有數(shù)十億個(gè)特征。深度學(xué)習(xí)可以工作于這樣大量的“寬”數(shù)據(jù)集。
未標(biāo)記數(shù)據(jù)。標(biāo)簽提供有關(guān)數(shù)據(jù)包的有價(jià)值的信息。例如,圖像可以攜帶標(biāo)簽“貓”。對于無監(jiān)督學(xué)習(xí),深度學(xué)習(xí)可工作于缺少信息標(biāo)簽的數(shù)據(jù)(例如位映射圖像)。
與其他機(jī)器學(xué)習(xí)技術(shù)相比,深度學(xué)習(xí)也有一些缺點(diǎn)。
技術(shù)挑戰(zhàn)。深度學(xué)習(xí)是一個(gè)復(fù)雜的過程,需要實(shí)施者做許多選擇。這些選項(xiàng)包括 網(wǎng)絡(luò)拓?fù)洹鬟f函數(shù)、激活函數(shù)和訓(xùn)練算法等。方法和最佳實(shí)踐才剛剛出現(xiàn);數(shù) 據(jù)科學(xué)家經(jīng)常依靠試錯(cuò)來發(fā)現(xiàn)湊效的模型。因此,深度學(xué)習(xí)模式往往比簡單和成 熟的技術(shù)花費(fèi)更多的時(shí)間。
不透明。通過模型參數(shù)的檢查,深度學(xué)習(xí)模型很難或不可能解釋。這樣的模型可 能有很多隱藏層,沒有“真實(shí)世界”的指象。數(shù)據(jù)科學(xué)家通過衡量它的預(yù)測效果 來評估模型,將其內(nèi)部結(jié)構(gòu)視為“黑匣子”。
過度擬合。像許多其他機(jī)器學(xué)習(xí)技術(shù)一樣,深度學(xué)習(xí)易于過度擬合,傾向于“學(xué)習(xí)” 訓(xùn)練數(shù)據(jù)的特征而不將整體推廣到整個(gè)人群。輟學(xué)和正則化技術(shù)可以幫助防止這 個(gè)問題。與任何機(jī)器學(xué)習(xí)技術(shù)一樣,組織機(jī)構(gòu)應(yīng)該對模型進(jìn)行測試和驗(yàn)證,并使 用獨(dú)立于訓(xùn)練數(shù)據(jù)集的數(shù)據(jù)來評估準(zhǔn)確性。
計(jì)算密集型。訓(xùn)練深度學(xué)習(xí)模型可能需要數(shù)十億次計(jì)算。雖然可以在常規(guī)硬件上 執(zhí)行此任務(wù),但一些行業(yè)分析師建議使用專門的 GPU 加速平臺(tái)。這個(gè)硬件不便宜。 此外,由于對高性能機(jī)器的需求,一些客戶報(bào)告訂單和延長的交貨時(shí)間。
部署問題。深度學(xué)習(xí)模型是復(fù)雜的,這使得它們更難部署在生產(chǎn)系統(tǒng)中。由于模 型的不透明度,組織機(jī)構(gòu)可能需要實(shí)施其他措施來向用戶進(jìn)行說明。
看到這里,你對深入學(xué)習(xí)有沒有新的認(rèn)識(shí)呢?如果感興趣可以關(guān)注我們慧都大數(shù)據(jù),在后面的學(xué)習(xí)中我們將介紹Cloudera數(shù)據(jù)和機(jī)器學(xué)習(xí)的統(tǒng)一平臺(tái),并展示實(shí)施深度學(xué)習(xí)的四種方法,以及提供六個(gè)實(shí)用技巧,幫助您的組織開始進(jìn)行深度學(xué)習(xí)。
慧都大數(shù)據(jù)專業(yè)團(tuán)隊(duì)為企業(yè)提供Cloudera大數(shù)據(jù)平臺(tái)搭建,免費(fèi)業(yè)務(wù)咨詢,定制開發(fā)等完整服務(wù),快速、輕松、低成本將任何Hadoop集群從試用階段轉(zhuǎn)移到生產(chǎn)階段。
歡迎撥打慧都熱線023-68661681或咨詢,我們將幫您轉(zhuǎn)接大數(shù)據(jù)專家團(tuán)隊(duì),并發(fā)送相關(guān)行業(yè)資料給您!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn