轉(zhuǎn)帖|使用教程|編輯:況魚杰|2020-09-07 15:32:25.837|閱讀 824 次
概述:多元回歸是六西格瑪管理中常用的一統(tǒng)計工具,它可以幫助考察多個x對y的影響,并建立可以用于預(yù)測的回歸方程。而今天將基于Minitab 19向大家介紹機器學(xué)習下的多元回歸。Minitab中已經(jīng)引入很多機器學(xué)習的算法,在Minitab 19中還加入了CART分類樹與CART回歸樹算法,但是今天的重點是多元回歸。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
相關(guān)鏈接:
多元回歸是六西格瑪管理中常用的一統(tǒng)計工具,它可以幫助考察多個x對y的影響,并建立可以用于預(yù)測的回歸方程。而今天將基于Minitab 19向大家介紹機器學(xué)習下的多元回歸。Minitab中已經(jīng)引入很多機器學(xué)習的算法,在Minitab 19中還加入了CART分類樹與CART回歸樹算法,但是今天的重點是多元回歸。
在建模的時候最不愿意看到兩種情況:過度擬合和欠擬合。使用與擬合模型相同的數(shù)據(jù)來評估模型,經(jīng)常會導(dǎo)致過度擬合,如下圖。
而這種過度擬合的模型如果用來預(yù)測的話,效果往往不好。
那么什么才算一個好的模型呢?一個好的模型需要在高方差(過度擬合)和高偏差(欠擬合)之間找到一種權(quán)衡。
上圖就是由于模型太簡單導(dǎo)致存在高的偏差。
上圖就是由于模型過度擬合導(dǎo)致存在高的方差(為什么說高方差呢?大家試想一下挪動一點試試看)。
那么如何去找到“高偏差”與“高方差”之間的權(quán)衡呢?這就需要用到“驗證”法了。
機器學(xué)習下的多元回歸把數(shù)據(jù)分為兩大類:訓(xùn)練集和測試集。訓(xùn)練集用來創(chuàng)建模型,而測試集來評估模型的性能。這樣就可以來權(quán)衡過度擬合和欠擬合的模型。
從上圖中我們可知,用訓(xùn)練集來建模時,模型越復(fù)雜模型誤差越小,但再來看看測試集你會發(fā)現(xiàn)當模型復(fù)雜到一定程度,它的誤差會隨著模型復(fù)雜度的增加而增大。也就是說,太簡單和太復(fù)雜的模型都不能很好的用來預(yù)測。這是如何做到的呢?這就要來說說機器學(xué)習中的“驗證”法了。
在Minitab 19中的回歸中,加入“驗證”按鈕,豐富了驗證的方法。
驗證法一共有三種:留一驗證法、測試集驗證法和K者交叉驗證法,下面我們一起來看看三者之間的區(qū)別。
留一驗證法
這種方法正如其名,留一留一,就是留下一行yi,再用其他所有數(shù)據(jù)來建模,得到模型后再把留下來這一行代入得到的模型就會得到對應(yīng)的擬合者,其過程如下所示:
接下來,我們計算預(yù)測的殘差平方和(Predicted Residual Sum of Squares)
有了PRESS就可以來計算R-sq(預(yù)測)了,到這里是不是很熟悉了。
測試集驗證法
隨機保留一定比例(Minitab 19默認保留30%)的數(shù)據(jù)(測試集),用剩余的數(shù)據(jù)來擬合模型(訓(xùn)練集)。
用測試集數(shù)據(jù)計算誤差,基于測試集數(shù)據(jù)的誤差統(tǒng)計匯總信息選擇模型。
另外,此時的殘差分析也有點不同。
K折交叉驗證法
將數(shù)據(jù)拆分為K個子集或份,以其中一份為測試數(shù)據(jù),其它K-1份用于訓(xùn)練數(shù)據(jù)來擬合模型。使用測試數(shù)據(jù)計算誤差,重復(fù)k次,每次忽略一份,基于測試數(shù)據(jù)誤差統(tǒng)計匯總信息選擇模型。
這三種驗證方法,留一法比較實用于小樣本,測試集驗證和K折交叉驗證比較實用于大樣本(在Minitab 19的CART分類樹和CART回歸樹中,當數(shù)據(jù)行數(shù)小于等于 5000 時,K 折交叉驗證方法為默認方法)。另外,在Logistic回歸中僅使用測試集驗證法。
最后,如果您感興趣,不妨再去試試Minitab 19中的逐步回歸,您也會有新發(fā)現(xiàn)哦!
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自:Minitab Users Group ,何茂林