翻譯|使用教程|編輯:況魚(yú)杰|2020-06-10 11:54:34.703|閱讀 824 次
概述:過(guò)度擬合模型是執(zhí)行回歸分析時(shí)需要注意的一個(gè)實(shí)際問(wèn)題。 過(guò)擬合模型會(huì)導(dǎo)致誤導(dǎo)回歸系數(shù),p值和R平方統(tǒng)計(jì)量。 沒(méi)有人希望如此。本文將會(huì)研究一下什么是過(guò)擬合模型,以及如何避免掉入過(guò)擬合陷阱。
# 界面/圖表報(bào)表/文檔/IDE等千款熱門(mén)軟控件火熱銷(xiāo)售中 >>
相關(guān)鏈接:
Minitab Statistical Software是一款無(wú)與倫比的可視化統(tǒng)計(jì)分析軟件,它會(huì)審視當(dāng)前及過(guò)往的數(shù)據(jù),以找出趨勢(shì)并預(yù)測(cè)規(guī)律、發(fā)現(xiàn)變量之間隱藏的關(guān)系、可視化數(shù)據(jù)交互作用并識(shí)別重要因素,從而解答最棘手的問(wèn)題、應(yīng)對(duì)最嚴(yán)峻的難題。
過(guò)度擬合模型是執(zhí)行回歸分析時(shí)需要注意的一個(gè)實(shí)際問(wèn)題。 過(guò)擬合模型會(huì)導(dǎo)致誤導(dǎo)回歸系數(shù),p值和R平方統(tǒng)計(jì)量。 沒(méi)有人希望如此。本文將會(huì)研究一下什么是過(guò)擬合模型,以及如何避免掉入過(guò)擬合陷阱。
簡(jiǎn)而言之,對(duì)于您正在分析的數(shù)據(jù)而言,過(guò)擬合模型過(guò)于復(fù)雜。 過(guò)度擬合回歸模型可以反映您所收集的特定樣本的噪聲,異常和隨機(jī)特征,而不是完全反映整個(gè)種群。 發(fā)生這種情況時(shí),過(guò)擬合模型不太可能擬合另一個(gè)來(lái)自相同總體的隨機(jī)樣本,而后者可能會(huì)有其自身的怪癖。
一個(gè)好的模型不僅應(yīng)該適合您擁有的樣本,還應(yīng)該適合您從相同總體中收集的任何新樣本。有關(guān)過(guò)度擬合回歸模型的危險(xiǎn)的示例,請(qǐng)查看以下擬合線圖:
即使此模型看起來(lái)可以解釋響應(yīng)中的很多變化,但對(duì)于此樣本數(shù)據(jù)而言,它太復(fù)雜了。在總體中,如此處詳細(xì)說(shuō)明的那樣,在預(yù)測(cè)變量和此響應(yīng)之間沒(méi)有真正的關(guān)系。
推論統(tǒng)計(jì)基礎(chǔ)
為了更深入地了解過(guò)度擬合的問(wèn)題,讓我們回顧一下推理統(tǒng)計(jì)的基本概念,在該概念中,可以嘗試從隨機(jī)樣本中得出有關(guān)總體的結(jié)論。樣本數(shù)據(jù)用于提供總體參數(shù)和關(guān)系的無(wú)偏估計(jì),還用于檢驗(yàn)關(guān)于總體的假設(shè)。
在推論統(tǒng)計(jì)中,樣本的大小會(huì)影響您可以收集的有關(guān)總體的信息量。如果您想了解更多信息,則需要更大的樣本量。試圖從一個(gè)小樣本中獲取太多信息并不能很好地工作。
例如,樣本量為20,您可能會(huì)很好地估計(jì)出單個(gè)總體平均值。但是用總樣本量為20來(lái)估計(jì)兩個(gè)總體均值是一個(gè)風(fēng)險(xiǎn)較高的主張。如果您想用相同的樣本估算三個(gè)或更多的總體均值,則得出的任何結(jié)論都是非常粗略的。
換句話說(shuō),嘗試從樣本中學(xué)習(xí)太多會(huì)導(dǎo)致結(jié)果不如我們所希望的可靠。在此示例中,隨著每個(gè)參數(shù)的觀察值從20減少到10到6.7甚至更多,參數(shù)估計(jì)將變得更加不可靠。一個(gè)新樣本可能會(huì)產(chǎn)生不同的參數(shù)估計(jì)值。
樣本量如何與過(guò)擬合模型相關(guān)
同樣,過(guò)度擬合回歸模型的原因是試圖從太小的樣本中估計(jì)太多的參數(shù)。在回歸中,使用單個(gè)樣本來(lái)估計(jì)模型中所有項(xiàng)的系數(shù)。這包括每個(gè)預(yù)測(cè)變量,交互作用和多項(xiàng)式項(xiàng)。結(jié)果,可以安全容納的術(shù)語(yǔ)數(shù)取決于樣本的大小。
較大的樣本允許使用更復(fù)雜的模型,因此,如果您要研究的問(wèn)題或過(guò)程非常復(fù)雜,則需要足夠大的樣本量來(lái)支持這種復(fù)雜性。由于樣本量不足,您的模型將不可靠。
因此,您的樣本需要針對(duì)每個(gè)術(shù)語(yǔ)進(jìn)行足夠的觀察。在多元線性回歸中,每項(xiàng)10-15個(gè)觀察值是一個(gè)很好的經(jīng)驗(yàn)法則。因此,具有兩個(gè)預(yù)測(cè)變量且具有交互作用的模型將需要30到45個(gè)觀察值,如果您具有較高的多重共線性或較小的效應(yīng)量,則可能需要更多觀察值。
避免過(guò)擬合模型
您可以通過(guò)交叉驗(yàn)證來(lái)檢測(cè)過(guò)度擬合-確定模型對(duì)新觀測(cè)值的適應(yīng)程度。對(duì)數(shù)據(jù)進(jìn)行分區(qū)是一種評(píng)估模型如何擬合未用于估計(jì)模型的觀測(cè)值的方法。
對(duì)于線性模型,Minitab會(huì)計(jì)算預(yù)測(cè)的R平方,這是一種不需要單獨(dú)樣本的交叉驗(yàn)證方法。為了計(jì)算預(yù)測(cè)的R平方,Minitab會(huì)系統(tǒng)地從數(shù)據(jù)集中刪除每個(gè)觀察值,估計(jì)回歸方程,并確定模型對(duì)移除的觀察值的預(yù)測(cè)程度。
在預(yù)測(cè)刪除的觀察結(jié)果時(shí)表現(xiàn)不佳的模型可能符合樣本中的特定數(shù)據(jù)點(diǎn),并且不能推廣到全部人群。
過(guò)度擬合問(wèn)題的最佳解決方案是避免。確定重要變量并考慮可能要指定的模型,然后提前計(jì)劃以收集足夠大的樣本來(lái)處理您的響應(yīng)變量可能需要的所有預(yù)測(cè)變量,交互作用和多項(xiàng)式項(xiàng)。
對(duì)Minitab的更多應(yīng)用感興趣嗎?聯(lián)系在線客服了解更多產(chǎn)品詳情。
本站文章除注明轉(zhuǎn)載外,均為本站原創(chuàng)或翻譯。歡迎任何形式的轉(zhuǎn)載,但請(qǐng)務(wù)必注明出處、不得修改原文相關(guān)鏈接,如果存在內(nèi)容上的異議請(qǐng)郵件反饋至chenjj@fc6vip.cn
文章轉(zhuǎn)載自:minitab