翻譯|使用教程|編輯:龔雪|2019-05-13 17:52:28.537|閱讀 591 次
概述:Microsoft SQL Server 是一款非常強大的關系型數據庫管理系統。日前,Microsoft公司公布最新版SQL Server 2019(預覽版)!此版本包含來自 CTP 歷史版本的改進功能,可修復 bug、增強安全性和優化性能。
# 界面/圖表報表/文檔/IDE等千款熱門軟控件火熱銷售中 >>
Microsoft SQL Server 是一款非常強大的關系型數據庫管理系統。日前,Microsoft公司公布最新版SQL Server 2019(預覽版)!此版本包含來自 CTP 歷史版本的改進功能,可修復 bug、增強安全性和優化性能。
SQL Server 2019 大數據集群是其中一項重大改進。SQL Server 2019 大數據集群使您可以使用您選擇的軟件來適應大數據的機器學習模型,并使用這些模型來執行評分。事實上,流行的開源大數據框架Apache Spark TM現已內置!Apache Spark TM包含MLlib機器學習庫,開源社區開發了大量附加軟件包,這些軟件包集成并擴展了Apache Spark TM和MLlib。
手動選擇和調整機器學習模型需要熟悉各種模型類型,并且可能費力且耗時。最近推出了用于自動化該過程的軟件,使新手和專家數據科學家和ML工程師免除了手動模型選擇和調整帶來的大部分負擔。
H2O為大數據提供了流行的開源軟件,用于數據科學和機器學習,包括Apache Spark TM集成。它提供了兩個開源的python AutoML類:h2o.automl.H2OAutoML和pysparkling.ml.H2OAutoML。兩個API都使用相同的底層算法實現,但后者遵循Apache Spark的MLlib庫的約定,并允許您構建包含MLlib變換器的機器學習管道。我們將在這篇文章中關注后一種API。
H2OAutoML可以自動將訓練數據分成訓練,驗證和排行榜框架。h2o.automl.H2OAutoML API還允許手動指定這些幀,這在任務是使用歷史數據訓練模型預測未來時非常有用。
H2OAutoML生成的模型可以持久保存到磁盤,用于Apache Spark TM集群中的預測/評分,在單個節點上運行的Apache Spark TM中以本地模式使用,或者在具有必要庫的Java虛擬機(JVM)中使用在CLASSPATH上。這些選項將允許在Apache Spark TM內的SQL Server 2019大數據集群中,在Transact-SQL存儲過程中進行批量和實時評分,或部署為應用程序。
我們現在可以在連接到SQL Server 2019大數據集群的Azure Data Studio中運行Apache Spark TM notebook示例。【點擊查看notebook完整示例】
在這里,您將定義一個建模管道,將其擬合到訓練數據上,并使用它來生成對測試數據的預測。在我們的示例中,我們設置maxModels = 2,這導致兩個基于樹的模型和兩個(相同的)堆疊集合模型。這足以用于演示目的,但在實踐中,您應該允許H2OAutoML探索更多模型以實現最佳預測指標。如果您只是省略maxModels參數,那么H2OAutoML將探索最大maxRuntimeSecs的模型,默認為3600秒(1小時)。
使用SQL Server 2019,您不僅可以自動選擇和調整機器學習模型,還可以輕松擴展和監控大數據集群。
使用SQL Server 2019大數據集群,可以利用大量計算和內存資源快速高效地大規模處理數據。要擴展到大數據,您可以配置以下參數:(設置這些參數的詳細信息包含在示例notebook中)
SQL Server 2019大數據集群包括用于監視和診斷的強大工具。示例筆記本包含有關訪問以下圖形用戶界面的說明,以便在Apache Spark TM中監視,控制和排除運行:
監控H2O工作進度和發動機狀態
在本文中,我們已經了解到SQL Server在2019年預覽版中獲得了強大的新功能,并學習了如何使用內置的Apache Spark TM在大數據上運行機器學習工作負載,并能夠利用額外的包您可以選擇H2O的自動化機器學習軟件。同時我們瀏覽了一個示例Apache Spark TM筆記本,用于自動化機器學習,可以在Azure Data Studio中針對SQL Server 2019大數據集群運行。
想要獲取更多Microsoft SQL Server 2019教程資源,可在評論區留言,或點擊查看資源列表。
本站文章除注明轉載外,均為本站原創或翻譯。歡迎任何形式的轉載,但請務必注明出處、不得修改原文相關鏈接,如果存在內容上的異議請郵件反饋至chenjj@fc6vip.cn