Hadoop是近年來為了大資料分析而發展出來的數據處理架構,其中的二個關鍵技術HDFS與MapReduce,建構出大資料分析的執行環境和服務。但隨著大資料分析的多元化,Hadoop並不能滿足新的需求,因此,針對Hadoop系統中的各種問題,柏克萊大學提出了全新統一的大數據處理架構Spark,創新的提出RDD概念,可視為MapReduce模型的擴充,可以實現在MapReduce不容易實現的計算工作,例如反覆運算、互動式和串流工作等 。
本課程將帶領學員了解大資料領域中Spark core 中最主要的RDD概念。以實作方式讓學員從無到有建置 Spark環境,並建立其叢集系統,獲得大資料處理的基礎能力,並進而了解各式Spark子系統的功用,並開發各式大資料分析的創新應用。
|