学習ロードマップ
RDD / DataFrame / Spark SQL から PySpark 実装、機械学習、クエリチューニングまで、分散処理の要点を 5 冊で押さえる。
このロードマップが扱うもの
- SQL や Python は書けるが、単一マシンでは処理しきれないデータ量に直面し始めたデータエンジニア / 分析者 - Hadoop / MapReduce 時代の知識はあるが、Spark ベースの現行スタックへ移行したい中堅エンジニア - PySpark や Databricks をチームで使い始めたものの、RDD / DataFrame / Catalyst の内部動作を言語化できていない実務者
このロードマップの全体像
ロードマップ
第 1 章
RDD から Spark SQL・Streaming・MLlib までを概観する定番入門。最初に語彙とコンポーネント構成を揃え、以降の 4 冊で深掘りする土台を作る。
Python API を中心に ETL と DataFrame 操作を手を動かしながら学ぶ。1 冊目の概念を実コードに落とし、日々の業務で回す実装感覚を作る段階。
RDD の仕組み・DAG・Shuffle・SQL オプティマイザを腰を据えて解説する解説書。ここで内部構造を掴み、チューニング本を読むための基礎体力を付ける。
前処理・特徴量・モデル学習まで、現実のデータを題材にした事例集。MLlib と DataFrame を組み合わせて分析タスクに Spark を投入する型を身に付ける。
ログの読み方、パーティション設計、Skew Join / Salted Join など実運用で効く勘所を集めた一冊。遅いジョブを自力で速くできる段階へ押し上げる。