Spark でビッグデータ処理

このロードマップの全体像

対象読者

SQL や Python は書けるが、単一マシンでは処理しきれないデータ量に直面し始めたデータエンジニア / 分析者
Hadoop / MapReduce 時代の知識はあるが、Spark ベースの現行スタックへ移行したい中堅エンジニア
PySpark や Databricks をチームで使い始めたものの、RDD / DataFrame / Catalyst の内部動作を言語化できていない実務者

5 冊で到達する状態

RDD・DataFrame・Dataset・Spark SQL の使い分けを、処理特性とオプティマイザの観点から説明できる
PySpark で ETL / 集計パイプラインを書き、Jupyter 上で反復的に検証できる
MLlib を使った前処理・特徴量エンジニアリング・モデル学習の定型パターンを組める
Stage / Task / Shuffle / パーティション設計を読み解き、遅いジョブの原因を切り分けられる
Skew Join・Salted Join・ブロードキャスト結合など、大規模ジョブ固有のチューニング手筋を持つ

進め方のヒント

1 冊目で全体像、2 冊目で Python からの実装感を掴んでから、3 冊目で RDD とエンジン内部に戻ると理解が立体化する
ローカルの Spark やクラウドの無料枠を用意し、章末サンプルを必ず 1 度は動かす
4 冊目以降は Spark UI の Stage / Executor タブを並べて読み、教科書の説明と実ログを突き合わせる

この道で読む 5 冊（購入）

読む順に並べています。まずは1冊目から始めましょう。

まず読む1冊

初めてのSpark

RDD から Spark SQL・Streaming・MLlib までを概観する定番入門。最初に語彙とコンポーネント構成を揃え、以降の 4 冊で深掘りする土台を作る。

楽天ブックス → Amazon 紙版 → 紀伊國屋書店 → honto →

Amazonアソシエイトおよび楽天アフィリエイト等の広告リンクを含みます。Amazonのアソシエイトとして tech-book.net は適格販売により収入を得ています。詳細

続けて読む

2
PySpark と Jupyter で実装を始める入門PySpark : PythonとJupyterで活用するSpark2エコシステム

楽天ブックス → Amazon 紙版 → 紀伊國屋書店 → honto →
Amazonアソシエイトおよび楽天アフィリエイト等の広告リンクを含みます。Amazonのアソシエイトとして tech-book.net は適格販売により収入を得ています。詳細
3
RDD と実行モデルを基礎から徹底解説する一冊詳解Apache　Spark : 大規模データ分析を基礎から、徹底的に

楽天ブックス → Amazon 紙版 → Kindle → 紀伊國屋書店 → honto →
Amazonアソシエイトおよび楽天アフィリエイト等の広告リンクを含みます。Amazonのアソシエイトとして tech-book.net は適格販売により収入を得ています。詳細
4
機械学習ユースケースで応用力を鍛える事例集 Sparkによる実践データ解析 : 大規模データのための機械学習事例集

楽天ブックス → Amazon 紙版 → 紀伊國屋書店 → honto →
Amazonアソシエイトおよび楽天アフィリエイト等の広告リンクを含みます。Amazonのアソシエイトとして tech-book.net は適格販売により収入を得ています。詳細
5
Skew / Salted Join までのチューニング【POD】Apache Spark ビッグデータクエリチューニング

楽天ブックス → Amazon 紙版 → Kindle → 紀伊國屋書店 → honto →
Amazonアソシエイトおよび楽天アフィリエイト等の広告リンクを含みます。Amazonのアソシエイトとして tech-book.net は適格販売により収入を得ています。詳細

対象読者

5 冊で到達する状態

進め方のヒント

5 つのステップで読み進める

Spark 全体像をつかむ定番総合入門書

Spark 全体像をつかむ定番総合入門書

PySpark と Jupyter で実装を始める

RDD と実行モデルを基礎から徹底解説する一冊

機械学習ユースケースで応用力を鍛える事例集

Skew / Salted Join までのチューニング

この道で読む 5 冊（購入）

続けて読む

Spark でビッグデータ処理

対象読者

5 冊で到達する状態

進め方のヒント

Spark 全体像をつかむ定番総合入門書

Spark 全体像をつかむ定番総合入門書

PySpark と Jupyter で実装を始める

RDD と実行モデルを基礎から徹底解説する一冊

機械学習ユースケースで応用力を鍛える事例集

Skew / Salted Join までのチューニング

この道で読む 5 冊（購入）

続けて読む

次に読むロードマップ

Python でデータ分析・機械学習

アルゴリズムとデータ構造

データ可視化のすすめ

ゼロから機械学習

実践 NLP(自然言語処理)

pandas / NumPy 完全活用