学習ロードマップ

データエンジニアリング入門

ETL / パイプライン / DWH / レイクハウスまで、データ基盤の全体像と実装勘所を 5 冊で押さえる。

[増補改訂]ビッグデータを支える技術 --ラップトップ1台で学ぶデータ基盤のしくみ データエンジニアリングの基礎 : データプロジェクトで失敗しないために Pythonデータエンジニアリング入門 : 高速化とデバイスデータアクセスの基本と応用 アジャイルデータモデリング 組織にデータ分析を広めるためのテーブル設計ガイド 実践Apache Iceberg -- 高効率・高生産性を実現するオープンなデータ基盤の構築と運用
SCROLL TO BEGIN

このロードマップが扱うもの

- SQL Python / - - ETL Lakehouse

このロードマップの全体像

対象読者

  • SQL と Python は書けるが、データ基盤の全体像が見えていないアナリスト / ソフトウェアエンジニア
  • 分析クエリは叩けるものの、収集・蓄積・加工の裏側を体系立てて説明できない実務者
  • 既存の ETL 運用に疲弊し、モダンなデータスタックや Lakehouse へ舵を切りたいチームリード

5 冊で到達する状態

  • 収集・蓄積・加工・提供というデータライフサイクルを自分の言葉で設計できる
  • バッチ / ストリーミング / OLAP の役割分担を理解し、ワークロードに応じて技術選定できる
  • ディメンショナルモデリングに基づき、分析に耐えるテーブル設計をレビューできる
  • S3 + Iceberg + 分散クエリエンジンによるレイクハウス構成の読み書きができる
  • SLA・データ品質・コストを意識したパイプライン運用ポリシーを言語化できる

進め方のヒント

  • 1 冊目で全体像を掴んでから 2 冊目の原理書に入ると、用語の迷子になりにくい
  • 3 冊目の実装ネタは、手元の小さな CSV やセンサデータで写経し肌感を作る
  • 4 冊目のモデリングは、自社の既存テーブルを題材に「なぜこの粒度か」を書き出す訓練が効く
  • 5 冊目は S3 互換ストレージ + Spark もしくは Trino で最小構成を動かしながら読む

ロードマップ

5 つのステップで読み進める

  1. 01
    ステップ 01 データ基盤の全体像を俯瞰する定番入門
    [増補改訂]ビッグデータを支える技術 --ラップトップ1台で学ぶデータ基盤のしくみ
  2. 02
    ステップ 02 ライフサイクル起点の原理原則書
    データエンジニアリングの基礎 : データプロジェクトで失敗しないために
  3. 03
    ステップ 03 Python で現場の実装勘所を掴む
    Pythonデータエンジニアリング入門 : 高速化とデバイスデータアクセスの基本と応用
  4. 04
    ステップ 04 分析に耐える DWH テーブル設計術
    アジャイルデータモデリング 組織にデータ分析を広めるためのテーブル設計ガイド
  5. 05
    ステップ 05 Iceberg で挑むレイクハウス運用
    実践Apache Iceberg -- 高効率・高生産性を実現するオープンなデータ基盤の構築と運用

第 1 章

データ基盤の全体像を俯瞰する定番入門

  1. データ基盤の全体像を俯瞰する定番入門

    収集・蓄積・加工・可視化までデータ基盤の構成要素を手を動かしながら掴む 1 冊目。用語と技術マップをここで揃えロードマップの下敷きにする。

    [増補改訂]ビッグデータを支える技術 --ラップトップ1台で学ぶデータ基盤のしくみ
    この章の 1 冊 [増補改訂]ビッグデータを支える技術 --ラップトップ1台で学ぶデータ基盤のしくみ

    業務系からWeb/IoT系まで、データ基盤技術の全体像を体系的に理解する

    この本で身につくこと
    • 業務系RDBバッチ処理とWeb/IoT系分散ログ処理という2つの源流がどのように融合してモダンなデータ基盤を形成しているかを説明できる
    • 分散処理の基本概念(スケールアウト、シャーディング、レプリケーション)を歴史的経緯から理解し、設計判断に活かせる
    • データ収集・変換・蓄積・可視化の一連のパイプライン構造を、オープンソースツールを使って実際に動かす経験を得られる
    • 機械学習・特徴量ストア・MLOpsの概念と、データ基盤との接続点を把握できる

    想定読者: データ基盤に関わりはじめたエンジニアや、RDB中心の経験からビッグデータ領域に踏み出したいバックエンドエンジニア。ラップトップ1台で実際に手を動かしながら概念と実装の両方を把握したい人に向く。

    本の詳細を見る →
  2. ライフサイクル起点の原理原則書

    生成から提供までのデータエンジニアリングライフサイクルを体系化した教科書。1 冊目の部品知識を設計原則として再編し判断軸に変える。

    データエンジニアリングの基礎 : データプロジェクトで失敗しないために
    この章の 1 冊 データエンジニアリングの基礎 : データプロジェクトで失敗しないために

    データエンジニアリングライフサイクルを軸に組織のデータ基盤を設計・運用する

    この本で身につくこと
    • データエンジニアリングライフサイクル(生成・ストレージ・取り込み・変換・配信)の各フェーズで発生する技術的選択肢とトレードオフを説明できる
    • データウェアハウス・データレイク・データレイクハウスの設計哲学の違いと、組織のデータ成熟度に応じた選択基準を理解できる
    • バッチとストリーミングの取り込みパターン、スキーマ進化・遅延データ・エラーハンドリングの実務上の選択肢を整理できる
    • データメッシュ・Lambda/Kappa アーキテクチャ等のパターンを特徴・適合条件から選べる

    想定読者: データ基盤の構築・運用を担い始めたエンジニア、またはアナリスト・データサイエンティストからデータエンジニアリング領域へ軸足を移したい人。ツール選定の判断軸や組織内での役割定義に悩んでいる人に特に向く

    本の詳細を見る →
  3. Python で現場の実装勘所を掴む

    高速化・通信・センサ連携など現場のパイプライン実装を Python で触る応用編。設計論を具体コードに落とし込むフェーズに据える。

    Pythonデータエンジニアリング入門 : 高速化とデバイスデータアクセスの基本と応用
    この章の 1 冊 Pythonデータエンジニアリング入門 : 高速化とデバイスデータアクセスの基本と応用

    Pythonスクリプトの高速化とデバイス通信を実装レベルで習得する

    この本で身につくこと
    • CPUアーキテクチャの基礎とPythonの実行モデルを踏まえた速度ボトルネックの特定方法
    • NumPy配列演算・C/C++モジュール呼び出し・マルチプロセス・Pythonコンパイル(Cython等)・GPU活用による段階的な高速化手法
    • USB・Bluetooth・有線LAN/Wi-Fiを介した外部デバイスとのデータ送受信の実装パターン
    • センサ信号の取得からアクチュエータ制御までのIoTデータアクセス全体像

    想定読者: Pythonの基本文法は習得済みで、センサ・アクチュエータ制御や数値処理の高速化を実務に取り入れたい組込み・IoT・データエンジニア

    本の詳細を見る →
  4. 分析に耐える DWH テーブル設計術

    ディメンショナルモデリングをアジャイルに運用する実践書。事実表と次元表の設計基準を獲得しデータ利活用の共通言語を組織に広げる。

    アジャイルデータモデリング 組織にデータ分析を広めるためのテーブル設計ガイド
    この章の 1 冊 アジャイルデータモデリング 組織にデータ分析を広めるためのテーブル設計ガイド

    ビジネス要件からスタースキーマを協働設計するBEAM手法を習得する

    この本で身につくこと
    • BEAM手法(ビジネスイベント分析・モデリング)を使い、ビジネスステークホルダーと協働でスタースキーマを設計できる
    • 7W(Who/What/When/Where/How Many/Why/How)フレームワークでビジネス要件をディメンションとファクトに変換できる
    • モデルストーミングで短サイクルに設計を反復し、ウォーターフォール型DWH設計の停滞を回避できる
    • SCD(緩やかに変化するディメンション)Type 1/2の使い分けと、履歴保持の判断基準を実装レベルで説明できる

    想定読者: データエンジニア・アナリティクスエンジニア・BIエンジニアで、ディメンショナルモデリングの設計プロセスを体系化したい中級者

    本の詳細を見る →
  5. Iceberg で挑むレイクハウス運用

    Apache Iceberg を軸にデータレイクと DWH を統合するオープンテーブル戦略を学ぶ到達点。スキーマ進化と分散クエリ運用まで踏み込む。

    実践Apache Iceberg -- 高効率・高生産性を実現するオープンなデータ基盤の構築と運用
    この章の 1 冊 実践Apache Iceberg -- 高効率・高生産性を実現するオープンなデータ基盤の構築と運用

    Apache Icebergを用いてオープンなデータ基盤を構築・運用する

    この本で身につくこと
    • Icebergのメタデータ構造(スナップショット・マニフェスト・データファイルの3層)を理解し、タイムトラベルとロールバックを実装できる
    • Apache Spark・Flink・Trino・Hive・PyIcebergそれぞれのIceberg連携方法を把握し、ユースケースに応じて使い分けられる
    • スキーマ進化・パーティション進化を運用ルールに落とし込み、後方互換性を保ちながらテーブル設計を変更できる
    • CDCパイプラインとIcebergを組み合わせ、データレイク上でほぼリアルタイムな変更反映を実現できる

    想定読者: データレイク・データウェアハウス基盤の設計・運用に携わるデータエンジニア。Spark/Flink/Trinoなど分散クエリエンジンを実業務で扱い、テーブルフォーマット層の刷新を検討しているチーム。

    本の詳細を見る →