毎年恒例の Data + AI Summit、いよいよ今年は 6月の San Francisco で開催されます。
アジェンダを眺めていたら、なんと 2026年は269本!(2026/05/01時点) 様々なセッションが増えて、開催が近づくに従ってドンドン増えています!
これ自体はサミットとして嬉しい悲鳴なんですが、データエンジニアの視点で「実装の話を聞きたい」「Spark の中身を理解したい」「自社の Lakeflow パイプラインの参考になる事例だけ拾いたい」と思って探すと、セッション多過ぎぃ!!! というのが正直なところです。
そこで、269本のアジェンダを全部読み込んで、データエンジニアのみなさんが興味がありそうなセッション 20 本に絞ってみました!
このリストの想定ペルソナは、
- Spark / Structured Streaming のチューニングを日常的にやっているデータエンジニア
- Lakeflow Spark Declarative Pipelines を採用検討中、または導入済み
- Delta / Iceberg の互換戦略の動向を追いたい
- DABS や Asset Bundles で CI/CD をガリガリ回している
- ガチで OSS Spark を読み書きする派
などの方々です〜!
それでは早速、章ごとに見ていきましょう!!!!
I. 「Spark の中身を知る」コミッタ・著者枠(3本)
DAIS の楽しみのひとつは、Spark コミッタや内部書籍著者本人が話す回が複数あること!今年これは外せない、というのを 3 本ピックします。
🔥 What’s New in Apache Spark 4.1?
- 登壇: Wenchen Fan, Daniel Tenedorio(Databricks)
- Lvl: Intermediate / Track: Data Warehousing
Spark コミッタ本人による Spark 4.1 新機能の総ざらい回です。今年の目玉は4つ:
- Spark Declarative Pipelines(SDP)の OSS 化 ― 「何をしたいか」を宣言すれば、Spark が依存関係・並列化・リトライを自動でオーケストレーション
- Real-Time Mode が Structured Streaming の正式機能に昇格 ― サブ秒レイテンシの連続処理が可能に!
- PySpark の Arrow-native UDF / UDTF と Python Data Source filter pushdown
- Python worker logging の改善
つまり、Lakeflow SDP がいよいよ OSS Spark の機能になるということです!SDP の採用を検討している方は、ここで OSS としての位置づけを押さえておくとよいかと!
🔥 Evolving Apache Spark Structured Streaming in Open Source: A Year in Review and the Road Ahead
- 登壇: Jerry Peng, Anish Shrigondekar(Databricks)
- Lvl: Intermediate / Track: Data Engineering & Streaming
Structured Streaming 単体の年次レビュー+ロードマップ回です。先程あったSpark 4.1 の Real-Time Mode の設計詳細はこっちで深堀りされる予定。stateful 処理は TransformWithState や stream-stream join の強化で、適用範囲が大きく広がっていきます。
「上で全体総覧(What’s New)」→「下で深堀り(このセッション)」の組み合わせで聞くのが理想ですね!
🔥 Deep Dive Into Streaming and Batch ETLs With Lakeflow Spark Declarative Pipelines
- 登壇: Jacek Laskowski(books.japila.pl)
- Lvl: Advanced / Track: Data Engineering & Streaming
これは胸が熱い…!
Spark の “The Internals of Apache Spark” シリーズ著者で有名な Jacek Laskowski 本人による Lakeflow SDP の Internals 講座です。本人の説明によると、
- SDP の高レベル Python / SQL 抽象が どう Spark SQL と Structured Streaming のクエリに翻訳されるか
- 依存関係解決と DAG 構築のロジック
- 内部ステート管理、リトライ、インクリメンタル処理
までソースを追える粒度で解説してくれるとのこと。SDP を本気で使うなら必見です!
II. 「本当のスケール」を見る事例2本
🎢 Beyond Medallion: Architecting Disney’s DATOS for Complex, Real-Time Data Streams With Databricks
- 登壇: Rajendra Dubagunta(Disney)
- Lvl: Advanced / 20分 / Track: Data Engineering & Streaming
Medallion アーキテクチャは入門としては優秀ですが、エンタープライズ用途では不足する場面が増えてきますよね。
Disney が直面したのは 「サブスク/課金/決済を跨いだ near real-time view」 が必要になる課題です。これに対し、Lakehouse 上に DATOS(contextual aggregation and abstraction layer) を構築。Structured Streaming + Lakeflow SDP で Kafka / Kinesis / Data Lake の多源を吸収しつつ、上流のスキーマ揺らぎ・配信遅延も吸収するという構成でした
「Medallion の次は何?」を考えている方は要チェックです!
🎮 How Supercell Uses Databricks to Serve Nearly 300M Monthly Players and Prevent Player Harm
- 登壇: Ilari Vaha-Pietila, Boris Nechaev(Supercell)
- Lvl: Advanced / 40分 / Track: Data Engineering & Streaming
Clash of Clans / Brawl Stars の MAU 3億を支えるデータ基盤の話、これだけでもう聞きたい!
Auto Loader(Lakeflow の一部)でのイベント取り込みから始まり、データ民主化(ゲームデザイナー〜プロダクトマネージャまで全員が仮説検証できる環境)、ML での player harm 検出まで、フルスタックで語られる予定です。
DE がどこまで責任範囲を広げると、ビジネスインパクトが指数関数的に伸びるかの例として、自分の現場と照らし合わせて聞きたい1本です!
III. Lakeflow SDP の「業界横断・事例比較」5本
SDP の採用判断は、複数業界・複数規模の事例を横並びで見るのがいちばん効きます。今年は事例だけでなんと5本!
Beacon: Revolutionizing Media Analytics With Near Real-Time Declarative Pipelines(Condé Nast)
InfluxDB + Qlik で 15分遅延・KPI不整合に苦しんでいた状態から、SDP で web collectors → Databricks 直送のニアリアルタイム基盤へ移行したコンデナストの事例です。バッチとストリーミングを宣言的に統合し、出版メディアの「分単位の意思決定」要件に応えています。
Building a Production-Scale Dimensional Data Mart With Lakeflow Spark Declarative Pipelines and AUTO CDC(84.51˚)
クローガーグループの小売データ会社の事例。レガシー ETL を SDP に置き換えて、AUTO CDC で SCD Type 2 を含む Slowly Changing Dimensions と高ボリュームファクトを統一処理、約 800万トランザクション規模を低コードで運用しています。SDP で本格的な dimensional modeling をやる具体例として、めちゃくちゃ参考になりそうです!
From Day-Old Data to Real-Time Retail: Modernizing CDC With Spark Declarative Pipelines and Lakeflow(ASDA)
英国大手スーパー ASDA の depot management 系の CDC を、レガシーの “バッチ的” 動作から SDP + AutoCDC + Lakeflow Connect でリアルタイム化した話です。新機能をどう組み合わせて、何が落とし穴で、どうイテレーションして固めたか、という生っぽいストーリーが期待できます。
Rewind, Replay, Recover: Building Operational Resilience at NAB With Spark Declarative Pipelines(NAB)
豪 NAB の SDP 本番運用ノウハウ回。これも胸アツ。
Streaming Tables と Materialized Views を使った rewind / replay で、不具合発生時にパイプラインを一貫した状態へ戻し、修正を当てて、影響範囲だけ再処理する。Full refresh に頼らず、checkpoint と versioning で堅牢に運用するパターンが解説されます。SDP を本番で運用しているデータエンジニアは絶対に聞いた方がいいやつです!
Beyond Batch: Engineering Self-Evolving Ingestion with Databricks Auto Loader(Capital One)
Auto Loader の Schema Evolution と Rescue Columns を使って、上流のスキーマドリフトに自動追従するイングェスチョン基盤を作った話です。「ETL がスキーマ変更で頻繁に壊れる」という、あの永遠の悩みに対する 2026年の答え!
これらのセッションで今年熱くなると思われる、SDP の理解の流れがきれいに揃います!
IV. Real-Time Mode を本気で使う組み合わせ
Spark 4.1 で正式機能になった Real-Time Mode は、ストリーミングデータエンジニアリングにとって大きなトピックだと思います、サブセクでのデータ連携は重要なピースになってくると思います。
Streaming at Scale With Real-Time Mode: Sub-Second Train Telemetry Across the Netherlands
- 登壇: Anant Pingle(Databricks), Wout de Ruiter(Capgemini / Dutch Railways NS)
- Lvl: Intermediate / Track: Data Engineering & Streaming
オランダ国鉄 NS の本番事例です。1日 1000億ポイント超のテレメトリを sub-second の end-to-end レイテンシで処理して、車両故障の即時検出に使っているとのこと。
しかも構成が、PySpark + SQL のみで構築、UDF や追加コンポーネントなし!会場では生のテレメトリを使った live demo もある予定で、Real-Time Mode を「想像」ではなく「現実」として評価する材料になりそうです!
V. 「OSS / API 内部」枠(7本)
API レベルで Spark / Delta / UC をいじっている方にとって、ここが今年いちばんの渋さですが、ここがいいんです。1つ1つは渋いが、確実に効くやつです!
Spark Connect: The Path to Modern, AI-Ready Spark
Spark Connect は単なる新クライアントではなく、「AI が Spark コードを生成する時代の基盤」として位置づけ直されたとのこと。DataFrame-first ガイダンス、AI 生成コードとの互換性、machine-readable API discovery など、Spark Connect をデフォルトに据えるためのビジョンと足元の改善が語られます。
Spark DSV2: Growing Up Fast
DataSource V2 の最近の進化が一気に。procedure catalog + row identifier 対応で row-level operations が可能に、MERGE INTO の安全な schema evolution、partition filtering の強化、DML サマリの可視化、execution の重大な correctness fix。自社で Spark コネクタを書いているデータエンジニアは必見です!
A Unified Future for Delta and Apache Iceberg
これは個人的にめっちゃ気になっていますし、今後にも効いてくる1本かなと。
Delta と Iceberg は、columnar metadata、manifest tree、deletion vectors と思想がだいぶ収束してきている一方、両形式が並走するコストも大きくなっています。次世代 Delta では Delta Lake のコミットを Iceberg v4 の adaptive metadata tree に直接格納する統合メタデータを提案。Delta が Iceberg 互換性を獲得しつつ tree 構造化された manifest の効率も得る、という構想です。
フォーマット選定で悩んでいる組織には、決定打になりうる動きをチェックです!
Read-Time CDF in Delta Lake
Delta の Change Data Feed は、これまで 書き込み時に変更を materialize する “write tax”(ストレージコスト+レイテンシ増)が発生していました。
新提案の Read-Time CDF は、Spark Data Source V2 の unified CDC interface と Delta の Row Tracking を使って、delta.enableChangeFeed を立てなくてもクエリ時に row-level changes を取得できるアーキテクチャです。CDC をたくさん使っている組織のコスト構造が変わる可能性があります!
Faster, Leaner, and Easier to Debug: PySpark UDFs in 2026
PySpark UDF の二大改善:
- Arrow-based execution ― Native Arrow UDF / UDTF が Pandas conversion なしで columnar Arrow を直接処理。メモリ削減、複雑型サポート、速度向上
- デバッグ容易化
UDF をたくさん書いているデータエンジニアには直接効く改善ばかりです!
How Enterprises Are Scaling Governance with Unity Catalog Open APIs
UC を 多様なエンジン・クラウド・チームから使うための Open API の運用パターン。Delta Lake / Apache Iceberg を含む open table format への secure interoperable access、automated identity-based credentials によるアクセス管理、単一ポリシーフレームワーク。
「UC を外から叩く」DE / SRE / Platform チームには、現実的な実装ガイドになりそうです!
DABS: Do Like a Pro — All the Best Tips & Tricks
Hubert Dudek(Databricks MVP)による、DABS のドキュメントには載っていない実戦パターン+ショートカット+裏ワザ集を、ライブデモで!Databrickster (Medium) のブログで蓄積されてきた知見が凝縮される予定です。20分なのでランチ前後にぴったり!
VI. 規模とコストのリファレンス2本
データエンジニアリングの評価軸が「コストをいかに削るか」になっている組織は本当に多いですよね。最後に2本ピック!
From Cost Mystery to Cost Mastery: COPA Airlines Journey to Lakehouse Efficiency
利益率がカミソリのように薄い航空業界で、世界第3位の operating margin と業界トップクラスの定時運航率を維持しながら、データコストの指数関数的増加を防いだ COPA Airlines の話。「legacy data silos → high-velocity lakehouse」への移行の “global masterclass” として語られる予定です。
Modern Data Modeling at Scale: Advanced Patterns
「データモデリングの 10 のミス」を題材に、Databricks Lakehouse でできる PK / FK、identity columns で surrogate key、column-level data quality constraints などを Bronze / Silver / Gold に渡って実装する具体パターン。Medallion の中で、本気のデータモデリングをどう実装するかがわかります!
まとめ
DAIS は年々規模が大きくなって、油断するとその場で目的無く効いてきてしまって(それも一期一会でいいですけどね!)帰ってきて「結局 、何の話聞いたっけ?」となるかもです
今年は Real-Time Mode の正式化、Spark 4.1、Lakeflow SDP の OSS 化、UC Open API、Delta + Iceberg メタデータ統合と、OSS / プラットフォームの中身が動く転換点が多い年だと思っています。ガチDE視点で枠を取り切る価値が大きい年なので、ぜひこのリストを起点に、自分のアジェンダを組んでみてください!
他のテーマもまたまとめてみます、それでは、6月の San Francisco で会いましょう〜!(ぼくはいかないけど日本でみますw)




コメントを残す