毎年恒例の Data + AI Summit、いよいよ今年は 6月の San Francisco で開催されます。

アジェンダを眺めていたら、なんと 2026年は269本!(2026/05/01時点) 様々なセッションが増えて、開催が近づくに従ってドンドン増えています!

とかいってたじゃないですか、今見たら626本になってるんですよw


なので、セッション多過ぎぃ!!! の洪水に飲み込まれている皆さんのために再度269本626本のアジェンダから、データエンジニアのみなさんが興味がありそうなセッション 20 本を絞ってみました!

見ていただきたい方はこちら!(もちろんこれ以外の方にも見ていただきたい)

  • Spark / Structured Streaming のチューニングを日常的にやっている
  • Lakeflow Spark Declarative Pipelines を採用検討中、または導入済み
  • Delta / Iceberg の互換戦略の動向を追いたい
  • DABS や Asset Bundles で CI/CD をガリガリ回している
  • ガチで OSS Spark を読み書きする派

などの方々です〜!

それでは早速、章ごとに見ていきましょう!再び!!!


I. 「OSS界の重鎮枠」が今年もすごい!必見4本

DAIS の楽しみのひとつが OSS Spark / Iceberg / Delta コミッタや創設者本人が話す回ですが(なんか書いた記憶がある)

🔥 Getting the Most Out of Spark Declarative Pipelines: Deep Dive on What’s New and Best

  • 登壇: Michael Armbrust(Distinguished Software Engineer @ Databricks)
  • Lvl: Advanced / 90分 Deep Dive

Spark 界の伝説 Armbrust さん本人による SDP の 90分 Deep Dive です。語ってくれるのは:

  • execution model の中身とトレードオフ
  • 信頼性とメンテナンス性を両立する proven design pattern
  • batch と streaming の両モードでどう SDP を使い分けるか
  • pipeline が複雑化したときの 典型的な落とし穴と回避法

90分という長尺なので、SDP 採用検討中の組織なら全員で見たいレベル。必見!めっちゃみたい!

🔥 Deep Dive Into Streaming and Batch ETLs With Lakeflow Spark Declarative Pipelines

  • 登壇: Jacek Laskowski(”The Internals of Apache Spark” 著者)
  • Lvl: Advanced

これも継続して必見の1本!

Spark 書籍のレジェンド著者 Laskowski さんによる、SDP の Internals 講座。本人の説明によると

  • SDP の高レベル Python/SQL 抽象が Spark SQL と Structured Streaming のクエリにどう翻訳されるか
  • 依存解決と DAG 構築のロジック
  • 内部ステート管理、リトライ、インクリメンタル処理の仕組み

までソースを追える粒度で解説してくれるとのこと!これも聞きたい!SDP好き!

🔥 Format co-evolution: How Iceberg v4 and Delta 5.0 share a unified metadata

  1. 登壇: Ryan Blue(Iceberg開発者 / tabular共同創設者 / Databricks), Anoop Johnson(Principal Software Engineer / Databricks)
  2. Lvl: Intermediate

これも個人的に気になっている1本!

タイトルからワクテカしちゃいますが、Iceberg v4 の adaptive metadata tree を Delta Lake 5.0 が native content metadata として採用するという話、メチャクチャ気になりますねぇ。

  • 両方のフォーマットクライアントが 同一の on-disk 構造を直接 read/write
  • 翻訳レイヤなし、変換不要
  • single-file commit でパフォーマンスも大幅向上

という、オープンテーブルフォーマット業界全体が激震する動向の発表です。Ryan Blue さん本人が話してくれる貴重な機会、これは絶対に聞きたい!

🔥 What’s New in Apache Spark™ 4.1?

  • 登壇: Wenchen Fan, Daniel Tenedorio(両者 Spark Committer / Databricks)
  • Lvl: Intermediate

Spark Committer 本人が話す 4.1 新機能網羅回。今年の目玉は:

  1. Spark Declarative Pipelines(SDP)の OSS 化
  2. Real-Time Mode の Structured Streaming 正式機能化(サブ秒レイテンシ)
  3. PySpark の Arrow-native UDF / UDTF
  4. Python Data Source filter pushdown
  5. Python worker logging の改善

Lakeflow SDP がいよいよ OSS Spark の機能になりますよー!


II. 「OSS Spark の中身ガチ深堀り」枠(3本)

Spark DSV2: Growing Up Fast — Szehon Ho, Anton Okolnychyi (Databricks)

DataSource V2 の最近の進化が一気に。procedure catalog + row identifier 対応で row-level operations が可能に、MERGE INTO の安全 schema evolution、partition filtering の強化、DML サマリの可視化、execution の重大な correctness fixなど、DEド真ん中!といった内容になると思います!

Read-Time CDF in Delta Lake — Gengliang Wang, Johan Lasperas (Databricks)

Delta の Change Data Feed は、これまで 書き込み時に変更を materialize するという、その場合ストレージコスト+レイテンシ増が発生していました。

新提案の Read-Time CDF は、Spark Data Source V2 の unified CDC interface と Delta の Row Tracking を使って、delta.enableChangeFeed を立てなくてもクエリ時に row-level changes を取得できるアーキテクチャにかわります。CDC をたくさん使っている組織のコスト構造が変わる可能性アリ!

Streaming at Scale With Real-Time Mode: Sub-Second Train Telemetry Across the Netherlands

オランダ国鉄 NS の 1日 1000億ポイント超のテレメトリを sub-second で処理する事例。PySpark + SQL のみで構築、UDF や追加コンポーネントなしという潔さがポイント。会場では生のテレメトリの live demo もある予定で、Real-Time Mode の生のユースケースがみれるかも?


III. SQL / パフォーマンス / モデリング深堀り(3本)

🆕 Advanced SQL Patterns for Production Analytics — Serge Rielau, Fabien Contaminard (Databricks)

これは Spark/Databricks の SQL の中の人 Serge Rielau さん登壇です!

production で使うべき SQL パターン集として、

  • temporary tables / stored procedures / multi-statement transactions を本番で安全に使う
  • 効率的な document extraction pipeline
  • MATCH_RECOGNIZE で sales funnel 解析を効率化
  • 複雑なロジックを Unity Catalog の 再利用可能 / governed asset に変換

を実演する予定です。SQL をガッツリ運用してるDEの方やアナリストの方 にはぴったりな1本になりますね!

🆕 Diagnosing Performance Bottlenecks in Databricks Lakehouse — Shannon Barrow (Databricks)

これも実用度の高い1本!Databricks の Principal SA Shannon Barrow による パフォーマンス診断 framework

  • query / data layout / concurrency / system-level どの層に bottleneck があるかの切り分け方
  • execution plan と runtime signal の読み方
  • 表面的なチューニングで見落とす本当の根本原因の探し方

を、Databricks エンジンの実行モデルに基づいて解説。現場で使える repeatable な diagnostic アプローチを持ち帰れます、AIを活用したアプローチもあるぞ!

Modern Data Modeling at Scale: Advanced Patterns — Shannon Barrow, Kyle Hale (Databricks)

「データモデリングの 10 のミス」を題材に、Databricks Lakehouse でできる PK / FK、identity columns で surrogate key、column-level data quality constraints などを Bronze / Silver / Gold に渡って実装する具体パターン。Medallion の中で、本気のデータモデリングをどう実装するかがわかります!


IV. Unity Catalog の “Open” 化が今年のテーマ(3本)

How to scale governance to External Engines with Unity Catalog Open APIs — Dipankar Kushari, Alex Jiang (Databricks)

UC を 多様なエンジン・クラウド・チームから使うための Open API の運用パターン。Delta Lake / Apache Iceberg を含む open table format への secure interoperable access、automated identity-based credentials によるアクセス管理、単一ポリシーフレームワークなど。

🆕 Interoperability With Unity Catalog: Beyond Databricks — Liran Bareket (Databricks)

20分の Lightning Talk ですが、衝撃の構想です!

Lakehouse Federation で UC を “catalog of catalogs” 化して、

  • Snowflake
  • BigQuery
  • OneLake
  • AWS Glue
  • Postgres

UC ひとつで統一管理、さらに Genie で横断クエリも可能!
Row-level security も全ソース横断で uniform に効くという話で、これが実用化されたら enterprise の データ戦略が180度変わっちゃうかも?シンプルにネタとしても面白そうですw

🆕 Unity Catalog: Advanced Field-Proven Patterns from the Experts — Pamela Pettit, Jyotsna Bharadwaj (Databricks)

Databricks の SA 2人による UC ガバナンスのフィールド検証パターン

  • governance at scale で centralized vs domain-driven のバランスをどう取るか
  • catalog organization の structured guardrail
  • metadata curation を加速して、true な data discovery と self-service を実現

UC の運用に頭を抱えている事ってやっぱりあると思います、そんな時にみてください!明日から使える話です!


V. 大規模本番事例(4本)

How Supercell Uses Databricks (MAU 3億)

Clash of Clans / Brawl Stars MAU 3億を支える基盤、Auto Loader でのイベント取り込み、データ民主化、ML での player harm 検出までフルスタック。Head of Data Platform 本人が登壇するので、プラットフォーム責任者目線の話が聞けるのも良いポイント!

Beyond Medallion: Architecting Disney’s DATOS for Complex Real-Time Data Streams

Disney が Lakehouse 上に構築した DATOS(contextual aggregation and abstraction layer)。Structured Streaming + Lakeflow SDP で Kafka / Kinesis / Data Lake の多源吸収、上流のスキーマ揺らぎや配信遅延も吸収する設計に?
Medallion の “次” を考えている人は要チェック!

🆕 Cielo: 6,000+ pipelines migrated EMR → Databricks

LATAM 決済大手 Cielo の超大規模マイグレーション事例!

  • 6,500 pipelines を全て査定
  • 3,000 legacy jobs を廃止
  • AWS EMR + Oracle Exadata + 分散ガバナンスの “fragmented landscape” から、Delta Lake + Serverless + UC ベースの unified Lakehouse へ統合

6,500パイプラインてw
「うちにも legacy が山のようにあるけど、移行を進められるんだろうか…」と悩んでる組織には、めちゃくちゃ参考になる事例!

From Cost Mystery to Cost Mastery: COPA Airlines

利益率がカミソリのように薄い航空業界で、世界第3位の operating margin と業界トップクラスの定時運航率を維持しながら、データコストの指数関数的増加を防いだ話。「legacy data silos → high-velocity lakehouse」への移行の “global masterclass” として語られる予定!


VI. その他、押さえておきたい3本

DABS: do like a pro — Hubert Dudek

Asset Bundles の ドキュメントには載っていない実戦パターンとショートカット集を、ライブデモで!20分なのでちょっとした隙間で見れるかも?

🆕 Stateful Apps for Thousands of Users — Andre Furlan Bueno (Databricks)

Databricks Apps を stateful にスケールさせる方法。horizontal scaling + session affinity + sharding の under-the-hood をしっかり解説してくれる、実装側 DE / アーキ向けの濃い1本。
いい感じのデータアプリケーション作っちゃいましょ!

Inside our Lakeflow Journey at SEGA Europe

日次 数十億件のゲーム telemetry を扱う SEGA Europe の Lakeflow SDP 移行記。Football Manager 2026 ローンチで本番検証済み、”fragile manual jobs → self-healing lakehouse” のリアルな wins / lessons / unexpected challenges。


まとめ

DAIS 2026 のアジェンダを見ていて改めて感じるのは、今年は本当にデータプラットフォームの中身が動く転換点が多い年だということです!

ご紹介した中でも、

  • Spark 共同創業者 Michael Armbrust 本人による SDP 90分 Deep Dive
  • Iceberg 共同創設者 Ryan Blue 本人による Delta 5.0 + Iceberg v4 のメタデータ統合解説
  • Lakehouse Federation で UC を catalog of catalogs にするという構想
  • Cielo の 6,000+ pipelines 大規模マイグレーション事例

などなど面白そうな内容が多いなとおもいます!

それでは、6月の San Francisco で会いましょう〜!ぼくはいかないけど日本でみますけど〜wいきたいですけど〜w

コメントを残す

Trending