すぐ帰ってきた！Databricks Data+AI Summit 2026、ガチDE 視点で見るべき20本紹介！

毎年恒例の Data + AI Summit、いよいよ今年は 6月の San Francisco で開催されます。

アジェンダを眺めていたら、なんと 2026年は269本！（2026/05/01時点）様々なセッションが増えて、開催が近づくに従ってドンドン増えています！

とかいってたじゃないですか、今見たら626本になってるんですよｗ

なので、セッション多過ぎぃ！！！ の洪水に飲み込まれている皆さんのために再度~~269本~~626本のアジェンダから、データエンジニアのみなさんが興味がありそうなセッション 20 本を絞ってみました！

見ていただきたい方はこちら！（もちろんこれ以外の方にも見ていただきたい）

Spark / Structured Streaming のチューニングを日常的にやっている
Lakeflow Spark Declarative Pipelines を採用検討中、または導入済み
Delta / Iceberg の互換戦略の動向を追いたい
DABS や Asset Bundles で CI/CD をガリガリ回している
ガチで OSS Spark を読み書きする派

などの方々です〜！

それでは早速、章ごとに見ていきましょう！再び！！！

I. 「OSS界の重鎮枠」が今年もすごい！必見4本

DAIS の楽しみのひとつが OSS Spark / Iceberg / Delta コミッタや創設者本人が話す回ですが（なんか書いた記憶がある）

🔥 Getting the Most Out of Spark Declarative Pipelines: Deep Dive on What’s New and Best

登壇: Michael Armbrust（Distinguished Software Engineer @ Databricks）
Lvl: Advanced ／ 90分 Deep Dive

Spark 界の伝説 Armbrust さん本人による SDP の 90分 Deep Dive です。語ってくれるのは：

execution model の中身とトレードオフ
信頼性とメンテナンス性を両立する proven design pattern
batch と streaming の両モードでどう SDP を使い分けるか
pipeline が複雑化したときの 典型的な落とし穴と回避法

90分という長尺なので、SDP 採用検討中の組織なら全員で見たいレベル。必見！めっちゃみたい！

🔥 Deep Dive Into Streaming and Batch ETLs With Lakeflow Spark Declarative Pipelines

登壇: Jacek Laskowski（”The Internals of Apache Spark” 著者）
Lvl: Advanced

これも継続して必見の1本！

Spark 書籍のレジェンド著者 Laskowski さんによる、SDP の Internals 講座。本人の説明によると

SDP の高レベル Python/SQL 抽象が Spark SQL と Structured Streaming のクエリにどう翻訳されるか
依存解決と DAG 構築のロジック
内部ステート管理、リトライ、インクリメンタル処理の仕組み

までソースを追える粒度で解説してくれるとのこと！これも聞きたい！SDP好き！

🔥 Format co-evolution: How Iceberg v4 and Delta 5.0 share a unified metadata

登壇: Ryan Blue（Iceberg開発者 / tabular共同創設者 / Databricks）, Anoop Johnson（Principal Software Engineer / Databricks）
Lvl: Intermediate

これも個人的に気になっている1本！

タイトルからワクテカしちゃいますが、Iceberg v4 の adaptive metadata tree を Delta Lake 5.0 が native content metadata として採用するという話、メチャクチャ気になりますねぇ。

両方のフォーマットクライアントが 同一の on-disk 構造を直接 read/write
翻訳レイヤなし、変換不要
single-file commit でパフォーマンスも大幅向上

という、オープンテーブルフォーマット業界全体が激震する動向の発表です。Ryan Blue さん本人が話してくれる貴重な機会、これは絶対に聞きたい！

🔥 What’s New in Apache Spark™ 4.1?

登壇: Wenchen Fan, Daniel Tenedorio（両者 Spark Committer / Databricks）
Lvl: Intermediate

Spark Committer 本人が話す 4.1 新機能網羅回。今年の目玉は：

Spark Declarative Pipelines（SDP）の OSS 化
Real-Time Mode の Structured Streaming 正式機能化（サブ秒レイテンシ）
PySpark の Arrow-native UDF / UDTF
Python Data Source filter pushdown
Python worker logging の改善

Lakeflow SDP がいよいよ OSS Spark の機能になりますよー！

II. 「OSS Spark の中身ガチ深堀り」枠（3本）

Spark DSV2: Growing Up Fast — Szehon Ho, Anton Okolnychyi (Databricks)

DataSource V2 の最近の進化が一気に。procedure catalog + row identifier 対応で row-level operations が可能に、MERGE INTO の安全 schema evolution、partition filtering の強化、DML サマリの可視化、execution の重大な correctness fixなど、DEド真ん中！といった内容になると思います！

Read-Time CDF in Delta Lake — Gengliang Wang, Johan Lasperas (Databricks)

Delta の Change Data Feed は、これまで書き込み時に変更を materialize するという、その場合ストレージコスト+レイテンシ増が発生していました。

新提案の Read-Time CDF は、Spark Data Source V2 の unified CDC interface と Delta の Row Tracking を使って、delta.enableChangeFeed を立てなくてもクエリ時に row-level changes を取得できるアーキテクチャにかわります。CDC をたくさん使っている組織のコスト構造が変わる可能性アリ！

Streaming at Scale With Real-Time Mode: Sub-Second Train Telemetry Across the Netherlands

オランダ国鉄 NS の 1日 1000億ポイント超のテレメトリを sub-second で処理する事例。PySpark + SQL のみで構築、UDF や追加コンポーネントなしという潔さがポイント。会場では生のテレメトリの live demo もある予定で、Real-Time Mode の生のユースケースがみれるかも？

III. SQL / パフォーマンス / モデリング深堀り（3本）

🆕 Advanced SQL Patterns for Production Analytics — Serge Rielau, Fabien Contaminard (Databricks)

これは Spark/Databricks の SQL の中の人 Serge Rielau さん登壇です！

production で使うべき SQL パターン集として、

temporary tables / stored procedures / multi-statement transactions を本番で安全に使う
効率的な document extraction pipeline
MATCH_RECOGNIZE で sales funnel 解析を効率化
複雑なロジックを Unity Catalog の 再利用可能 / governed asset に変換

を実演する予定です。SQL をガッツリ運用してるDEの方やアナリストの方にはぴったりな1本になりますね！

🆕 Diagnosing Performance Bottlenecks in Databricks Lakehouse — Shannon Barrow (Databricks)

これも実用度の高い1本！Databricks の Principal SA Shannon Barrow による パフォーマンス診断 framework。

query / data layout / concurrency / system-level どの層に bottleneck があるかの切り分け方
execution plan と runtime signal の読み方
表面的なチューニングで見落とす本当の根本原因の探し方

を、Databricks エンジンの実行モデルに基づいて解説。現場で使える repeatable な diagnostic アプローチを持ち帰れます、AIを活用したアプローチもあるぞ！

Modern Data Modeling at Scale: Advanced Patterns — Shannon Barrow, Kyle Hale (Databricks)

「データモデリングの 10 のミス」を題材に、Databricks Lakehouse でできる PK / FK、identity columns で surrogate key、column-level data quality constraints などを Bronze / Silver / Gold に渡って実装する具体パターン。Medallion の中で、本気のデータモデリングをどう実装するかがわかります！

IV. Unity Catalog の “Open” 化が今年のテーマ（3本）

How to scale governance to External Engines with Unity Catalog Open APIs — Dipankar Kushari, Alex Jiang (Databricks)

UC を 多様なエンジン・クラウド・チームから使うための Open API の運用パターン。Delta Lake / Apache Iceberg を含む open table format への secure interoperable access、automated identity-based credentials によるアクセス管理、単一ポリシーフレームワークなど。

🆕 Interoperability With Unity Catalog: Beyond Databricks — Liran Bareket (Databricks)

20分の Lightning Talk ですが、衝撃の構想です！

Lakehouse Federation で UC を “catalog of catalogs” 化して、

Snowflake
BigQuery
OneLake
AWS Glue
Postgres

を UC ひとつで統一管理、さらに Genie で横断クエリも可能！
Row-level security も全ソース横断で uniform に効くという話で、これが実用化されたら enterprise のデータ戦略が180度変わっちゃうかも？シンプルにネタとしても面白そうですｗ

🆕 Unity Catalog: Advanced Field-Proven Patterns from the Experts — Pamela Pettit, Jyotsna Bharadwaj (Databricks)

Databricks の SA 2人による UC ガバナンスのフィールド検証パターン。

governance at scale で centralized vs domain-driven のバランスをどう取るか
catalog organization の structured guardrail
metadata curation を加速して、true な data discovery と self-service を実現

UC の運用に頭を抱えている事ってやっぱりあると思います、そんな時にみてください！明日から使える話です！

V. 大規模本番事例（4本）

How Supercell Uses Databricks (MAU 3億)

Clash of Clans / Brawl Stars MAU 3億を支える基盤、Auto Loader でのイベント取り込み、データ民主化、ML での player harm 検出までフルスタック。Head of Data Platform 本人が登壇するので、プラットフォーム責任者目線の話が聞けるのも良いポイント！

Beyond Medallion: Architecting Disney’s DATOS for Complex Real-Time Data Streams

Disney が Lakehouse 上に構築した DATOS（contextual aggregation and abstraction layer）。Structured Streaming + Lakeflow SDP で Kafka / Kinesis / Data Lake の多源吸収、上流のスキーマ揺らぎや配信遅延も吸収する設計に？
Medallion の “次” を考えている人は要チェック！

🆕 Cielo: 6,000+ pipelines migrated EMR → Databricks

LATAM 決済大手 Cielo の超大規模マイグレーション事例！

6,500 pipelines を全て査定
3,000 legacy jobs を廃止
AWS EMR + Oracle Exadata + 分散ガバナンスの “fragmented landscape” から、Delta Lake + Serverless + UC ベースの unified Lakehouse へ統合

6,500パイプラインてｗ
「うちにも legacy が山のようにあるけど、移行を進められるんだろうか…」と悩んでる組織には、めちゃくちゃ参考になる事例！

From Cost Mystery to Cost Mastery: COPA Airlines

利益率がカミソリのように薄い航空業界で、世界第3位の operating margin と業界トップクラスの定時運航率を維持しながら、データコストの指数関数的増加を防いだ話。「legacy data silos → high-velocity lakehouse」への移行の “global masterclass” として語られる予定！

VI. その他、押さえておきたい3本

DABS: do like a pro — Hubert Dudek

Asset Bundles の ドキュメントには載っていない実戦パターンとショートカット集を、ライブデモで！20分なのでちょっとした隙間で見れるかも？

🆕 Stateful Apps for Thousands of Users — Andre Furlan Bueno (Databricks)

Databricks Apps を stateful にスケールさせる方法。horizontal scaling + session affinity + sharding の under-the-hood をしっかり解説してくれる、実装側 DE / アーキ向けの濃い1本。
いい感じのデータアプリケーション作っちゃいましょ！

Inside our Lakeflow Journey at SEGA Europe

日次 数十億件のゲーム telemetry を扱う SEGA Europe の Lakeflow SDP 移行記。Football Manager 2026 ローンチで本番検証済み、”fragile manual jobs → self-healing lakehouse” のリアルな wins / lessons / unexpected challenges。

まとめ

DAIS 2026 のアジェンダを見ていて改めて感じるのは、今年は本当にデータプラットフォームの中身が動く転換点が多い年だということです！

ご紹介した中でも、

Spark 共同創業者 Michael Armbrust 本人による SDP 90分 Deep Dive
Iceberg 共同創設者 Ryan Blue 本人による Delta 5.0 + Iceberg v4 のメタデータ統合解説
Lakehouse Federation で UC を catalog of catalogs にするという構想
Cielo の 6,000+ pipelines 大規模マイグレーション事例

などなど面白そうな内容が多いなとおもいます！

それでは、6月の San Francisco で会いましょう〜！ぼくはいかないけど日本でみますけど〜ｗいきたいですけど〜ｗ

コメントを残すコメントをキャンセル

削除バッチなんていらんかったんや…DatabricksのAuto TTLについて！

いとおかし！Databricksでできる、OpenTelemetryの可視化！

すぐ帰ってきた！Databricks Data+AI Summit 2026第二弾！ガチAI 視点で見るべき20本紹介！

Trending

削除バッチなんていらんかったんや…DatabricksのAuto TTLについて！

いとおかし！Databricksでできる、OpenTelemetryの可視化！

すぐ帰ってきた！Databricks Data+AI Summit 2026第二弾！ガチAI 視点で見るべき20本紹介！