すぐ帰ってきた！Databricks Data+AI Summit 2026第二弾！ガチAI 視点で見るべき20本紹介！

毎年恒例の Data + AI Summit、いよいよ今年は 6月の San Francisco で開催されます（何回言うねん）

アジェンダを眺めていたら、なんと 2026年は~~269本！~~（2026/05/01時点）様々なセッションが増えて、開催が近づくに従ってドンドン増えています！

とかいってたじゃないですか、今見たら626本になってるんです！ｗ

というわけで、データエンジニアに引き続き、データサイエンティスト視点で、AI Agent / MLOps / LLMOps の中身を語ってくれる回だけを再度 20 本に選び直してみました！！！

このリストの想定読者は、

LLM / Agent をプロダクションに乗せようとしているデータサイエンティスト
MLflow / DSPy / Agent Bricks で eval や serving を本番運用している
RAG / Vector Search / Memory の “production の壁” を越えたい
Multi-Agent の observability や failure mode に頭を抱えている
Deep Learning や Reinforcement Learning を真面目にやりたい

などの方々です！（もちろん見ていただきたいです！）

それでは早速、、、行きましょう！

I. 「Production AI を本気で！」枠（必見4本）

今年のテーマは何といっても 「production AI / LLM をどう動かすか」 です！PoC を超えて本番運用を考えている DS の皆さんにはこの4本を！

🔥 Mission-Critical Inference: Powering High-Scale AI in Production

登壇: Ankit Mathur, Tejas Sundaresan（Databricks）
Lvl: Advanced

モデルをリリースしたが、、、数百万 req/day を 適切なlatency / cost / zero downtime で捌く必要があるという productionの現実に向き合う1本！

GPU autoscaling がどうトラフィックに追従するか
request batching でコストをどこまで圧縮できるか
世界で最も負荷の高い推論ワークロードを支える Databricks Custom Model Serving の運用パターン

を、実装ベースで解説してくれます。production inference のプレイブック を持って帰りましょう！

🔥 Scaling Custom LLMs with vLLM and Databricks Model Serving

登壇: Colton Peltier, Mohamad Aboufoul（Databricks）
Lvl: Advanced

provisioned throughput endpoint でデフォルトの LLM を使うのは簡単。でも、1000個の OSS / fine-tuned LLM を本気で動かしたい時にどうするか！？

Serverless GPU Compute で deployment 設定の数時間を節約
vLLM + GPU workloads のチューニングポイント
実装上のトレードオフ

OSS LLMをプロダクションで活かすには、、、これも中々表にでてこない内容です！

🔥 From Training to Production: MLOps for Deep Learning on Databricks

登壇: Michael Shtelma, Puneet Jain（Databricks）
Lvl: Advanced

「Deep Learning は MLOps playbook を破壊する」── が、印象的な1本です！

数ギガバイト規模の重みデータ、GPU負荷の高い学習、分散チェックポイント、fine-tuning ループなど
これらは classical ML の lifecycle pattern では収まらない
結果としてチームは脆いパイプラインをつぎはぎで組むハメになり、ダウンタイム・ドリフト・取り損ねた再学習サイクルで痛い目を見る

これに対し、Databricks上で end-to-end に DL MLOps を回す方法（distributed training + MLflow tracking、large model 用の model registry workflow、GPU-aware serving with traffic split）を見せてくれます。DL の MLOps を真剣にやる DS には必見！

🔥 Building Custom Models That Know Your Enterprise Knowledge with Reinforcement Learning

登壇: Jonathan Frankle（Chief AI Scientist @ Databricks）
Lvl: Advanced

これは超アツい1本！

Databricks の Chief AI Scientist であるJonathan Frankle さん本人が、Databricks 内部の agent を OSS モデル + 強化学習（RL）でカスタマイズして動かしている話を解説してくれます！

Databricks AI Runtime (AIR) での custom RL 実装
必要な “ingredients”（プロセス、データ、報酬設計）
Databricks が独自に開発した novel な RL methods

RFT / Reinforcement Learning を本気で会社で展開したい方には、これは絶対に外せない1本です！

II. Agent Evaluation / Observability — 今年いちばんホットなトピックでは？（4本）

AI Agent が PoC を超えて production の段階に入ってきた今、evaluation と observability の体系化は最大の関心事だと思います。

🔥 Cascading Failures in Multi-Agent Systems

登壇: Oleksandra Bovkun（Databricks）
Lvl: Advanced

Multi-Agent システムの評価は、もはや「単一モデル出力のテスト」じゃなくて、coordination layer の整合性検証だ、という視点転換から始まります。ありがちな failure mode として、

poisoned shared memory（共有メモリの汚染）
sub-optimal decision pattern（局所最適に陥る判断パターン）
distributed hallucination（複数エージェント間の幻覚伝播）

を MLflow observability でどう拾うか、passive monitoring から active intervention へどう移行するか、が解説されます。Multi-Agent を本番で運用する DS は絶対に押さえたい！

Behind the Curtain: How We Do Eval in Genie / How We Built Agent Mode in Genie Spaces

Lvl: 両方 Advanced
登壇: Genie Engineering Team（Databricks）

Databricks の Genie Engineering Team 自身が、Genie Spaceの eval 設計と Agent Mode の内部を語る回。

「Eval」セッションでは、offline benchmark / human-in-the-loop / production feedback loop の組み合わせと、それぞれのトレードオフ
「Agent Mode」セッションでは、planning / validation / context management の orchestration、multiple hypothesis を探索する実装

Databricks 自身がプロダクトとして真剣に向き合っている agent 設計、Genie Spaceを使ってる人もいると思いますが、これを中の人から聞ける貴重な機会です！

How to Implement Observability to Reduce Agent Sprawl

登壇: Alkis Polyzotis, Arthur Dooner（Databricks）
Lvl: Advanced

「Agent Sprawl（エージェントの濫立）」という新しい architectural debt の話です。

複数チームがバラバラに agent を立てる → 全社の agent fleet を把握できなくなる
どの agent がどの判断をしたか trace できない
一貫した policy も効かない

これを MLflow trace + Unity AI Gateway の policy enforcement で解決する、というアプローチが解説されます。Agent fleet 化はこれから必須と言う中、超実用的なセッションになると思います！

+ 推奨：The 52x Multiplier (Zepto), The Databricks Big Book of AgentOps

タイトル	着目点
The 52x Multiplier: Zepto AI Agent Evaluation	MLflow 3.0 + DSPy で 80K 日次チケットの eval、52x ROI / CSAT +20.5%
The Databricks Big Book of AgentOps	“MLOps → AgentOps” の体系化、autonomous multi-step agent 用の CD/CI 再設計

III. RAG / Memory / Custom Model — 技術深堀り3本

📚 Effective document management and retrieval for generative AI（90分 Deep Dive）

production RAG を真面目に組む前に！

90分かけて RAG の全工程をカバー：

document structuring の原則
semantic vs. fixed-size chunking のトレードオフ
contextual & multi-modal embedding
retrieval optimization（re-ranking / contextual filtering / real-time quality evaluation）

Databricks 上の実装デモ込み。RAG の “本気のステップ” を 90分で詰め込めるぞ！

🧠 Why Vector Stores Are Not Enough: Using Lakebase as a Durable Memory Layer for Autonomous Agents

「Vector DB が AI Agent の memory」と言われがちですが、それは probabilistic similarity score （確率的な類似度スコア）にすぎない。エンタープライズ用途では “probably” じゃ困る、決定論的なトランザクションの状態が要る、というのが本セッションの主張。

Two-Phase Commit Prompt：LLM に Lakebase の row を lock させてから外部 API を呼ばせ、hallucinated action を防ぐ
Time Travel for Agents：Lakebase Branching で agent の “what-if” を作る

agentのmemoryアーキを真面目に考えている方に！Lakebaseをメモリレイヤにしましょう！

💊 Doubling Medical Safety: Fine-Tuning Open LLMs for Women’s Health Without Human Labels

医療 LLM の fine-tuning の壁として「safety rule を満たしたいが、real user data には触れない、expert labeling は高すぎる」というものがあります！

これに対し Flo Health は RFT-inspired synthetic fine-tuning を採用。Llama 3.3 70B を医療コンプラ準拠化して safety compliance を 2倍に。expert time を labeling ではなく LLM judge の設計に投資した、というのが本セッションの肝となると思います！

IV. Agent 設計の最前線（2本）

Beyond One-Shot AI: How to Design Context-Aware Agents

Lvl: Advanced

「ほとんどの AI agent は one-shot：質問に答えて、忘れてしまう」── これに対し、数分〜数日かかる multi-step task をこなす agent を作るための設計パターンです。

state を steps 横断で persist する方法
failure からの graceful な recovery
long-running workflow の orchestration

production agent を真面目に作りたい人の必須科目です！

Thinking Fast & Slow: How Databricks Built High-Speed and Deep Research Agents

登壇: Michael Bendersky（Director Research @ Databricks）
Lvl: Advanced

agentic search に必要な 2モード：

low-latency, low-cost mode：consumer-facing scale でレイテンシの許容範囲を満たす
compute-intensive deep research mode：財務デューデリジェンス / 臨床評価 / 製造診断などの expert-level analysis

両者をどう設計し直したか、Databricks の Director Research 本人から聞ける回です！

V. MCP Security と Production パターン（3本）

🔐 MCP Security Deep Dive: How Databricks Secures Tool Access for Enterprise Users

登壇: Samrat Ray, Sunish Sohil Sheth（Databricks）
Lvl: Advanced

agent が外部 tool に繋がる時代、security は真っ先に解決すべき最優先課題です。1つのcredentialの漏洩、1つの監査証跡の欠落によって productionの信用が一夜で吹き飛ぶ、という重さ、、、。

production での MCP integration の auth / authorization 実装
tool への fine-grained access management
全 agent action の traceability 設計

MCP を本番で使うなら、これは絶対に聞いておきたいです！

⚡ Cache Smarter, Not Harder: Building a Semantic Cache Gateway with Lakebase and MLflow

Lvl: Intermediate

LLM コストとレイテンシ削減の決定打になりそうな1本。

「exact string match の cache だと、ユーザーが同じ質問を別の言い方で聞いたら全部キャッシュヒットしない、、、」── これに対し semantic cache（意図に基づいた情報の検索）を Lakebase + MLflow で構築する方法です。production-ready な実装パターンが学べます！

🪙 Right Features, Right Time: Modernizing Real-Time Fraud Feature Serving on Databricks

登壇: Daniel Zhou（Coinbase）
Lvl: Intermediate

Coinbase の Real-Time Mode + 宣言的 Feature APIs (features as code) + AI 支援 migration。この結果が以下です

streaming infra コスト 90% 削減（p99）
p99 freshness 95%+ 改善

self-built batch から Real-Time Mode へのパスを明確に語ってくれる、real-time ML feature serving の必読の事例です！

まとめ

DAIS 2026 を眺めていて改めて感じるのは、「AI Agent はもう PoC のフェーズを終わって、production の evaluation / observability / serving / governance / fine-tuning が本気で問われる年」 だということです！

ココまで色々紹介してきましたが、もう一回まとめると、

Jonathan Frankle 本人による Reinforcement Learning カスタムモデル
Mission-Critical Inference / vLLM / DL MLOps の3本立てで production AI を全部カバー
Agent Sprawl という新しい概念
Genie の中身を Engineering Team 自身が語る
Real-Time Mode + Coinbase fraud features で 90% コスト削減の実例
MCP Security が production で問われ始める

など、面白そうな内容が多いDAISになると思います！

それでは、6月の San Francisco で会えません〜が〜ｗ
でもみんなでみましょうね〜ｗ

コメントを残すコメントをキャンセル