毎年恒例の Data + AI Summit、いよいよ今年は 6月の San Francisco で開催されます(何回言うねん)

アジェンダを眺めていたら、なんと 2026年は269本!(2026/05/01時点) 様々なセッションが増えて、開催が近づくに従ってドンドン増えています!

とかいってたじゃないですか、今見たら626本になってるんです!w

というわけで、データエンジニアに引き続き、データサイエンティスト視点で、AI Agent / MLOps / LLMOps の中身を語ってくれる回だけを再度 20 本に選び直してみました!!!

このリストの想定読者は、

  • LLM / Agent をプロダクションに乗せようとしているデータサイエンティスト
  • MLflow / DSPy / Agent Bricks で eval や serving を本番運用している
  • RAG / Vector Search / Memory の “production の壁” を越えたい
  • Multi-Agent の observability や failure mode に頭を抱えている
  • Deep Learning や Reinforcement Learning を真面目にやりたい

などの方々です!(もちろん見ていただきたいです!)

それでは早速、、、行きましょう!


I. 「Production AI を本気で!」枠(必見4本)

今年のテーマは何といっても 「production AI / LLM をどう動かすか」 です!PoC を超えて本番運用を考えている DS の皆さんにはこの4本を!

🔥 Mission-Critical Inference: Powering High-Scale AI in Production

  • 登壇: Ankit Mathur, Tejas Sundaresan(Databricks)
  • Lvl: Advanced

モデルを リリース したが、、、数百万 req/day を 適切なlatency / cost / zero downtime で捌く必要があるという productionの現実に向き合う1本!

  • GPU autoscaling がどうトラフィックに追従するか
  • request batching でコストをどこまで圧縮できるか
  • 世界で最も負荷の高い推論ワークロードを支える Databricks Custom Model Serving の運用パターン

を、実装ベースで解説してくれます。production inference の プレイブック を持って帰りましょう!

🔥 Scaling Custom LLMs with vLLM and Databricks Model Serving

  • 登壇: Colton Peltier, Mohamad Aboufoul(Databricks)
  • Lvl: Advanced

provisioned throughput endpoint でデフォルトの LLM を使うのは簡単。でも、1000個の OSS / fine-tuned LLM を本気で動かしたい時にどうするか!?

  • Serverless GPU Compute で deployment 設定の数時間を節約
  • vLLM + GPU workloads のチューニングポイント
  • 実装上のトレードオフ

OSS LLMをプロダクションで活かすには、、、これも中々表にでてこない内容です!

🔥 From Training to Production: MLOps for Deep Learning on Databricks

  • 登壇: Michael Shtelma, Puneet Jain(Databricks)
  • Lvl: Advanced

Deep Learning は MLOps playbook を破壊する」── が、印象的な1本です!

  • 数ギガバイト規模の重みデータ、GPU負荷の高い学習、分散チェックポイント、fine-tuning ループなど
  • これらは classical ML の lifecycle pattern では収まらない
  • 結果としてチームは脆いパイプラインをつぎはぎで組むハメになり、ダウンタイム・ドリフト・取り損ねた再学習サイクルで痛い目を見る

これに対し、Databricks上で end-to-end に DL MLOps を回す方法(distributed training + MLflow tracking、large model 用の model registry workflow、GPU-aware serving with traffic split)を見せてくれます。DL の MLOps を真剣にやる DS には必見

🔥 Building Custom Models That Know Your Enterprise Knowledge with Reinforcement Learning

  • 登壇: Jonathan Frankle(Chief AI Scientist @ Databricks)
  • Lvl: Advanced

これは超アツい1本!

Databricks の Chief AI Scientist であるJonathan Frankle さん本人が、Databricks 内部の agent を OSS モデル + 強化学習(RL) でカスタマイズして動かしている話を解説してくれます!

  • Databricks AI Runtime (AIR) での custom RL 実装
  • 必要な “ingredients”(プロセス、データ、報酬設計)
  • Databricks が独自に開発した novel な RL methods

RFT / Reinforcement Learning を本気で会社で展開したい方には、これは絶対に外せない1本です!


II. Agent Evaluation / Observability — 今年いちばんホットなトピックでは?(4本)

AI Agent が PoC を超えて production の段階に入ってきた今、evaluation と observability の体系化は最大の関心事だと思います。

🔥 Cascading Failures in Multi-Agent Systems

  • 登壇: Oleksandra Bovkun(Databricks)
  • Lvl: Advanced

Multi-Agent システムの評価は、もはや「単一モデル出力のテスト」じゃなくて、coordination layer の整合性検証だ、という視点転換から始まります。ありがちな failure mode として、

  • poisoned shared memory(共有メモリの汚染)
  • sub-optimal decision pattern(局所最適に陥る判断パターン)
  • distributed hallucination(複数エージェント間の幻覚伝播)

MLflow observability でどう拾うか、passive monitoring から active intervention へどう移行するか、が解説されます。Multi-Agent を本番で運用する DS は絶対に押さえたい!

Behind the Curtain: How We Do Eval in Genie / How We Built Agent Mode in Genie Spaces

  • Lvl: 両方 Advanced
  • 登壇: Genie Engineering Team(Databricks)

Databricks の Genie Engineering Team 自身が、Genie Spaceの eval 設計と Agent Mode の内部を語る回。

  • 「Eval」セッションでは、offline benchmark / human-in-the-loop / production feedback loop の組み合わせと、それぞれのトレードオフ
  • 「Agent Mode」セッションでは、planning / validation / context management の orchestration、multiple hypothesis を探索する実装

Databricks 自身がプロダクトとして真剣に向き合っている agent 設計、Genie Spaceを使ってる人もいると思いますが、これを中の人から聞ける貴重な機会です!

How to Implement Observability to Reduce Agent Sprawl

  • 登壇: Alkis Polyzotis, Arthur Dooner(Databricks)
  • Lvl: Advanced

Agent Sprawl(エージェントの濫立)」という新しい architectural debt の話です。

  • 複数チームがバラバラに agent を立てる → 全社の agent fleet を把握できなくなる
  • どの agent がどの判断をしたか trace できない
  • 一貫した policy も効かない

これを MLflow trace + Unity AI Gateway の policy enforcement で解決する、というアプローチが解説されます。Agent fleet 化はこれから必須と言う中、超実用的なセッションになると思います!

+ 推奨:The 52x Multiplier (Zepto), The Databricks Big Book of AgentOps

タイトル着目点
The 52x Multiplier: Zepto AI Agent EvaluationMLflow 3.0 + DSPy で 80K 日次チケットの eval、52x ROI / CSAT +20.5%
The Databricks Big Book of AgentOps“MLOps → AgentOps” の体系化、autonomous multi-step agent 用の CD/CI 再設計

III. RAG / Memory / Custom Model — 技術深堀り3本

📚 Effective document management and retrieval for generative AI(90分 Deep Dive)

production RAG を真面目に組む前に!

90分かけて RAG の全工程をカバー:

  1. document structuring の原則
  2. semantic vs. fixed-size chunking のトレードオフ
  3. contextual & multi-modal embedding
  4. retrieval optimization(re-ranking / contextual filtering / real-time quality evaluation

Databricks 上の実装デモ込み。RAG の “本気のステップ” を 90分で詰め込めるぞ!

🧠 Why Vector Stores Are Not Enough: Using Lakebase as a Durable Memory Layer for Autonomous Agents

「Vector DB が AI Agent の memory」と言われがちですが、それは probabilistic similarity score (確率的な類似度スコア)にすぎない。エンタープライズ用途では “probably” じゃ困る、決定論的なトランザクションの状態が要る、というのが本セッションの主張。

  • Two-Phase Commit Prompt:LLM に Lakebase の row を lock させてから外部 API を呼ばせ、hallucinated action を防ぐ
  • Time Travel for Agents:Lakebase Branching で agent の “what-if” を作る

agentのmemoryアーキを真面目に考えている方に!Lakebaseをメモリレイヤにしましょう!

💊 Doubling Medical Safety: Fine-Tuning Open LLMs for Women’s Health Without Human Labels

医療 LLM の fine-tuning の壁として「safety rule を満たしたいが、real user data には触れない、expert labeling は高すぎる」というものがあります!

これに対し Flo Health は RFT-inspired synthetic fine-tuning を採用。Llama 3.3 70B を医療コンプラ準拠化して safety compliance を 2倍に。expert time を labeling ではなく LLM judge の設計に投資した、というのが本セッションの肝となると思います!


IV. Agent 設計の最前線(2本)

Beyond One-Shot AI: How to Design Context-Aware Agents

  • Lvl: Advanced

「ほとんどの AI agent は one-shot:質問に答えて、忘れてしまう」── これに対し、数分〜数日かかる multi-step task をこなす agent を作るための設計パターンです。

  • state を steps 横断で persist する方法
  • failure からの graceful な recovery
  • long-running workflow の orchestration

production agent を真面目に作りたい人の必須科目です!

Thinking Fast & Slow: How Databricks Built High-Speed and Deep Research Agents

  • 登壇: Michael Bendersky(Director Research @ Databricks)
  • Lvl: Advanced

agentic search に必要な 2モード

  1. low-latency, low-cost mode:consumer-facing scale でレイテンシの許容範囲を満たす
  2. compute-intensive deep research mode:財務デューデリジェンス / 臨床評価 / 製造診断などの expert-level analysis

両者をどう設計し直したか、Databricks の Director Research 本人から聞ける回です!


V. MCP Security と Production パターン(3本)

🔐 MCP Security Deep Dive: How Databricks Secures Tool Access for Enterprise Users

  • 登壇: Samrat Ray, Sunish Sohil Sheth(Databricks)
  • Lvl: Advanced

agent が外部 tool に繋がる時代、security は 真っ先に解決すべき最優先課題です。1つのcredentialの漏洩、1つの監査証跡の欠落によって productionの信用が一夜で吹き飛ぶ、という重さ、、、。

  • production での MCP integration の auth / authorization 実装
  • tool への fine-grained access management
  • 全 agent action の traceability 設計

MCP を本番で使うなら、これは絶対に聞いておきたいです!

⚡ Cache Smarter, Not Harder: Building a Semantic Cache Gateway with Lakebase and MLflow

  • Lvl: Intermediate

LLM コストとレイテンシ削減の決定打になりそうな1本。

「exact string match の cache だと、ユーザーが同じ質問を別の言い方で聞いたら全部キャッシュヒットしない、、、」── これに対し semantic cache(意図に基づいた情報の検索)を Lakebase + MLflow で構築する方法です。production-ready な実装パターンが学べます!

🪙 Right Features, Right Time: Modernizing Real-Time Fraud Feature Serving on Databricks

  • 登壇: Daniel Zhou(Coinbase)
  • Lvl: Intermediate

Coinbase の Real-Time Mode + 宣言的 Feature APIs (features as code) + AI 支援 migration。この結果が以下です

  • streaming infra コスト 90% 削減(p99)
  • p99 freshness 95%+ 改善

self-built batch から Real-Time Mode へのパスを明確に語ってくれる、real-time ML feature serving の必読の事例です!


まとめ

DAIS 2026 を眺めていて改めて感じるのは、「AI Agent はもう PoC のフェーズを終わって、production の evaluation / observability / serving / governance / fine-tuning が本気で問われる年」 だということです!

ココまで色々紹介してきましたが、もう一回まとめると、

  • Jonathan Frankle 本人による Reinforcement Learning カスタムモデル
  • Mission-Critical Inference / vLLM / DL MLOps の3本立てで production AI を全部カバー
  • Agent Sprawl という新しい概念
  • Genie の中身を Engineering Team 自身が語る
  • Real-Time Mode + Coinbase fraud features で 90% コスト削減の実例
  • MCP Security が production で問われ始める

など、面白そうな内容が多いDAISになると思います!

それでは、6月の San Francisco で会えません〜が〜w
でもみんなでみましょうね〜w

コメントを残す

Trending