毎年恒例の Data + AI Summit、いよいよ今年は 6月の San Francisco で開催されますね!(2回目)

前回はデータエンジニア目線での20本を紹介しましたが、今回はAI!

データサイエンティスト視点で、AI Agent / MLOps / LLMOps の中身を語ってくれる回だけを 20 本に絞ってみました。見てみた結果、評価・運用・実装にちゃんと踏み込む回をピックしています!

このリストの想定読者は、

  • LLM / Agent をプロダクションに乗せようとしているデータサイエンティスト
  • MLflow / DSPy / Agent Bricks で eval や serving を本番運用している
  • RAG / Vector Search の “production の壁” を越えたい
  • Multi-Agent の observability や failure mode に頭を抱えている
  • ガチで AI/ML プラットフォームを設計している

などの方々です!

それでは早速、章ごとに見ていきましょう!


I. 「AI Agent の評価と観測」枠 — 今年の最大トピック!

DAIS 2026 で個人的に一番ホットだと思っているのが Agent Eval / Observability 領域です。”vibe-based testing” でなんとか回してきた agent が、本番で次々と “ちゃんと評価しないと耐えられない” フェーズに入ってきている雰囲気を強く感じます!

🔥 Cascading Failures in Multi-Agent Systems

  • 登壇: Oleksandra Bovkun(Databricks)
  • Lvl: Advanced / 20分

胸アツな1本です、、、!

Multi-Agent システムの評価は、もはや「単一モデル出力のテスト」じゃなくて、coordination layer の整合性検証だ、という視点転換から始まります。ありがちな failure mode として、

  • poisoned shared memory(共有メモリの汚染)
  • sub-optimal decision pattern(局所最適に陥る判断パターン)
  • distributed hallucination(複数エージェント間の幻覚伝播)

など、単体テストでは絶対に出てこない issue を MLflow observability でどう拾うか が解説されます。passive monitoring から active intervention へどう移行するか、Databricks のどのコンポーネントが chaos prevention に効くか、、、!Multi-Agent を本番で運用する DS は絶対に押さえたい1本ですー!

🔥 The 52x Multiplier: How Zepto Mastered AI Agent Evaluation at Scale

  • 登壇: Gireesh Sreedhar K P(Databricks), Deepak Dhankani(Zepto)
  • Lvl: Intermediate

クイックコマースの Zepto は、日次 80,000 件の自律サポートチケットを裁くために、もう “vibe-based testing” では立ち行かなくなった。という、そりゃそう、、、という危機感から始まるセッションです。

採用した枠組みは MLflow 3.0 + DSPy ベースの dual-loop framework。結果として、

  • 52x ROI(評価インフラへの投資対効果)
  • サポートコスト 65% 削減
  • CSAT +20.5%

という具体的な数字を出しています。”reactive fix” から “real-time tracing” へのシフト、すなわち eval を core infrastructure として具体的な利用例が見れるセッションになると思います!

🔥 AI Will Go Wrong and the Blueprint to Get It Right

  • 登壇: Maria Zervou, Lexy Kassan(Databricks)
  • Lvl: Intermediate

これはちょっと毛色が違って面白そう!

主張は「AI failure の多くは技術問題じゃなくて、人・プロセス・アーキの問題」というもの。ライブで AI trainwreck(ガードレールなし agent の暴走)を起こして、その場で post-mortem する という構成?どうなるんか?

役割・責任構造・プラットフォームアーキの “missing middle layer” を、参加者みんなで peer 同士マッピングするワークもあるとのこと。ちょっと想像つかないけどより具体的な体験ができる場としておもしろいかも!

+ 強く推奨3本(同じ枠で必聴)

タイトル登壇着目点
Control and governing your coding agents with LLMOpsYuki Watanabe(Databricks)Claude Code / Codex / Gemini CLI を MLflow で trace + LLM judge + AI Gateway 経由でコスト管理
Beyond the Trace: adidas’ Agent Digital Twin for Governance, Cost and ROIadidas + Databricks200+ serving endpoints / 6k+ registered models を統合する agent control plane の設計
Building Enterprise-Scale Agentic Claims Automation and AI ObservabilitySuncorp + Databricks16 production-grade agentic AI 統合の orchestration

II. Production Model Serving — LLM を本番で動かす生々しい話2本

🚀 Running LLaMA at Scale: Production Inference on Databricks Model Serving

  • 登壇: Christoph Stuber, Mykhailo Troianovskyi(Superhuman / 旧 Grammarly)
  • Lvl: Intermediate / 40分

これは本気で LLM をユーザーに届けている DS にはめちゃくちゃ気になる話では?

fine-tuned LLaMA-3B を月数百万人に提供する production system の生々しい話。

  • direct-ingress patterns で高 RPS を実現
  • 100K+ QPS を見据えた load testing の現場
  • multi-region failover と cold-start mitigation
  • A/B test + golden set による validation
  • 内部 baseline と比較するためのコストモデル

「LLM を真面目に本番に乗せる」とは何をするのか、何が起きるのか、すごく実務的な観点で聞ける回です!

🎮 KRAFTON at Scale: Architecting Real-Time Game AI with MLflow & Serving

  • 登壇: Gibum Seo, Jiyoung Lim(KRAFTON)
  • Lvl: Intermediate

PUBG: BATTLEGROUNDS(MAU 2億超)の real-time AI 事例です。

ハイライトは anti-cheat MLOps

  • 旧構成:hourly batch
  • 新構成:sub-minute real-time pipeline(Structured Streaming + online feature store + 最適化された Model Serving)
  • 結果:latency 大幅低減 + コスト 1/10
  • 体制:たった3人のエンジニアでグローバル運用

esports の勝敗予測 serving の話も入ります。リアルタイム ML/LLMOps の “現実解” を見たい人はこの1本!


III. Multi-Agent をスケールさせた本番事例3本

🏥 AstraZeneca’s Multi-Agent System: Lessons Scaling Agents by 10x With Agent Bricks

  • 登壇: Brian Burke(AstraZeneca), Homayoon Moradi(Databricks)
  • Lvl: Intermediate

製薬大手の Multi-Agent 本番運用事例。5-agent PoC → 20+ agents 本番、50+ 設計までスケールさせています。

設計のポイントは、

  • supervisor agent が treatment area 別の specialized sub-agent を統括
  • Genie Spaces(structured)+ Knowledge Assistant(unstructured) を組み合わせ
  • UC + Entra ID で permission boundary を厳密化
  • MCP で third-party tool integration

production multi-agent のリファレンス設計として、めっちゃ参考になる構成です!

💼 Anthropic + Adidas + Databricks: Unlocking 400 Hours of Productivity Weekly

  • 登壇: Anthropic、adidas、Databricks 共催

これも豪華な座組!

Anthropic 側からは モデル選定 / serving infrastructure / governance / コスト最適化 の横断的な顧客知見、Adidas 側からは Claude を multi-agent orchestrator として本番投入したアーキの解説。週 400 時間の生産性インパクトをどう実現したか、というビジネス側の語り口もあるはず。

💳 How Mastercard Turns Transaction Data into Trusted Merchant Insights with AI

  • 登壇: Tomáš Drietomský(Mastercard)
  • Lvl: Advanced

Mastercard 初の AI-powered API 製品 GAIME の話です。

  • fuzzy-matching algorithm が transaction descriptor と Mastercard の merchant database を突合
  • 構成:entity recognition + embedding + vector search + AI-as-a-judge で最終判定
  • 議論軸:Governance / Responsible AI / 品質管理 をプロダクトの 3 pillar として設計

「production AI 製品」、そして金融!それだけでヤバい!


IV. RAG / Memory / Fine-tuning — 技術深堀り3本

📚 Effective document management and retrieval for generative AI

  • 登壇: Yevgeniy Ilyin, Xintia Gyenge(Databricks)
  • Lvl: Advanced / 90分の Deep Dive

production RAG を真面目に組む人に向けて!

90分かけて RAG の全工程をカバーします。

  1. document structuring の原則
  2. semantic vs. fixed-size chunking のトレードオフ
  3. contextual & multi-modal embedding
  4. retrieval optimization(re-ranking / contextual filtering / real-time quality evaluation

Databricks 上の実装デモも込み。RAG の “本気の現場” を 90分で詰め込める回!

🧠 Why Vector Stores Are Not Enough: Using Lakebase as a Durable Memory Layer for Autonomous Agents

  • 登壇: Nam Nguyen(Databricks)
  • Lvl: Advanced

これも面白い視点の1本です!

「Vector Database が AI Agent の “memory”」と言われがちですが、それって probabilistic similarity score にすぎない。エンタープライズ用途では “probably” じゃ困る、deterministic な transactional state が要る、というのが本セッションの主張。

具体的に解説されるのは、

  • Two-Phase Commit Prompt:LLM に Lakebase の row を lock させてから外部 API を呼ばせ、hallucinated action を防ぐ
  • Time Travel for Agents:Lakebase Branching で agent の “what-if” を作る

agent の memory アーキを真面目に考えている 人へのヒントになるか!?

💊 Doubling Medical Safety: Fine-Tuning Open LLMs for Women’s Health Without Human Labels

  • 登壇: Vladislav Nedosekin(Flo Health), Michael Shtelma(Databricks)
  • Lvl: Intermediate

医療 LLM の fine-tuning の壁、つまり「safety rules を満たしたいけど、real user data には触れない、expert labeling は高すぎる」という、誰もが直面するジレンマに、Flo Health がどう答えたか。

採用したのは RFT-inspired synthetic fine-tuningLlama 3.3 70B を女性ヘルスケアコンプラに準拠させて、safety compliance を 2倍 に引き上げています。重要なのは、expert time を labeling ではなく LLM judge の設計に投資したこと、これは興味深いですねー!


V. Agent × ML プラットフォーム / 実装系(4本)

#タイトル着目点
#9AI_DIAGNOSE: Automating Spark Job Debugging with LLM Agents(Databricks)Spark SQL procedure として ReAct-style agent を engine 内に実装!distributed log を自動収集して根本原因解析する DBR Runtime 機能
#11Agentic Feature Engineering: How McAfee Drives Personalization With Agent Bricksautonomous feature engineering agent で iteration 60% 削減・売上 $54M+。SQL を agent が書いて回す時代の実装例
#19Building Query Expert MCP: Block の analytics agent11,000+ tables の文書を query_ai sub-agent で自動生成、SQL ニュアンスを学習させる
#20Real-Time Context Engineering for AI With Databricks(Confluent)“AI は refined context が必要”。Confluent + Databricks の real-time context architecture を anomaly detection / personalization で実演

特に #9 の AI_DIAGNOSE は「Spark エンジン内部に ReAct agent を組み込む」という発想が最高に DS 心くすぐられる1本です!


VI. AI Safety / Governance / Bio DS(2本)

Detecting and Reducing Manipulative AI Outputs With Interpretable Governance Signals

LLM が政策違反すれすれの manipulative content を生成する問題を、interpretable な signal として operationalize して production eval workflow に組み込む手法。AI Safety を真面目にやりたい方へ。

Unlocking Antibody Space With Databricks Vector Search(Amgen)

Bio 系のセッションの面白そうな1本!抗体配列を AMPLIFY 蛋白質言語モデル で embedding 化し、1B embeddings / endpoint 規模で similarity search を回す事例。創薬のDSの方へ、ぜひ。


まとめ

TwitterやDAIS 2026 を眺めていて感じるのはAI Agent はもう PoC のフェーズを終わって、production の eval / observability / serving / governance が本気で問われる ということ!

特に注目したいのは、

  • Multi-Agent の Cascading Failure という新しい failure mode が議論される
  • Eval を core infrastructure として扱う(MLflow 3.0 + DSPy)流れ
  • Agent の memory はベクトル DB だけでは足りない、Lakebase でトランザクショナルに、という設計思想

の4点。データサイエンティスト視点で枠を取り切る価値が大きい年だと思っています!是非参考にしていただきつつ、自分の見たいセッションを決めていってください!

それでは、6月の San Francisco で会いましょう〜!(だからいかんのやて)

コメントを残す

Trending