勝手に紹介！DATA+AI SUMMIT面白そうセッションまとめ

来週からなんです、、、！

DATA+AI SUMMIT！来週からなんですよ！ということで、見ようと思うセッションを勝手にまとめたのでそれをなんで見たいかの理由と一緒に入れていこうの巻（まあ多すぎて無理なんですが、、、）

というわけで勝手に自分がみたくて自分が選んだセッション達をなんとなく説明するぞ！

A GUIDE TO BUILDING SMART INDUSTRIAL AUTOMATIONS WITH THE DATABRICKS API

Databricks Statement Execution APIを使用し、長時間実行されるクエリの完了通知を受け取る様に自動化を作成して、Viam SDKを用いたサーバーレスファンクションでハードウェアをトリガーする、Viam SDKはクラウドベースのロボティクスの開発と制御を容易にするためのソフトウェア開発キットみたい！
Databricks APIの使用方法を紹介して、データアクセスを簡素化、特定のユースケースに合わせたデータアプリケーションの構築をどうするか、みたいな話が聞けるセッションなのかな、聞いてみたい

A MODERN APPROACH TO DIMENSIONAL MODELING – IN A COLUMNAR DATABASE (REPEAT)

データマートやデータプロダクトにおけるディメンショナルモデリングとスタースキーマは、ゴールドレイヤーで良く使われるデータモデル。ワイドテーブルはデータガバナンスと品質の面で問題を引き起こす場合もあり、スタースキーマが優れたモデルである場合も多くあります。このセッションでは、Databricksにおけるスター・スキーマの設計技術と物理的実装のベストプラクティスについて説明する、とのこと！
モデリング話は大好物です😍

DATA MESH AND COMPLIANCE IN A MULTI-REGIONAL DATA LAKE AT ATLASSIAN

あのAtlassianにおけるデータメッシュ概念の導入がどうすすんだのかについて！
論理的および物理的レプリケーションの違いや、AWSリージョン選択によるマルチリージョンデータレイクの展開について、GDPR、FedRAMPなどの規制遵守戦略、などなどが語られるとのこと。
さらに、データレイクがAtlassian Analytics、MLトレーニング、データエクスポートなどのバックボーンにどう使われているのかも聞けるとのこと、マルチリージョンでさらにAtlassianさんの事例は楽しそう！

DATA PLATFORM MODERNIZATION WITH A DATA MESH ARCHITECTURE (REPEAT)

ラテンアメリカ最大の民間銀行の一つのBradescoで、Databricksを使用してデータエコシステムをモダン化し、Delta Lake、Unity Catalog、DLT、Delta Sharingなどの機能を活用してデータメッシュアーキテクチャを構築している事例！
これにより運用効率が向上し、ガバナンスも強化されているとのこと。実際うごいているデータメッシュ事例気になるー。

DELTA LAKE MEETS DUCKDB VIA DELTA KERNEL

最近気になってるDuckDBについてのセッション！
このセッションでは、オープンソース分析データベースDuckDBへのDeltaサポートの導入、インテグレーションのアーキテクチャ、および学んだ教訓について説明、デモとベンチマークもあるとのこと！

EFFICIENT NEAR REAL-TIME EVENT INGESTION USING DLT: INSIGHTS AND LESSONS

Nextdoorさんの毎時のバッチイベント取り込みから、DLTを使用したほぼリアルタイムのストリーミングソリューションへと移行、これにより、アナリスト、データサイエンティスト、エンジニアが迅速にイベントをクエリできるように。さらに計算コストも削減された。この移行にともなって必要となった、ファイル取り込みのファイル通知の活用、ストリーミングとバッチパイプラインの整備・調整、カスタムSparkメトリクスの導入、スキーマ進化の活用に関するセッション！
ストリーミング周り気になるし、運用の具体的な所ききたい！

RAPID PYSPARK CUSTOM PROCESSING ON TIME SERIES BIG DATA IN DATABRICKS

Sleep Number Smartbedsのセンサーは、ベッド上の体重データから個別の睡眠インサイトを生成する、ノイズが多いため、低エントロピーの安定セグメントを選ぶ必要がある、とのこと。Pandasでの実装では不十分だったため、PysparkとDatabricksを使用して効率化し、5000万レコードを約0.3秒で処理できるようにした、という事例セッション！
5000万レコードを0.3秒はすごいやろ！

SIMULATING THE SUPERBOWL: REAL-TIME ML TO PREDICT THE NFL (REPEATED)

NFLなどライブスポーツイベントでの、スポーツブック（賭けですかね？）運営におけるリアルタイム機械学習の実現について。このセッションでは、DraftKingsがどのようにこれを実現しているかを紹介し、Monte Carloシミュレーションと機械学習モデルを使用した価格設定エンジンや、MLOpsパイプライン、MLflowとDatabricksによるソフトウェア開発ライフサイクルの加速について！
リアルタイムMLは気になるわー！

ということで

これは単純に自分が見てみたいセッションを並べただけですが、他にもいっぱいセッションがあって、多分バーチャルでも見られるようになると思います。

それ以外でもKeynoteでも面白い話がいっぱい聞けると思うので、是非DATA+AI SUMMIT登録お願いします！