おつかれさまです!桑野です!
本日は見本誌をいただいたので読んでみたレビュー等をさせていただければと思いBlogを書いております

今回は「Apache Iceberg活用入門」ということで、オープンテーブルフォーマット(以下OTF)といえば、DeltaかIcebergか!というところだと思うのですが!(異論は許されない

その一翼であるIcebergについて解説した、「Iceberg Definition Guide」の内容を邦訳+αしたこの本について紹介させていただきます!

そもそもOTFについてご存知ですか?

「最近よく聞くよなぁ、IcebergとかDeltaとか」って思う方もいらっしゃると思いますがそもそもOTFってご存知でしょうか!?

「あ、アレでしょ(モゴモゴ)」

いいんですよ、それを知るための本です!

例えばIcebergについて聞いた時にこんな事を思った人、いると思います!
「このParquetファイル、どのバージョンが正しいってどう判断するん?」「クラウドストレージでトランザクション処理ってどうやんの、、、」「スキーマ進化?なにそれ美味しいの?」

特にデータレイクを運用している中でデータウェアハウスみたいな機能が欲しくなる時がありました。そこで登場したのがオープンテーブルフォーマット!Delta Lake、Apache Iceberg、Apache Hudiなんかがその代表格です。

そしてこの本は「Apache Iceberg活用入門」は、このオープンテーブルフォーマットの世界への入門書として良い本だと思いました!

ということで紹介していきますw

Iceberg Definition Guideの内容がめちゃくちゃ分かりやすい!

この本、何がすごいってO’Reillyの「Apache Iceberg The Definitive Guide」の邦訳なんですけど、ただの翻訳じゃない!

Apache Iceberg The Definitive Guideの内容の翻訳はもちろんなんですが、それに対して追加情報としての丁寧な図表の修正、追加の注釈がついていて、例えば「段階的な進行」とか「ファイルサイズと行グループサイズ」とか、「それも知りたいんだよなぁ!!!」って内容が入っているのがめちゃくちゃ嬉しいです

原著だけだと「英語の壁」と「概念の壁」のダブルパンチでくじけそうになるところを、この本は優しく手を引いてくれる感じなわけです。

Icebergだけじゃない!オープンテーブルフォーマット全般の基礎が学べる

実はこの本、タイトルは「Apache Iceberg活用入門」なんですけど、オープンテーブルフォーマットそのものについての理解が深まるんですよ。(Definition Guide、ですからね)

例えば:

  • なぜParquetファイルだけじゃダメなのか
  • ACID特性をどうやってオブジェクトストレージ上で実現するのか
  • タイムトラベル機能ってどういう仕組みで動いてるの?
  • スキーマ進化ってそもそもなんで必要?
  • カタログって何?

こういう根本的な「なぜ?」に答えてくれるので、IcebergじゃなくてDelta Lake使ってる人でも「あー、うちのDelta Lakeも似たようなことやってるわ」って理解が深まります。

第1章の「なぜIcebergが生まれたのか」のストーリーは、まさにデータエンジニアリングの進化の歴史です、まさにそれが課題だったよなぁ、、、って思いながら読めましたし、前自分の勉強会でも言ってたなぁって思いましたw

あと、ぼくが一番好きなのは14章です!!!!リアルワールドでの運用で、コレ必要でしょ!?っていうのが書いてあるのは14章です!例えばWrite-Audit-Publish!コレ皆さんあまり聞かないかも思いますが、Icebergの強みといえばブランチが切れるという所と相まってこれが一つあると思ってます

こんな感じの運用周りのやらないといけないこと、Sparkや、Flink、Trinoなど複数のプロダクトでのハンズオン、Icebergを触るに当たってこれは知ってから入った方がわかりやすいやろ!って内容がてんこ盛りでした

そしてLINEヤフーさんの事例まで!

日本版のオリジナルコンテンツとしてLINEヤフーさんの事例がありました!

今までの課題と、それをどう解決してきたかが生の言葉でかいてあって、これからOTFを使っていこうとする方へのOTFへの良かった点を語ってくれるいい記事だったなと思いました

まとめ、、、一歩踏み出すにはこの一冊

「Apache Iceberg活用入門」は技術書ですが、それに加えてデータエンジニアリングの新しい世界への招待状みたいな本でした!

オープンテーブルフォーマットって聞くと難しそうだけど、この本は基礎から丁寧に、でも実践的に、そして楽しく学べるなーって思いました。

  • データレイクの運用で消耗してる人
  • 「データレイクハウスってなんやねん」って思ってる人
  • とりあえずOTFについて体系的に学びたい人
  • OTFの実際の運用をイメージ付けたい人

こんな人はとりあえず読んでみましょう!

データレイクとデータウェアハウスのいいとこ取りをしたデータレイクハウス!
その中核技術であるオープンテーブルフォーマット。この本を読めば、きっとあなたも「これからのデータ基盤ってこうなるのかぁ」って思えるかも?

さあ、一緒にオープンテーブルフォーマットの世界に足を踏み入れてみませんか?

ではでは!楽しいデータエンジニアリングライフを!

Deltaの本もあるでよ!(我慢できなかったw)

コメントを残す

Trending