こんにちは。FLINTERSでデータエンジニアをしている奥野です。
今回の投稿はFLINTERSブログ祭りの記事です。テーマは#読書感想です。
はじめに
約2年半前にデータエンジニアとして中途入社し、右も左もわからなかった自分に分かりやすく教えてくれたこちらの本をご紹介します。
本について
2021年12月に出版された、データ基盤の作り方・活用方法について書かれた本です。
- 第1章: データ活用のためのデータ整備
- データ品質、各データ層の設計、メタデータ、SLA、etc.
- 第2章: データ基盤システムの作り方
- データ収集とその取り扱い、分析用DBについて、etc.
- 第3章: データ基盤を支える組織
- 組織に必要な役割、セキュリティ、運用、etc.
想定している読者
- これからデータ基盤を導入しようと考えている人
- すでにデータ基盤を導入したが、うまく活用できていない人
感想
データ基盤の三層構造の必要性について知ることができる
データを収集しデータレイク層・データウェアハウス層・データマート層と格納していきますが、それぞれの役割やどのような課題が発生するか、品質はどこで担保すべきかが書かれています。この辺が曖昧になっていると、データの不整合が起こった時にどこで問題が発生しているのか追いにくく切り分けが難しくなります。自分も業務の中で同じようなことを痛感したのでデータ基盤構築においてはとても重要な部分だと改めて思いました。
メタデータの重要性に気づいた
メタデータ = データについてのデータ です。
データの更新日時・取得元・参照頻度・管理者等…様々です。メタデータを充実させることでデータの調査コストを抑えることができます。自分のチームでも実際にメタデータの拡充に取り組み、調査コストの削減とメタデータを利用した現状の可視化に取り組みました。
データ基盤と同じくらい重要なデータ組織の作り方
基盤が完成したら終わりではなく、常にデータ活用を推進していく組織作りが重要です。この本では「データ活用成熟度のアセスメント」として組織がどの程度データを活用できているか、5つのレベルに分けて書かれています。この基準と照らし合わせることで自分達の組織に足りない部分、やるべきことが見えてきますね。
* レベル1: データ活用の初期段階で、属人的にデータが活用されている * レベル2: データ活用プロセスに最低限の統制がとられ、再現可能である * レベル3: データ活用における基準を設け、それが守られている * レベル4: プロセスを数値化し、モニタリング・管理できている * レベル5:プロセス改善のゴールを数値化し、それに向けた最適化に取り組んでいる
おわりに
感想では自分が特に参考になった部分を挙げましたが、本としてはデータ基盤構築について網羅的に書かれているため大枠を掴むにはとても良い本だと思っています。 購入から2年ほど経った今でも、読み返すとなるほどなるほど、となることが沢山ありこれからも長くお世話になりそうな本です。みなさんもぜひ読んでみてください。