FLINTERS Engineer's Blog

FLINTERSのエンジニアによる技術ブログ

新宿Geek Lounge#3 分析基盤 Meetupを開催しました

こんばんは、@kimutyamです。

弊社で開催した新宿Geek Lounge#3 分析基盤 Meetupのレポート記事です。

f:id:kimutyam:20170919202026j:plain

第1~2回とScalaネタのイベントでしたが、 今回は分析基盤をテーマにイベントを開催致しました。

20:00~20:05 オープニングトーク

弊社、河内の軽快なオープニングトークから乾杯スタート

f:id:kimutyam:20170919203105j:plain

20:05~20:25 EMBULKの歴史 過去・現在、これから

f:id:kimutyam:20170919202904j:plain

gitpitch.com

EMBULKの歴史 過去・現在、これから

はじめに、@hiroysatoさんの登壇です。
題名どおり今までのEmbulkの変遷についてお話をいただきました。
当初はEmbulkのプラグインが少なく出来ることが限定的だったそうですが、 今や200を超えるプラグインが開発されたようです。
@hiroysatoさん自身も必要に応じて、プラグインを開発されたそうです。

資料中のEmbulkプラグインのまとめEmbulk(エンバルク)組み込みプラグインの設定覚え書きは私も普段大変お世話になっているまとめです。

プラグインも資料もなければ作ってきたらしく、 大変素晴らしくEmbulk&Digdagに貢献してこられたのだと改めて感じました。

20:25~20:45 動画系メディア企業で行われているETLの実際

f:id:kimutyam:20170919205310j:plain

動画系メディア企業で行われているETLの実際

続きまして、@smdmtsさんの登壇です。

「分析基盤刷新PoC」「ETL実例紹介」「ETLでぶつかった壁」の3部構成にお話をしていただき、実践向けの内容になっていました。

冒頭のPoCではSSOT(Single source of truth)を目指して検証した結果、 分析基盤の構成にTreasure Dataが導入したそうです。
Firebase Analyticsの生ログをBigQueryで分析したところスキャン量増大問題とSQL難読問題が発生していたところをFirebase Analyticsの生ログを最終的にTreasure Dataにロードすることで解決した具体例があげられています。
その仮定で7つのEmbulkプラグインを開発したそうです。

@smdmtsさんはScalaでEmbulkプラグインを開発していて、 私個人として非常に参考にさせていただいています。

20:55~21:15 セプテーニで分析基盤(Treasure Data)を導入した話

f:id:kimutyam:20170919210116j:plain

セプテーニで分析基盤(Treasure Data)を導入した話

最後に私の登壇です。 私が日々開発しているPYXISでどのように分析基盤を構築したかを説明させていただきました。
導入背景とアーキテクチャ構成、Treasure Dataを利用して良かった点をお話しました。
アーキテクチャはよく使われているパターンかもしれませんが、 社内事情を踏まえた上で開発者とデータアナリスト(非エンジニア)との業務連携するために工夫したことを紹介しました。

※本件は後日別途ブログエントリーで補足させていただきます。このエントリーにもリンクを載せておきます。

21:20~22:00 懇親会&じゃんけん

f:id:kimutyam:20170919213308j:plain

懇親会の風景です。
@oreradioさんよりTreasure Dataグッツをいただき、じゃんけん大会をしている様子です。
ありがとうございました!!

感想

今回は私も登壇しましたが、とても楽しかったです。(小並感)
私はEmbulk/Digdag/Treasure Dataに関して歴が浅いのですが、
界隈の人たちがとにかく優しいおかげですぐに参入できました。

日々の業務でTreasure Data社からの手厚いテクニカルサポートを受けたり、
Twitterで困ったことをつぶやいたら丁寧に教えていただけたり、
普段仲良くさせていただいてる@smdmtsさんに直接聞いたり..w

ありがとうございました。
今後とも宜しくお願い致します。