皆さんこんにちは。
@toshikimiyagawaです。
データマイニング+WEB勉強会(通称TokyoWebmining)に参加して来ました。
今回はこの勉強会のレポートをします。
私はこの勉強会2回目の参加になります。
非常にレベルの高い勉強会ですが、背伸びする気持ちで行って参りました。
データマイニング+WEB勉強会
人数が少なく(募集人数は15人くらいか)、今回はほこ×たてに出演していた人の話があるということで、すぐ満席になりました。
募集開始時刻がある日の20〜22時のどこかというゲリラ的な募集だったのに、
2回のうち1回目は8分、2回目は8秒で満席になったとのこと。
募集開始を待ち構えるべく皆さんブラウザをリロードしまくってたそうですw
講演概要
概要は、主催者である濱田さんのblogを参考にしてください。Webクローリング&スクレイピングの最前線〜ほこ×たてで語られなかった5万枚画像の真実〜
先日大盛り上がりだったほこ×たて「どんなパソコンにも侵入する世界最強ハッカーVS絶対に情報を守るネットワークセキュリティー」の「たて」側の方の講演。5万枚のタカアンドトシのタカの画像をインターネット上からクロールして取ってくる手法の紹介でした。
自分も昔、趣味でサイトから動画をダウンロードするのにwget使ったりしてました。
パスワード要求してくるサイトとか、Referrer見てくるサイトもあったので、それに対応したりしてました。
講演聞いててそういうことしてたのを思い出しました。
オープンデータ・パーソナルデータビジネス最前線
オープンデータやパーソナルデータとはどういうものかの紹介と実際どのように利用されているかの紹介。また、ヨーロッパとアメリカで、オープンデータの考え方の違い、さらに日本はどうすべきかという話をされていました。
自分はオープンデータというもの自体を知りませんでしたが、導入から話していただいたので、すごくわかりやすかったです。
TokyoWebminingは専門的な話をしているのに、導入から話をしていただけるのがすごい良いですね。
クラウドネイティブなアーキテクチャでサクサク解析
Amazon.comが実際にどのようにAWSを利用しているかの紹介平均11.6秒ごと、最大1時間に1079回ものデプロイがおこなわれるそうです。
このような高頻度のデプロイを可能にするためのノウハウを語って頂きました。
AWS re:Invent基調講演にさらに詳しい内容がありました。
業務でElasticMapReduce(AmazonWebServicesでHadoopを動かすサービス)について色々悩んでいることがあったので、個人的にお話させていただいていたら、
今度弊社に来てアドバイスいただけるとのことです。
さすがAmazonさん!
大規模ログ分析におけるAmazon Web Servicesの活用
バンダイナムコさんのGrecoというログ分析インフラの紹介。オンプレミスのサーバはほとんど無く、大体AWSとのこと。
RedShiftのお話がメインでした。
現在の業務でRedshift(AmazonのDWH)使おうか悩んでいたので、すごく参考になりました。
普通のRDBに比べてDWHは大量の行・少量の列の集計処理に強く、
少量の行・大量の列の抽出に弱いという特徴があります。
そのため、RDS(AmazonのRDB)とRedshiftを同期させ、処理によってRDSを使うかRedshiftを使うか使い分けているそうです。