Skip to content

DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(3)

DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(3) published on DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(3) へのコメントはまだありません

前回からかなり間が空いてしまったけど、今回で完結予定。

前回はHiveの話を中心に、S3に置いたファイルをHiveでどう扱うかなどについて書いた。また、第1回では全体の流れを書いたので、どんなことをやるかは詳しくはそちらを参照。

今回は、DynamoDBに書き込んでいるデータを定期的にS3にエクスポートしたり、MySQLからエクスポートしたデータに対して、EMR上のHiveからクエリーを実行して結果を取得してみる。

Continue reading DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(3)

DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(2)

DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(2) published on DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(2) への2件のコメント

ちょっと前回から間が空いてしまったけど、DynamoDB上のデータやその他のデータをS3に集めて、EMR上のHiveを使ってコホート分析をするという話の第2回。今回はHiveの話を中心に書いていく。

※Hiveを使うのは今回が実質初めてで、EMRについてもあまり経験は豊富ではないので、何かおかしい点などがあったらご指摘頂けると幸いです。

Continue reading DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(2)

DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(1)

DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(1) published on DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(1) への1件のコメント

コホート分析とは

定義に関してはWikipediaを見れば大体わかるかと。日本語のエントリーがないので、大雑把に説明すると、ユーザーをグループ(コホートと呼ばれる)に分割し、各コホート毎に指標(例えば、ユーザーごとの滞在時間)を集計して分析することをコホート分析(cohort analysis)と呼ぶ。

よくある質問として「セグメント分けとどう違うの?」っていうのがあって、セグメントは例えば性別とか年代とかのユーザーの属性によって分割するのに対して、コホートは登録日時、初回ログイン日時といった、ユーザーの行動を元にグループ分けするというのが違い、だと思う。

Continue reading DynamoDB + S3 + EMRでコホート分析(cohort analysis)をする(1)