結論 AWS の r3 系インスタンスを使っている人は、r4 系 + ディスク追加に切り替えると、値段が安くなってパフォーマンスも上がる可能性が高い。 背景 仕事で、EMR 上で Sparkを 使っている。処理としては、…
前回からかなり間が空いてしまったけど、今回で完結予定。 前回はHiveの話を中心に、S3に置いたファイルをHiveでどう扱うかなどについて書いた。また、第1回では全体の流れを書いたので、どんなことをやるかは詳しくはそちら…
ちょっと前回から間が空いてしまったけど、DynamoDB上のデータやその他のデータをS3に集めて、EMR上のHiveを使ってコホート分析をするという話の第2回。今回はHiveの話を中心に書いていく。 ※Hiveを使うのは…
コホート分析とは 定義に関してはWikipediaを見れば大体わかるかと。日本語のエントリーがないので、大雑把に説明すると、ユーザーをグループ(コホートと呼ばれる)に分割し、各コホート毎に指標(例えば、ユーザーごとの滞在…