Scala の並列コレクションが直列でしか動かないと思ったら・・・
追記
やっぱり、並列コレクションを使うのはやめて、Future 使って、Execution Context とかをちゃんと設定する方法にした。
が、一応、以下の内容はそのまま残しておく。
並列コレクションを使う動機
今、いろんな API からデータを取ってきて、それらを検索可能にするっていう(元々は自分用の)サービスをちょこちょこ作っている。(興味のある方は以下のリンクより使ってみて、是非フィードバックを下さいませ↓)
Track Down Anything on GitHub, Slack or Google Drive | Commet
いろんな API からデータを取ってくるので、直列で実行すると、どっか1箇所の API が不調だったりしてレスポンスが遅いと、それに引きずられてしまうので、並列化しようと思った。
コード
元々のコードは、大雑把にはこんな感じ。
SomeDatabase.findAllApiEndpointsToCall.foreach { apiCall => apiCall.execute }
これを並列化しようとして、以下のコードにした。
# par をつけた SomeDatabase.findAllApiEndpointsToCall.par.foreach { apiCall => apiCall.execute }
ログをみると、
02:08:35.008 [ForkJoinPool-3-worker-5] INFO xxxxx
という感じで、別スレッドで動くようになったようだけど、スレッド名が常に同じ=1つのスレッドしか使われていないらしい。
以下のドキュメントを見ると、設定変更出来るらしいので、やってみた。
Parallel Collections – Configuring Parallel Collections – Scala Documentation
val apiCalls = SomeDatabase.findAllApiEndpointsToCall.par # TaskSupport なるものを作成して、コレクションのプロパティにセット val taskSupport = new ForkJoinTaskSupport(new scala.concurrent.forkjoin.ForkJoinPool(4)) # 4並列 apiCalls.tasksupport = taskSupport apiCalls.foreach { apiCall => apiCall.execute }
これで、とりあえず並列で処理されるようになった。
これでいいのか?
メデタシメデタシ・・・じゃない気がする。並列処理をしたいところは、ここ以外にも沢山あるし、その度に tasksupport プロパティをセットするのはだるい。ExecutionContext みたいに、設定ファイルで簡単に設定できないものだろうか。
-D とかで設定できるらしい
parallel processing – Set the parallelism level for all collections in Scala 2.10? – Stack Overflow
↑のページによれば、システムプロパティを(-D とか setProperty とかで)セットすればその設定になるらしい。うまくいってるっぽい。
プロパティをいじるとかあまりやったことないんだけど、こんな感じ。
val props = System.getProperties() props.setProperty("scala.concurrent.context.minThreads", "2") props.setProperty("scala.concurrent.context.numThreads", "x1.5") props.setProperty("scala.concurrent.context.maxThreads", "4")
パッケージオブジェクトをリフレクションでいじる
上の方法でうまく行かなかった人が、別の方法を編み出してた。
How do I set the default number of threads for Scala 2.10 parallel collections? – Stack Overflow
scala.collection.parallel.`package` の中身をリフレクションでいじるというもの。バージョンが変わった時に動かなくなる可能性もありそう。
まとめ
StackOverflow のどっかにも書いてあったけど、インターフェースとして使いづらいし、ドキュメントも1つのコレクションの設定を変更する方法しか書いてなくて困る。並列コレクションって、使ってる人があまりいないのだろうか。