ひとつ仕事が片付いた
とあるデータを解析するための下準備として、生データを整える仕事。データ件数は20万件弱とそれほど多くなかったのだけど、そのデータの質がかなり悪くて、そのままでは解析にかけることができない状態だった。
処理環境は、いつものように FreeBSD + make + PostgreSQL + perl および Windows + Excel。
教訓
- やりながら次の処理を考える、のではなく、もうこすし先のことも見通して計画を立てておくべきだった
- 当然なことがなかなか出来ない (つい目先のことだけしか見えなくなる)
- データの一部を差し替えるだけなのに、結局、全部再makeすることになった
- トライ&エラー の回数が減ってしまうし、最後の頃には make待ちの間につい寝てしまうことによる効率低下がひどくなった
- (5/11追記) データを一部差し替えただけで全て作り直す必要がある、ってことは、データの正規化ができていない、ということだよな
- PostgreSQL が遅い
- こういうときに備えて、事前にチューニングをしておかないといかん
- いや、SQL の書き方に無理があるだけ、なのかも