ひとつ仕事が片付いた

とあるデータを解析するための下準備として、生データを整える仕事。データ件数は20万件弱とそれほど多くなかったのだけど、そのデータの質がかなり悪くて、そのままでは解析にかけることができない状態だった。

処理環境は、いつものように FreeBSD + make + PostgreSQL + perl および Windows + Excel

教訓

  • やりながら次の処理を考える、のではなく、もうこすし先のことも見通して計画を立てておくべきだった
    • 当然なことがなかなか出来ない (つい目先のことだけしか見えなくなる)
  • データの一部を差し替えるだけなのに、結局、全部再makeすることになった
    • トライ&エラー の回数が減ってしまうし、最後の頃には make待ちの間につい寝てしまうことによる効率低下がひどくなった
    • (5/11追記) データを一部差し替えただけで全て作り直す必要がある、ってことは、データの正規化ができていない、ということだよな
  • PostgreSQL が遅い
    • こういうときに備えて、事前にチューニングをしておかないといかん
    • いや、SQL の書き方に無理があるだけ、なのかも