数日前に、新たな鉱脈を発見したので、サッとスクレイピングするスクリプトを作ろうと思い立った。以前はnode.jsのhttp.getを使ってスクレイピングして、DOMを解析して…という泥臭い方式でスクレイピングのスクリプトを書いていたのだけれど、ここ最近PhantomjsとCasperjs力が高まってきてこいつらに頼ればもっと高速にスクレイピングできるのでは?と思い立って作ってみた。
諸般の事情でコードは非公開にしておくけれど、見たいひとがいれば会ったときにでも聞いてもらえれば見せられるよ。だいたいの流れを書いておくと
1. CasperJSで鉱脈をスキャン
2. 必要なリソースをピックアップ
3. Child_processを使ってChromeで開くnodeのスクリプトにパイプで渡す
4. 楽しい!!!
というような感じ。CasperJSでChild_process使えないかなーっておもったけれどめんどくさそうだったから楽をした。
さらに数日前には学業の方でコード書かなきゃいけなかったので、Pythonで実装しようかと盟友に相談したところ、がっつり行列計算があるような対象じゃない限りはCoffee、もといJavascriptの連想配列で十分とのことだったのでサクッと実装をした。結構綺麗に書けたつもりだったけれど、OOP感がまだ薄いので時間があったらリファクタリングをしたい。あと、Rに興味が出てきたのでとりあえずインストールしてデモを動かすところまでは準備をした。
自分が作りたいものを経験を動員して素早く作れるのはすごく脳汁が出て楽しい。この感覚を忘れずに日々を過ごしたい。そして、とにかく怠惰に怠惰に楽ができるなら極限まで楽ができるように洗練させていきたい。
July 23rd, 2013 1:54am
#20130723
#0723
jigsaw(ジグソウ、1991年6月12日-)は日本のプログラマ、会社代表。本名は小林貴也(こばやし たかや)。主にウェブ、フロントエンド領域で活動している。カミング・スーン合同会社の代表社員。