Twitterの全文ダウンロードがはじまったので早速ダウンロードしてみたら日本語が文字化けしています - blog.jgs.me

Twitterの全文ダウンロードがはじまり、これは自然言語処理界隈やTwitterアーカイブサービスをやっている人たちにはハレルヤ!といったところだろうとおもいます。
今のところ、英語圏ユーザから順次はじまっているそうで僕もダウンロードできるようになっていたのでさっそくリクエストを送りました。
設定画面にリクエストのボタンが追加されています。
リクエストを送ると、しばらくしてTwitterからメールがくるのでそのリンクからzipファイルをダウンロードします。何時間かかるのかしら!と身構えていたら、200kツイート超えの僕でもものの3分程度でダウンロードが完了しました。
zipを解凍すると
こういう構成になっていて、index.htmlをブラウザで開くとアーカイブを閲覧できます。
これは、data/js/tweets/の中にJavascriptで書かれたjsonっぽいデータが大量にあってそれを読んでいる感じです。ここは問題なくUTF-8のTwitterらしいモダンな感じのページをモリモリ見れます。
で、問題はdata/csv/の方で、こちらはどのエンコードで読んでも日本語が文字化けしていて読めません。
HEXで読んでみると、文字化けしたデータが大元のデータに入っているようです。
そういうわけなので、とりあえずはdata/js/tweets/*.jsの方を解析しましょう、という感じですね。
それにしても、なにがどうしてcsvだけ化けてるんだろう・・・。

December 20th, 2012 5:41pm
original: http://blog.jgs.me/post/38371099866
#20121220 #1220

関連ページとランダムに選ばれたページ

筆者について

jigsaw(ジグソウ、1991年6月12日-)は日本のプログラマ、会社代表。本名は小林貴也(こばやし たかや)。主にウェブ、フロントエンド領域で活動している。カミング・スーン合同会社の代表社員。
さらに詳しく

寄附について

面白かったらBTCETHでの寄附をお待ちしております。
寄附のきろく