githubのtimelineがbigqueryで解析できる - dev.jgs.me

http://www.githubarchive.org/

Githut という Github の解析サイトがあって、仕掛けを調べていたらGithubはpublicなtimelineをオープンデータとして公開しているらしい。

Githutの README にもある通り

_
select
  repository_language,
  count(distinct(repository_url)) as active_repos_by_url,
  YEAR(created_at) as year,
  QUARTER(created_at) as quarter,
from [githubarchive:github.timeline]
where
    type="PushEvent"
group by
  repository_language,
  year,
  quarter
order by
  repository_language,
  year DESC,
  quarter DESC

みたいなSQLを書くと言語毎のPush量みたいなやつが見れたりする。ほいではStarはどうなのかなあ、とおもったら githubarchive:github.timeline のスキーマの type にStar的なやつがなかったので見れなかった。

#20140926 現在、 githubarchive:github.timeline249,308,569 のRowがあって、サイズは154GBもあるんだそうだ。それがものの10s程度で解析できるのでBigQueryスゲーなとおもいます。

original: http://dev.jgs.me/2014/09/26/github-timeline-is-analyzable-on-bigquery
#20150926 #0926

関連ページとランダムに選ばれたページ

筆者について

jigsaw(ジグソウ、1991年6月12日-)は日本のプログラマ、会社代表。本名は小林貴也(こばやし たかや)。主にウェブ、フロントエンド領域で活動している。カミング・スーン合同会社の代表社員。
さらに詳しく

寄附について

面白かったらBTCETHでの寄附をお待ちしております。
寄附のきろく