0

Big Query 上的 Github 存档中缺少数据?

使用Github Archive 中的 BigQuery 表,并对typelevel/cats 存储库的拉取请求运行查询,尽管实际存储库显示从 2015 年 1 月 28 日开始的活动,但在 2016 年 1 月 1 日之前没有条目。

显示早期拉取请求的 github 存储库链接

查询如下。想检查一下这是否是我的错误或误解,或者是否可能存在一些仅在 BQ 表中部分可用的存储库。

SELECT 
  DATE(created_at) AS date, repo.name, count(*) AS num_PR
FROM
  (TABLE_DATE_RANGE([githubarchive:day.],
     TIMESTAMP('2014-09-26'),
     TIMESTAMP('2016-09-26')
  ))
WHERE
  type = 'PullRequestEvent'
  AND JSON_EXTRACT(payload, '$.action') = '\"opened\"'
  AND repo.name IN ('typelevel/cats')
GROUP BY date, repo.name
ORDER BY date DESC
4

1 回答 1

1

这个 repo 更改了名称,尽管 id 继续相同:

SELECT repo.name, MIN(created_at) since, MAX(created_at) until
FROM (TABLE_DATE_RANGE([githubarchive:day.],
       TIMESTAMP('2015-01-01'),
       TIMESTAMP('2016-10-01')
    ))
WHERE repo.id = 29986727
GROUP BY 1
ORDER BY 1


repo_name       since                   until    
non/cats        2015-01-28 20:26:49     2016-01-30 20:30:41      
typelevel/cats  2016-01-30 20:32:30     2016-09-30 16:47:03      
于 2016-10-01T00:09:17.817 回答