git和github项目数据分析工具介绍

发布时间:2020-06-10 14:21:40 作者:元一
来源:亿速云 阅读:388

Github

GitHub 是一个面向开源及私有软件项目的托管平台,因为只支持 Git 作为唯一的版本库格式进行托管,故名 GitHub。

GitHub 于 2008 年 4 月 10 日正式上线,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。目前,其注册用户已经超过 350 万,托管版本数量也是非常之多,其中不乏知名开源项目 Ruby on Rails、jQuery、python 等。

Git(读音为/gɪt/)是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。 

Git 是 Linus Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

Torvalds 开始着手开发 Git 是为了作为一种过渡方案来替代 BitKeeper。

分布式相比于集中式的最大区别在于开发者可以提交到本地,每个开发者通过克隆(git clone),在本地机器上拷贝一个完整的Git仓库。

下图是经典的git开发过程。

Git的功能特性:

从一般开发者的角度来看,git有以下功能:

1、从服务器上克隆完整的Git仓库(包括代码和版本信息)到单机上。

2、在自己的机器上根据不同的开发目的,创建分支,修改代码。

3、在单机上自己创建的分支上提交代码。

4、在单机上合并分支。

5、把服务器上最新版的代码fetch下来,然后跟自己的主分支合并。

6、生成补丁(patch),把补丁发送给主开发者。

7、看主开发者的反馈,如果主开发者发现两个一般开发者之间有冲突(他们之间可以合作解决的冲突),就会要求他们先解决冲突,然后再由其中一个人提交。如果主开发者可以自己解决,或者没有冲突,就通过。

8、一般开发者之间解决冲突的方法,开发者之间可以使用pull 命令解决冲突,解决完冲突之后再向主开发者提交补丁。

从主开发者的角度(假设主开发者不用开发代码)看,git有以下功能:

1、查看邮件或者通过其它方式查看一般开发者的提交状态。

2、打上补丁,解决冲突(可以自己解决,也可以要求开发者之间解决以后再重新提交,如果是开源项目,还要决定哪些补丁有用,哪些不用)。

3、向公共服务器提交结果,然后通知所有开发人员。

优点:

适合分布式开发,强调个体。

公共服务器压力和数据量都不会太大。

速度快、灵活。

任意两个开发者之间可以很容易的解决冲突。

离线工作。

缺点:

学习周期相对而言比较长。

不符合常规思维。

代码保密性差,一旦开发者把整个库克隆下来就可以完全公开所有代码和版本信息。


1、GitHub API
首先要说的是Github的官方API,这是获取GitHub仓库详细的最佳方式。API非常好用,你可以使用curl或者其他任何语言打包库,获取仓库的所有信息(其他公共在线Git托管平台或者自建的Gitlab都有类似的API)。但是Github对API的调用做了限制,每小时的请求数量是有限制的,如果你要分析大型项目,则使用API。
git和github项目数据分析工具介绍
通过Github API,你基本上获得访问浏览项目Github仓库时看到的所有信息,但是对仓库的Git信息内部信息有限,你需要clone 仓库后通过git命令才能获得完全信息。
2、GHCrawler
GHCrawler是由微软开发的一个健壮的GitHub API 爬虫,可遍历GitHub实体和消息,对其进行搜索和跟踪。如果要对某一组织或者项目的活动进行分析,则GHCrawler特别有用。GHCrawler也受Github API请求次数的限制,但是GHCrawler通过使用令牌池和轮换来优化API令牌的使用。GHCrawler支持命令行式调用,同时也支持一个Web端界面操作
3、GH Archive
GH Archive是一个开源的一个项目,用于记录公共GitHub时间轴,对其进行存档,并使其易于访问以进行进一步分析。GitHub Archive获取所有的GitHub events信息存储在一组JSON文件中,以便根据需要下载并脱机处理。
另外,GitHub Archive也可以作为公共数据集在Google BigQuery上使用。该数据集每小时自动更新一次,可以在几秒钟内对整个数据集运行任意类似SQL的查询。
4、GHTorren
和GH Archive类似,GHTorrent项目也用来监视Github公共事件时间表信息。对于每个事件,它都详尽地检索其内容和相互依赖性。然后将结果JSON的信息存储到MongoDB数据库,同时还将其结构提取到MySQL数据库中。
GHTorrent和GH Archive有点类似,两者区别是GH Archive旨在提供更详尽的事件集合,按小时频率获取信息。而GH Torrent则以更结构化的方式提供事件数据,以使更轻松地获取所有事件有关事件的信息,数据获取频率为月。
5、Kibble
Apache Kibble是一套用于收集,汇总和可视化软件项目中活动的工具。Kibble架构由一个中央Kibble服务器和一组专门用于处理特定类型资源的扫描应用程序并将已编译的数据对象推送到Kibble服务器。
根据这些数据,可以自定义一个仪表板,其中包含许多显示项目数据的小部件。从这个意义上讲,Kibble更像是一种工具,可以帮助创建项目数据信息展示Web端。
6、CHAOSS
CHAOSS是Linux 基金会下项目,致力于创建数据析和指标定义以帮助一个健康的开源社区。CHAOSS计划项目有很多工具可以挖掘和计算项目所需的指标数据:
Augur是一个Python库、Flask Web应用程序和REST服务器,用于提供有关开源软件开发项目运行状况和可持续性的指标。
Cregit则专注于生成视图以可视化代码更改的出处
GrimoireLab Bitergia旗下迄今为止最成熟和雄心勃勃的工具。GrimoireLab的目的是提供一个开源平台实现:几乎可以从任何与开源开发相关的工具中收集自动和增量数据,自动丰富数据以清理和扩展上面收集的数据,数据可视化,按时间范围,项目,存储库,贡献者等进行过滤搜索。
7、Sourced
Sourced自称为开发生命周期的数据平台。与以前的工具相比,它更多地关注项目的代码,而不是社区的协作。Sourced项目使用通用AST,可以实现与语言无关的方式对代码库细节查询。
在Sourced项目组织中,可以找到几个有趣的数据分析工具。包括:
go-git:用纯Golang语言编写的高度可扩展的git实现库。
Hercule:Golang实现的对存储库的整个提交历史记录分析工具。
gitbase:Golang 实现的Git存储库SQL数据库接口。
8、Hubble
Hubble用于可视化GitHub Enterprise的协作、使用情况和运行状况数据。它致力于帮助大公司了解其内部组织,项目和贡献者如何一起分配和协作。
Hubble Enterprise由两个组件组成。更新器组件是一个Python脚本,它每天从GitHub Enterprise设备查询相关数据,并将结果存储在Git存储库中。docs组件是一个Web应用程序,用于可视化收集的数据,并由GitHub Pages托管。
9、Onefetch
最后提一个非常强大的命令行下的git项目信息可视化的工具,支持对50多种语言,提及它是因为它是用新兴的Rust语言编写的。

推荐阅读:
  1. Git和GitHub快速入门
  2. git与github

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

git github

上一篇:fabric v1.4 kafka模式(未开启TLS),多节点服务器部署,实现动态添加组织

下一篇:CCNP TSHOOT (三) Cisco IOS 软件维护和排障笔记

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》