如何使用python爬取百万github用户数据

发布时间：2022-01-13 15:12:31 作者：小新
来源：亿速云阅读：370

如何使用Python爬取百万GitHub用户数据

在当今数据驱动的世界中，GitHub作为全球最大的代码托管平台，拥有海量的用户和项目数据。这些数据对于开发者、研究人员和企业来说具有巨大的价值。本文将详细介绍如何使用Python爬取百万GitHub用户数据，并探讨相关的技术细节和注意事项。

1. 准备工作

在开始爬取GitHub用户数据之前，我们需要做好以下准备工作：

1.1 安装必要的Python库

首先，确保你已经安装了以下Python库：

requests：用于发送HTTP请求。
pandas：用于数据处理和分析。
tqdm：用于显示进度条。
time：用于控制请求频率。

你可以使用以下命令安装这些库：

pip install requests pandas tqdm

1.2 获取GitHub API Token

GitHub API对未认证的请求有严格的速率限制（每小时60次请求）。为了绕过这一限制，你需要获取一个GitHub API Token。你可以在GitHub的开发者设置中生成一个Token。

2. 使用GitHub API获取用户数据

GitHub提供了丰富的API接口，我们可以通过这些接口获取用户数据。以下是获取用户数据的基本步骤：

2.1 获取用户列表

GitHub API提供了一个接口用于获取用户列表。我们可以通过以下URL获取用户列表：

url = "https://api.github.com/users?since=0"

其中，since参数用于指定从哪个用户ID开始获取用户列表。我们可以通过循环不断增加since参数的值来获取更多的用户。

2.2 发送HTTP请求

使用requests库发送HTTP请求，并获取用户列表：

import requests

def get_users(since, token):
    headers = {
        "Authorization": f"token {token}",
        "Accept": "application/vnd.github.v3+json"
    }
    url = f"https://api.github.com/users?since={since}"
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error: {response.status_code}")
        return []

2.3 获取用户详细信息

获取用户列表后，我们可以通过用户的login字段获取每个用户的详细信息：

def get_user_details(login, token):
    headers = {
        "Authorization": f"token {token}",
        "Accept": "application/vnd.github.v3+json"
    }
    url = f"https://api.github.com/users/{login}"
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error: {response.status_code}")
        return {}

2.4 循环获取用户数据

通过循环调用上述函数，我们可以获取大量的用户数据。为了控制请求频率，避免触发GitHub的速率限制，我们可以在每次请求后暂停一段时间：

import time
from tqdm import tqdm

def get_million_users(token):
    users = []
    since = 0
    for _ in tqdm(range(1000)):  # 1000次请求，每次获取1000个用户
        user_list = get_users(since, token)
        for user in user_list:
            user_details = get_user_details(user["login"], token)
            users.append(user_details)
        since = user_list[-1]["id"]
        time.sleep(1)  # 每次请求后暂停1秒
    return users

3. 数据处理与存储

获取到用户数据后，我们可以使用pandas库对数据进行处理，并将其存储到CSV文件中：

3.1 数据处理

将获取到的用户数据转换为pandas的DataFrame：

import pandas as pd

def process_users(users):
    df = pd.DataFrame(users)
    # 选择需要的列
    df = df[["login", "id", "name", "company", "blog", "location", "email", "public_repos", "followers", "following", "created_at"]]
    return df

3.2 数据存储

将处理后的数据存储到CSV文件中：

def save_to_csv(df, filename):
    df.to_csv(filename, index=False)

3.3 完整流程

将上述步骤整合到一起，完整的代码如下：

import requests
import time
import pandas as pd
from tqdm import tqdm

def get_users(since, token):
    headers = {
        "Authorization": f"token {token}",
        "Accept": "application/vnd.github.v3+json"
    }
    url = f"https://api.github.com/users?since={since}"
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error: {response.status_code}")
        return []

def get_user_details(login, token):
    headers = {
        "Authorization": f"token {token}",
        "Accept": "application/vnd.github.v3+json"
    }
    url = f"https://api.github.com/users/{login}"
    response = requests.get(url, headers=headers)
    if response.status_code == 200:
        return response.json()
    else:
        print(f"Error: {response.status_code}")
        return {}

def get_million_users(token):
    users = []
    since = 0
    for _ in tqdm(range(1000)):  # 1000次请求，每次获取1000个用户
        user_list = get_users(since, token)
        for user in user_list:
            user_details = get_user_details(user["login"], token)
            users.append(user_details)
        since = user_list[-1]["id"]
        time.sleep(1)  # 每次请求后暂停1秒
    return users

def process_users(users):
    df = pd.DataFrame(users)
    # 选择需要的列
    df = df[["login", "id", "name", "company", "blog", "location", "email", "public_repos", "followers", "following", "created_at"]]
    return df

def save_to_csv(df, filename):
    df.to_csv(filename, index=False)

if __name__ == "__main__":
    token = "your_github_token"
    users = get_million_users(token)
    df = process_users(users)
    save_to_csv(df, "github_users.csv")

4. 注意事项

在爬取GitHub用户数据时，需要注意以下几点：

4.1 遵守GitHub的API使用政策

GitHub对API的使用有严格的政策，确保你的爬虫行为不会违反这些政策。例如，避免过高的请求频率，尊重用户的隐私等。

4.2 处理速率限制

即使使用API Token，GitHub API仍然有速率限制。确保你的爬虫在请求之间留有足够的时间间隔，以避免触发速率限制。

4.3 数据存储与备份

爬取的数据量可能非常大，确保你有足够的存储空间，并定期备份数据，以防止数据丢失。

5. 总结

通过本文的介绍，你应该已经掌握了如何使用Python爬取百万GitHub用户数据的基本方法。在实际应用中，你可能需要根据具体需求对代码进行进一步的优化和调整。希望本文能为你提供有价值的参考，祝你在数据爬取的道路上取得成功！