python爬虫网页如何存储抓取结果 - 问答

在Python中，我们可以使用多种方法来存储爬取到的网页数据。以下是一些建议：

保存到文件：可以将抓取到的数据保存到文本文件（如 .txt 或 .csv）或JSON文件中。例如，使用csv模块将数据写入CSV文件：

import csv
import requests

url = 'https://example.com'
response = requests.get(url)
data = response.text

with open('output.csv', 'w', newline='', encoding='utf-8') as csvfile:
    writer = csv.writer(csvfile)
    writer.writerow(['Column1', 'Column2', 'Column3'])  # 写入表头
    for line in data.splitlines():
        row = line.split(',')  # 根据实际数据调整分割方式
        writer.writerow(row)

保存到数据库：可以将抓取到的数据存储到数据库中，如SQLite、MySQL或MongoDB等。以下是使用SQLite的示例：

import sqlite3
import requests

url = 'https://example.com'
response = requests.get(url)
data = response.text

conn = sqlite3.connect('output.db')
cursor = conn.cursor()
cursor.execute('''CREATE TABLE IF NOT EXISTS web_data (id INTEGER PRIMARY KEY, content TEXT)''')

for line in data.splitlines():
    cursor.execute("INSERT INTO web_data (content) VALUES (?)", (line,))

conn.commit()
conn.close()

保存到API：如果需要将抓取到的数据发送到其他Web服务，可以将其作为API请求的参数。例如，使用requests库发送POST请求：

import requests

url = 'https://your-api-endpoint.com'
headers = {'Content-Type': 'application/json'}
data = {
    'column1': 'value1',
    'column2': 'value2',
    'column3': 'value3'
}

response = requests.post(url, json=data, headers=headers)
print(response.status_code)
print(response.json())

保存到内存中的数据结构：可以将抓取到的数据存储在Python内存中的数据结构，如列表、字典或自定义类实例。例如，将数据存储在字典中：

import requests

url = 'https://example.com'
response = requests.get(url)
data = response.text

parsed_data = {}
for line in data.splitlines():
    row = line.split(',')  # 根据实际数据调整分割方式
    parsed_data[row[0]] = row[1:]  # 将数据存储为键值对

print(parsed_data)

根据你的需求和场景，可以选择合适的方法来存储抓取到的网页数据。

0 赞

0 踩