在Python中进行数据爬虫和数据清洗的过程通常包括以下步骤:
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://example.com'
response = requests.get(url)
html_content = response.content
soup = BeautifulSoup(html_content, 'html.parser')
# 提取表格数据
table = soup.find('table')
rows = table.find_all('tr')
data = []
for row in rows:
cols = row.find_all('td')
cols = [ele.text.strip() for ele in cols]
data.append([ele for ele in cols if ele]) # 去除空值
# 将提取的数据转换为pandas DataFrame
df = pd.DataFrame(data)
# 去除空值
df.dropna(inplace=True)
# 去除重复值
df.drop_duplicates(inplace=True)
# 去除重复行
df.drop_duplicates(inplace=True)
# 数据类型转换
df['column_name'] = pd.to_numeric(df['column_name'], errors='coerce')
# 其他数据清洗操作...
# 保存到CSV文件
df.to_csv('cleaned_data.csv', index=False)
# 保存到Excel文件
df.to_excel('cleaned_data.xlsx', index=False)
# 保存到数据库(以SQLite为例)
import sqlite3
conn = sqlite3.connect('example.db')
df.to_sql('table_name', conn, if_exists='replace', index=False)
conn.close()
通过以上步骤,您可以在Python中进行数据爬虫和数据清洗。请注意,根据您的需求和目标网站的结构,您可能需要对这些步骤进行适当的调整。