在Python中,使用Scrapy爬虫抓取到的数据通常需要进行清洗和解析,以便于后续的处理和使用。以下是一些建议和步骤,可以帮助你清洗Scrapy爬取到的数据:
title = response.xpath('//title/text()').get()
price = float(response.xpath('//price/text()').get())
None
填充缺失值,或者删除包含缺失值的项:price = price if price is not None else 0
strip()
、replace()
等:title = title.strip().replace(',', '')
date = response.xpath('//date/text()').get()
formatted_date = date.strftime('%Y-%m-%d')
import re
description = response.xpath('//description/text()').get()
cleaned_description = re.sub(r'\s+', ' ', description).strip()
dropna()
删除缺失值,使用replace()
替换值等:import pandas as pd
data = {'title': [title], 'price': [price], 'date': [formatted_date]}
df = pd.DataFrame(data)
df = df.dropna()
df['price'] = df['price'].replace('[\$,]', '', regex=True).astype(float)
df.to_csv('cleaned_data.csv', index=False)
根据你的需求,可以对这些步骤进行调整和优化。在实际应用中,可能需要结合多种方法来清洗和处理数据。