如何利用selenium库爬取京东python书籍一百页存入csv

发布时间：2021-10-11 18:36:16 作者：柒染
来源：亿速云阅读：215

# 如何利用Selenium库爬取京东Python书籍一百页存入CSV

## 一、环境准备

首先需要安装必要的Python库：
```python
pip install selenium pandas

同时需下载对应浏览器的WebDriver（如Chrome需下载chromedriver），并将其路径加入系统环境变量。

二、基础爬虫框架搭建

from selenium import webdriver
from selenium.webdriver.common.by import By
import pandas as pd
import time

driver = webdriver.Chrome()
base_url = "https://search.jd.com/Search?keyword=Python&page={}&s=1&click=0"

三、页面数据抓取逻辑

1. 模拟翻页操作

京东书籍页面采用动态加载，需模拟滚动操作：

def scroll_page():
    for i in range(1, 5):
        driver.execute_script(f"window.scrollTo(0, {i*500})")
        time.sleep(0.5)

2. 关键数据提取

通过XPath定位书籍信息：

def parse_page():
    books = []
    items = driver.find_elements(By.XPATH, '//div[@id="J_goodsList"]//li[@class="gl-item"]')
    
    for item in items:
        title = item.find_element(By.XPATH, './/div[@class="p-name"]/a/em').text
        price = item.find_element(By.XPATH, './/div[@class="p-price"]//i').text
        books.append([title, price])
    return books

四、完整爬取流程

all_books = []
for page in range(1, 101):  # 爬取100页
    driver.get(base_url.format(page))
    scroll_page()
    all_books.extend(parse_page())
    print(f"已完成第{page}页抓取")
    time.sleep(2)  # 避免触发反爬

五、数据存储处理

使用pandas保存为CSV：

df = pd.DataFrame(all_books, columns=["书名", "价格"])
df.to_csv("jd_python_books.csv", index=False, encoding='utf_8_sig')
driver.quit()

六、反爬应对策略

随机延迟：time.sleep(random.uniform(1,3))
使用代理IP
设置请求头：

options = webdriver.ChromeOptions()
options.add_argument('user-agent=Mozilla/5.0')

七、注意事项

京东页面结构可能变更，需定期维护XPath
大规模爬取建议使用分布式架构
遵守robots.txt协议，控制请求频率

完整代码约80行，实际执行需约30-60分钟完成100页抓取。建议在非高峰时段运行，并添加异常处理机制保证稳定性。 “`