在Python爬虫中如何将PhantomJS伪装成Chrome浏览器

发布时间：2021-10-11 17:36:38 作者：柒染
来源：亿速云阅读：311

# 在Python爬虫中如何将PhantomJS伪装成Chrome浏览器

## 前言

在网络爬虫开发中，反爬机制是开发者经常需要面对的挑战。许多网站会通过检测User-Agent等请求头信息来识别和屏蔽爬虫请求。PhantomJS作为一款无界面浏览器工具，虽然可以执行JavaScript渲染页面，但其默认的请求特征容易被识别。本文将详细介绍如何通过修改请求头、调整浏览器参数等方式，将PhantomJS完美伪装成Chrome浏览器。

---

## 一、为什么需要伪装浏览器？

### 1.1 反爬虫机制的工作原理
现代网站通常通过以下方式检测爬虫：
- 检查User-Agent是否来自常见爬虫工具
- 验证请求头完整性（如Accept、Referer等字段）
- 分析行为模式（如请求频率、鼠标移动轨迹等）

### 1.2 PhantomJS的默认特征
PhantomJS默认使用以下容易被识别的特征：
```python
User-Agent: "PhantomJS/2.1.1 (Windows NT 6.1)"
Accept: "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"

二、基础伪装方案

2.1 修改User-Agent

通过service_args参数设置请求头：

from selenium import webdriver

service_args = [
    '--user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
]

driver = webdriver.PhantomJS(service_args=service_args)

2.2 完整请求头配置

建议复制真实Chrome浏览器的完整请求头：

headers = {
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Connection': 'keep-alive',
    'Upgrade-Insecure-Requests': '1'
}

for key, value in headers.items():
    webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value

三、高级伪装技巧

3.1 禁用WebDriver标识

通过修改PhantomJS的page.settings属性：

driver.execute_script("""
Object.defineProperty(navigator, 'webdriver', {
    get: () => undefined
})
""")

3.2 模拟浏览器特征

# 设置视口大小
driver.set_window_size(1366, 768)

# 启用JavaScript和图片加载
capabilities = webdriver.DesiredCapabilities.PHANTOMJS.copy()
capabilities['javascriptEnabled'] = True
capabilities['loadImages'] = True

3.3 使用代理IP池（可选）

service_args.extend([
    '--proxy=127.0.0.1:8888',
    '--proxy-type=http'
])

四、验证伪装效果

4.1 在线检测工具

访问以下网站验证请求头： - https://httpbin.org/user-agent - https://www.whatismybrowser.com/

4.2 JavaScript检测测试

执行以下代码检测WebDriver标识：

is_automated = driver.execute_script("return navigator.webdriver")
print(f"WebDriver detected: {is_automated}")  # 期望输出undefined

五、完整代码示例

from selenium import webdriver

# Chrome浏览器的标准请求头
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36',
    'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
    'Accept-Language': 'zh-CN,zh;q=0.9',
    'Accept-Encoding': 'gzip, deflate, br',
    'Connection': 'keep-alive'
}

# 配置PhantomJS参数
service_args = [
    '--ignore-ssl-errors=true',
    '--ssl-protocol=any'
]

# 设置请求头
for key, value in headers.items():
    webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value

# 初始化浏览器
driver = webdriver.PhantomJS(
    service_args=service_args,
    desired_capabilities=webdriver.DesiredCapabilities.PHANTOMJS
)

# 隐藏WebDriver特征
driver.execute_script("Object.defineProperty(navigator, 'webdriver', {get: () => undefined})")

# 访问测试页面
driver.get("https://httpbin.org/headers")
print(driver.page_source)

# 关闭浏览器
driver.quit()

六、注意事项

及时更新User-Agent：Chrome版本号需要定期更新
行为模式伪装：控制合理的请求间隔时间（建议3-10秒）
配合其他反反爬措施：
- 使用随机延迟
- 模拟鼠标移动轨迹
- 处理Cookie和验证码

结语

通过本文介绍的方法，你可以有效降低PhantomJS被识别的概率。但需要注意，没有任何伪装方案是100%有效的，建议根据目标网站的具体反爬策略进行针对性调整。随着反爬技术的发展，开发者需要持续更新对抗策略。 “`

（全文约1100字）