在PHP网页爬虫中处理异常请求,可以通过以下几个步骤实现:
function getUrlContent($url) {
$ch = curl_init();
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);
curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); // 如果目标URL是HTTPS,禁用SSL证书验证
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5); // 设置连接超时时间(秒)
curl_setopt($ch, CURLOPT_TIMEOUT, 10); // 设置请求超时时间(秒)
$content = curl_exec($ch);
$error = curl_error($ch);
if ($error) {
echo "Error: $error";
return null;
}
curl_close($ch);
return $content;
}
错误处理:在上述示例中,我们使用curl_error()
函数检查cURL请求是否发生错误。如果有错误,我们可以输出错误信息并采取适当的措施,例如记录错误或跳过异常请求。
限制请求速率:为了避免对目标服务器造成过大压力,可以限制爬虫的请求速率。可以使用sleep()
函数在每次请求之间添加延迟。
function crawlWithRateLimit($urls, $delay = 1) {
foreach ($urls as $url) {
$content = getUrlContent($url);
// 处理内容...
sleep($delay); // 添加延迟
}
}
curl_setopt($ch, CURLOPT_PROXY, 'http://proxy.example.com:8080');
curl_setopt($ch, CURLOPT_PROXYTYPE, CURLPROXY_HTTP);
curl_setopt($ch, CURLOPT_USERAGENT, 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3');
通过遵循这些步骤,您可以创建一个健壮的PHP网页爬虫,能够处理异常请求并适当地响应。