在Python的requests库中,合理设置超时时间对于避免爬虫在网络问题或目标服务器响应缓慢时卡住非常重要。以下是设置超时时间的建议:
import requests
response = requests.get('https://example.com')
timeout
参数。这个参数接受两个值,一个是连接超时时间(以秒为单位),另一个是读取超时时间(以秒为单位)。将这两个值作为元组传递给timeout
参数。import requests
response = requests.get('https://example.com', timeout=(5, 14))
在这个例子中,连接超时时间被设置为5秒,而读取超时时间被设置为14秒。这意味着如果请求在5秒内无法建立连接,或者服务器在14秒内无法返回完整的响应,请求将被终止。
try-except
处理超时异常:为了确保爬虫在遇到超时时能够优雅地处理错误,可以使用try-except
语句捕获Timeout
异常。这样,当发生超时时,你可以记录错误信息并采取适当的措施,例如重试请求或跳过当前迭代。import requests
from requests.exceptions import Timeout
url = 'https://example.com'
try:
response = requests.get(url, timeout=5)
response.raise_for_status()
except Timeout:
print("请求超时,请稍后重试。")
在这个例子中,我们将超时时间设置为5秒。如果请求在5秒内没有完成,将抛出Timeout
异常,然后我们可以捕获它并输出一条友好的错误消息。