python爬虫采集知乎后怎么输出内容

发布时间：2020-11-23 09:59:23 作者：小新
来源：亿速云阅读：282

小编给大家分享一下python爬虫采集知乎后怎么输出内容，相信大部分人都还不怎么了解，因此分享这篇文章给大家参考一下，希望大家阅读完这篇文章后大有收获，下面让我们一起去了解一下吧！

数据包括回答的问题标题，回答的url，回答的内容文本，获赞数，发布时间及数据采集时间。

爬虫的功能分为以下4个部分：

采用 selenium 启动无头浏览器
爬取用户回答列表页的标题与url
爬取每个回答的内容、发布时间与获赞数
把爬取到的数据用表格文件保存

代码如下：

"""采用 python selenium 无头浏览器，爬取单个用户的所有回答数据并保存为表格文件。"""
 
from time import sleep
from datetime import datetime
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
import pandas as pd
 
def start_driver():
    chrome_options = Options()
    chrome_options.add_argument("--headless")
    chrome_options.add_argument("--disable-gpu")
    driver = webdriver.Chrome(options=chrome_options)
    return driver
 
def get_answers_url(driver,url):
    driver.get(url)
    sleep(2)
    rlts = driver.find_elements_by_xpath('//*[@id="Profile-answers"]/div[2]//div/div/h3/div/a')   
    answers = [[rlt.text,rlt.get_attribute("href")] for rlt in rlts]
    return answers
 
def get_answers_text(driver,url):
    driver.get(url)
    sleep(2)
    rlt = driver.find_element_by_class_name('RichContent-inner')
    content = rlt.text
    rlt = driver.find_element_by_class_name("ContentItem-time")
    date = rlt.find_element_by_xpath(".//a/span").get_attribute("data-tooltip")
    rlt = driver.find_element_by_class_name("ContentItem-actions")
    upvote = rlt.find_element_by_xpath(".//span/button").get_attribute("aria-label")
    return [content,date,upvote]
 
driver = start_driver()
url = "https://www.zhihu.com/people/haili-9-70/answers"
answers = get_answers_url(driver,url)
answers_dict = {}
for i in range(len(answers)):
    answers_dict[i] = {}
    answers_dict[i]["title"] = answers[i][0]
    answers_dict[i]["url"] = answers[i][1]
    answers_dict[i]["content"] = get_answers_text(driver,answers[i][1])[0]
    answers_dict[i]["date"] = get_answers_text(driver,answers[i][1])[1]
    answers_dict[i]["upvote"] = get_answers_text(driver,answers[i][1])[2]
    answers_dict[i]["timestamp"] = str(datetime.now())[:-7]
 
df = pd.DataFrame(answers_dict).T
file = "./zhihu_answers_" + str(datetime.now().date()) + ".csv"
df.to_csv(file)

这个脚本适合备份自己的回答数据。

效果展示：

python爬虫采集知乎后怎么输出内容

以上是python爬虫采集知乎后怎么输出内容的所有内容，感谢各位的阅读！相信大家都有了一定的了解，希望分享的内容对大家有所帮助，如果还想学习更多知识，欢迎关注亿速云行业资讯频道！

python爬虫采集知乎后怎么输出内容

相关阅读