您好,登录后才能下订单哦!
密码登录
登录注册
点击 登录注册 即表示同意《亿速云用户服务条款》
这篇文章主要讲解了“python怎么抓取糗事百科的内容”,文中的讲解内容简单清晰,易于学习与理解,下面请大家跟着小编的思路慢慢深入,一起来研究和学习“python怎么抓取糗事百科的内容”吧!
# 抓取糗事百科的内容 import requests from lxml import etree class Qiushi() : def __init__(self) : self.url = 'http://www.qiushibaike.com/8hr/page/{}'; self.headers = { "User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1 Trident/5.0;" }; def parse_url(self , url) : response = requests.get(url , timeout = 10 , headers = self.headers) assert response.status_code == 200 print(url) return etree.HTML(response.text) def parse_content(self , html) : item = html.xpath('//div[@class="recommend-article"]/ul/li') print(item) for i in item : # 内容 print(i.xpath('./div/a[@class="recmd-content"]/text()')); # 好笑数 print(i.xpath('./div/div[@class="recmd-detail clearfix"]/div/span[1]/text()')) # 评论数 print(i.xpath('./div/div[@class="recmd-detail clearfix"]/div/span[4]/text()')) # 用户名 print(i.xpath('./div/div[@class="recmd-detail clearfix"]/a/span/text()')) # 头像地址 print(i.xpath('./div/div[@class="recmd-detail clearfix"]/a/img/@src')) def run(self) : url = self.url.format(1); html = self.parse_url(url); self.parse_content(html); if __name__ == '__main__': qiu = Qiushi(); qiu.run();
感谢各位的阅读,以上就是“python怎么抓取糗事百科的内容”的内容了,经过本文的学习后,相信大家对python怎么抓取糗事百科的内容这一问题有了更深刻的体会,具体使用情况还需要大家实践验证。这里是亿速云,小编将为大家推送更多相关知识点的文章,欢迎关注!
免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。