Python———爬虫学习总结

发布时间:2020-07-28 10:53:44 作者:MC不洗头
来源:网络 阅读:519

首先这次学习的是利用写Python脚本对网页信息的获取,并且把他保存到我们的数据库里最后形成一个Excel表格

下载第三方模块和源码安装MongoDB

刚开始我们需要做一些准备:
先安装第三方模块

Python———爬虫学习总结

Python———爬虫学习总结

https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-rhel70-3.2.5.tgz

Python———爬虫学习总结


思路如下:

1.访问网站,拿到html网页

headers获取:
Python———爬虫学习总结

脚本1:

运行前打开mongod :

             ./mongod &  

Python———爬虫学习总结

2.提取html里面我们想要的内容

脚本2:
Python———爬虫学习总结

Python———爬虫学习总结

Long Jump 和 View Graph 是根据他们可以定位到我们想获取的信息的标签上

这个脚本写完不需要运行,他的url是由第三个脚本导入的

3.把我们爬到的内容存到数据库中

脚本3:

Python———爬虫学习总结

运行前都要检查MongoD是否运行,运行后可进入数据库去看我们存入的信息
在MongoDB的bin下

./mongo

use iaaf

db.athletes.find()

4.转成Excel表格

脚本4:

Python———爬虫学习总结

Python———爬虫学习总结

5.requests,pymongo,bs4的用法总结

requests是一个很实用的Python HTTP客户端库,编写爬虫和测试服务器响应数据时经常会用到。可以说,Requests 完全满足如今网络的需求

1.作用:发送请求获取响应为什么使用requesst?
1)requests底层实现的是urllib2)requests在python2和python3中通用,方法完全一样
3)requests简单易用(python特性)
4)requests能够帮助我们解压响应内容(自动解压完善请求头,自动获取cookie)

  1. 发送简单的get请求、获取响应response = requests.get(url)

pymongo是python操作 mongodb的工具包

bs4概念:

bs4库是解析、遍历、维护、"标签树"的功能库
通俗一点说就是:bs4库把HTML源代码重新进行了格式化,
从而方便我们对其中的节点、标签、属性等进行操作
2.BS4的4中对象
①Tag对象:是html中的一个标签,用BeautifulSoup就能解析出来Tag的具体内容,具体
的格式为‘soup.name‘,其中name是html下的标签。
②BeautifulSoup对象:整个html文本对象,可当作Tag对象
③NavigableString对象:标签内的文本对象
④Comment对象:是一个特殊的NavigableString对象,如果html标签内存在注释,那么它可以过滤掉注释符号保留注释文本
最常用的还是BeautifulSoup对象和Tag对象

推荐阅读:
  1. go语言学习爬虫框架总结
  2. 爬虫简单总结!

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

。。 爬虫学习

上一篇:SpringBoot的jar直接运行的方法

下一篇:如何测试JMETER用户变量作用域

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》