beautifulsoup4库怎么用

发布时间:2021-09-23 11:22:07 作者:小新
来源:亿速云 阅读:217

这篇文章主要为大家展示了“beautifulsoup4库怎么用”,内容简而易懂,条理清晰,希望能够帮助大家解决疑惑,下面让小编带领大家一起研究并学习一下“beautifulsoup4库怎么用”这篇文章吧。

beautifulsoup4库的使用

  使用requests库获取HTML页面并将其转化成字符串后,需要进一步解析HTML页面格式,提取有用信息,这需要处理HTML和XML的函数库。beautifulsoup4库,也成为BeautifulSoup库或者bs4库,用于解析和处理HTML和XML。需要注意的是,它不是BeautifulSoup库。它的最大优点是能根据HTML和XML语法建立解析树,进而高效解析其中的内容。beautifulsoup4库采用面向对象思想实现,简单地说,它把每个页面当作一个对象,通过< a>.< b>()的凡是调用方法(即处理函数)。

BeautifulSoup中常用的一些属性如下:

  head:HTML页面的< head>内容

  title:HTML页面标题,在< head>之中,有< title>标记

  body:HTML页面的< body>内容

  p:HTML页面中第一个< p>内容

  strings:HTML页面所有呈现在Web上的字符串,即标签的内容

  stripped_strings:HTML页面所有呈现在Web上的非空格字符串

  BeautifulSoup属性与HTML的标签名称相同,远不止这些。

   标签对象的常用属性:

  name:字符串,标签的名字,比如div

  attrs:字典,包含了原来页面Tag所有的属性,比如href

  contents:列表,这个Tag下所有子Tag的内容

  string:字符串,Tag所包围的文本,网页中真是的文字,string属性的返回值遵循如下原则:

  (1)如果标签内部没有其他标签,string属性返回其中的内容。

  (2)如果标签内部还有其他标签,但只有一个标签,string属性返回最里面标签的内容。

  (3)如果标签内部有超过1层嵌套的标签,string属性返回None(空字符串)。

  BeautifulSoup其中的两个方法(这两个方法会遍历整个HTML文档,按照条件返回标签内容):

   BeautifulSboup.find_all(name,attrs,recursive,string,limit)

  作用:根据参数找到对应的标签,返回列表类型。参数如下:

  name:按照tag标签,名字用字符串形式表示,例如div、li。

  attrs:按照tag标签属性值检索,需要列出属性名称和值,采用JSON表示。

  recursive:设置查找层次,只查找当前标签下一层时使用recursive=False。

  string:按照关键字检索string属性内容,采用string=开始。

  limit:返回结果的个数,默认返回全部结果。

  简单地说,BeautifulSoup的find_all()方法可以根据标签名字、标签属性和内容检索并返回标签列表,通过片段字符串检索时需要使用正则表达式re函数库,re时Python标准库,直接通过importre即可使用。采用re.comlile('jquery')实现对片段字符串(如‘jquery’)的检索。当对标签属性检索时,属性和对应的值采用JSON格式,例如:'src':re.compile('jquery'),其中,键值对中值的部分可以是字符串或者正则表达式。

  除了find_all()方法,BeautifulSoup类还提供一个find()方法,它们的区别只是前者返回全部结果而后者返回找到的第一个结果,find_all()函数由于可能返回更多结果,所以采用列表形式:find()函数返回字符串形式。

   BeautifulSoup.find(name,attrs,recursive,string)

  作用:根据参数找到对应标签,采用字符串返回找到的第一个值。

  参数:与find_all()方法一样。

以上是“beautifulsoup4库怎么用”这篇文章的所有内容,感谢各位的阅读!相信大家都有了一定的了解,希望分享的内容对大家有所帮助,如果还想学习更多知识,欢迎关注亿速云行业资讯频道!

推荐阅读:
  1. 如何用BeautifulSoup4爬取小说资源
  2. 怎么在Python中使用beautifulSoup4爬取数据

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

beautifulsoup4

上一篇:Vista 系统中开始菜单命令提示该怎么用

下一篇:Vista系统如何诊断和修复自动判断网络的故障

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》