from lxml import etree
html = etree.HTML(html_text)
# 选择所有的a标签
links = html.xpath('//a')
# 选择class为title的div标签下的所有p标签
paragraphs = html.xpath('//div[@class="title"]/p')
# 选择第一个li标签下的所有span标签
spans = html.xpath('//li[1]//span')
for link in links:
print(link.text)
for paragraph in paragraphs:
print(paragraph.text)
for span in spans:
print(span.get('class'))
# 选择class为title的div标签下的所有超链接,并且链接内容以http开头的
links = html.xpath('//div[@class="title"]/a[starts-with(@href, "http")]')
通过以上技巧,可以灵活地使用xpath选择器解析网页内容,从而进行数据抓取和分析。