使用MSHTML解析HTML页面 - 问答

要使用MSHTML解析HTML页面，首先需要导入mshtml这个Python模块。

import mshtml

然后，您可以使用mshtml模块中的HTMLDocument类来解析HTML页面。首先，您需要将HTML页面加载到HTMLDocument对象中：

html = """
<html>
<head>
<title>Example Page</title>
</head>
<body>
<h1>Welcome</h1>
<p>This is an example page.</p>
</body>
</html>
"""
doc = mshtml.HTMLDocument()
doc.write(html)

现在，您可以使用HTMLDocument对象来访问和操作HTML元素。例如，要获取页面标题，可以使用get_title方法：

title = doc.get_title()
print(title)  # Output: Example Page

要获取页面中的h1标题和p段落，可以使用getElementsByTagName方法：

h1 = doc.getElementsByTagName('h1')[0].innerHTML
p = doc.getElementsByTagName('p')[0].innerHTML
print(h1)  # Output: Welcome
print(p)   # Output: This is an example page.

您还可以遍历整个HTML文档，找到特定类型的元素，并对其进行操作。例如，以下代码将找到所有的链接，并打印它们的文本和URL：

links = doc.getElementsByTagName('a')
for link in links:
text = link.innerHTML
url = link.href
print(text, url)

这只是MSHTML模块的一部分功能，您可以根据您的需求使用其他方法和属性来解析和操作HTML页面。

0 赞

0 踩