目录
- 方法一:
- 方法二:
- lxml使用流程
- 总结
方法一:
win+r打开cmd,直接输入pip install lxml。
(最简单的办法,但是有一大堆因素导致无法安装成功,博主就是,呜呜呜)
方法二:
1.win+r打开cmd,输入pip install wheel
,先安装wheel库了才能安装.whl文件。
2.确定电脑安装的python版本,在lxml官方网站https://pypi.org/project/lxml/#files里寻找对应的版本进行下载
以本人为例,我电脑的python版本是3.11,64位
所以选择lxml-4.9.3-cp311-cp311-win_amd64.whl下载
3.在电脑的python文件夹内创建一个lxml文件夹,将下载好的whl放在该目录下,在cmd中cd跳转至该目录,运行pip install lxml-4.9.3-cp311-cp311-win_amd64.whl,即可安装成功
lxml使用流程
lxml 库提供了一个 etree 模块,该模块专门用来解析 HTML/XML 文档,下面我们简单介绍一下 lxml 库的使用流程,如下所示:
1) 导入模块
from lxml import etree
2) 创建解析对象
调用 etree 模块的 HTML() 方法来创建 HTML 解析对象。如下所示:
parse_html = etree.HTML(html)
HTML() 方法能够将 HTML 标签字符串解析为 HTML 文件,该方法可以自动修正 HTML 文本。示例如下:
from lxml import etree html_str = ''' <div> <ul> <li class="item1"><a href="link1.html">Python</a></li> <li class="item2"><a href="link2.html">Java</a></li> <li class="site1"><a href="c.biancheng.net">C语言中文网</a> <li class="site2"><a href="www.baidu.com">百度</a></li> <li class="site3"><a href="www.jd.com">京东</a></li> </ul> </div> ''' html = etree.HTML(html_str) # tostring()将标签元素转换为字符串输出,注意:result为字节类型 result = etree.tostring(html) print(result.decode('utf-8'))
输出结果如下:
<html><body><div> <ul> <li class="item1"><a href="link1.html">Python</a></li> <li class="item2"><a href="link2.html">Java</a></li> <li class="site1"><a href="c.biancheng.net">C语言中文网</a></li> <li class="site2"><a href="www.baidu.com">百度</a></li> <li class="site3"><a href="www.jd.com">京东</a> </li></ul> </div> </body></html>
上述 HTML 字符串存在缺少标签的情况,比如“C语言中文网”缺少一个 闭合标签,当使用了 HTML() 方法后,会将其自动转换为符合规范的 HTML 文档格式。
3) 调用xpath表达式
最后使用第二步创建的解析对象调用 xpath() 方法,完成数据的提取,如下所示:
r_list = parse_html.xpath('xpath表达式')
总结
到此这篇关于python中第三方库lxml库的最新详细安装步骤的文章就介绍到这了,更多相关python第三方库lxml库安装内容请搜索本网站以前的文章或继续浏览下面的相关文章希望大家以后多多支持本网站!
您可能感兴趣的文章:
- Python lxml模块安装教程
- python3解析库lxml的安装与基本使用
- Python pip安装lxml出错的问题解决办法
- 在windows系统中实现python3安装lxml
- Python之lxml安装失败的解决
- PyCharm软件无法安装lxml库的问题及解决
- python库lxml在linux和WIN系统下的安装