博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
python的lxml模块
阅读量:6693 次
发布时间:2019-06-25

本文共 1436 字,大约阅读时间需要 4 分钟。

环境:python2.7

安装lxml模块

1
pip 
install 
lxml

例子:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
from 
lxml 
import 
etree
text 
= 
'''
<div>
    
<ul>
         
<li class="item-0"><a href="link1.html">first item</a></li>
         
<li class="item-1"><a href="link2.html">second item</a></li>
         
<li class="item-inactive"><a href="link3.html">third item</a></li>
         
<li class="item-1"><a href="link4.html">fourth item</a></li>
         
<li class="item-0"><a href="link5.html">fifth item</a>
     
</ul>
 
</div>
'''
html 
= 
etree.HTML(text)  
#这是一个地址
result 
= 
etree.tostring(html) 
#读出来源码,并且补全,如输出的《body》标签
print
(result)

输出:

1
2
3
4
5
6
7
8
9
10
11
12
13
<
html
>
    
<
body
>
        
<
div
           
<
ul
>  
          
<
li 
class
=
"item-0"
><
a 
href
=
"link1.html"
>first item</
a
></
li
>
          
<
li 
class
=
"item-1"
><
a 
href
=
"link2.html"
>second item</
a
></
li
>
          
<
li 
class
=
"item-inactive"
><
a 
href
=
"link3.html"
>third item</
a
></
li
>         
          
<
li 
class
=
"item-1"
><
a 
href
=
"link4.html"
>fourth item</
a
></
li
>         
          
<
li 
class
=
"item-0"
><
a 
href
=
"link5.html"
>fifth item</
a
></
li
>
          
</
ul
          
</
div
        
</
body
>
  
</
html
>
1
2
3
4
5
#读取文件里的内容
from 
lxml 
import 
etree
html 
= 
etree.parse(
'hello.html'
)
result 
= 
etree.tostring(html, pretty_print
=
True
)
print
(result)

获取li标签里的东西

html = etree.parse('hello.html')

print type(html)

result = html.xpath('//li')

print result

print len(result)

print type(result)

print type(result[0])


参考文章:

说明:此篇博客仅仅是为了自己学习lxml模块,故没好好写,下面是我微信二维码


本文转自 天道酬勤VIP 51CTO博客,原文链接:http://blog.51cto.com/tdcqvip/1976612

转载地址:http://knjoo.baihongyu.com/

你可能感兴趣的文章
webpack使用之基础篇
查看>>
如何避免if else
查看>>
android团队对新技术的态度
查看>>
『.NET Core CLI工具文档』(十)dotnet-build
查看>>
AngularJS中$q的promise使用及链式调用传值问题
查看>>
Scala Essentials: 类型约束
查看>>
JS异步那些事 二 (分布式事件)
查看>>
技术团队代码管理和部署
查看>>
Swift 项目主管和大家聊了聊 Swift 5,ABI 稳定性最受关注
查看>>
mybatis 插件 flying-清明 发布
查看>>
Java实现excel导入导出学习笔记2 - 利用xml技术设置导入模板,设置excel样式
查看>>
NG-ZORRO-MOBILE 0.11.5 发布,基于 Angular 7 的 UI 组件
查看>>
The Little JavaScript Closures
查看>>
春节快乐!10 场 AI 学术公开课伴你过新年
查看>>
CodeHub#1 回顾 | 敏捷开发与动态更新在支付宝 App 内的实践 ...
查看>>
阿里云图数据库GDB公测,高度连接数据查询效率提升10倍 ...
查看>>
估值30亿美金的地平线,要狂奔去哪里?
查看>>
Mysql存储之ORM框架SQLAlchemy
查看>>
45个值得收藏的 CSS 形状
查看>>
专访盒子鱼COO朱韵伊:因为懂节制和AI,我们走进了3600所中小学 ...
查看>>