博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
lxml etree xpath
阅读量:6238 次
发布时间:2019-06-22

本文共 908 字,大约阅读时间需要 3 分钟。

 

from lxml import etree
##################### 基本用法:
 
#####################
html = '''

登录

'''# 生成DOMdom = etree.HTML(html)# 取内容 /text()contents = dom.xpath('//h1[@class="header"]/text()')print(contents)# 取属性 /@attribattribs = dom.xpath('//form/label[@for="username"]/@for')print(attribs) ##################### 复杂用法:
#####################
html2 = ''' 
==> 有相同字符开头的属性的标签:

需要的内容1

需要的内容2

需要的内容3

==> 签嵌套标签:

美女,       你的微信号是多少?

''' dom = etree.HTML(html2) # 取有相同字符开头的属性的标签的内容 starts-with(@attrib, "abcd") contents2 = dom.xpath('//p[starts-with(@id, "test")]/text()') print(contents2) # 取标签嵌套标签的所有内容 xpath('string(.)') contents3 = dom.xpath('//div[@class="question"]/p')[0].xpath('string(.)') contents3 = contents3.replace('\n', '').replace(' ', '') print(contents3)

 

转载地址:http://oakia.baihongyu.com/

你可能感兴趣的文章
25万个虚拟机的实验环境 -VMworld 2011 动手实验室内幕曝光
查看>>
Supporting Python 3——不使用2to3转换支持Python 2和Python 3
查看>>
分布式存储系统MogileFS(一)之基本概念
查看>>
Zabbix宏使用及用户自定义监控
查看>>
网络社交如何保护个人隐私?做好这4步
查看>>
mysqlbinlog 命令筛选时间段某表操作记录
查看>>
python 简单擦错误记录
查看>>
css float
查看>>
SQL*Plus中的Echo
查看>>
云计算技术的产生、概念、原理和前景
查看>>
test
查看>>
将自己的项目部署在github上
查看>>
oracle 启动关闭周期
查看>>
【经典数据结构】B树与B+树
查看>>
c++学习 定位new表达式
查看>>
svn问题
查看>>
Fiddler是位于客户端和服务器端的HTTP代理(目前最常用的http抓包工具之一)
查看>>
spring为何要注入接口,而注入接口的实现类就会报错
查看>>
<转>mysql 树查询语句
查看>>
cursor 与refcursor及sys_refcursor的区别
查看>>