首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

第14.11节 Python中使用BeautifulSoup解析http报文:使用查找方法快速定位内容

  • 23-09-22 14:37
  • 4606
  • 9485
blog.csdn.net

一、 引言
在《第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问》介绍了BeautifulSoup对象的主要属性,通过这些属性可以访问标签、内容,但这种方法要么就只能访问符合条件的第一个对象,要么需要遍历访问对象,某些情况下不能通过指定特征快速定位标签和内容。本节将介绍使用BeautifulSoup提供的相关方法快速定位标签和内容的方法。本节继续复用《第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问》中的HTML文件和对象定义代码。
本节案例中介绍处理的c: emps1.html文件内容如下:






BeautifulSoups使用方法 - 老猿Python - CSDN博客 
 	
  

老猿Python

老猿Python首行

老猿Python第二行

老猿Python第三行

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

创建soup对象的代码如下:

>>> from bs4 import BeautifulSoup
>>> def getsoup():
    fp = open(r'c:	emps1.html',encoding='utf-8')
    soup = BeautifulSoup(fp, 'lxml')
    fp.close()
    print(soup)
    return soup

>>> soup=getsoup()

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

二、 方法find_all
find_all() 方法搜索当前标签的所有子节点,并判断是否符合过滤器的条件,非标签标记的字符串对象会被自动忽略掉。
1、 调用语法:find_all( name , attrs , recursive , string ,limit, **kwargs )
2、 name 参数:匹配过滤器,用于查找所有名字满足name过滤器 的标签。 过滤器有几种类型:
1)字符串:传入一个字符串参数,Beautiful Soup会查找与字符串完整匹配的标签名,注意是完整匹配,不是模糊匹配;

>>> soup.find_all('link')
[]
>>>
  • 1
  • 2
  • 3

2)正则表达式:传入正则表达式作为参数,Beautiful Soup会通过正则表达式的 match() 来匹配标签名。注意在这个地方传入必须是re.compile的匹配模式,如果是匹配字符串Python会认为是字符串匹配。

>>> soup.find_all(re.compile('h[1-2]'))
[

老猿Python

,

老猿Python第二行

]
  • 1
  • 2
  • 3
  • 4

3)列表:传入列表参数,Beautiful Soup会将与列表中任一元素匹配的内容返回;

>>> soup.find_all(['h1','h2'])
[

老猿Python

,

老猿Python第二行

] >>>
  • 1
  • 2
  • 3

4)True:True 可以匹配任何标签,将查找所有的标签;
5)方法:传一个方法,该方法只有一个标签参数,通过这个方法对标签进行一些校验,满足条件返回 True 表示当前元素匹配并且被找到,如果不是则返回 False。如:

>>> def findline(tag):

    if tag==None: return False
    content=tag.attrs.get('name')
    if content==None:return False
    return re.match('line',content)!=None

>>> soup.find_all(findline)
[

老猿Python首行

] >>>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11

Beautiful Soup官网文档地址:http://iyenn.com/index/link?url=https://beautifulsoup.readthedocs.io/zh_CN/latest/给了个例子:

def has_class_but_no_id(tag):
    return tag.has_attr('class') and not tag.has_attr('id')
  • 1
  • 2

将这个方法作为参数传入 find_all() 方法,将得到所有有class属性但无id属性的标签。
3、 kwargs参数
如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字标签的属性来搜索。如包含一个名字为 id 的参数,Beautiful Soup会搜索每个标签的”id”属性。

搜索方法语法如下:
属性id=匹配过滤器

其中属性id要求是个合法的Python标识符,否则需要使用attrs参数才能进行匹配。匹配过滤器与name参数类似,稍有差别,主要是不支持列表方式传参,同时其匹配的内容是属性id对应的值,而不是标签或属性id,匹配是去查看对应属性的值是否满足条件。

1)根据属性值的字符串来匹配,注意是必须完全相同,如:

>>> soup.find_all(rel='canonical')
[]

  • 1
  • 2
  • 3

2)根据属性值的正则表达式使用match来匹配,如:

>>> soup.find_all(href=re.compile('.*'))
[, , ]
>>> 
  • 1
  • 2
  • 3

3)属性ID=True来匹配所有有该属性的标签,如:

>>> soup.find_all(rel=True)
[]
>>> soup.find_all(href=True)
[, , ]
>>>
  • 1
  • 2
  • 3
  • 4
  • 5

4)方法:传一个方法,该方法只有一个参数,这个参数在调用时传递的实参时对应属性ID的属性值,通过这个方法对属性值进行一些校验,满足条件返回 True 表示当前元素匹配并且被找到,如果不是则返回 False

>>> def gethrefinludeaticle(value):
	if value==None:return False
	return re.findall('article',value)

>>> soup.find_all(href=gethrefinludeaticle)
[]
>>>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7

注意:经老猿验证测试,发现在校验函数调用前,系统并没有先进行属性id的匹配成功再调用校验函数,而是所有标签属性匹配失败也会进入校验函数再校验,此时因为匹配失败value为None,因此对校验函数的参数进行None的判断非常重要。如果我们将value的情况输出,可以清楚看到函数的调用情况。如:

>>> def gethrefinludeaticle(value):
	if value==None:
		print("None")
		return False
	else:print(value)
	return re.findall('article',value)

>>> soup.find_all(href=gethrefinludeaticle)
None
None
None
http://iyenn.com/index/link?url=http://iyenn.com/index/link?url=https://blog.csdn.net/LaoYuanPython/article/details/95360624
None
None
None
None
None
None
None
http://iyenn.com/index/link?url=https://blog.csdn.net/LaoYuanPython
None
None
http://iyenn.com/index/link?url=https://blog.csdn.net/LaoYuanPython
None
None
[]
>>>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
  • 26
  • 27

5)属性id为Python关键字class的匹配
按照CSS类名搜索tag的功能非常实用,但标识CSS类名的关键字 class 在Python中是保留字,使用 class 做参数会导致语法错误。
可以通过给class加下划线变成 class_进行搜索,如:

>>> soup.find_all(class='textline')
SyntaxError: invalid syntax
>>> soup.find_all(class_='textline')
[

老猿Python首行

]
  • 1
  • 2
  • 3
  • 4

由于tag的 class 属性是 多值属性 .按照CSS类名搜索tag时,可以分别搜索tag中的每个CSS类名,如:

css_soup = BeautifulSoup('

') css_soup.find_all("p", class_="strikeout") # [

] css_soup.find_all("p", class_="body") # [

] 搜索 class 属性时也可以通过CSS值完全匹配: css_soup.find_all("p", class_="body strikeout") # [

]
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

4、 attrs参数
根据属性id和属性值的字典来匹配,可以使用“attrs=字典”,字典的元素的键是带引号的标签属性id,在属性id不是一个合法的Python标识符情况下,可以使用这种方法来匹配。根据老猿的测试验证,注意:class不能再加下划线,字典的值可以是上面所有的匹配方法,多个字典元素是与的关系,即要找到的标签必须具有字典中所有元素对应的内容。这可是网上的资料及beatifulsoap官网都没介绍。如:

>>> def gethrefinludeaticle(value):
	if value==None:	return False
	return re.findall('article',value)

>>> soup.find_all(attrs={'href':gethrefinludeaticle,'rel':'canonical'})
[]
>>> soup.find_all(attrs={'class':re.compile('.*')})
					    
[

老猿Python首行

] >>> soup.find_all(attrs={'class_':re.compile('.*')}) #class不能加下划线 [] >>>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14

5、 recursive参数
调用tag的 find_all() 方法时,Beautiful Soup会检索当前tag的所有子孙节点,如果只想搜索tag的直接子节点,可以使用参数 recursive=False。

6、 string参数
通过 string 参数可以搜搜文档中的字符串内容。与 name 参数的可选值一样, string 参数接受 字符串 , 正则表达式 , 列表, True 。
新版本该参数名为string,老版本中为text,根据老猿的验证这两个参数使用效果是一样的,不过建议使用string。 如:

>>> soup.find_all(text=re.compile('.*'))
					    
['html', '
', '
', '	.textline{color:blue;}', '
', '
', 'BeautifulSoups使用方法 - 老猿Python - CSDN博客 ', '
', '
', '老猿Python', '
', ' 老猿Python首行', '
', '
', '老猿Python第二行', ' ', '
', '老猿Python第三行', ' ', '
', '
', '
keyword 参数
如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性.	']

>>> soup.find_all(string=re.compile('.*'))
					    
['html', '
', '
', '	.textline{color:blue;}', '
', '
', 'BeautifulSoups使用方法 - 老猿Python - CSDN博客 ', '
', '
', '老猿Python', '
', ' 老猿Python首行', '
', '
', '老猿Python第二行', ' ', '
', '老猿Python第三行', ' ', '
', '
', '
keyword 参数
如果一个指定名字的参数不是搜索内置的参数名,搜索时会把该参数当作指定名字tag的属性来搜索,如果包含一个名字为 id 的参数,Beautiful Soup会搜索每个tag的”id”属性.	']

  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8

7、 limit 参数
该参数在官网的方法定义中没有,但后面参数介绍中有,经过验证是可以使用的,因此老猿将其补充到参数中去了。使用 limit 参数限制返回结果的数量,当搜索到的结果数量达到 limit 的限制时,就停止搜索返回结果。

8、 返回值
find_all的返回值是一个符合条件的html元素列表,每个元素就是一个符合条件的html元素。find_all()只搜索当前节点的所有子节点,孙子节点等。

三、 find_all方法的简写使用
find_all() 是Beautiful Soup中最常用的搜索方法,所以Beautiful Soup定义了它的缩写方法。具体缩写方式为:
将“BeautifulSoup对象.find_all(参数)” 缩写为“BeautifulSoup对象(参数)”
如代码:soup.find_all(“a”)与soup(“a”)是等价的,soup.title.find_all(string=True)与soup.title(string=True)等价。

四、 find
find() 搜索当前节点的所有子节点,孙子节点等是否有满足条件的元素,有则返回第一个符合条件的内容。

1. 调用语法:
find( name , attrs , recursive , string , **kwargs );

2. 语法释义:
find的几个参数与find_all中同名参数是一样的,参数含义也是一样,只是比find_all少了一个limit参数。而返回值是直接返回第一个满足条件的html元素。find_all() 方法没有找到目标是返回空列表,find() 方法找不到目标时返回 None 。某种程度上讲,find类似于find_all中参数limit=1的调用。

3.通过“对象.标签名”访问是“对象.find(”标签名”)”的简写,如:soup.head.title是soup.find(“head”).find(“title”)的简写。

五、 find_parents() 和 find_parent()
find_parents() 和 find_parent() 用来搜索当前节点的父辈节点,搜索方法与普通tag的搜索方法相同,搜索文档搜索文档包含的内容。

  1. 调用语法:
    find_parents( name , attrs , recursive , string , **kwargs )
    find_parent( name , attrs , recursive , string , **kwargs )
  2. 语法释义
    find_parents() 和 find_parent()几个参数与find_all中同名参数是一样的,参数含义也是一样,只是比find_all少了一个limit参数。
    find_parents搜索父辈节点的方法实际上就是对 parents 属性的迭代搜索,返回值是一个列表。find_parent就是返回第一个符合条件的父节点的html元素,与parent属性含义是一样,只是parent只能通过“对象.parent”方式访问,而find_parent可以去父节点中查找满足条件的父节点。

六、 find_next_siblings() 和 find_next_sibling()
这2个方法通过 next_siblings 属性查找当前标签的所有后面解析的兄弟标签节点。

  1. 调用语法:
    find_next_siblings( name , attrs , recursive , string , **kwargs )
    find_next_sibling( name , attrs , recursive , string , **kwargs )
  2. 语法释义
    相关参数的含义与find_all的同名参数含义一致,find_next_siblings() 方法返回所有符合条件的后面的兄弟节点,find_next_sibling() 只返回符合条件的后面的第一个tag节点。

七、 find_previous_siblings() 和 find_previous_sibling()
这两个方法通过 previous_siblings 属性对当前tag的前面解析的兄弟tag节点进行迭代查找满足条件的节点。

  1. 调用语法:
    find_previous_siblings( name , attrs , recursive , string , **kwargs )
    find_previous_sibling( name , attrs , recursive , string , **kwargs )
  2. 语法释义
    这2个方法的参数与find_all中同名参数用途是一样的。find_previous_siblings() 方法返回所有符合条件的前面的兄弟节点的列表,find_previous_sibling() 方法返回第一个符合条件的前面的兄弟节点。

八、 find_all_next() 和 find_next()
这2个方法通过 next_elements 属性对当前标签之后的标签和字符串进行迭代查找满足要求的数据。

  1. 调用语法:
    find_all_next ( name , attrs , recursive , string , **kwargs )
    find_next ( name , attrs , recursive , string , **kwargs )
  2. 语法释义:
    这2个方法的参数与find_all中同名参数用途是一样的。find_all_next() 方法返回所有符合条件的节点, find_next() 方法返回第一个符合条件的节点。

九、 find_all_previous() 和 find_previous()
这2个方法通过 previous_elements 属性对当前节点前面的tag和字符串进行迭代查找符合条件的节点。

  1. 调用语法:
    find_all_previous( name , attrs , recursive , string , **kwargs )
    find_previous( name , attrs , recursive , string , **kwargs )
  2. 语法释义:
    这2个方法的参数与find_all中同名参数用途是一样的。find_all_previous () 方法返回所有符合条件的节点, find_previous 方法返回第一个符合条件的节点。

本节介绍了BeautifulSoup查找类的主要方法,通过这些方法可以找到符合条件的html元素。本节文档老猿在BeautifulSoup官网的基础之上验证测试之后整理而成,文档结构大部分内容与官网内容,但有老猿验证之后的一些比较独特的内容。

老猿Python,跟老猿学Python!
博客地址:http://iyenn.com/index/link?url=https://blog.csdn.net/LaoYuanPython

老猿Python博客文章目录:http://iyenn.com/rec/324322.html
请大家多多支持,点赞、评论和加关注!谢谢!

文章知识点与官方知识档案匹配,可进一步学习相关知识
网络技能树首页概览37513 人正在系统学习中
老猿Python
微信公众号
专注Python相关语言、图像音视频处理、AI
注:本文转载自blog.csdn.net的LaoYuanPython的文章"https://blog.csdn.net/LaoYuanPython/article/details/100759726"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2024 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top