首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

Python正则表达式W+和W*匹配过程的深入分析

  • 23-09-22 17:44
  • 3861
  • 13140
blog.csdn.net

在学习re.split函数的处理过程中,发现执行如下语句及返回与老猿预想的不一致:

>>> re.split('W*','Hello,world')
['', 'H', 'e', 'l', 'l', 'o', '', 'w', 'o', 'r', 'l', 'd', '']
  • 1
  • 2

而老猿期望的是[’’, ‘Hello’, ‘’, ‘world’, ‘’],结果差异很大。
我们再看使用组模式匹配的结果:

>>> re.split('(W*)','Hello,world')
['', '', 'H', '', 'e', '', 'l', '', 'l', '', 'o', ',', '', '', 'w', '', 'o', '', 'r', '', 'l', '', 'd', '', '']
  • 1
  • 2

也不是老猿期望的:[’’,‘Hello’, ‘,’, ‘world’, ‘’]。
将上述匹配模式中的W*改成W+,来看看效果:

>>> re.split('W+','Hello,world')
['Hello', 'world']
>>> re.split('(W+)','Hello,world')
['Hello', ',', 'world']
>>>
  • 1
  • 2
  • 3
  • 4
  • 5

这个效果与老猿预想一致。在老猿预想的里面,使用“W*”和“W+”的区别应该就是在搜索文本头和尾的处理上二者有区别,“W*”应该比“W+”只多头和尾匹配的空字符串,毕竟二者都是贪婪模式,只是“W*允许0次重复”。为什么执行结果却大相径庭呢?
经过仔细思考,老猿认为正则的匹配过程有关,在贪婪模式下,老猿理解上述正则表达式的匹配基本处理方法如下:

  1. 所有匹配过程都是从搜索文本当前匹配到的位置(为了后续方便称为当前匹配位置)开始的,首次匹配就从搜索文本位置0开始,其后真正匹配过程每匹配一个字符匹配位置加一(前视断言、后视断言等不消耗搜索文本的方法除外);
  2. 每次匹配时,都是从搜索文本当前匹配位置开始以类似切片的机制开始匹配:
    1)切片的开始位置为当前位置,切片的结束位置从当前位置开始逐一增加(假设当前位置为n,则第一次切片类似n:n,也就是空字符串);
    2)每次切片都会验证是否切片后的内容能否匹配当前模式,如果能匹配,切片结束位置加一,按此顺序处理,直到切片不能匹配为止;
    3)如果当前切片不能匹配,则匹配的搜索文本子串就是前一个切片(不妨称为匹配切片),如果前一个切片的起止位置相同则为空字符串,如果起始位置大于结束位置则没有匹配到,否则就是正常匹配;
    4)匹配到空串或正常子串都认为匹配成功,当前匹配位置=匹配切片结束位置+1。

这样我们回头来看使用“W*”和“W+”来匹配单词“Hello”的过程,由于每个字符当前位置的0长切片都为空字符串,他们满足“W*”匹配要求,而下个长度为1的切片是字母字符,不能满足匹配的要求,因此会认为单词的每个字母之间都会被空字符串分割,如果不接受这样的结果,使用”W+”来匹配就可以。

关于阅读本文所需要使用的基础知识请参考:
1、关于“W*”和“W+”的含义请参考《第11.15节 Python正则表达式转义符定义的特殊序列》;
2、关于切片请参考《第3章 Python的数据类型 第3.1节 功能强大的 Python序列概述》;
3、关于正则表达式贪婪模式请参考:《第11.9节 Python正则表达式的贪婪模式和非贪婪模式》及《转:正则表达式之 贪婪与非贪婪模式详解》;
4、关于re.split请参考《第11.22节Python 中re模块的split函数》。

老猿Python,跟老猿学Python!
博客地址:http://iyenn.com/index/link?url=https://blog.csdn.net/LaoYuanPython

请大家多多支持,点赞、评论和加关注!谢谢!

文章知识点与官方知识档案匹配,可进一步学习相关知识
Python入门技能树网络爬虫正则表达式333581 人正在系统学习中
老猿Python
微信公众号
专注Python相关语言、图像音视频处理、AI
注:本文转载自blog.csdn.net的LaoYuanPython的文章"https://blog.csdn.net/LaoYuanPython/article/details/100045507"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2024 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top