更多内容请见: python3案例和总结-专栏介绍和目录
Python学习总结:正则表达式
正则表达式是处理字符串的强大工具,它有自己特定的语法结构,有了它,实现字符串的检索、替换、匹配验证都不在话下。
当然,对于爬虫来说,有了它,从 HTML 里提取想要的信息就非常方便了。
1. 常用的匹配规则
打开开源中国提供的正则表达式测试工具 http://tool.oschina.net/regex/,输入待匹配的文本,然后选择常用的正则表达式,就可以得出相应的匹配结果了。
对于 URL 来说,匹配a-z 代表匹配任意的小写字母,\s 表示匹配任意的空白字符,* 就代表匹配前面的字符任意多个,这一长串的正则表达式就是这么多匹配规则的组合,可以用下面的正则表达式:
[a-zA-z]+://[^\s]*
- 1

数据知道的成长之路
微信公众号
成长进阶、技术分享、资源获取


评论记录:
回复评论: