首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

第14.6节 使用Python urllib.request模拟浏览器访问网页的实现代码

  • 23-09-22 14:37
  • 4223
  • 12194
blog.csdn.net

Python要访问一个网页并读取网页内容非常简单,在利用《第14.5节 利用浏览器获取的http信息构造Python网页访问的http请求头》的方法构建了请求http报文的请求头情况下,使用urllib包的request模块使得这项工作变得非常容易,具体语句如下:

header = mkhead()
req = urllib.request.Request(url=site,headers=header)
sitetext = urllib.request.urlopen(req).read().decode()
  • 1
  • 2
  • 3

urllib.request.Request和urllib.request.urlopen这2个语句也可以合并成一个句子,在此不详细介绍,相关说明请参考:
http://iyenn.com/index/link?url=https://docs.python.org/3/library/urllib.request.html?highlight=request#module-urllib.request

说明:
1、 在国内decode的参数一般是缺省值、UTF-8、GBK这三种,如果是缺省值就是UTF-8;

2、 site就是要访问网站的网址;

3、 headers参数是http报文头的内容,请参考《第14.1节 通过Python爬取网页的学习步骤》或《第14.3节 使用google浏览器获取网站访问的http信息》介绍的有关http报文头的知识。实际设置时,报文头的内容可多可少,具体看爬虫访问网站的要求:

1)headers参数可以不传实参,也可以为空字典实参,不传实参系统缺省使用空字典,这种情况下Python处理时会自动补充一些内容以使web服务器能正确处理,这些值带有浓郁的Pythonic味道,可以使得服务端很容易知道这是Python代填充的,具体填充值大家可以使用抓包程序看一下。对于爬虫程序来说这不是很好的事情,因为爬虫最好是能伪装成正常的浏览器访问;

2)headers填写部分参数,老猿建议填写下列参数:
 User-Agent:这个是表明使用的哪个浏览器的,关于其来历可参考一下《转:为什么浏览器的user-agent字符串以’Mozilla’开头呢?》,具体取值网上可以查一下,最好办法是直接抓取真实浏览器的数据填入,如老猿直接使用本机浏览器的信息:

User-Agent: Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36
怎么抓取信息请见章节《第14.3节 使用google浏览器获取网站访问的http信息》、《第14.4节 使用IE浏览器获取网站访问的http信息》。

 Accept:这个是表明本机作为客户端浏览器可接受的MIME类型(互联网媒体类型),就是本机能识别处理的互联网信息类型,最好也从本机或其他真实的机器上抓取填入。如老猿抓取本机浏览器发送的请求信息中,填写的值为:‘text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3’

 Accept-Encoding:浏览器能够支持的压缩编码方式,如gzip, deflate, br等,服务端的报文体的压缩格式在响应报文的报文头的Content-Encodin字段中记载。http请求时通过Accept-Encoding告知服务端本客户端能识别的压缩格式,服务端根据该字段及服务端的情况采用对应方式压缩http报文体。注意如果应用中没有考虑服务端http报文体的解压缩,则这个值不要设置,否则会导致应用无法识别收到的响应报文体。关于HTTP响应报文头的信息请参考《转:http协议学习系列(响应头—Response Headers)》;

 Accept-Language: 客户端浏览器所希望的语言种类,当服务器能够提供一种以上的语言版本时要用到,如zh-CN,zh;q=0.9等;

 Connection:表示是否需要持久连接,keep-alive表示是持久连接;

 cookie:会话cookie信息,如果要复用已有浏览器会话不实现登录管理则可以直接复制已有浏览器会话的cookie,否则要么应用程序自己实现网站登录,要么就是匿名访问,具体大家可以根据自己爬虫应用的要求来确认处理方式。

以上信息老猿建议根据爬虫功能的需要设置,但User-Agent是必须设置,这样才能使得应用程序貌似一个正常的浏览器。

案例:下面是老猿访问自己博客文章的代码:

>>> import urllib.request
>>> def mkhead():
    header = {'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',
    'Accept-Language':'zh-CN,zh;q=0.9',
    'Connection':'keep-alive',
    'Cookie':'uuid_tt_dd=10_35489889920-1563497330616-876822; ...... ',
    'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}
    return header

>>> url= r'http://iyenn.com/index/link?url=https://blog.csdn.net/LaoYuanPython'
>>> header=mkhead()
>>> req = urllib.request.Request(url=url,headers=header)
>>> text = urllib.request.urlopen(req).read().decode()

>>> text[0:100]
'


    
    >> 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17

执行后,text中存放的就是要访问网页的内容,上述案例中显示了读取信息的前100个字符。

本节介绍了使用urllib包的request模块读取网页的实现过程,整体过程非常简单,读取了网页内容后就可以进行网页内容的解析。

老猿Python,跟老猿学Python!
博客地址:http://iyenn.com/index/link?url=https://blog.csdn.net/LaoYuanPython

老猿Python博客文章目录:http://iyenn.com/rec/324322.html
请大家多多支持,点赞、评论和加关注!谢谢!

文章知识点与官方知识档案匹配,可进一步学习相关知识
Python入门技能树首页概览333550 人正在系统学习中
老猿Python
微信公众号
专注Python相关语言、图像音视频处理、AI
注:本文转载自blog.csdn.net的LaoYuanPython的文章"https://blog.csdn.net/LaoYuanPython/article/details/100629947"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2024 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top