首页 最新 热门 推荐

  • 首页
  • 最新
  • 热门
  • 推荐

第十四章 web前端开发小白学爬虫

  • 23-09-22 10:23
  • 3812
  • 7220
blog.csdn.net

老猿从事IT开发快三十年了,接触互联网也很久了,但自己没有做过web前端开发,只知道与前端开发相关的一些基本概念,如B/S架构、html标签、js脚本、css样式、xml解析、cookies、http协议等,但并不熟悉这些概念的真正内容,可以说在web前端开发方面还是一个真正的小白。这导致老猿很有兴趣的投入爬虫学习后,发现网上别人的经验并不能完全适合自己的情况。
基于这种情况,老猿恶补了一些相关的知识,主要是http协议、cookies、html标记等相关的内容,可是看了之后,概念和知识都有了,但怎么用起来却还是不得要领。
老猿学爬虫最开始的动机是想解决在本机已经登录访问网站的情况下,怎么通过Python复用这个登录的信息去访问该网站。为什么非要复用这个信息呢?主要是现在很多网站都是通过第三方账号如微信授权登录,而老猿暂时没有去研究第三方账号授权登录的过程,就想直接使用已登录信息从而免去登录相关的开发。
为此老猿查了很多资料,网上提供的案例要么就是直接通过账号登录获取cookie信息保存、要么就是不登录直接爬取信息,与老猿的想法存在一些差距。为此不得基于学习的知识去进行各种尝试,最终终于弄明白怎么去使用这些知识。一旦明白了之后,就发现这个其实挺容易的,就象往外看隔了一张白纸,白纸没捅破前怎么也看不见,一旦知道白纸要捅破之后这个事情就非常容易了。
老猿不禁在想,网上那么多文章,怎么就找不到这方面介绍的文章。想来要么是大佬们觉得这个知识太白痴,懒得去说,要么就是前人们没想用老猿这种偷懒的方式去访问网站,直接模拟网站登录解决问题了,当然还有一个可能就是搜索引擎没有搜索到,老猿有一篇文章《Python正则表达式re.search(r’*{3,8}’,‘’)和re.search(’*{3,8}’,'’)的匹配结果为什么相同?》可能特殊符号太多通过标题或标题的部分内容去百度搜索却怎么也搜索不到该博文的内容。
零零散散、啰啰嗦嗦说了这么多,其实想说明的是要学爬虫还是需要一些前端开发的基础知识,以支持按自己一些独特的想法来爬取内容,基本没有可以完全复制的成功经验供你直接使用。但学爬虫对前端开发的了解不会要求很深,知道一些基本知识就可以了,老猿本章要介绍的内容是对前端开发小白们提供一个完整的爬虫学习之路,使得小白知道该按怎样的路线去实现自己定制的爬虫之路,而不是一个单纯的已有案例的实现。
本章准备介绍老猿推荐的网页爬虫的学习过程,最后以两种不同方式实现CSDN博文进行点赞的案例。

本章内容如下:

第14.1节 通过Python爬取网页的学习步骤

第14.2节 HTML知识简介

第14.3节 使用google浏览器获取网站访问的http信息

第14.4节 使用IE浏览器获取网站访问的http信息

第14.5节 利用浏览器获取的http信息构造Python网页访问的http请求头

第14.6节 Python模拟浏览器访问网页的实现代码

第14.7节 Python模拟浏览器访问实现http报文体压缩传输

第14.8节 Python中使用BeautifulSoup加载HTML报文

第14.9节 Python中使用urllib.request+BeautifulSoup获取url访问的基本信息

第14.10节 Python中使用BeautifulSoup解析http报文:html标签相关属性的访问

第14.11节 Python中使用BeautifulSoup解析http报文:使用查找方法快速定位内容

第14.12节 Python中使用BeautifulSoup解析http报文:使用select方法快速定位内容

第14.13节 BeautifulSoup的其他功能导览

第14.14节 爬虫实战准备:csdn博文点赞过程http请求和响应信息分析

第14.15节 爬虫实战1:使用Python和selenium实现csdn博文点赞

第14.16节 爬虫实战2:赠人玫瑰,手留余香! request+BeautifulSoup实现csdn博文自动点赞

第14.17节 爬虫实战3: request+BeautifulSoup实现自动获取本机上网公网地址

第14.18节 爬虫实战4: request+BeautifulSoup+os实现利用公众服务Wi-Fi作为公网IP动态地址池

第14章 web前端开发小白学爬虫结束语

注:

老猿在2019年就开放了免费的爬虫专栏,相关实战文章都是以爬取CSDN文章介绍,但2020年CSDN进行改版之后,相关实战文章实际已经失去了意义。因此在原有爬虫基础上,结合最新情况重新撰写爬虫专栏《Python爬虫入门》,并将进一步增加实战文章内容。该专栏介绍爬虫入门的基础知识,以及爬取CSDN文章信息、博主信息、给文章点赞、评论等实战内容。不过该专栏为9.9元的付费专栏,请大家酌情考虑。

老猿Python,跟老猿学Python!
博客地址:http://iyenn.com/index/link?url=https://blog.csdn.net/LaoYuanPython

老猿Python博客文章目录:http://iyenn.com/rec/324322.html
请大家多多支持,点赞、评论和加关注!谢谢!

文章知识点与官方知识档案匹配,可进一步学习相关知识
Python入门技能树桌面应用开发Tkinter333523 人正在系统学习中
老猿Python
微信公众号
专注Python相关语言、图像音视频处理、AI
注:本文转载自blog.csdn.net的LaoYuanPython的文章"https://blog.csdn.net/LaoYuanPython/article/details/100585830"。版权归原作者所有,此博客不拥有其著作权,亦不承担相应法律责任。如有侵权,请联系我们删除。
复制链接
复制链接
相关推荐
发表评论
登录后才能发表评论和回复 注册

/ 登录

评论记录:

未查询到任何数据!
回复评论:

分类栏目

后端 (14832) 前端 (14280) 移动开发 (3760) 编程语言 (3851) Java (3904) Python (3298) 人工智能 (10119) AIGC (2810) 大数据 (3499) 数据库 (3945) 数据结构与算法 (3757) 音视频 (2669) 云原生 (3145) 云平台 (2965) 前沿技术 (2993) 开源 (2160) 小程序 (2860) 运维 (2533) 服务器 (2698) 操作系统 (2325) 硬件开发 (2492) 嵌入式 (2955) 微软技术 (2769) 软件工程 (2056) 测试 (2865) 网络空间安全 (2948) 网络与通信 (2797) 用户体验设计 (2592) 学习和成长 (2593) 搜索 (2744) 开发工具 (7108) 游戏 (2829) HarmonyOS (2935) 区块链 (2782) 数学 (3112) 3C硬件 (2759) 资讯 (2909) Android (4709) iOS (1850) 代码人生 (3043) 阅读 (2841)

热门文章

101
推荐
关于我们 隐私政策 免责声明 联系我们
Copyright © 2020-2024 蚁人论坛 (iYenn.com) All Rights Reserved.
Scroll to Top