☞ ░ 老猿Python博文目录:http://iyenn.com/rec/324322.html ░
一、引言
在《http://iyenn.com/rec/325005.html Python爬虫入门实战2:获取CSDN个人博客文章基础信息》介绍了爬取个人博客文章信息的方法,可以看到相关内容获取是直接通过需要获取信息对应的文字内容、HTML标签或者HTML标签及其父标签进行组合直接定位到对应内容来进行解析,要分析的数据可以通过一次select或find_all即可获得。但还有些区块,无法简单通过一次操作能获得需要的信息,这个时候就需要通过标签之间的关系关联获取。
本文将通过爬取CSDN个人博客信息来阐述这种标签关联关系在博客信息解析中的使用。
二、博客信息的HTML报文
本文将通过一个CSDN的博文地址或博客地址,爬取对应博客的相关信息,包括:原创文章数、周排名、总排名、总阅读量、博客等级、积分、粉丝数、总获赞数、总评论、总收藏数以及按时间的发文情况。
2.1、原创文章数、周排名、总排名、总阅读量、博客等级信息
以老猿自己的博客对应HTML为例
文章知识点与官方知识档案匹配,可进一步学习相关知识
Python入门技能树网络爬虫Beautiful Soup333550 人正在系统学习中

老猿Python
微信公众号
专注Python相关语言、图像音视频处理、AI


评论记录:
回复评论: