首页 编程教程正文

爬取搜狐号自媒体的所有文章

piaodoo 编程教程 2020-02-22 22:14:11 1326 0 python教程

本文来源吾爱破解论坛

本帖最后由 洛枫 于 2019-2-16 22:37 编辑

背景
现在有很多自媒体平台,如头条号、搜狐号、大鱼号、百家号等,每个人都可以成为创作者发布自己的作品。如果想把某个作者的文章都下下来,一篇一篇的下载会很麻烦,而用爬虫则会很简单,顺便还能练练手。这里就以抓取规则比较比较简单的搜狐号来开到。
嗨学网
工具
pycharm、Python3、PC
库 os、 re、BeautifulSoup、requests、json、urllib.parse
思路
入口URL进入 --> 获取文章地址 --> 获取图片地址 --> 下载文章与图片
注:主线思路很简单,但还是会遇到很多小问题
开始
一、网站分析
1、先选定一个要爬取的自媒体账号,比如随便选的:
嗨学网

2、用fiddler或F12抓包,发现返回的数据包里面不包含连接。这说明连接应该都放在在某个请求里面,而这个请求返回的是json格式。
嗨学网

3、在请求列表里找,最终在这个里面看到了猫腻
嗨学网

用浏览器访问下试试,好多URL和title,就是这个了!
嗨学网

4、在看他的地址结构,pageNumber应该是第几页,xpt是每个自媒体账号的唯一id,pageSize是一页显示多少条信息。
嗨学网

5、点进一篇文章,发现文章内容在<article>标签内
嗨学网

6、分析完成后,可以正式敲代码了。
嗨学网

二、编码
1、先对输入的URL进行拆分,提取xpt
嗨学网

2、创建文件夹,存放爬取的资源
嗨学网

3、然后用pageNumber、xpt、pageSize拼接路径,获取保存URL的页面;将返回的数据转为json格式,解析地址;通过pageNumber自增,循环获取所有页面的地址。
嗨学网

4、将信息保存到本地txt文件
嗨学网

5、遍历获取地址对应的文章内容和图片
嗨学网

嗨学网

嗨学网

嗨学网

6、效果如下
嗨学网

嗨学网

嗨学网

嗨学网

嗨学网

优化
由于加了图片下载,单线程会比较慢,因此可考虑优化成 多线程,效率刚刚滴。
获取.py源码和生成的.exe程序:
豪哥下载链接: 嗨学网 下载.txt (69 Bytes, 下载次数: 22) 2019-2-16 22:31 上传 点击文件名下载附件
下载积分: 吾爱币 -1 CB

下载链接:https://pan.baidu.com/s/1zGOrI5A60oMapRnQyYoG9g
提取码:hkrh
github:https://github.com/1061700625/Download-Souhu-Article

本帖被以下淘专辑推荐: · 电脑软件集合|主题: 663, 订阅: 526

版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:https://www.piaodoo.com/7874.html

搜索