本文来源吾爱破解论坛
本帖最后由 wushaominkk 于 2019-7-17 08:41 编辑
合着上篇帖子的思路:https://www.52pojie.cn/thread-991110-1-1.html
我继续编写了一个爬中关村摄影的爬虫,只需要修改最上面的rang()里面的参数就可以修改爬取多少页,里面都是小姐姐哦部分不是
思路都是一样的,我就不发了,也挺晚的了
注释部分是代{过}{滤}理服务器,我找不到nb的代{过}{滤}理服务器只需要修改http" :"183.172.192.248:1080就可以修改代{过}{滤}理的ip了
[Python] 纯文本查看 复制代码
import re import urllib.request import time # proxy = urllib.request.ProxyHandler({"http" :"183.172.192.248:1080"}) # opener = urllib.request.build_opener(proxy ,urllib.request.HTTPHandler) # urllib.request.install_opener(opener) count = 0 try: for c in range(0,10): new_url = "http://bbs.zol.com.cn/dcbbs/d16_good_p" + str(c) + ".html#c" data_new = urllib.request.urlopen(new_url).read().decode("utf-8","ignore") tj_new = 'data-url="/dcbbs/(.*?).html">' p1 = re.compile(tj_new).findall(str(data_new)) for sen in range(len(p1)): url = "http://bbs.zol.com.cn/dcbbs/" + str(p1[sen]) + ".html" data = urllib.request.urlopen(url).read().decode("GBK","ignore") tj = 'data-original="https://bbs-fd.zol-img.com.cn/t_s(.*?).jpg' p = re.compile(tj).findall(data) for i in range(len(p)): url = "https://bbs-fd.zol-img.com.cn/t_s" + str(p[i]) + ".jpg" file = "F:/bing/摄影论坛/" + str(p[i][-8:-1]) + ".jpg" count +=1 if count%5 ==0: time.sleep(0.65) print("正在保存第%s张图片" % count) urllib.request.urlretrieve(url,filename=file) except urllib.error.URLError as e: if hasattr(e, 'code'): print(e.code) if hasattr(e, "reason"): print(e.reason)
这是爬取的照片,有效期1天链接:https://pan.baidu.com/s/1oW0k2NCqSxWM4cJRpKdFAg 提取码:bnl5 复制这段内容后打开百度网盘手机App,操作更方便哦
版权声明:
本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。
- 上一篇: 【爬虫】爬行豆瓣电影短评
- 下一篇: 记录一次写python的经过【如果不是限制还是可行的】