本文来源吾爱破解论坛
本帖最后由 huguo002 于 2019-6-13 14:15 编辑
超简单!python多线程采集头像图片
超简单!python多线程采集头像图片
1.使用到的库requests、etree、re、os、ThreadPool
2.网页编码为utf-8需要转码:html.encoding="utf-8"
3.使用xpath获取图片链接
4.使用了多线程
5.需要输入页面n,具体可以看动态图片
6.头像首页为栏目页,没有页面,这里用了if判断
7.py打包exe命令:pyinstaller -F 目录文件.py
[Python] 纯文本查看 复制代码
#www.woyaogexing.com头像采集 # -*- coding: utf-8 -*- import requests from lxml import etree import re import os from multiprocessing.dummy import Pool as ThreadPool def hqlj(n): urls = [] for x in range(2,n+1): url=f'https://www.woyaogexing.com/touxiang/index_{x}.html' if x==1: url='https://www.woyaogexing.com/touxiang/index.html' print(url) html=requests.get(url) html.encoding="utf-8" html=html.text con=etree.HTML(html) '''href=con.xpath('//div[@class="txList "]/a') print(href) for urls in href: print(urls.attrib['href'])''' href=con.xpath('//div[@class="txList "]/a/@href') print(href) for lj in href: lj=f'https://www.woyaogexing.com{lj}' print(lj) urls.append(lj) print(urls) return urls def hqtx(url): #url="https://www.woyaogexing.com/touxiang/qinglv/2019/800160.html" html=requests.get(url) html.encoding="utf-8" html=html.text con=etree.HTML(html) h1=con.xpath('//h1/text()') h1=h1[0] h1 = re.sub(r'[\|\/\<\>\:\*\?\\\"]', "_", h1) # 剔除不合法字符 print(h1) os.makedirs(f'./touxiang/{h1}/',exist_ok=True) imgs=con.xpath('//img[@class="lazy"]/@src') print(imgs) i=1 for img in imgs: img_url=f'https:{img}' if 'jpeg' in img_url: img_name=img_url[-5:] else: img_name = img_url[-4:] n=str(i) img_name='%s%s'%(n,img_name) print(img_name) print(img_url) r=requests.get(img_url) with open(f'./touxiang/{h1}/{img_name}','ab+') as f: f.write(r.content) print(f"保存{img_name}图片成功!") i=i+1 #hqlj("https://www.woyaogexing.com/touxiang/") if __name__ == '__main__': n=input("请输入要采集的页码数:",) n=int(n) urls=(hqlj(n)) try: # 开4个 worker,没有参数时默认是 cpu 的核心数 pool = ThreadPool() results = pool.map(hqtx, urls) pool.close() pool.join() print("采集所有头像完成!") except: print("Error: unable to start thread")
采集头像图片.gif (517.12 KB, 下载次数: 2)
下载附件 保存到相册
QQ截图20190612212347.png (280.82 KB, 下载次数: 2)
下载附件 保存到相册
exeGIF.gif (155.91 KB, 下载次数: 2)
下载附件 保存到相册
最后附上exe打包程序,需要的可以试试!
链接: https://pan.baidu.com/s/12--cjhgy_emKhx5-pEg5sA 提取码: fuas
爬取了500页数据,分享给大家吧!总共1.71g!
链接:https://pan.baidu.com/s/1kS-wDMc9yqaRl1m2qxKfCA
提取码:trrz
看了下有部分数据编码好像有问题,大家凑合着用吧,不想改了!
touxiang.jpg (124.45 KB, 下载次数: 0)
下载附件 保存到相册
版权声明:
本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。
- 上一篇: RSAS批量下任务工具-pyqt5界面分离实现
- 下一篇: Python 识别域名是否可以注册