本文来源吾爱破解论坛
QQ截图20190318211606.png (176.24 KB, 下载次数: 0)
下载附件
保存到相册
我就想发帖纪念一下我写的第一个python爬虫,新手可以拿去学习一下,如果是大神希望可以指导我优化一下 哈哈大家相互学习学习{:1_918:}
[Python] 纯文本查看 复制代码
import urllib.request #导入模块 import re data=urllib.request.urlopen("http://news.sina.com.cn").read() #读取网页 data=data.decode("utf-8","ignore") #编码 pat='href="(https://news.sina.com.cn/.*?[.shtml])"' #正则表达式 allurl=re.compile(pat).findall(data) for i in range(0,len(allurl)): try: data2=urllib.request.urlopen(allurl[i]).read() data2 = data2.decode("utf-8", "ignore") pat2 = 'og:title" content="(.*?)"' tittle = re.compile(pat2).findall(data2) if(len(tittle)>=1): print(tittle[0] + "\n" + allurl[i]) #获取标题并且输出 else: print("标题爬取失败"+ "\n" + allurl[i]) except urllib.error.URLError as e: # 捕获异常并且输出 if hasattr(e, "code"): print(e.code) if hasattr(e, "reason"): print(e.reason)
版权声明:
本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。
- 上一篇: 10行Python代码也能实现目标检测
- 下一篇: 用python下载漫画并打包