本文来源吾爱破解论坛
本帖最后由 wushaominkk 于 2019-7-15 10:18 编辑
今天是接触爬虫的第二天,第一天遇到这个网站,但是被403了,但是今天学的知识完全可以弥补我昨天的坑,于是为了践行从哪里跌倒就要从哪里爬起来的理念,今天我就爬它了!!!
一开始犯了两个错误,一个是用了wb写入,导致我内容根本写不进去,一直报错,第二个是我将ope代码块写入了for循环里面,导致只打印了最后一行,因为w就是如果内容存在就覆盖,没文件创建
见源码,有些小问题需要大牛指教一下
[Python] 纯文本查看 复制代码
import urllib.request import re url = "http://qq.ssjzw.com/" headers = ('User-Agent',"Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36") opener = urllib.request.build_opener() opener.addheaders = [headers] data = opener.open(url).read().decode("GBK") tj = '<li>类型:(.*?)</li><li>(.*)</li>' p = re.compile(tj).findall(str(data)) file = open("兼职群.txt" ,"w",encoding="utf-8") for i in range(len(p)): dawa = str(p[i]) #这个地方我不知道为什么需要把它转换为str,这里索引取的值是一个元组,我直接进行拼接会报错 file.write(dawa + "\n") #最后写入文件是元组的样子,类型是字符串,不知道如何去括号 print("------打印完成------") file.close()本帖被以下淘专辑推荐: · 好帖|主题: 149, 订阅: 14
版权声明:
本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。
- 上一篇: Python调用百度翻译接口【demo】(python3)
- 下一篇: python爬虫,抢小米抢购,