本文来源吾爱破解论坛
一日贼心不死,他日定会卷土重来。这不,昨天爬吾爱破解失败,今天就得乘了。
没有恶意,
没有恶意,
没有恶意!
注释写得比较详细,在这就不啰嗦了。
[Python] 纯文本查看 复制代码
''' 吾爱破解 编程语言区 python 模块 1-14页 帖子名 网站:https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page=1 时间:2019年7月19日 ''' import requests from lxml import etree def get_msg(page): url = "https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page={}".format(page) header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win32; x86) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36", "Referer": "https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page=1", "Upgrade-Insecure-Requests": "1" } response = requests.get(url,headers=header) #print(response.content.decode("gbk")) #从响应头看到是gbk编码 response_str = response.content.decode("gbk") #这个转换我知道为什么做怎么做,不知道怎么解释 html_str =etree.HTML(response_str) #print(html_str) list=html_str.xpath("/html//tr/th/a[2]/text()") #print(list) return list def save(record): with open("吾爱破解.txt","w",encoding="utf-8") as f: for i in range(len(record)): f.write(str(i+1)+"、"+str(record[i])+"\n") print(record[i]) print("保存" + str(len(record))+ "条记录!")#注意str()函数 if __name__ == "__main__": #1.爬取范围 1-14页 page = 1 record = [] while page <15: #2.读取数据,追加 record.extend(get_msg(page)) #3.读下一页 page+=1 #4.保存数据: save(record)
这个帖子和昨天的帖子爬的类型差不多,但是方向截然不同。
昨天的帖子是json数据利用,而今天是xpath在html中定位 本帖被以下淘专辑推荐: · 爬虫专栏|主题: 38, 订阅: 39
版权声明:
本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。