爬我最爱的网站

piaodoo 编程教程 2020-02-22 22:05:47 1043 0 python教程

本文来源吾爱破解论坛

一日贼心不死，他日定会卷土重来。这不，昨天爬吾爱破解失败，今天就得乘了。
没有恶意，
没有恶意，
没有恶意！

注释写得比较详细，在这就不啰嗦了。
[Python] 纯文本查看 复制代码

'''
    吾爱破解  编程语言区  python 模块 1-14页 帖子名
    网站：https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page=1
    时间：2019年7月19日
'''
import  requests
from   lxml import etree


def get_msg(page):

    url = "https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page={}".format(page)
    header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win32; x86) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36",
             "Referer": "https://www.52pojie.cn/forum.php?mod=forumdisplay&fid=24&typeid=29&typeid=29&filter=typeid&page=1",
              "Upgrade-Insecure-Requests": "1"
              }

    response  = requests.get(url,headers=header)
    #print(response.content.decode("gbk"))
    #从响应头看到是gbk编码
    response_str  = response.content.decode("gbk")

    #这个转换我知道为什么做怎么做，不知道怎么解释
    html_str =etree.HTML(response_str)
    #print(html_str)

    list=html_str.xpath("/html//tr/th/a[2]/text()")
    #print(list)
    return list

def  save(record):
    with open("吾爱破解.txt","w",encoding="utf-8") as f:
        for i in range(len(record)):
            f.write(str(i+1)+"、"+str(record[i])+"\n")
            print(record[i])
    print("保存" + str(len(record))+ "条记录！")#注意str（）函数

if  __name__ == "__main__":
    #1.爬取范围  1-14页
    page = 1
    record = []
    while page <15:
        #2.读取数据,追加
        record.extend(get_msg(page))
        #3.读下一页
        page+=1
     #4.保存数据：
    save(record)

这个帖子和昨天的帖子爬的类型差不多，但是方向截然不同。
昨天的帖子是json数据利用，而今天是xpath在html中定位

本帖被以下淘专辑推荐: · 爬虫专栏|主题: 38, 订阅: 39

版权声明：

本站所有资源均为站长或网友整理自互联网或站长购买自互联网，站长无法分辨资源版权出自何处，所以不承担任何版权以及其他问题带来的法律责任，如有侵权或者其他问题请联系站长删除！站长QQ754403226 谢谢。

有关影视版权：本站只供百度云网盘资源，版权均属于影片公司所有，请在下载后24小时删除，切勿用于商业用途。本站所有资源信息均从互联网搜索而来，本站不对显示的内容承担责任，如您认为本站页面信息侵犯了您的权益，请附上版权证明邮件告知【754403226@qq.com】，在收到邮件后72小时内删除。本文链接：https://www.piaodoo.com/7516.html