首页 编程教程正文

爬自己的网站。。。。。

piaodoo 编程教程 2020-02-22 22:10:14 993 0 python教程

本文来源吾爱破解论坛

本帖最后由 zac7 于 2019-11-13 17:25 编辑

之前有转载一个文章,觉得写得挺好的,属于鸡汤文吧,然后就是格式让人很讨厌,我寻思就搞下来然后整理一下。
[Python] 纯文本查看 复制代码

#-*- coding:utf-8 -*-
# author:**Zac7**
# datetime:2019/11/13 12:29
# software: PyCharm
from lxml import etree
import requests
import csv

class Jt(object):
    def __init__(self):
        self.url = 'https://www.wyly.work/articles/26/'
        self.headers={
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"
        }
  
    def get_html(self):
        resp = requests.get(url=self.url,headers=self.headers).text
        html = etree.HTML(resp)
        pattern = '//div[@class="post-description"]//div//p/text()'
        content = html.xpath(pattern)
        # print(content)
        content_str = ''.join(content)
        new=content_str.replace('原文:', ' ')
        new1=new.replace('笔记:2016-12-07', ' ')
        new2=new1.replace('笔记:2016-12-08', ' ')
        new3 = new2.replace('笔记:2016-12-09', ' ')
        print(new3)
        self.save_f(new3)

    def save_f(self, new3):
        with open('saf.csv', 'w',newline='') as f:
            f.write(new3)
            f.close()

    def run(self):
        self.get_html()


if __name__ == '__main__':
    j=Jt()
    j.run()

1113172403.png (159.18 KB, 下载次数: 1)

下载附件  保存到相册

这是网站上的WEB界面

2019-11-13 17:24 上传

微信图片_20191113170505.png (255.02 KB, 下载次数: 2)

下载附件  保存到相册

2019-11-13 17:05 上传

这是我去掉字符串之后的

这是我去掉字符串之后的

本帖被以下淘专辑推荐: · 源码系列|主题: 31, 订阅: 8

版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:https://www.piaodoo.com/7747.html

搜索