首页 编程教程正文

pytho pdfkit 将网页django2.0教程内容打印成pdf文档

piaodoo 编程教程 2020-02-22 22:06:29 1002 0 python教程

本文来源吾爱破解论坛

pytho pdfkit 将网页django2.0教程内容打印成pdf文档


最近在学习django2.0,把杜赛大佬的django2.0网页教程打印成pdf文档 方便学习!
https://www.dusaiphoto.com/article/detail/2/
感谢大佬的分享!


附:django2.0教程pdf文档
链接: https://pan.baidu.com/s/1HM7_tEqcPk3h2ffZiYV17Q 提取码: udpi  七天有效期!


11.jpg (196.21 KB, 下载次数: 0)

下载附件  保存到相册

2019-8-3 13:59 上传




22.jpg (150.39 KB, 下载次数: 0)

下载附件  保存到相册

2019-8-3 13:59 上传




33.jpg (152.99 KB, 下载次数: 0)

下载附件  保存到相册

2019-8-3 13:59 上传






代码:
[Python] 纯文本查看 复制代码
#采集网页打印成pdf文档输出
# -*- coding: UTF-8 -*-
import pdfkit
import requests
from lxml import etree
import re

confg = pdfkit.configuration(wkhtmltopdf=r'C:\Users\Administrator\AppData\Local\Programs\Python\Python37\wkhtmltox\bin\wkhtmltopdf.exe')


#获取链接
def get_listurl():
    url="https://www.dusaiphoto.com/article/detail/2/"
    list_url = [url,]
    html=requests.get(url).content.decode('utf-8')
    con=re.findall(r'<div class="card-text" style="overflow: hidden">(.+?)<div class="container-fluid">',html,re.S)[0]
    listurls=re.findall(r'<p class="mb-0">.+?<a href="(.+?)".+?style="color: #b8b8b8;"',con,re.S)
    for listurl in listurls:
        listurl=f'https://www.dusaiphoto.com{listurl}'
        list_url.append(listurl)
    print(list_url)
    return list_url

#获取正文内容
def get_content(url):
    #url='https://www.dusaiphoto.com/article/detail/4/'
    html=requests.get(url).content.decode('utf-8')
    content=re.findall(r'<div class="mt-4">(.+?)<div class="mt-4 mb-4">',html,re.S)[0]
    return content

#保存html为pdf文档
def dypdf(contents):
    contents=etree.HTML(contents)
    s = etree.tostring(contents).decode()
    print("开始打印内容!")
    pdfkit.from_string(s, r'out.pdf',configuration=confg)
    print("打印保存成功!")


if __name__ == '__main__':
    contents=''
    urls=get_listurl()
    for url in urls:
        print(url)
        content=get_content(url)
        contents='%s%s%s'%(contents,content,'<p><br><p>')

    dypdf(contents)



wkhtmltopdf,这个工具的下载网站是:https://wkhtmltopdf.org/downloads.html


代码中,confg = pdfkit.configuration(wkhtmltopdf=r’C:\Users\Administrator\AppData\Local\Programs\Python\Python37\wkhtmltox\bin\wkhtmltopdf.exe’)
wkhtmltopdf=更换为你自己的包目录!


参考以下教程:


使用python把html网页转成pdf文件 https://www.cnblogs.com/xiaowenshu/p/9916719.html


写的比较粗糙,见谅!


查了下论坛 发现另一个老哥的更完善!大家可以参考他的!


Python爬取C语言中文网教程生成PDF
https://www.52pojie.cn/thread-990598-1-1.html


@null119


发帖不易,有帮助的话,麻烦贵手给个热心,给个赞!
有问题欢迎交流!
有在学django的老哥也可以交流一下!


如果有帮助到你!麻烦给个热心值!感谢!




本帖被以下淘专辑推荐: · python应用|主题: 27, 订阅: 15

版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:https://www.piaodoo.com/7541.html

搜索