本文来源吾爱破解论坛
本帖最后由 twostudy 于 2020-2-13 18:48 编辑
1.问题说明
人民教育出版社为落实疫情防控期间中小学校“停课不停教、不停学”要求,在网上公布了下学期的电子版教材。网址(http://bp.pep.com.cn/jc/)
前段时间我也一直在找相关教材的PDF,奈何质量好的比较少。这是权威发布的版本,质量应该是最好的了,而且涵盖范围广,涵盖小学、初中、高中到中职。
下一本当然不过瘾所以当然要多爬几本了,何况还有教师用书。
QQ浏览器截图20200213182415.png (106.6 KB, 下载次数: 0)
下载附件
保存到相册
1.png (57.16 KB, 下载次数: 1)
下载附件
保存到相册
2.png (63.1 KB, 下载次数: 1)
下载附件
保存到相册
3.png (53.25 KB, 下载次数: 1)
下载附件
保存到相册
4.png (56.09 KB, 下载次数: 1)
下载附件
保存到相册
import requests
from tqdm import tqdm
from bs4 import BeautifulSoup
import os
def bookDown(url):
# 获取当前工作目录
saveDirectory = os.getcwd()
# 页面获取与解析
rootURL ='http://bp.pep.com.cn/jc'+url
bookHtml = requests.get(rootURL)
bookHtml.encoding = 'UTF-8'
htmlsoup = BeautifulSoup(bookHtml.text,'lxml')
# 创建存放文件夹
directoryName = htmlsoup.find('h4')
saveDirectory = saveDirectory+'\\'+str(directoryName.string)
if not os.path.exists(saveDirectory):
os.makedirs(saveDirectory)
# PDF的文件名和绝对地址
bookName = htmlsoup.find_all('h6')
bookSubUrl = htmlsoup.find_all('a', attrs={'class':'btn_type_dl'}, href = True)
# 下载页面所有PDF教材
bookNum = len(bookName)
for index in range(bookNum):
pdfName = saveDirectory+'\\'+bookName[index].string+'.pdf'
pdfDownloadUrl = rootURL+bookSubUrl[index]['href'][2:]
getPdf = requests.get(pdfDownloadUrl)
content_size = int(int(getPdf.headers['Content-Length'])/1024)
print(pdfName)
pdfFile = open(pdfName,'wb')
for data in tqdm(iterable=getPdf.iter_content(1024),total=content_size,unit='k',desc=pdfName):
pdfFile.write(data)
pdfFile.close()
3.感谢
1.第一次发帖,请大家多批评
2. 感谢 home.php?mod=space&uid=965057 ai酸的博文 等大佬和同好,从他们的代码学习了很多。
QQ浏览器截图20200213180543.png (433.8 KB, 下载次数: 0)
下载附件 保存到相册
一年级春季
版权声明:
本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。
- 上一篇: Python爬虫练习——文泉书籍信息获取[已更新]
- 下一篇: 新手python