python爬虫练习，一段简单的源码，求指点！

piaodoo 编程教程 2020-02-22 22:09:08 1129 0 python教程

本文来源吾爱破解论坛

本帖最后由 huguo002 于 2019-4-1 22:20 编辑

[Python] 纯文本查看 复制代码

import requests
import re
url="https://www.lingdiankanshu.co/16817/"
muluye=requests.get(url).text
print(muluye)
#ze=r'<dd> <a style="" href="(.+?)">(.+?)</a></dd>'
#nr=re.findall(ze,muluye,re.S)
#在Python的正则表达式中，有一个参数为re.S。它表示“.”（不包含外侧双引号，下同）的作用扩展到整个字符串，包括“\n”
#re.findall（pattern，string，flags = 0 ）
#返回的所有非重叠的匹配模式的字符串，如字符串列表。该字符串进行扫描左到右，并匹配以发现的顺序返回。如果模式中存在一个或多个组，则返回组列表; 如果模式有多个组，这将是一个元组列表。结果中包含空匹配。
#print(nr)
#print(type(nr))
#print(nr[0])
ze1=r'<dd> <a style="" href="(.+?)">.+?</a></dd>'
ze2=r'<dd> <a style="" href=".+?">(.+?)</a></dd>'
link=re.findall(ze1,muluye,re.S)
title=re.findall(ze2,muluye,re.S)
print(link)
print(title)

这个详情页（https://www.lingdiankanshu.co/16817/9163759.html）怎么爬取好像前端代码限制了！！！
好像这段代码遮住了
<div style="background-color: rgb(255, 255, 255); width: 1423px; height: 398px;"></div>

QQ截图20190401201652.jpg (95.84 KB, 下载次数: 0)

下载附件保存到相册

2019-4-1 20:16 上传

22点16 更新代码

[Python] 纯文本查看 复制代码

import requests
import re
url="https://www.lingdiankanshu.co/16817/"
ls=requests.get(url).text
ze=r'<dd> <a style="" href="(.+?)">(.+?)</a></dd>'
mul=re.findall(ze,ls,re.S)
#print(type(mul) )
for zj in mul:
     #print(zj[0])
     #print(zj[1])
     title=zj[1]
#print(type(title))
     link=zj[0]
#print(type(link))
#print(link)
     url2="https://www.lingdiankanshu.co/16817/"+link
     nr=requests.get(url2).text
     #print(nr)
     nrze=r'<div id="content">(.+?)Ps:书友们，我是烟雨江南'
     zhengw=re.findall(nrze,nr,re.S)
     print(str(title)+'\n'+str(zhengw)+'\n')

获取小说正文，发现还有很多网页html标签，这应该怎么去除？

zhegnw.JPG (87.75 KB, 下载次数: 0)

下载附件保存到相册

2019-4-1 22:20 上传

版权声明：

本站所有资源均为站长或网友整理自互联网或站长购买自互联网，站长无法分辨资源版权出自何处，所以不承担任何版权以及其他问题带来的法律责任，如有侵权或者其他问题请联系站长删除！站长QQ754403226 谢谢。

有关影视版权：本站只供百度云网盘资源，版权均属于影片公司所有，请在下载后24小时删除，切勿用于商业用途。本站所有资源信息均从互联网搜索而来，本站不对显示的内容承担责任，如您认为本站页面信息侵犯了您的权益，请附上版权证明邮件告知【754403226@qq.com】，在收到邮件后72小时内删除。本文链接：https://www.piaodoo.com/7705.html