首页 编程教程正文

python爬虫练习,一段简单的源码,求指点!

piaodoo 编程教程 2020-02-22 22:09:08 1040 0 python教程

本文来源吾爱破解论坛

本帖最后由 huguo002 于 2019-4-1 22:20 编辑

[Python] 纯文本查看 复制代码

import requests
import re
url="https://www.lingdiankanshu.co/16817/"
muluye=requests.get(url).text
print(muluye)
#ze=r'<dd> <a style="" href="(.+?)">(.+?)</a></dd>'
#nr=re.findall(ze,muluye,re.S)
#在Python的正则表达式中,有一个参数为re.S。它表示“.”(不包含外侧双引号,下同)的作用扩展到整个字符串,包括“\n”
#re.findall(pattern,string,flags = 0 )
#返回的所有非重叠的匹配模式的字符串,如字符串列表。该字符串进行扫描左到右,并匹配以发现的顺序返回。如果模式中存在一个或多个组,则返回组列表; 如果模式有多个组,这将是一个元组列表。结果中包含空匹配。
#print(nr)
#print(type(nr))
#print(nr[0])
ze1=r'<dd> <a style="" href="(.+?)">.+?</a></dd>'
ze2=r'<dd> <a style="" href=".+?">(.+?)</a></dd>'
link=re.findall(ze1,muluye,re.S)
title=re.findall(ze2,muluye,re.S)
print(link)
print(title)


这个详情页(https://www.lingdiankanshu.co/16817/9163759.html) 怎么爬取 好像前端代码限制了!!!
好像这段代码遮住了
<div style="background-color: rgb(255, 255, 255); width: 1423px; height: 398px;"></div>

QQ截图20190401201652.jpg (95.84 KB, 下载次数: 0)

下载附件  保存到相册

2019-4-1 20:16 上传



22点16 更新代码

[Python] 纯文本查看 复制代码
import requests
import re
url="https://www.lingdiankanshu.co/16817/"
ls=requests.get(url).text
ze=r'<dd> <a style="" href="(.+?)">(.+?)</a></dd>'
mul=re.findall(ze,ls,re.S)
#print(type(mul) )
for zj in mul:
     #print(zj[0])
     #print(zj[1])
     title=zj[1]
#print(type(title))
     link=zj[0]
#print(type(link))
#print(link)
     url2="https://www.lingdiankanshu.co/16817/"+link
     nr=requests.get(url2).text
     #print(nr)
     nrze=r'<div id="content">(.+?)Ps:书友们,我是烟雨江南'
     zhengw=re.findall(nrze,nr,re.S)
     print(str(title)+'\n'+str(zhengw)+'\n')





获取小说正文 ,发现还有很多网页html标签 ,这应该怎么去除?

zhegnw.JPG (87.75 KB, 下载次数: 0)

下载附件  保存到相册

2019-4-1 22:20 上传



版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:https://www.piaodoo.com/7705.html

搜索