本文来源吾爱破解论坛
本帖最后由 huguo002 于 2019-4-1 22:20 编辑
[Python] 纯文本查看 复制代码
import requests import re url="https://www.lingdiankanshu.co/16817/" muluye=requests.get(url).text print(muluye) #ze=r'<dd> <a style="" href="(.+?)">(.+?)</a></dd>' #nr=re.findall(ze,muluye,re.S) #在Python的正则表达式中,有一个参数为re.S。它表示“.”(不包含外侧双引号,下同)的作用扩展到整个字符串,包括“\n” #re.findall(pattern,string,flags = 0 ) #返回的所有非重叠的匹配模式的字符串,如字符串列表。该字符串进行扫描左到右,并匹配以发现的顺序返回。如果模式中存在一个或多个组,则返回组列表; 如果模式有多个组,这将是一个元组列表。结果中包含空匹配。 #print(nr) #print(type(nr)) #print(nr[0]) ze1=r'<dd> <a style="" href="(.+?)">.+?</a></dd>' ze2=r'<dd> <a style="" href=".+?">(.+?)</a></dd>' link=re.findall(ze1,muluye,re.S) title=re.findall(ze2,muluye,re.S) print(link) print(title)
这个详情页(https://www.lingdiankanshu.co/16817/9163759.html) 怎么爬取 好像前端代码限制了!!!
好像这段代码遮住了
<div style="background-color: rgb(255, 255, 255); width: 1423px; height: 398px;"></div>
QQ截图20190401201652.jpg (95.84 KB, 下载次数: 0)
下载附件 保存到相册
22点16 更新代码
[Python] 纯文本查看 复制代码
import requests import re url="https://www.lingdiankanshu.co/16817/" ls=requests.get(url).text ze=r'<dd> <a style="" href="(.+?)">(.+?)</a></dd>' mul=re.findall(ze,ls,re.S) #print(type(mul) ) for zj in mul: #print(zj[0]) #print(zj[1]) title=zj[1] #print(type(title)) link=zj[0] #print(type(link)) #print(link) url2="https://www.lingdiankanshu.co/16817/"+link nr=requests.get(url2).text #print(nr) nrze=r'<div id="content">(.+?)Ps:书友们,我是烟雨江南' zhengw=re.findall(nrze,nr,re.S) print(str(title)+'\n'+str(zhengw)+'\n')
获取小说正文 ,发现还有很多网页html标签 ,这应该怎么去除?
zhegnw.JPG (87.75 KB, 下载次数: 0)
下载附件 保存到相册
版权声明:
本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。