首页 编程教程正文

小说爬虫

piaodoo 编程教程 2020-02-22 22:14:45 1158 0 python教程

本文来源吾爱破解论坛

本帖最后由 _ㄨ丶呆呆 于 2020-1-22 03:48 编辑

首次接触python,一点不会,只是有一点别的语言的基础,尝试一下python所以试了一下,运行后会在当前目录下的txt文件夹里面存放小说,记录学python的第一天!
[Python] 纯文本查看 复制代码

import os
from pyquery import PyQuery as pq
import time as t
if os.path.exists(os.getcwd() + '\\txt'):
    print("目录存在")
else:
    os.mkdir("txt")

def getList(page):
    # print(page)

    doc = pq('https://qxs.la/new/' + str(page))
    if doc(".list_content").length < 0:
        print("采集完成")
        return;
    print("正在采集第"+str(page)+"页")
    for obj in doc(".list_content"):
        name = pq(obj).children(".cc2 a").text()
        file = open(os.getcwd() + '\\txt\\'+name+'.txt', 'w')
        zxzj = pq(obj).children(".cc3 a").text()
        zzName = pq(obj).children(".cc4 a").text()
        time = pq(obj).children(".cc5 a").text()
        url = 'https://qxs.la' + pq(obj).children(".cc2 a").attr("href") #章节列表的URL
        doc1 = pq(url);#章节列表
        for obj1 in doc1(".chapter") :
            zjm = pq(obj1).text()
            print(zjm)
            file.write(zjm+'\n')
            zjUrl = 'https://qxs.la'+pq(obj1).children("a").attr("href")
            doc2 = pq(zjUrl)
            text = doc2("#content").clone().children().remove().end().html();
            file.write(text)
            t.sleep(0.5)
            print(text)
    getList(page+1)
getList(1)

版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:https://www.piaodoo.com/7920.html

搜索