首页 编程教程正文

【原创源码】【python】+ 爬取糗事百科

piaodoo 编程教程 2020-02-22 22:15:09 1303 0 python教程

本文来源吾爱破解论坛

本帖最后由 poji123 于 2020-2-8 09:41 编辑

刚学到正则表达式就写了一个爬取糗事百科{:1_927:},大神勿喷。 适合新手学习:lol
效果图:

爬取糗事百科效果图.PNG (95.04 KB, 下载次数: 1)

下载附件  保存到相册

2020-2-8 09:40 上传





源代码:
"""
程序默认爬取1-10页的内容,如想爬取多页请在主函数里的for循环序列range(1,x)x代表想爬取的页数如10页那么就填入11,因为range()函数计数到参数end但不包含end即这里的11.
"""

def pear_tree_page(url):
    headers = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.85 Safari/537.36 Edg/80.0.361.47"
    }
    response = requests.get(url,headers=headers)
    text = response.text
    contents= re.findall(r'<div class="content">.*?<span>(.*?)</span>',text,re.S)
    contents_list = []
    for i in contents:
        r = re.sub(r'<.*?>','',i)
        contents_list.append(r.strip())
    for j in contents_list:
        print(j)
        print('*' * 50)
def main():
    for i in range(3, 11):
        url = 'https://www.qiushibaike.com/text/page/{}/'.format(i)
        pear_tree_page(url)
if __name__ == '__main__':
    main()

版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:https://www.piaodoo.com/7969.html

搜索