python教程 第30页
-
通过Python爬取链家所有房源和小区信息
本文来源吾爱破解论坛 本帖最后由 zhukeming123 于 2019-11-17 01:13 编辑 链家房源爬虫,基于scrapy框架,数据存储在MongoDB 由于链家的限制房源列表最多显示1000页,3000条数据,所以这里通过小区信息爬取所有房源。 # -*- coding: utf-8 -*- import scrapy from scrapy import Selector import json import re from house_spider.items import Li...
-
自己写的丨爬取某网站品牌保存到本地为sql文件的爬虫,可导入destoon7数据库中
本文来源吾爱破解论坛 有图有真像 2019-09-11_092722.png (53.01 KB, 下载次数: 0) 下载附件 保存到相册 2019-9-11 09:27 上传 自己写的,爬取某网站品牌保存到本地为sql文件的爬虫 0、有防爬虫机制,保证爬取顺利 1、可以爬取多个分页,页数可以自己改 2、自动将对方网站上的分类改成自己的分类 3、自动下载品牌图片,并保存到指定的目录 4、自动保存的sql文件可以直接导入到destoon 7程序中...
-
python豆瓣电影爬虫
本文来源吾爱破解论坛 本帖最后由 YFAN 于 2019-6-28 23:18 编辑 可以爬取豆瓣电影信息, 能够将电影信息存进mysql数据库, 还能够下载电影预告片 2 3 4功能使用到selenium库 因为我写的爬虫例程太多了这里展示一个就好 其中一个例程运行截图 QQ截图20190628225232.png (407.46 KB, 下载次数: 10) 下载附件 保存到相册 2019-6-28 22:52 上传 这是下载好的电影预告片...
-
爬取携程北京热评酒店排行并简单的做词云
本文来源吾爱破解论坛 本帖最后由 牵手丶若相惜 于 2020-1-7 14:28 编辑 仅限学习!仅限学习!!仅限学习!!! ———————————————————— 爬取的地址:https://hotels.ctrip.com/top/beijing1/zuijinreping-p1 翻两页看看 发现只是最后一个数字在变 不是异步加载 一般都写着代码里 找到代码里的数据 用正则匹配 匹配出来后 写入文件 可视化只做了一个柱状图 和 词云 可能没什么卵用 只是练手 柱状图 只做了前十个 因...
-
python获取论坛版块/作者数据生成词云
本文来源吾爱破解论坛 本帖最后由 null119 于 2019-7-10 23:25 编辑 先看结果,看看各位在各个版块的作者词云图中有没有自己的名字 原创区: 帖子标题词云图 原创发布区.png (286.07 KB, 下载次数: 0) 下载附件 保存到相册 原创区 2019-7-10 23:09 上传 作者词云图 原创发布区作者.png (287.17 KB, 下载次数: 0) 下载附件 保存到相册 2019-7...
-
词云生成器【python】
本文来源吾爱破解论坛 本帖最后由 封刀 于 2019-11-27 16:38 编辑 词云是什么? 词云是对某一文本中出现频率较高的关键词给予视觉的呈现 词云可以过滤掉低频的文本信息,词云容易让读者轻而易举的知道文本的主旨或者明白文章主要讲些什么 话不多说,先放图↓↓↓↓↓ &nb...
-
Python爬取52论坛指定帖子回复数据生成词云图
本文来源吾爱破解论坛 图片镇楼 QQ截图20190710200429.png (135.89 KB, 下载次数: 0) 下载附件 保存到相册 2019-7-10 20:06 上传 代码中是以获取https://www.52pojie.cn/thread-924213-1-1.html为例,370页回复数据 [Python] 纯文本查看 复制代码import requests from lxml import etree import jieba impo...
-
喜马拉雅FM专辑下载器3.0 beta
本文来源吾爱破解论坛 本帖最后由 hksnow 于 2019-11-6 23:08 编辑 测试目前可用(deepin linux): 深度截图_选择区域_20191106230754.png (431.01 KB, 下载次数: 14) 下载附件 保存到相册 2019-11-6 23:08 上传 前言: https://www.52pojie.cn/thread-999374-1-1.html QQ截图20191007210133.pn...
-
自己编写的爬取时事一点通每日时政的考点、练习题和答案
本文来源吾爱破解论坛 考试需要用到时政知识,发现时事一点通的时政内容比较好,还有练习题和答案。就打算爬取它的每日时政的内容、练习题和答案。 开始打算直接用requests解析,发现练习题需要登录账号才能获取,还有数据响应超时,加上headers也不起作用。 然后用谷歌的无头浏览器,无法定位答案页的提交答案按钮。 研究了好几天,最后决定用360浏览器进行自动操作。终于成功了。 安装好必要的包,代码里面带星号的网址改成网站的网址,就可以成功执行的。 大家可以实际操作一下,可以看到效果。 [Python] 纯文...
-
python爬虫,爬取58同城数据
本文来源吾爱破解论坛 本帖最后由 牵手丶若相惜 于 2019-11-27 19:32 编辑 仅限学习!仅限学习!!仅限学习!!! 为了爬虫不影响别人的服务器 我每爬取一页等待了3秒 这是必要的 评分!!!评分!!!评分!!!谢谢 —————————————————————— 有个帖子 被人说发现了错误 才发现【i】会被转义 发帖有的地方被转义成了字体 divs1【i】 现在我把divs1【i】改成了divs1[x] (只能用中文的中括号 来告诉你们那里...