分析某网站，并利用python自动登陆该网站，下载网站内容

piaodoo 编程教程 2020-02-22 22:07:34 1015 0 python教程

本文来源吾爱破解论坛

本帖最后由愤怒的小车于 2019-5-8 09:41 编辑

一：本代码是我研究了好久才写出来，七功能主要有自动登陆、自动识别验证码、以及自动识别下载格式进行判断下载！
首先，搬上我们的主角网址，http://lavteam.org/，进去一看，是一个俄罗斯人创建的网站，七内容让我们不亦乐乎。
二：登陆
要进行分析，首先要注册一个账号，账号各位自己注册。
抓包发现，他的登陆请求地址为http://www.lavteam.org/，其中表单：

QQ图片20190508090034.png (14.08 KB, 下载次数: 0)

下载附件保存到相册

2019-5-8 09:01 上传

我们构造表单，进行请求，其函数为：
def login():
print('正在登陆......')
req = session.get(first_url)
data = {
         'login_name': '账号',
         'login_password': '密码',
         'login': 'submit',
         'image.x': '43',
         'image.y': '11',
}
req = session.post(first_url,data = data)
三：查询
登陆进去就需要查找自己想要的内容，比如我们输入ventsim，然后进行抓包，抓包得到：

Request URL:
http://lavteam.org/
Request Method:
POST

其表单为：

QQ图片20190508090733.png (11.58 KB, 下载次数: 0)

下载附件保存到相册

2019-5-8 09:08 上传

接着我们再构造其请求，请求返回的内容列表我把他整理成字典的格式，方便在于我只要输入软件编号，就可以对该内容进行深入操作，我对多页内容都进行了遍历，所有的内容链接都整理了出来，代码如下：
def reach(ventsim):
data = {
         'do': 'search',
         'subaction': 'search',
         'story': ventsim,
         'x': '42',
         'y':'9' ,
}
req = session.post(first_url,data = data).text
html = etree.HTML(req)
url = html.xpath('//div[@class="text-left"]/a/@href')
name = html.xpath('//div[@class="text-left"]/a/text()')
num = html.xpath('//div[@class="navigation ignore-select"]/a/text()')[-2]
f = {}
for i in range(len(name)):
      f = url
      print(i,name)
for k in range(int(num)-1):
      search_start = 2 + k
      result_from = 11 + 10*k
      data = {
         'do': 'search',
         'subaction': 'search',
         'search_start': str(search_start),
         'full_search':'0' ,
         'result_from': str(result_from),
         'story': ventsim
      }
      req = session.post('http://www.lavteam.org/index.php?do=search', data=data).text
      html = etree.HTML(req)
      url = html.xpath('//div[@class="text-left"]/a/@href')
      name = html.xpath('//div[@class="text-left"]/a/text()')
      for j in range(len(name)):
         f[(k+1)*10+j] = url[j]
         print((k+1)*10+j,name[j])
return f
四：进入详情界面
我们从上一步查询的返回值中，找到软件详情页面的链接，然后进行请求，抓包得到的结果：

Request URL:
http://lavteam.org/2018/04/02/howden-group-ventsim-visual-premium-v4869.html
Request Method:
GET
然后再用python进行构造这个请求，代码如下：

def intopage(url):
page = session.get(url).text
html = etree.HTML(page)
url = html.xpath('//a[@target="_blank" and @Class = "medium blue awesome"or @class = "medium red awesome" or @class = "small blue awesome" or @class = "small red awesome" or @class = "large blue awesome" or @class = "large red awesome"]/@href')
return url

五、下载页面
分析可知，其点击进入下载页面的链接在下载页面可以抓包抓到，他是一个get请求，其抓包得到的headers如下：

Request URL:
http://files.lavteam.org/leech?cat=warez%2FPrograms%2FVentSim&file=Howden.Ventsim.Visual.Premium.v4.8.6.9.rar
Request Method:
GET
其构造的代码如下：

def dawnload(url,path,Referer):
headers = {
      'Host': 'files.lavteam.org',
      'Referer': Referer,
      'Upgrade-Insecure-Requests': '1',
      'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
rep = session.get(url,headers = headers).text
pat = 'accesskey="p">'
session_html = re.compile(pat).findall(rep)[0][2:-2].split('=')
session_url = 'http://files.lavteam.org/download/'+session_html[1][:-4]+'/'+session_html[3]
name = session_html[3]
# print(session_url)
yanzheng(url,path,session_url,name)
六、验证
验证码的验证，我们需要请求获取验证码图片，然后我是介入百度的文字识别接口，自动识别验证码内容，然后作为请求验证的表单进行求求验证，如果验证码不正确，则再次进行验证，如果验证码正确，则等待5s，进行下载，代码如下：

def yanzheng(url,path,session_url,name):
img_url = 'http://files.lavteam.org/img.php?size=3'
res = session.get(img_url)
with open('img.jpg', 'wb') as f:
      f.write(res.content)
img = shibie('img.jpg')
data = {
      'vImageCodP': img,
      'checkimagecode': '(unable to decode value)',
}
header = {
      'Host': 'files.lavteam.org',
      'Origin': 'http://files.lavteam.org',
      'Referer': url,
      'Upgrade-Insecure-Requests': '1',
      'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36',
}
res = session.post(url, data=data, headers=header).text
html = etree.HTML(res)
l = html.xpath('//div/@id')
if "downloadhtml" in l:
      print('验证码正确！')
      print('请等待10s！')
      time.sleep(10)
      if not os.path.exists(path):
         os.makedirs(path)
      data = {
         'download': '(unable to decode value)',
      }
      heade = {
         'Connection': 'keep-alive',
         'Host': 'files.lavteam.org',
         'Origin': 'http://files.lavteam.org',
         'Referer': url,
         'Upgrade-Insecure-Requests': '1',
         'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3497.92 Safari/537.36',
      }
      print('开始下载'+ name +'，可能需要很长时间，请耐心等待...')
      res = session.post(session_url, data=data, headers=heade)
      with open(path + name, 'wb') as f:
         f.write(res.content)
      print('下载完成！')
else:
      print('验证码错误，请重新输入验证码！！！')
      yanzheng(url,path,session_url,name)
七、百度识别接口
在用百度文字是别的时候，我还对图片当中的早点进行了去燥，位的是识别率更高，其整体代码如下：

def shibie(img):
# 下面3个变量请自行更改
APP_ID = '11620307'
API_KEY = 'Nl2oc5uuoPPkGMtoLGCUGgVj'
SECRET_KEY = 'bF48ggt4d891NFhDHPmfjzGR3DvY4XLO'

aipOcr = AipOcr(APP_ID, API_KEY, SECRET_KEY)

filePaths = img
filePath = Image.open(filePaths)
filePath = filePath.convert('L')
threshold = 127
table = []
for i in range(256):
      if i < threshold:
         table.append(0)
      else:
         table.append(2)

filePath = filePath.point(table, '1')
filePath.save("imgage.png")

def get_file_content(filePath):
      with open(filePath, 'rb') as fp:
         return fp.read()

# 定义参数变量
options = {
      'detect_direction': 'true',
      'language_type': 'CHN_ENG',
}

# 调用通用文字识别接口
filePathss = "imgage.png"
result = aipOcr.basicAccurate(get_file_content(filePathss), options)
img = result['words_result'][0]['words']
imgs = img.replace(' ','')
print(imgs)
return imgs
lavteamshibie.rar (2.26 KB, 下载次数: 70) 2019-5-8 09:33 上传点击文件名下载附件
详细代码
下载积分: 吾爱币 -1 CB

希望得到大家的热心于评分。

版权声明：

本站所有资源均为站长或网友整理自互联网或站长购买自互联网，站长无法分辨资源版权出自何处，所以不承担任何版权以及其他问题带来的法律责任，如有侵权或者其他问题请联系站长删除！站长QQ754403226 谢谢。
有关影视版权：本站只供百度云网盘资源，版权均属于影片公司所有，请在下载后24小时删除，切勿用于商业用途。本站所有资源信息均从互联网搜索而来，本站不对显示的内容承担责任，如您认为本站页面信息侵犯了您的权益，请附上版权证明邮件告知【754403226@qq.com】，在收到邮件后72小时内删除。本文链接：https://www.piaodoo.com/7615.html

上一篇： bilibili批量获取视频下载链接脚本，请大家指教

下一篇： 4行代码实现魔兽怀旧服不掉线

相关文章

雅思班学费|live的现在分词

幽默的英文形容词|英语四级证书什么样子

大树的英语|英语24个字母表

is的将来时|stop的ing形式

像计算机科学家那样思考 Python中文版第二版

Python精要参考(第二版)_翻译.pdf

《Python标准库》中文版.pdf

Python PEP8 编码规范中文版.pdf

搜索

文章专栏

Python 旋转打印各种矩形的方法

对Python中小整数对象池和大整数对象池的使用详解

python 梯度法求解函数极值的实例

通过PHP与Python代码对比的语法差异详解

python实现函数极小值

Python中面向对象你应该知道的一下知识

python 寻找离散序列极值点的方法

python 绘制拟合曲线并加指定点标识的实现

使用python画社交网络图实例代码

详解Python中的各种转义符\n\r\t

我们为什么要减少Python中循环的使用

Python Matplotlib 基于networkx画关系网络图

Python求离散序列导数的示例

python卸载后再次安装遇到的问题解决

python networkx 包绘制复杂网络关系图的实现

最近发表

孩子喜欢看的奥秘世界百科全书 pdf 阿里有违规联系删除

【鬼吹灯】【盗墓笔记】有声书分享

【网红教辅书】作文金句800例

极客时间-视频课-沈欣-互联网人的数字化企业生存指南（完结）

尚硅谷 MQTT 物联网技术实战

极客时间-专栏课-秦晓辉-运维监控系统实战笔记（完结）

Wireshark网络分析的艺术（林沛满著）

每个家庭都需要的体育教育

轮滑基础教学

GPT图解：大模型是怎样构建的 (黄佳)

标签列表

百度云资源
建筑设计
数控模具
机械工程
菜鸟知道
石油化工
python教程
手游排行
射击游戏
php教程
discuz插件
茂名市高级技工学校
PC game
福利教程
自媒体运营
无毒软件网
高三数学
心得体会
高一语文
Windows软件
织梦教程
工作计划
php源码
织梦模板
discuz模板
java编程
wordpress
android软件
管理
c++教程