本文来源吾爱破解论坛
今天可真的说是不知道一波几折了,我上午看教程看到10点多,然后自己动手,一共三个实战,一个是微信爬虫一个是抓包爬,还有一个是多线程爬虫,我 看了一下,微信爬虫就是加报头和代{过}{滤}理,然后出现问题再让它睡几秒,没啥意思,前几天连了很多了,然后就是多线程了,其实也很简单,就是定义几个class,然后设置条件,并发爬取,只要把代码放进class里面就ok了,也没啥意思,不过这个抓包爬取就很有意思了,着重练了抓包,又因为教程里面的是先分析第一个评论,然后原模原样的放上去,程序是很死的,而且第一页还爬不到,我怎么可能写死程序,当时让原模原样的网站,放上去就可以直接用的啦!!于是我写了一个比较活的脚本,思路就简单捋一捋吧
先打开要抓的那一页,fd清空里面抓的数据,接下来点击更多评论。看fd抓的那个js,分析里面的js内容,可以得出,里面的一个内容是下一页评论的地址,然后只要写表达式就可以轻松获取了,但是我可是要爬第一页的男孩纸,于是我从首页找信息,分析源码,终于找到了指向js评论的东西,然后脑袋里思路很多很多,因为是打开一个网站,搜索关键字,然后拼接网址,爬取评论,然后还要搜索关键字爬取第二个网站,依次循环,我就跪在这,试了很多方法都不行,输出的就两页,然后就是一直循环这两页下去,就这一点我从十点多做到了5点多,中途重新来换大思路换了3.4次,本来我想想算了吧,但是探索的路上就是这么艰辛,于是晚饭之际我一边吃一遍想,然后又出去走了走,终于找到了最终思路,花了一个小时写完了,现在回头想想,是多么的简单,虽然我比较慢,但我在前进。所以我希望看到这篇帖子的人,不要轻易放弃,或许你就离成功一点点了,曾经我也觉得,爬虫高大尚,肯定难,编程难,就这样我学都没写直接放弃了,沉迷游戏去了,但是现在我慢慢学,发现,真的很简单的
下载积分: 吾爱币 -1 CB
版权声明:
本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。