首页 编程教程正文

【原创源码】python 爬取智联招聘

piaodoo 编程教程 2020-02-22 22:09:09 988 0 python教程

本文来源吾爱破解论坛

本帖最后由 lz270978971 于 2019-9-5 10:22 编辑

无聊,写了一个爬取智联的一个小爬虫
python版本:python3.7
依赖模块:selenium、pyquery
废话少说,上代码
[Python] 纯文本查看 复制代码

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.keys import Keys
from pyquery import PyQuery as pq
import time


class ZhiLian:
    def __init__(self):
        # 设置 chrome 无界面化模式
        self.chrome_options = Options()
        self.chrome_options.add_argument('--headless')
        self.chrome_options.add_argument('--disable-gpu')
        self.driver = webdriver.Chrome(chrome_options=self.chrome_options)

    def get_url(self, search='python'):
        """
        获取搜索职位的url, demo里面默认搜索python
        :param search:
        :return:
        """
        self.driver.get("https://www.zhaopin.com/")
        element = self.driver.find_element_by_class_name("zp-search__input")
        element.send_keys(f"{search}")
        element.send_keys(Keys.ENTER)
        # 切换窗口
        self.driver.switch_to.window(self.driver.window_handles[1])
        # 等待js渲染完成后,在获取html
        time.sleep(4)
        html = self.driver.find_element_by_xpath("//*").get_attribute("outerHTML")
        return html

    def data_processing(self):
        """
        处理数据
        :return:
        """
        html = self.get_url()
        doc = pq(html)
        contents = doc(".contentpile__content__wrapper")
        for content in contents.items():
            jobname = content(".contentpile__content__wrapper__item__info__box__jobname__title").text()
            companyname = content(".contentpile__content__wrapper__item__info__box__cname").text()
            saray = content(".contentpile__content__wrapper__item__info__box__job__saray").text()
            demand = content(".contentpile__content__wrapper__item__info__box__job__demand").text()
            yield jobname, companyname, saray, ",".join(demand.split("\n"))


datas = ZhiLian().data_processing()
for data in datas:
    print(data)


这是结果图:

image.png (430.43 KB, 下载次数: 2)

下载附件  保存到相册

爬取结果截图

2019-9-5 10:16 上传



版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:https://www.piaodoo.com/7706.html

搜索