首页 编程教程正文

python控制浏览器爬取百度贴吧回复并写入Excel

piaodoo 编程教程 2020-02-22 22:05:37 987 0 python教程

本文来源吾爱破解论坛

本帖最后由 lemoncute 于 2019-7-19 09:29 编辑
程序说明 用途:贴吧回复自动生成Excel 版本: V1.2 作者: 柠檬不萌 友情链接:lcke.xyz/blog 联系邮箱:typecho@lcke.xyz 使用说明 你必须已经安装 Chorme 浏览器 用到的 Python 库 webdriver BeautifulSoup xlwt time(自带) 需要 chromedriver.exe 并配置环境变量,可能需要对应版本,百度可解决 当前适用于 Chrome版本 74.0.3729.131(正式版本)(32 位) 主函数中配置登录账号(line 91) 在提示“请输入任意内容确认你已经登录:“ 必须是你已经登录账号, 出现验证码请手动处理。(line 92) (ilne 93) 输入你要打开回复的第几页 最后一个数字是页数,不写为第一页 生成的 excel 超链接没有样式 excel样式需要自己添加(后续版本改进)

--- [Python] 纯文本查看 复制代码

# http://tieba.baidu.com/i/i/my_reply
from selenium import webdriver
import time
from bs4 import BeautifulSoup
import xlwt

def login(name, passwd):
    # 1.打开浏览器
    driver = webdriver.Chrome()
    # 2.设置地址
    url = "https://www.baidu.com/"
    # 3.访问网址
    driver.get(url)
    # 4.分析网页,找到登录元素
    # login = driver.find_elements_by_id('u1').find_elements_by_class_name('lb')[0]   #方法一
    login = driver.find_elements_by_css_selector('div[id=u1] a[class=lb]')[0]   #方法二
    #5.点击登录按钮
    login.click()
    time.sleep(2)
    changeusename=driver.find_element_by_id("TANGRAM__PSP_10__footerULoginBtn")
    changeusename.click()
    #点击之后要加等待时间
    time.sleep(2)
    #8.找到 输入 用户名 和密码框,并且设置内容
    #<input id="TANGRAM__PSP_10__userName">
    username = driver.find_element_by_id('TANGRAM__PSP_10__userName')
    #输入账号名
    username.send_keys(name)
    time.sleep(1)
    #<input id="TANGRAM__PSP_10__password">
    password = driver.find_element_by_id('TANGRAM__PSP_10__password')
    #输入密码
    password.send_keys(passwd)
    time.sleep(2)
    #<input id="TANGRAM__PSP_10__submit">
    submit = driver.find_element_by_id('TANGRAM__PSP_10__submit')
    submit.click()
    return driver

def opentieba(browser, url = 'http://tieba.baidu.com/i/i/my_reply?&pn=1'):
    browser.get(url)
    context=browser.page_source
    soup = BeautifulSoup(context, 'html.parser')
    context=browser.find_element_by_css_selector(".simple_block_container")
    print(context.text)
    cont=soup.find_all(class_='b_right_up')
    return  cont

def writeXls(cont):
    i = 0 # 从第几行开始写
    # 1、导入模块      
    # 2、创建workbook(其实就是excel,后来保存一下就行)
   # workbook = xlwt.Workbook(encoding='ascii')
    workbook = xlwt.Workbook(encoding = 'utf-8')
    # 3、创建表
    worksheet = workbook.add_sheet('sheet1')
    for link in cont:
        print(link)
        item = BeautifulSoup(str(link), 'html.parser')
        reply_context=item.find(class_="for_reply_context")
        thread_title=item.find(class_="thread_title")
        href = str(thread_title)[31:54]
        href = 'http://tieba.baidu.com/' + href
        print(reply_context.text)
        worksheet.write(i, 0, label=reply_context.text)
        print(thread_title.text)
        worksheet.write(i, 1,xlwt.Formula('HYPERLINK("'+href+'"," '+thread_title.text+'")'))
        print(href)
        i = i + 1
        time.sleep(1)

    # 5、保存
    date = time.strftime("%Y%m%d%H%M%S", time.localtime())+ '_'
    workbook.save('Excel_'+date+str(i)+'.xls')
    i = 0
    return "successful"

def writedata(data):
    #1、导入模块      
    #2、创建workbook(其实就是excel,后来保存一下就行)
    workbook = xlwt.Workbook(encoding='ascii')
   # 3、创建表
    worksheet = workbook.add_sheet('sheet1')
    #4、往单元格内写入内容
    worksheet.write(0, 0, label=data)
   # 5、保存
    workbook.save('Excel_Workbook.xls')

def main():
    driver = login("美食拍客136822", "*****")
    str = input("请输入任意内容确认你已经登录:")
    xlscontext = opentieba(driver, url = 'http://tieba.baidu.com/i/i/my_reply?&pn=1')
    res = writeXls(xlscontext)
    print(res)



if __name__ == '__main__':
    main()


webdriver :lanzouyun  https://www.lanzous.com/i51yjkj蓝奏云 webdriver,一定要下载chrome对应版本



嗨学网 getTieba.rar (71.37 KB, 下载次数: 20) 2019-7-19 09:28 上传 点击文件名下载附件
源代码和实例
下载积分: 吾爱币 -1 CB


webdriver位置.png (79.12 KB, 下载次数: 0)

下载附件  保存到相册

2019-7-19 09:27 上传

webdriver放在chrome文件夹中

webdriver放在chrome文件夹中

版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:https://www.piaodoo.com/7511.html

搜索