python获取论坛版块/作者数据生成词云

piaodoo 编程教程 2020-02-22 22:15:04 1417 0 python教程

本文来源吾爱破解论坛

本帖最后由 null119 于 2019-7-10 23:25 编辑

先看结果，看看各位在各个版块的作者词云图中有没有自己的名字
原创区：
帖子标题词云图

原创发布区.png (286.07 KB, 下载次数: 0)

下载附件保存到相册

原创区

2019-7-10 23:09 上传

作者词云图

原创发布区作者.png (287.17 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

脱壳破解区：
帖子标题词云图

脱壳破解区.png (303.57 KB, 下载次数: 0)

下载附件保存到相册

脱壳破解区

2019-7-10 23:09 上传

作者词云图

脱壳破解区作者.png (237.72 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

移动安全区：
帖子标题词云图

移动安全区.png (355.57 KB, 下载次数: 0)

下载附件保存到相册

移动安全区

2019-7-10 23:09 上传

作者词云图

移动安全区作者.png (286.76 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

软件调试区：
帖子标题词云图

软件调试区.png (328.04 KB, 下载次数: 0)

下载附件保存到相册

软件调试区

2019-7-10 23:09 上传

作者词云图

软件调试区作者.png (293.43 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

编程区：
帖子标题词云图

编程语言区.png (262.35 KB, 下载次数: 0)

下载附件保存到相册

编程区

2019-7-10 23:09 上传

作者词云图

编程语言区作者.png (266.56 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

动画区：
帖子标题词云图

动画发布区.png (269.73 KB, 下载次数: 0)

下载附件保存到相册

动画区

2019-7-10 23:10 上传

作者词云图

动画发布区作者.png (303.88 KB, 下载次数: 1)

下载附件保存到相册

2019-7-10 23:13 上传

逆向资源区：
帖子标题词云图

逆向资源区.png (257.81 KB, 下载次数: 0)

下载附件保存到相册

逆向资源区

2019-7-10 23:10 上传

作者词云图

逆向资源区作者.png (268.65 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

精品软件区：
帖子标题词云图

精品软件区.png (278.24 KB, 下载次数: 0)

下载附件保存到相册

精品软件区

2019-7-10 23:10 上传

作者词云图

精品软件区作者.png (324.22 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

悬赏区：
帖子标题词云图

悬赏问答区.png (291.76 KB, 下载次数: 0)

下载附件保存到相册

悬赏区

2019-7-10 23:10 上传

作者词云图

悬赏问答区作者.png (311.75 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

病毒分析区:
帖子标题词云图

病毒分析区.png (381.69 KB, 下载次数: 0)

下载附件保存到相册

病毒分析区

2019-7-10 23:10 上传

作者词云图

病毒分析区作者.png (281.87 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

病毒救援区:
帖子标题词云图

病毒救援区.png (340.59 KB, 下载次数: 0)

下载附件保存到相册

病毒救援区

2019-7-10 23:10 上传

作者词云图

病毒救援区作者.png (291.88 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

安全工具区:
帖子标题词云图

安全工具区.png (283.39 KB, 下载次数: 0)

下载附件保存到相册

安全工具区

2019-7-10 23:10 上传

作者词云图

安全工具区作者.png (304.1 KB, 下载次数: 0)

下载附件保存到相册

2019-7-10 23:13 上传

代码：
[Python] 纯文本查看 复制代码

import requests
from lxml import etree
import  jieba
import numpy as np
import matplotlib.pyplot as plt
import time
from PIL import Image
from wordcloud import WordCloud

def GetData(forumdata):
    for j in forumdata:
        url = 'https://www.52pojie.cn/forum-x-1'
        url = url.split('-')
        nurl = url[0] + '-' + j + '-' + url[2]+'.html'
        html = requests.get(nurl)
        ehtml = etree.HTML(html.text)
        forumname=''.join(ehtml.xpath('//*[@id="ct"]/div/div[1]/div[1]/h1/a/text()')).replace('『','').replace('』','')
        print(forumname)
        pagenum = ehtml.xpath('//*[@id="fd_page_top"]/div/label/span/text()')
        pagenum = pagenum[0].replace(' / ', '').replace(' 页','')
        txt=''
        for i in range(1,int(pagenum)+1):
            nurl = url[0] + '-' + j + '-' + str(i) + '.html'
            html = requests.get(nurl)
            ehtml = etree.HTML(html.text)
            #pltxt = ' '.join(ehtml.xpath('//*[@id="threadlisttableid"]/tbody/tr/td[2]/cite/a/text()'))#获取帖子作者
            pltxt = ' '.join(ehtml.xpath('//*[@class="s xst"]/text()')) #帖子标题
            txt = txt + pltxt
            time.sleep(1) # 给服务器留些喘气的时间
        cut_text =txt
        wordcloud = WordCloud(
            font_path='simhei.ttf',
            background_color='white',
            width=800,
            height=500
        ).generate(cut_text)
        wordcloud.to_file('c:\\'+forumname+'.png')
        plt.imshow(wordcloud, interpolation="bilinear")
        plt.axis("off")
        plt.show()

if __name__ == '__main__':
    forumdata=[
        "2",  # 原创发布区 0
        "5",  # 脱壳破解区 1
        "65",  # 移动安全区 2
        "59",  # 软件调试区 3
        "24",  # 编程语言区 4
        "6",  # 动画发布区 5
        "4",  # 逆向资源区 6
        "16",  # 精品软件区 7
        "8",  # 悬赏问答区 8
        "32",  # 病毒分析区 9
        "50",  # 病毒救援区 10
        "41"#安全工具区 11
    ]
    print('开始获取,请稍候...')
    GetData(forumdata)

注：代码没有加容错，有需要就请自行添加修改

版权声明：

本站所有资源均为站长或网友整理自互联网或站长购买自互联网，站长无法分辨资源版权出自何处，所以不承担任何版权以及其他问题带来的法律责任，如有侵权或者其他问题请联系站长删除！站长QQ754403226 谢谢。

有关影视版权：本站只供百度云网盘资源，版权均属于影片公司所有，请在下载后24小时删除，切勿用于商业用途。本站所有资源信息均从互联网搜索而来，本站不对显示的内容承担责任，如您认为本站页面信息侵犯了您的权益，请附上版权证明邮件告知【754403226@qq.com】，在收到邮件后72小时内删除。本文链接：https://www.piaodoo.com/7960.html