本文来源吾爱破解论坛
本帖最后由 null119 于 2019-7-10 23:25 编辑 原创发布区.png (286.07 KB, 下载次数: 0)
下载附件
保存到相册
原创区 原创发布区作者.png (287.17 KB, 下载次数: 0)
下载附件
保存到相册
脱壳破解区.png (303.57 KB, 下载次数: 0)
下载附件
保存到相册
脱壳破解区 脱壳破解区作者.png (237.72 KB, 下载次数: 0)
下载附件
保存到相册
移动安全区.png (355.57 KB, 下载次数: 0)
下载附件
保存到相册
移动安全区 移动安全区作者.png (286.76 KB, 下载次数: 0)
下载附件
保存到相册
软件调试区.png (328.04 KB, 下载次数: 0)
下载附件
保存到相册
软件调试区 软件调试区作者.png (293.43 KB, 下载次数: 0)
下载附件
保存到相册
编程语言区.png (262.35 KB, 下载次数: 0)
下载附件
保存到相册
编程区 编程语言区作者.png (266.56 KB, 下载次数: 0)
下载附件
保存到相册
动画发布区.png (269.73 KB, 下载次数: 0)
下载附件
保存到相册
动画区 动画发布区作者.png (303.88 KB, 下载次数: 1)
下载附件
保存到相册
逆向资源区.png (257.81 KB, 下载次数: 0)
下载附件
保存到相册
逆向资源区 逆向资源区作者.png (268.65 KB, 下载次数: 0)
下载附件
保存到相册
精品软件区.png (278.24 KB, 下载次数: 0)
下载附件
保存到相册
精品软件区 精品软件区作者.png (324.22 KB, 下载次数: 0)
下载附件
保存到相册
悬赏问答区.png (291.76 KB, 下载次数: 0)
下载附件
保存到相册
悬赏区 悬赏问答区作者.png (311.75 KB, 下载次数: 0)
下载附件
保存到相册
病毒分析区.png (381.69 KB, 下载次数: 0)
下载附件
保存到相册
病毒分析区 病毒分析区作者.png (281.87 KB, 下载次数: 0)
下载附件
保存到相册
病毒救援区.png (340.59 KB, 下载次数: 0)
下载附件
保存到相册
病毒救援区 病毒救援区作者.png (291.88 KB, 下载次数: 0)
下载附件
保存到相册
安全工具区.png (283.39 KB, 下载次数: 0)
下载附件
保存到相册
安全工具区 安全工具区作者.png (304.1 KB, 下载次数: 0)
下载附件
保存到相册
先看结果,看看各位在各个版块的作者词云图中有没有自己的名字
原创区:
帖子标题词云图
作者词云图
脱壳破解区:
帖子标题词云图
作者词云图
移动安全区:
帖子标题词云图
作者词云图
软件调试区:
帖子标题词云图
作者词云图
编程区:
帖子标题词云图
作者词云图
动画区:
帖子标题词云图
作者词云图
逆向资源区:
帖子标题词云图
作者词云图
精品软件区:
帖子标题词云图
作者词云图
悬赏区:
帖子标题词云图
作者词云图
病毒分析区:
帖子标题词云图
作者词云图
病毒救援区:
帖子标题词云图
作者词云图
安全工具区:
帖子标题词云图
作者词云图
代码:
[Python] 纯文本查看 复制代码
import requests from lxml import etree import jieba import numpy as np import matplotlib.pyplot as plt import time from PIL import Image from wordcloud import WordCloud def GetData(forumdata): for j in forumdata: url = 'https://www.52pojie.cn/forum-x-1' url = url.split('-') nurl = url[0] + '-' + j + '-' + url[2]+'.html' html = requests.get(nurl) ehtml = etree.HTML(html.text) forumname=''.join(ehtml.xpath('//*[@id="ct"]/div/div[1]/div[1]/h1/a/text()')).replace('『','').replace('』','') print(forumname) pagenum = ehtml.xpath('//*[@id="fd_page_top"]/div/label/span/text()') pagenum = pagenum[0].replace(' / ', '').replace(' 页','') txt='' for i in range(1,int(pagenum)+1): nurl = url[0] + '-' + j + '-' + str(i) + '.html' html = requests.get(nurl) ehtml = etree.HTML(html.text) #pltxt = ' '.join(ehtml.xpath('//*[@id="threadlisttableid"]/tbody/tr/td[2]/cite/a/text()'))#获取帖子作者 pltxt = ' '.join(ehtml.xpath('//*[@class="s xst"]/text()')) #帖子标题 txt = txt + pltxt time.sleep(1) # 给服务器留些喘气的时间 cut_text =txt wordcloud = WordCloud( font_path='simhei.ttf', background_color='white', width=800, height=500 ).generate(cut_text) wordcloud.to_file('c:\\'+forumname+'.png') plt.imshow(wordcloud, interpolation="bilinear") plt.axis("off") plt.show() if __name__ == '__main__': forumdata=[ "2", # 原创发布区 0 "5", # 脱壳破解区 1 "65", # 移动安全区 2 "59", # 软件调试区 3 "24", # 编程语言区 4 "6", # 动画发布区 5 "4", # 逆向资源区 6 "16", # 精品软件区 7 "8", # 悬赏问答区 8 "32", # 病毒分析区 9 "50", # 病毒救援区 10 "41"#安全工具区 11 ] print('开始获取,请稍候...') GetData(forumdata)
注:代码没有加容错,有需要就请自行添加修改
版权声明:
本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。
- 上一篇: Python爬取52论坛指定帖子回复数据生成词云图
- 下一篇: 爬取携程北京热评酒店排行并简单的做词云