首页 编程教程正文

央·python编程之QQ数据清洗

piaodoo 编程教程 2020-02-22 22:02:49 934 0 python教程

本文来源吾爱破解论坛

一般我们从网上下下来的数据都很杂乱的,什么样的情况都有,不利于我们整理,所以在拿到数据的时候我们会先做一遍数据清理,把垃圾数据清理掉。


今天我们拿QQ数据做示范。


我们命令行是怎么看数据!


[Asm] 纯文本查看 复制代码

more zy.txt
#然后空格进行翻页


效果如图:

1.png (11.5 KB, 下载次数: 0)

下载附件  保存到相册

2018-1-30 17:54 上传



从数据中得知:
---- 中间4个-
左边是账号,右边是密码
目前QQ最多就11位,密码最长16位,所以数据中位数最多31位(4+11+16),大于的都是垃圾(第一轮筛选)

我先用python 读取QQ操作

[Asm] 纯文本查看 复制代码
import codecs
filepath=r"C:\Users\Administrator\Desktop\zy.txt"
file=codecs.open(filepath,"rb","gbk","ignore")#按照指定编码
mylist=file.readlines()#返回一个list,读取到内存
 
#savefilepath="C:\Users\Administrator\Desktop\zy1.txt"
for line in mylist:
    QQlist=line.split('----')
    print(QQlist[1])


2.png (19.57 KB, 下载次数: 1)

下载附件  保存到相册

2018-1-30 17:55 上传



注:此方法是读取到内存,所以很占空间,会很卡。

数据中我们看到很多垃圾数据,我们看下垃圾数据

[Asm] 纯文本查看 复制代码
import codecs
filepath=r"C:\Users\Administrator\Desktop\zy.txt"
file=codecs.open(filepath,"rb","gbk","ignore")#按照指定编码
mylist=file.readlines()#返回一个list,读取到内存
 
#savefilepath="C:\Users\Administrator\Desktop\zy1.txt"
for line in mylist:
    QQlist=line.split('----')
    if len(line)>31:
        print(line)#打印垃圾数据


22.png (26 KB, 下载次数: 0)

下载附件  保存到相册

2018-1-30 17:56 上传



进行QQ清洗,在分别保存账号文本和密码文本。

[Asm] 纯文本查看 复制代码
import codecs
filepath=r"C:\Users\Administrator\Desktop\zy.txt"
file=codecs.open(filepath,"rb","gbk","ignore")#按照指定编码
mylist=file.readlines()#返回一个list,读取到内存
savegoodfilepath=r"C:\Users\Administrator\Desktop\zyQQGood.txt"
savebadfilepath=r"C:\Users\Administrator\Desktop\zyQQbad.txt"
filegood=open(savegoodfilepath,"wb")
filebad=open(savebadfilepath,"wb")
for  line  in  mylist:
 
    if  len(line)>31 or len(line)<=15:#(4+5+6)
        filebad.write(line.encode("utf-8"))
    else:
        QQlist = line.split('----')
        if  len(QQlist)==2:
            filegood.write(line.encode("utf-8"))
        else:
            filebad.write(line.encode("utf-8"))
 
filebad.close()
filegood.close()


效果图:

44.png (38.09 KB, 下载次数: 0)

下载附件  保存到相册

2018-1-30 17:57 上传



附件: 嗨学网 中央纪委pyhon数据清理.zip (3.81 KB, 下载次数: 25) 2018-1-30 17:58 上传 点击文件名下载附件
下载积分: 吾爱币 -1 CB
本帖被以下淘专辑推荐: · 学习及教程|主题: 1277, 订阅: 926

版权声明:

本站所有资源均为站长或网友整理自互联网或站长购买自互联网,站长无法分辨资源版权出自何处,所以不承担任何版权以及其他问题带来的法律责任,如有侵权或者其他问题请联系站长删除!站长QQ754403226 谢谢。

有关影视版权:本站只供百度云网盘资源,版权均属于影片公司所有,请在下载后24小时删除,切勿用于商业用途。本站所有资源信息均从互联网搜索而来,本站不对显示的内容承担责任,如您认为本站页面信息侵犯了您的权益,请附上版权证明邮件告知【754403226@qq.com】,在收到邮件后72小时内删除。本文链接:https://www.piaodoo.com/7416.html

搜索