python爬取bilibili编程区的视频信息

piaodoo 编程教程 2020-02-22 22:12:57 1218 0 python教程

本文来源吾爱破解论坛

本帖最后由牵手丶若相惜于 2019-11-27 19:37 编辑

仅限学习！仅限学习！！仅限学习！！！
为了爬虫不影响别人的服务器  我每爬取一页等待了3秒这是必要的
评分！！！评分！！！评分！！！谢谢
——————————————————————
有人说代码有问题我就看了一下最开始以为自己复制的时候忘改了
但是现在发现是发帖的这个编辑器把我的information【i】转义成一种字体了
你仔细看看就会发现那个地方的代码字体都不一样
现在改过来了我把information【i】改成information[x]了
（只能用中文的中括号来告诉你们哪里错了,不然还是会转义）
——————————————————————
刚开始以为bilibili对爬虫很友好，没有反爬机制，结过踩了两个坑写入时长的时候故意重新开了一行方便自己看
数据太多截图没显示完具体可以看代码上面有我写入的数据都是什么
（抓取的位置和信息还有踩坑的图在下面））
第一个是：一开始抓取的网页是假的，没发现结果返回的数据不对，多点两页就看出来了
第二个是：它返回的数据是字符串不是json格式的输出一下就看出来了
代码如下：
import requests
import json
import time
# 网址
url = "https://api.bilibili.com/x/web-interface/search/all/v2"

# 浏览器代{过}{滤}理
headers = {
"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.97 Safari/537.36",
"referer": "https://api.bilibili.com/x/web-interface/search/all/v2?context=&page=1&order=&keyword=%E7%BC%96%E7%A8%8B&duration=&tids_1=&tids_2=&__refresh__=true&highlight=1&single_column=0&jsonp=jsonp&callback=__jp2"
}

# 网页后缀
parameters = {
"context": "",
"page": "3",
"order": "",
"keyword": "编程",
"duration": "",
"tids_1": "",
"tids_2": "",
"__refresh__": "true",
"search_type": "video",
"highlight": "1",
"single_column": "0",
"jsonp": "jsonp",
"callback": "__jp1",
}

# 格式化时间戳转换成时间格式
def Transformation_time(pud_times):
timearray = time.localtime(pud_times)
format_time = time.strftime("%Y-%m-%d %H:%M:%S", timearray)
return format_time

# 去除数据中的多余的杂乱字符
def data_fromat(data):
limit = ["#", "；", "，", " ", "【", "】", "\n", "\t", '\r' ,'<emclass="keyword">', "</em>"]
# 遍历分隔符替换成空
for i in limit:
      data = data.replace(i, "")
return data

# # 筛选数据并写入
def screening_data(data):
# 每一页的所有数据都在这个数组里
information = data["data"]["result"][8]["data"]
for x in range(len(information)):
      with open("d:/bilibili_programming1.txt","a",encoding="utf-8") as file:
         file.write(("up主："+information[x]["author"]+"\t"))
         file.write(("url："+information[x]["arcurl"]+"\t"))
         # 调用data_fromat剔除多余字符
         file.write(("标题："+data_fromat(information[x]["title"])+"\t"))
         # 调用data_fromat剔除多余字符
         file.write(("描述：" + data_fromat(information[x]["description"]) + "\t"))
         file.write(("播放量：" + str(information[x]["play"]) + "\t"))
         file.write(("弹幕量：" + str(information[x]["video_review"]) + "\t"))
         file.write(("收藏量：" + str(information[x]["favorites"]) + "\t"))
         file.write(("标签：" + information[x]["tag"] + "\t"))
         file.write(("评论量：" + str(information[x]["review"]) + "\t"))
         # 转换成时间格式
         file.write(("发布日期：" + Transformation_time(information[x]["pubdate"]) + "\n"))
         file.write(("时长(分)：" + str(information[x]["duration"]) + "\n"))

if __name__ == '__main__':
for i in range(1, 51):
      if i >= 2:
         headers["referer"] = "https://api.bilibili.com/x/web-interface/search/all/v2?context=&page="+str(i-1)+"&order=&keyword=%E7%BC%96%E7%A8%8B&duration=&tids_1=&tids_2=&__refresh__=true&highlight=1&single_column=0&jsonp=jsonp&callback=__jp2"
      parameters["page"] = i
      # 获取的数据转成text然后去除多余字符，再从转成json格式
      datas = json.loads((requests.get(url,params=parameters,headers=headers).text).replace("__jp1(","").replace(")",""))
      screening_data(datas)
      time.sleep(3)

捕获.PNG (211.16 KB, 下载次数: 2)

下载附件保存到相册

2019-11-25 19:32 上传

第一次踩坑

捕获3.PNG (37.06 KB, 下载次数: 1)

下载附件保存到相册

2019-11-25 19:32 上传

第二次踩坑

捕获4.PNG (298.89 KB, 下载次数: 1)

下载附件保存到相册

2019-11-25 19:33 上传

爬取好的数据

捕获2.PNG (443.13 KB, 下载次数: 0)

下载附件保存到相册

2019-11-25 19:33 上传

爬取的位置

版权声明：

本站所有资源均为站长或网友整理自互联网或站长购买自互联网，站长无法分辨资源版权出自何处，所以不承担任何版权以及其他问题带来的法律责任，如有侵权或者其他问题请联系站长删除！站长QQ754403226 谢谢。

有关影视版权：本站只供百度云网盘资源，版权均属于影片公司所有，请在下载后24小时删除，切勿用于商业用途。本站所有资源信息均从互联网搜索而来，本站不对显示的内容承担责任，如您认为本站页面信息侵犯了您的权益，请附上版权证明邮件告知【754403226@qq.com】，在收到邮件后72小时内删除。本文链接：https://www.piaodoo.com/7825.html