bsite库 | 采集B站视频信息、评论数据

腾讯课堂 | Python网络爬虫与文本数据分析 

1、简介

bsite是用于采集B站用户视频列表页、视频评论数据的python包。python

2、安装

pip install bsite

3、使用方法

3.1 初始化Bsite类

登陆B站后,使用开发者工具获取本身浏览器上的的cookies。获取方法能够参考 京东评论实战视频web

from bsite import Bsite

cookies = {"cookie""登陆B站后的cookies"}
bs = Bsite(cookies=cookies)



3.2 bvid与aid转换

B站的视频连接浏览器

https://www.bilibili.com/video/BV1AE411r7ph

其中 BV1AE411r7ph 是该视频的 bvid号, 但在B站后台有一个与bvid对应的id号- aid微信

bvid与aid能够互相转化,Bsite内置了两个转化方法cookie

  • Bsite.aid2bvid(aid)
  • Bsite.bvid2aid(bvid)

例如将BV1AE411r7ph转为aid网络

bs.bvid2aid(bvid="BV1AE411r7ph")
72010301

同理将 72010301 转为 bvidapp

bs.aid2bvid(aid=72010301)
BV1AE411r7ph



3.3 下载某用户全部视频信息

Bsite.video_list(mid, csvfpath) 获取用户的全部已上传的视频信息。例如个人B站视频主页https://space.bilibili.com/122592901  其中122592901就是mid编辑器

  • mid 用户的id
  • csvfpath csv文件路径,用于存储视频信息。

注意:为了保证全部数据均能正常存储不出错,强制使用utf-8编码,微软office打开该csv会乱码,能够用记事本或者WPS打开ide

通常在B站查看某用户【投稿】栏,能够看到ta的全部上传视频。Bsite能够帮咱们获得的信息有工具

  • title、subtitle、author 标题、副标题、做者
  • aid、bvid 视频连接的id号
  • mid 用户的id。
  • created 上传时间
  • description 视频简介
  • pic 视频首图
  • play 播放次数
  • length 视频时长

例如个人B站视频主页https://space.bilibili.com/122592901  其中122592901就是mid

获取DJI大疆创新 https://space.bilibili.com/232472043/video 全部投稿视频相关信息。

bs.video_list(mid=232472043, csvfpath='dji_videos.csv')

3.4 获取某视频内的全部评论

Bsite.comments(aid, csvfpath)

  • aid  B站视频的id号,若是只有bvid没有aid,能够先使用内置的方法把bvid转为aid

  • csvfpath csv文件路径,用于存储评论数据。

注意:为了保证全部数据均能正常存储不出错,强制使用utf-8编码,微软office打开该csv会乱码,能够用记事本或者WPS打开

采集到的评论数据包括

  • content  评论内容
  • device 评论者使用的设备
  • like 点赞数
  • rcount 该评论追评和互动数
  • ctime 评论建立时间
  • avatar 评论者头像
  • level 评论者等级
  • sex 评论者性别
  • sign 评论者签名
  • uname 评论者昵称
  • mid 评论者的id
  • diag 该评论是原始评论,仍是某评论的互动

获取该视频 https://www.bilibili.com/video/BV1E54y1C7MF 全部的评论

aid = bs.bvid2aid('BV1E54y1C7MF')
bs.comments(aid=aid, csvfpath='comments.csv')


课程试听

课程python语法入门和网络爬虫部分可免费试听,对python感兴趣的童鞋能够收藏观看~
试听二维码



优惠券领取

本课程原价298元,现有朋友圈集赞活动,集赞满10+可得118元优惠券。参与方式

  1. 转发本文至朋友圈,集赞10+
  2. 扫码加维信,备注【网课优惠券】


  3. 集赞截图私信,立得118元优惠券
  4. 购买 好评 20+ ,截图返现 18. 88元 ~


学习方式

  1. 电脑端学习,浏览器百度搜【腾讯课堂】,微信扫码登陆帐号,便可观看学习
  2. 手机端学习,安装【腾讯课堂app】,微信扫码登陆帐号,便可观看学习



本文分享自微信公众号 - 大邓和他的Python(DaDengAndHisPython)。
若有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一块儿分享。