爬盟须知

爬萌萌条
中国爬萌是通过众包方式获取微博数据的合作组织,可以通过贡献并分享您获取的部分数据来换取更多的数据. 最终达到共赢的目的.
爬萌数据仅供用于科研和学习中,请勿应用于商业系统. 我们有权对将数据用于其他领域的用户进行处理.
技术切磋请加入交流QQ群,群号是 375161042【中国爬盟(爬萌)】 ,请关注中国爬萌微博

积分获取
1. 下载爬萌各众包版采集器,按教程使用,采集器会自动完成采集任务,并获得一定的积分。
2. 通过支付宝转账(支付宝钱包扫一扫下面二维码或直接给liqiang0805@163.com转账)给爬萌捐赠并留言(爬盟捐赠-爬盟用户名),爬萌会给予积分感谢。

常见问题
请访问爬盟论坛查看常见问题,如有疑问,请在论坛帖子中直接回复,萌小二们会不定期回复,并整理FAQ列表

干货介绍


  用户信息(微博博主)

字段名 完整名称 描述
_id 用户原始id 用户名称
un username 用户名
sn screen_name 用户屏幕名
sx sex 统一使用 "男" "女"
ad address 地址
de description 用户自我描述信息
iu profile_image_url 头像URL 最短标识字符串
an attention_num 关注数量 默认值0
fn fans_num 粉丝数量 默认值0
mn message_num 消息数量 默认值0
iv is_verified 统一使用整形:0 普通用户 1vip用户
dr is_daren 达人标识
vi verify_info 认证信息
wt insert_time 插入时间 采用整型时间戳
tg tag 用户标签,用","号分隔.
ei education_info 教育信息
ci career_info 职业信息
bi base_info 基本信息
at create_time 用户创建时间 整型时间戳
fui follower_userid 用户关注的人的id列表

  微博消息

字段名 完整名称 描述
_id 消息原始ID
mt message content 微博内容
ui user id 用户的原始 ID
un user name 用户名
sn screen name 用户屏幕名
iu image url 用户头像URL
ri retweet msg id 转发消息ID
mu msg url 微博消息URL
srn msg source name 微博消息来源
pu msg picture url 微博消息含图片URL
au msg audio url 微博消息含音频URL
vu msg video url 微博消息含视频URL
rc retweet count 转发数
cc comment count 评论数
ct crawler time 采集时间,整型时间戳
nc name card 消息中@到的用户