[数据集]新浪微博数据集MicroblogPCU

Posted 2020-09-19 yangykaifa

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[数据集]新浪微博数据集MicroblogPCU相关的知识，希望对你有一定的参考价值。

数据集下载地址：下载

摘要：MicroblogPCU是从新浪微博採集到的。它能够被用于研究机器学习方法和社会关系研究。

这个数据集被原作者用于探索微博中的spammers（发送垃圾信息的人）。他们的demo在这里

数据集的属性信息：

weibo_user.csv
-user_id: 用户ID
-user_name: 用户昵称
-gender:性别，male，female。other
-class:账户级别
-message:账户注冊位置或其它个人信息
-post_num: 邮政编码
-follower_num: followers的数量
-followee_num: followee的数量
-follow ratio: followee_num/follower_num;
-is_spammer: manually annotated label, 1 表示 spammer，0 表示 non-spammer;

user_post.csv
-post_id:微博的ID
-post_time:公布时间
-poster_id: 公布用户的ID
-repost_num:转发数量
-commnet_num: 评论数量

followe-followee.csv
-follower: the nickname of follower;
-follower_id: the user ID of follower;
-followee: the nickname of followee;
-followee_id: the user ID of followee;

post.csv和user_post.csv类似， and the post in it are retrievalled by a certain key word related to a topic;

取出当中的一部分数据做关系图

install.packages(‘igraph‘)
library(igraph)

follower_followee<-read.csv(‘microblogPCU/follower_followee.csv‘)
follower_followee_part<-follower_followee[1:1000,]

gg<-graph.data.frame(data.frame(er=follower_followee_part$follower_id,ee=follower_followee_part$followee_id))
plot(gg,
     vertex.label=NA,      ##不显示标签
     edge.arrow.mode=‘-‘,  ##不使用箭头
     vertex.size = 5       ##设置结点圆的大小
     )

參考：https://archive.ics.uci.edu/ml/datasets/microblogPCU

转载请注明出处：http://blog.csdn.net/zhyoulun/article/details/46442899

以上是关于[数据集]新浪微博数据集MicroblogPCU的主要内容，如果未能解决你的问题，请参考以下文章

新浪微博热门评论爬虫采集

Python爬取新浪微博用户信息及内容

如何通过python调用新浪微博的API来爬取数据

Python 超简单爬取新浪微博数据 (高级版)

赛尔原创 | 基于时间序列网络的谣言检测研究