一些数据集网站
Posted Maynor大数据
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一些数据集网站相关的知识,希望对你有一定的参考价值。
复杂网络的研究很多都离不开数据集,下面这些是个人在做科研的过程中在互联网上搜集到的一些数据集网站,列举出来也方便同行们去使用。(2018年12月14日更)
1、http://vladowiki.fmf.uni-lj.si/doku.php?id=pajek:data:urls:index
数据集网站集合。这个网站中列出来很多数据集网站,非常全,其中的很多网站数据描述详细,而且数据可以直接下载,大家可以从中选出一些网站收藏起来。
2、http://snap.stanford.edu/data/
这个是斯坦福大学的大型网络数据集网站,大家应该比较熟悉了。
3、http://konect.uni-koblenz.de/
这个网站是我个人最喜欢也是最常用的网站,里面数据集有上百种,数据的分类和描述真的是特别详细,而且还给出了数据集的可视化图以及一些基本统计特性,所有数据均可以直接下载。
4、http://networkrepository.com/index.php
这是另一个个人特别喜欢也是很常用的网站,和上面一样数据分类也是相当的详细,而且数据都可以在线可视化,大家应该能找到自己想要的数据。
5、http://gdm.fudan.edu.cn/GDMWiki/Wiki.jsp?page=Network%20DataSet
这是复旦大学建立的网络数据集网站,里面有一些常用数据集以及一些相关资源网站。
6、https://www.aminer.cn/data-sna#Twitter-Dynamic-Net
搞数据挖掘应该都或多或少知道Aminer和唐杰,这是Aminer上的一些社交网络数据集。
7、https://toreopsahl.com/datasets/
这个网站里面有十几个数据集,包含社交网络、交通网络、合作网络等常用数据集。
8、http://netwiki.amath.unc.edu/SharedData/SharedData
这个网站列出了一些数据集以及一些复杂网络大牛的个人数据网站,大家可以去看看。
9、http://vlado.fmf.uni-lj.si/pub/networks/data/
这个是Pajek网站提供的数据集,里面的数据都很经典,复杂网络早期研究中很多数据集都是源于这里。
10、http://socialcomputing.asu.edu/pages/datasets
社交网络数据集,里面包含国内外一些常用在线社区网站的数据集,中型到大型的数据规模,搞社会计算的同行可能用的比较多。
11、http://www.sociopatterns.org/datasets/
另一个社交网络数据集,这里面的数据集更多倾向于实体网络,比如联系网、高校朋友网、疾病传播网。
12、http://www-personal.umich.edu/~mejn/netdata/
大牛Newman教授的个人数据网站,里面的数据集特别是科学家合作网络,用到特别多。
以上是一些个人用到比较多的复杂网络数据网站,鉴于自己的了解有限,可能对这些数据集网站给出的描述还不够详细,而且很多单位都没有列出来,敬请谅解。当然了如果想用里面的数据集,一定要记得引用数据集作者们的信息,他们收集数据并公开方便大家使用也是很不容易的。如果转载本文,也请注明出处_.
补充说明:如果具备以下两个技能,构造复杂网络数据集将会变得简单:
(1) 文本处理(尤其是正则表达式)。因为很多原始数据包含很多冗余信息,可以运用文本处理来提取自己想要的关键信息,并在此基础上构造节点和连边关系。
(2) 网络爬虫。有时候从网络上根本找不到想要的现成数据,这时可以运用网络爬虫去爬取数据来构造复杂网络。
以上是关于一些数据集网站的主要内容,如果未能解决你的问题,请参考以下文章