在哪里/如何通过网页浏览获得前10,000名维基百科文章?
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了在哪里/如何通过网页浏览获得前10,000名维基百科文章?相关的知识,希望对你有一定的参考价值。
我想通过英文Wiki项目中的页面浏览量获得前10,000个维基百科文章标题。
我不需要网页浏览量来获取数据。我只需要知道我有10,000篇文章。
前10,000的列表将是伟大的,因为我可以用它来刮。顶级X的JSON会更好!
Topviews和Massviews是一个很好的资源,并且非常接近我正在寻找的东西!
但是,热门视图将列表限制为490,而Massviews需要搜索字词。我希望整个英语项目中最受欢迎的Wiki文章。
我对数据转储,API或任何其他现有工具持开放态度。感谢帮助Wikis。
以下是Massviews / Topviews工具的创建者,精彩的Leon Ziemba先生对我的上述问题的回答:
我不确定你所说的“所有类别”是什么意思。你是指所有项目中的所有文章吗?如果有帮助的话,有https://tools.wmflabs.org/topviews。
或者你的意思是你想一次给Massviews几个类别?如果是这样,解决方法是使用Petscan,Page Pile,然后使用Massviews:*转到https://petscan.wmflabs.org/添加添加类别,选择“union”作为“组合”,然后点击“Do it!”。 *单击右上角的“输出”选项卡,选择“PagePile”作为格式。其他选项可能原样保留。点击“Do It!”再一次。 *你现在应该在PagePile上。在左上角,它将显示“桩123”,其中123是桩号。请注意这一点。 *回到Massviews。选择“Page Pile”作为源,并输入桩号。 *利润!
在Massviews中,有一个选项“包含所有子类别”。也许那会对你有所帮助。但是出于性能原因,您将获得超过20,000个结果。
如果您需要10,000页的网页浏览量,对于所有英语维基百科的所有页面,必须使用原始数据集手动计算。一个工具实时查看每篇维基百科文章都是不可行的。可以在https://dumps.wikimedia.org/other/pageviews/找到原始数据集转储。
以上是关于在哪里/如何通过网页浏览获得前10,000名维基百科文章?的主要内容,如果未能解决你的问题,请参考以下文章