寻找数据集以测试 [关闭] 上的 FULLTEXT 样式搜索

Posted

技术标签:

【中文标题】寻找数据集以测试 [关闭] 上的 FULLTEXT 样式搜索【英文标题】:Looking for dataset to test FULLTEXT style searches on [closed] 【发布时间】:2011-03-06 23:10:54 【问题描述】:

我正在寻找一个文本语料库来运行一些试验全文样式数据搜索。要么是我可以下载的东西,要么是生成它的系统。更随机的东西会更好,例如1,000,000 篇***文章,格式易于插入 2 列数据库(id、文本)。

有什么想法或建议吗?

【问题讨论】:

试试pizzachili.dcc.uchile.cl/texts.html 【参考方案1】:

古腾堡计划有 32000 本书可用。

编辑: 截至目前 (17.06.16),有 52,284 部免费电子书可供下载UTF-8 格式的纯文本文件,涵盖各种主题(从科学到宗教)。 格式也为 EPUB、Kindle 或 html 格式。 检查here Project Gutenberg

【讨论】:

在哪里可以访问 TXT 文件格式的嘘声?【参考方案2】:

为什么不使用Wikipedia dump?

【讨论】:

主要是因为未压缩它有很多 GB 并且是标记语言 - 只是在寻找文本。【参考方案3】:

因为我很熟悉它,所以我会把它扔在那里 - Prosper.com 使他们的会员贷款列表可供分析through an XML export。导出将包含大约 50,000 个带有描述的贷款请求和超过 1,000,000 个成员资料(尽管其中许多是空的)。

【讨论】:

谢谢,这可能很有用。仍然需要相当多的处理才能让它工作 - 但会试一试。

以上是关于寻找数据集以测试 [关闭] 上的 FULLTEXT 样式搜索的主要内容,如果未能解决你的问题,请参考以下文章

如何从 .csv 文件中拆分数据集以进行训练和测试?

如何在谷歌 colab 中读取图像数据集以进行深度学习?

存储结果集以供以后获取

Android SQLite 和数据库方案上的 ORM [关闭]

LIBSVM 如何准备带有图像的训练数据集以进行徽标检测?

如何准备 imagenet 数据集以运行 resnet50(来自官方 Tensorflow 模型花园)培训