寻找数据集以测试 [关闭] 上的 FULLTEXT 样式搜索
Posted
技术标签:
【中文标题】寻找数据集以测试 [关闭] 上的 FULLTEXT 样式搜索【英文标题】:Looking for dataset to test FULLTEXT style searches on [closed] 【发布时间】:2011-03-06 23:10:54 【问题描述】:我正在寻找一个文本语料库来运行一些试验全文样式数据搜索。要么是我可以下载的东西,要么是生成它的系统。更随机的东西会更好,例如1,000,000 篇***文章,格式易于插入 2 列数据库(id、文本)。
有什么想法或建议吗?
【问题讨论】:
试试pizzachili.dcc.uchile.cl/texts.html 【参考方案1】:古腾堡计划有 32000 本书可用。
编辑: 截至目前 (17.06.16),有 52,284 部免费电子书可供下载UTF-8 格式的纯文本文件,涵盖各种主题(从科学到宗教)。 格式也为 EPUB、Kindle 或 html 格式。 检查here Project Gutenberg
【讨论】:
在哪里可以访问 TXT 文件格式的嘘声?【参考方案2】:为什么不使用Wikipedia dump?
【讨论】:
主要是因为未压缩它有很多 GB 并且是标记语言 - 只是在寻找文本。【参考方案3】:因为我很熟悉它,所以我会把它扔在那里 - Prosper.com 使他们的会员贷款列表可供分析through an XML export。导出将包含大约 50,000 个带有描述的贷款请求和超过 1,000,000 个成员资料(尽管其中许多是空的)。
【讨论】:
谢谢,这可能很有用。仍然需要相当多的处理才能让它工作 - 但会试一试。以上是关于寻找数据集以测试 [关闭] 上的 FULLTEXT 样式搜索的主要内容,如果未能解决你的问题,请参考以下文章