大型数据库实时索引的最佳实时搜索平台?

Posted

技术标签:

【中文标题】大型数据库实时索引的最佳实时搜索平台?【英文标题】:The best realtime search platform for realtime indexing of large db? 【发布时间】:2011-08-12 18:42:54 【问题描述】:

我正在构建一个需要实时索引结果的站点 atm(不是每秒 10,000 个文档,我的意思是毫秒更新)。我去研究不同的技术,最初想出了几十个不同的平台。通过使用推论(文档复杂性、不同类型的支持等),我已经能够将我的选择范围缩小到大约 3 个:

朗讯 夏片 狮身人面像

我最初试图通过使用它们的网站在这两者之间进行选择,但令我惊讶的是,许多知名网站都信任这三个网站。我还发现这三个都允许毫秒级更新。

我最初想到 Sphinx 是因为它是三者中唯一一个说完全实时索引而不是近实时索引,只是发现它仍处于测试阶段(不确定这项技术在实时索引中的可靠性如何)。

我倾向于 lucene,因为当 solr 获得实时索引时,将我的架构移动到 solr 将非常容易。

我也倾向于 Xapian,因为我认识的许多网站都很好地实现了它。

我在选择这些技术以及哪一种最适合时遇到了很大的问题。

我正在查看一个包含数百万甚至数千万记录的网站,需要一个可以实时追加/删除/更新的索引。

谁能分享他们使用实时搜索平台帮助我选择适合我的平台的经验?我愿意接受不在这里的建议:)。

P.S 我使用 MongoDB,所以请不要发布仅限 SQL 的搜索平台 :)。

【问题讨论】:

【参考方案1】:

我用几周后发现的最佳选择来回答这个问题。

我发现 Lucene 实际上是自 Zoies 用户群以来最好的,是.....**。我想在 google 小组(唯一的支持形式)上发布一个主题,但几周后它仍然没有经过审核和批准展示。

这真的让我对 Zoie 感到厌烦,所以最后我决定试试 Lucene。

还是谢谢:)。

【讨论】:

【参考方案2】:

我会推荐基于 lucene 的 zoie。

【讨论】:

不错的帖子老兄,现在正在研究它:) 我喜欢它在 Linkedin 上的托管方式 你好,你有没有通过 curl 从其他语言(如 php)中使用 Zoie 的示例?我只是想知道我需要弯曲什么结构等。

以上是关于大型数据库实时索引的最佳实时搜索平台?的主要内容,如果未能解决你的问题,请参考以下文章

Apache Kafka 在大型应用中的 20 项最佳实践

在HBase之上的solr中创建索引

将 Haskell 用于大型实时系统:如何(如果?)?

Flink+Clickhouse实时数仓在广投集团的最佳实践

用于大型静态索引数据的最佳无服务器数据库?

数据平台.搜索引擎-Lucene