必须阅读/最喜欢的数据库和相关领域的论文 [关闭]

Posted

技术标签:

【中文标题】必须阅读/最喜欢的数据库和相关领域的论文 [关闭]【英文标题】:Must Read/ Favorite Papers in Database and related fields [closed] 【发布时间】:2011-07-19 10:07:44 【问题描述】:

请推荐您认为在数据库管理、信息系统、数据挖掘等领域最重要或最喜欢的论文。

以下是我认为重要的里程碑:

    什么都来了 - Michael Stonebraker, Joseph M. Hellerstein

    Dynamo: Amazon’s Highly Available Key-value Store - Giuseppe DeCandia, Deniz Hastorun, Madan et al

    Bigtable: A Distributed Storage System for Structured Data - Fay Chang, Jeffrey Dean et al.

    MapReduce: Simplified Data Processing on Large Clusters - Jeffrey Dean and Sanjay Ghemawat

    Brewer 猜想和一致、可用、可容忍分区的 Web 服务的可行性

    Parallel database systems: the future of high performance database systems - Jim Gray

    分布式系统中崩溃恢复的正式模型 - Skeen, D. Stonebraker, M

【问题讨论】:

【参考方案1】:

    首先,您必须阅读的最重要的关于 DBMS 理论的论文纲要是“Readings in Database Systems 4E”——Stonebraker(又名“红皮书”)

    本书中的每篇论文都是 里程碑;它不会失败 对这本书做了删减。 :-)

    Stonebraker 还对 DBMS 架构“数据库系统架构”进行了出色的调查:数据库的基础和趋势 1:2 (2007)

    DBMS 编写者的书:“事务处理:概念和技术”——Jim Gray(他的开创性著作)

    这可以被视为一篇大论文:'The Relational Model For Database Management V2' -- Codd

    对象/关系数据库的基础,第三宣言' --- C. J. Date

    面向对象数据库系统的读物 -- Zdonik

    数据库系统中的并发控制和恢复 -- Bernstein

【讨论】:

谢谢!红皮书只是论文汇编还是斯通布雷克也对论文发表评论? 我喜欢 Jim Gray 的书。虽然以 Sql Server 为中心,但我会推荐 this 阅读列表。 @Kunjan:是的,他确实对论文发表了评论。论文列表分为几个部分,在每个部分开始之前,都会对列出的论文进行评论……此外,“数据库系统架构”还有每个子领域的必读论文列表。 【参考方案2】:

因为我是 *** 的新手,所以我不能发布两个以上的超链接!!所以带链接的版本是http://www.reddit.com/r/compsci/comments/ghc0w/please_recommend_must_read_favorite_papers_in/c1no849

zamanbakshi 推荐的书,Transaction Processing: Concepts and Techniques,Gray 和 Reuter 合着,非常非常好。我随身携带太多以至于封面都掉了——这是一本精装书。当然,它在某些主题上有些过时,但它比大多数后来的书籍好得多,例如 Weikum 和 Vossen 的Transactional Information Systems,这是一本好书,但让我眼前一亮结束了,我不得不承认。

如果我没记错的话,Gray 和 Reuter 的文章并没有涵盖 Mohan 的重复历史恢复技术,这是必不可少的。请参阅 ARIES/NT:基于嵌套事务的预写日志记录的恢复方法和 ARIES:支持细粒度锁定和使用预写日志记录的部分回滚的事务恢复方法,至少,但 Mohan 的大部分论文都值得阅读。

Bernstein 等人的数据库系统中的并发控制和恢复一书已绝版,但您可以从他的 Microsoft Research 页面下载。

那里还有很多来自 David Lomet 和已故(或失踪)的 Jim Gray 的优秀出版物。

红皮书第二版(我有的那个版)中没有的一些重要论文:

对 ANSI SQL 隔离级别的批评 (1995) Gray 等人。 复制的危险和解决方案 (1996) Gray and Helland 广义隔离级别定义 (2000) Adya 等人。

我认为值得更多关注的最新论文是 Cahill、Röhm 和 Fekete 的 Serializable Isolation for Snapshot Databases (2009)。这是一种非常简单的技术,效果非常好。我希望它可以在一些 DBMS 中实现。在搜索相关内容时,我偶然发现了这个有趣的阅读清单。它主要包含与闪存相关的内容,但也有一些令人感兴趣的一般论文,包括最近的一些 Stonebraker 论文。

我建议跳过 Date 的“第三宣言”内容。我对此感到非常失望。我认为他从未做过任何面向对象的编程。他早期关于关系 DBMS 的书籍和文章都不错,虽然有点重复。

对主存 DBMS 的一个很好的描述是 Dalí Main-Memory Storage Manager 的体系结构。非行动一致、非 WAL 检查点一开始让我大吃一惊。

这里有一些关于非一致性分布式数据管理(对于非常非常大的数据):

碱:酸的替代品 (2008) Pritchett 分布式事务之外的生活:一个叛教者的意见 (2007) 荷兰

【讨论】:

以上是关于必须阅读/最喜欢的数据库和相关领域的论文 [关闭]的主要内容,如果未能解决你的问题,请参考以下文章

怎样阅读文献

中文医疗领域自然语言处理相关数据集经典论文资源蒸馏分享

你最喜欢的 C++0x 特性是啥? [关闭]

想要接触人工智能吗?先要学会如何阅读论文

五篇值得阅读的ECCV 2020 图像识别相关论文

五篇值得阅读的ECCV 2020 图像识别相关论文