大规模超文本网络搜索引擎解析 [ The Anatomy of a Large-Scale Hypertextual Web Search Engine ]

Posted IIcyZhao

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大规模超文本网络搜索引擎解析 [ The Anatomy of a Large-Scale Hypertextual Web Search Engine ]相关的知识,希望对你有一定的参考价值。

The Anatomy of a Large-Scale  Hypertextual Web Search Engine                                      Sergey Brin and Lawrence Page                                     sergey, page@cs.stanford.edu Computer Science Department, Stanford University, Stanford, CA 94305

摘要

1. 引言

1.1 网页搜索引擎的崛起:1994 - 2000

1.2 谷歌:与网络共成长

1.3 设计目标

1.3.1 提升搜索质量

1.3.2 学术搜索引擎的研究

2. 系统特色 

2.1 PageRank: 让网络变得有序

2.1.1 PageRank 计算的描述

2.1.2 直观的理据

2.2 锚文本

2.3 其它特色

3. 相关工作

3.1 信息检索

3.2 网络与传统文本集合的区别

4. 系统剖析

4.1 谷歌架构概览

4.2 主要的数据结构

4.2.1 大文件 (BigFiles)

4.2.2 资源库 (Repository)

4.2.3 文件索引

4.2.4 词汇索引

4.2.5 命中列表

4.2.6 正向索引

4.2.7 倒排索引

4.3 网页爬虫

4.4 网页索引

4.4.1 解析

4.4.2 分桶建立文件索引

4.4.3 排序

4.5 搜索

4.5.1 排名系统

4.5.2 反馈

5. 结果与性能

5.1 存储需求

5.2 系统性能

5.3 搜索性能

6. 结论

6.1 将来的工作

6.2 高质量搜索

6.3 可扩展的架构

6.4 一个研究工作


以上是关于大规模超文本网络搜索引擎解析 [ The Anatomy of a Large-Scale Hypertextual Web Search Engine ]的主要内容,如果未能解决你的问题,请参考以下文章

文本挖掘系列文章4

译SAE:一个大规模网络的社交分析引擎

Lucene Solr Elasticsearch三者之间的关系,怎么选?

VGG卷积神经网络模型解析

VGG卷积神经网络模型解析

字典树Trie学习一:原理解析