《集体智慧编程》 第四章 搜索与排名 学习笔记

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了《集体智慧编程》 第四章 搜索与排名 学习笔记相关的知识,希望对你有一定的参考价值。

本章我们将学到如何检索网页、建立索引、对网页进行搜索,以及多种不同方式对搜索结果进行排名。

一.搜索引擎的组成

 (一)建立搜索引擎的步骤:

  1.找到一种搜索文档的方法。

    (1)有时可能会涉及针对网页的抓取:在互联网上先从一小组网页开始,然后再根据网页内的链接逐步追踪其它网页。

    (2)而有时可能需要我们在一组固定数量的文档范围内进行搜集,这些文档可能来自于某个公司的内部网络。

  2.为文档建立索引

    通常我们需要建立一张大的表,表中包含了文档及所有不同单词的位置信息。

  3.通过查询返回一个经过排序的文档列表


  为了运行本章中的示例,我们需要建立一个Python的模块,其中包含两个类:

    一个用于检索网页和创建数据库;另一个则通过查询数据库进行全文搜索。

  首先建立一个名为searchengine.py文件,并加入crawler类和相应的方法签名,稍后我们将进一步完善该类:

 

二.一个简单的爬虫程序

三.建立索引

四.查询

五.基于内容的排名

六.利用外部回指链接

七.从点击行为中学习

以上是关于《集体智慧编程》 第四章 搜索与排名 学习笔记的主要内容,如果未能解决你的问题,请参考以下文章

2023年05月编程语言流行度排名

集体智慧编程-第二章-提供推荐

《集体智慧编程》学习记录:欧几里得距离&皮尔逊相关系数

《集体智慧编程》 读书笔记 第二章

集体智慧编程-读书笔记

郑捷《机器学习算法原理与编程实践》学习笔记(第四章 推荐系统原理)kmeans