python3 爬虫

Posted 温润有方

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python3 爬虫相关的知识,希望对你有一定的参考价值。

一.html

1.网页由代码构成. 这种代码我们称之为HTML,

2.HTML 是一种浏览器(Chrome, Safari, IE, Firefox等)看得懂的语言, 浏览器能将这种语言转换成我们用肉眼看到的网页

3.除了 HTML, 一同构建多彩/多功能网页的组件还有 CSS 和 JavaScript

4.对于网页,右击鼠标,点击“显示源”(view page source)等差不多意思的选项进入HTML代码

5.在 HTML 中, 基本上所有的实体内容, 都会有个 tag 来框住它. 而这个被 tag 住的内容, 就可以被展示成不同的形式, 或有不同的功能.

6.主体的 tag 分成两部分, headerbody. 在 header 中, 存放这一些网页的网页的元信息, 比如说 title, 这些信息是不会被显示到你看到的网页中的.

信息大多数时候是给浏览器看, 或者是给搜索引擎的爬虫看.

7.HTML 的第二大块是 body, 这个部分才是你看到的网页信息. 网页中的 heading, 视频, 图片和文字等都存放在这里. 这里的 <h1></h1> tag 就是主标题,

我们看到呈现出来的效果就是大一号的文字. <p></p> 里面的文字就是一个段落. <a></a>里面都是一些链接. 所以很多情况, 东西都是放在这些 tag 中的.

以上是关于python3 爬虫的主要内容,如果未能解决你的问题,请参考以下文章

Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段

python爬虫学习笔记-M3U8流视频数据爬虫

爬虫遇到头疼的验证码?Python实战讲解弹窗处理和验证码识别

python网络爬虫

Python 利用爬虫爬取网页内容 (div节点的疑惑)

为啥我的python爬虫界面与博主不一样