python3 爬虫
Posted 温润有方
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了python3 爬虫相关的知识,希望对你有一定的参考价值。
一.html
1.网页由代码构成. 这种代码我们称之为HTML,
2.HTML 是一种浏览器(Chrome, Safari, IE, Firefox等)看得懂的语言, 浏览器能将这种语言转换成我们用肉眼看到的网页
3.除了 HTML, 一同构建多彩/多功能网页的组件还有 CSS 和 JavaScript
4.对于网页,右击鼠标,点击“显示源”(view page source)等差不多意思的选项进入HTML代码
5.在 HTML 中, 基本上所有的实体内容, 都会有个 tag 来框住它. 而这个被 tag 住的内容, 就可以被展示成不同的形式, 或有不同的功能.
6.主体的 tag 分成两部分, header
和 body
. 在 header
中, 存放这一些网页的网页的元信息, 比如说 title
, 这些信息是不会被显示到你看到的网页中的.
信息大多数时候是给浏览器看, 或者是给搜索引擎的爬虫看.
7.HTML 的第二大块是 body
, 这个部分才是你看到的网页信息. 网页中的 heading
, 视频, 图片和文字等都存放在这里. 这里的 <h1></h1>
tag 就是主标题,
我们看到呈现出来的效果就是大一号的文字. <p></p>
里面的文字就是一个段落. <a></a>
里面都是一些链接. 所以很多情况, 东西都是放在这些 tag 中的.
以上是关于python3 爬虫的主要内容,如果未能解决你的问题,请参考以下文章
Python练习册 第 0013 题: 用 Python 写一个爬图片的程序,爬 这个链接里的日本妹子图片 :-),(http://tieba.baidu.com/p/2166231880)(代码片段