小白学 Python 爬虫:前置准备Linux基础入门

Posted 极客挖掘机

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了小白学 Python 爬虫:前置准备Linux基础入门相关的知识,希望对你有一定的参考价值。

人生苦短,我用 Python

前文传送门:

小白学 Python 爬虫(1):开篇

小白学 Python 爬虫(2):前置准备(一)基本类库的安装

Linux 基础

CentOS 官网: https://www.centos.org/

CentOS 官方下载链接: https://www.centos.org/download/

Linux 目前在企业中广泛的应用于服务器系统,无论是写好的代码,还是使用的第三方的开源的产品,绝大多数都是部署在 Linux 上面运行的。

可能很多同学一提到 Linux 就怂了,黒糊糊的一篇,连个界面都没有,满屏幕都是神秘代码,没有一个看得懂的。

表怕,本文就带你入门 Linux 。

Linux 有不同的发行版本,而我们在企业中一般使用的是 CentOS ,目前比较常用的版本已经到了 7.x 。

由于 Linux 是开源的,所以不同厂商之间提供的发行版会有非常多,比较常见的有 Ubuntu( 基于Debian的桌面版 ) 、Debian( 国际化组织的开源操作系统 ) 、 RedHat( 红帽企业系统 ) 、 Fedora( 最初由红帽公司发起的桌面版系统套件 ) 等等。

因为在企业中使用比较多的还是 CentOS ,所以我们还是拿 CentOS 来介绍。

在 win 系统下的安装可以使用第三方厂商提供的 VMware 或者 win 自带的 Hyper-V 构建一个虚拟机进行安装,也可以使用云服务厂商提供的入门版的云服务器(1H1G1M),一般新用户首年价格都在100元以内。

安装的过程我就不介绍了,百度一下大把。

安装完成后,设置好 Linux root 用户的密码后,可以使用 ssh 工具进行连接,这里的工具可以选择 xshell (个人使用免费,就是官网属实有点慢),打开 xshell 输入 ip 、用户名(root)、密码后,应该可以看到如下界面:

小编这里使用的是京东云的服务器,打码部分涉及 IP 信息,所以隐藏掉了,属实怕大神搞我。

因为我们的目标不是 Linux 运维工程师,只需要能正常使用,一些简单常用指令足够我们日常操作 Linux 了。

首先介绍一下 Linux 的目录,因为是使用 root 账号登录的,所以我们登录后的目录是在 /root ,查询当前所在目录可以使用命令 pwd ,如下:

输入命令 cd / ,进入根目录,再输出命令 ls ,查看根目录下都有什么目录:

大致介绍下每个目录放的都是什么东西:

目录 简介
/bin 常用命令一般在这个目录。
/boot 存放用于系统引导时使用的各种文件。
/dev 用于存放设备文件。
/etc 一般用于存放系统的管理和配置文件。
/home 存放所有用户文件的根目录,是用户主目录的基点,比如用户user的主目录就是/home/user,可以用~user表示。
/lib 存放跟文件系统中的程序运行所需要的共享库及内核模块。共享库又叫动态链接共享库,作用类似windows里的.dll文件,存放了根文件系统程序运行所需的共享文件。
/usr 用于存放系统应用程序,比较重要的目录/usr/local 本地系统管理员软件安装目录(安装系统级的应用)。这是最庞大的目录,要用到的应用程序和文件几乎都在这个目录。
/opt 额外安装的可选应用程序包所放置的位置。
/root 超级用户(系统管理员)的主目录。
/var 用于存放运行时需要改变数据的文件,也是某些大文件的溢出区,比方说各种服务的日志文件(系统启动日志等)等。

很多都是系统使用的目录,我们无需关注,一般会使用到的目录有 /etc (修改一些系统配置,如改host文件,系统环境变量等), /usr (这里会安装一些应用程序),/opt (这里其实也是安装一些应用程序)。

简单介绍几个命令,有了这几个命令,基本上我们就可以愉快的操作起来了:

  1. cd:这个不用多讲了吧,就是切换目录。
  2. ls:这个是查看目录内容。
  3. pwd:显示当前工作目录 。
  4. mkdir:创建目录。
  5. vi:编辑文档,这个命令稍微复杂一点
    1. vi 文件名 :进入一般模式(不能输入)
    2. 按下 i 从一般模式,进入到插入模式,这时可以修改文档
    3. 按下esc从插入模式,退出到一般模式 ,这时无法修改文档
    4. 在一般模式下,输入:wq ,保存退出编辑;或者还可以输入 !q 不保存编辑内容退出。
  6. ps: 查看任务管理器: ps -ef ,例如查看 mysql 的进程,ps -ef | grep mysql 。
  7. kill:这个就是杀进程,常用格式 kill -9 pid(进程编号),配合上面的 ps 命令一起使用,杀掉你想杀的进程。
  8. tar:压缩与解压,常用解压命令 tar -xvzf [需解压的文件名] ,常用压缩命令 tar -cvzf [压缩后的文件名] [被压缩的文件名] 。
  9. reboot:重启
  10. halt:关机
  11. rm:删除命令,常用核弹级命令 rm -rf / ;此命令禁止在任何地方尝试,一旦执行,将无法逆转,含义是将跟目录直接删除。

下面我们来演示下如何在 CentOS 上安装 Python3 。

因为 CentOS 本身自带 Python ,但是版本是 Python2.7 :

这里我们不去管它,首先去 Python 官网找到 Python 的下载地址:

Python 官网下载链接:https://www.python.org/downloads/source/

小编这里选择的是截止目前最新发布的 3.8.0 版本。

这时我们切换到 xshell 的操作界面开始操作起来,首先切换至 /opt 目录:

cd /opt

然后下载 Python3.8 的安装包:

wget https://www.python.org/ftp/python/3.8.0/Python-3.8.0.tgz

这里遇到新的命令 wget ,这个命令如果 CentOS 未提供,需要先进行安装:

yum install wget

简单介绍一下, yum 是在 Linux 中的一个包管理工具,可以进行简单的安装操作。

等待进度条下载完,下载完成后直接解压:

tar -xvzf Python-3.8.0.tgz

解压后编译安装:

# 创建安装目录
mkdir /usr/local/python3
cd Python-3.8.0
# 检查配置
./configure --prefix=/usr/local/python3
# 编译、安装
make && make install
# 创建软连接
ln -s /usr/local/python3/bin/python3 /usr/bin/python3
ln -s /usr/local/python3/bin/pip3 /usr/bin/pip3

测试安装结果:

# 输入
python3 -V
# 输出
Python 3.8.0
# 输入
pip3 -V
# 输出
pip 19.2.3 from /usr/local/python3/lib/python3.8/site-packages/pip (python 3.8)

因为 Linux 部分功能也是依赖 Python 的,我们不覆盖当前的 Python 命令的版本,直接创建一个新的 Python 命令 python3 。以及新的 pip 包管理命令 pip3

希望各位同学可以自己使用虚拟机安装一个 CentOS 试试看,后续的部分内容将会涉及 Linux 。

以上是关于小白学 Python 爬虫:前置准备Linux基础入门的主要内容,如果未能解决你的问题,请参考以下文章

小白学 Python 爬虫(12):urllib 基础使用

小白学 Python 爬虫(15):urllib 基础使用

小白学 Python 爬虫(17):Requests 基础使用

小白学 Python 爬虫(32):异步请求库 AIOHTTP 基础入门

小白学 Python 爬虫(19):Xpath 基操

小白学 Python 爬虫(40):爬虫框架 Scrapy 入门基础对接 Selenium 实战