2018.2最新-Scrapy+elasticSearch+Django打造搜索引擎

Posted lijianming180

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了2018.2最新-Scrapy+elasticSearch+Django打造搜索引擎相关的知识,希望对你有一定的参考价值。

请问您今天要来个引擎吗? 工欲善其事必先利其器

最终项目上线演示地址: http://search.mtianyan.cn

  1. IDE: pycharm
  2. 数据库: mysql, redis, elasticsearch
  3. 开发环境 virtualenv

这次的数据库只介绍mysql,后面两个会放到要用到的章节。

Pycharm的安装和使用

Pycharm在windows和linux下的安装:

  1. Pycharm的安装(linux 和windows)

一定要下载专业版,社区免费版有很多功能缺失

windows下pycharm安装。

PyCharm 2017.3.2

pycharm官方下载链接:https://www.jetbrains.com/pycharm/download/#section=windows

我们要选择专业版(Professional)因为只有专业版才能够新建django项目,免费社区版不能。

为Pycharm添加解释器:

setting - Project Interpreter

技术图片

技术图片

一直定位到 python.exe 点击确认。

设置keymap: 设置快捷键。

Linux下pycharm使用。

同样下载专业版。 Linux下的版本实际是一个绿色版本。

1
2
3
cd pycharm
cd bin/
./pycharm.sh

设置通过命令直接启动。

1
2
3
4
5
vim ~/.bashrc

alias pycharm="bash /home//pycharm.sh"

source ~./bashrc

mysql和Navicat的安装和使用

Mysql

百度”mysql for windows” 直接在百度软件中心下载即可

技术图片

如果你的电脑跟我电脑一样空,推荐遵循我的:

  1. 点击接受协议
  2. 选择Custom选项。(如果默认选项,会发生必要条件缺失:如我电脑没有VS和py3.4)

技术图片

技术图片

  • 下图页面点击next会显示我们不满足的条件,back后点击绿色箭头移除。

技术图片

  • 所有条件都达成,点击Execute,等待安装完成。

技术图片

均为绿色代表安装完成。

  • 一直默认选择直到下图页面。设置密码,添加用户(可选)

注意:记住自己设置的mysql密码

技术图片

之后全部默认下一步。直到安装完成Finish

这时Navicat已经可以正常连接了。如果想让mysql命令在cmd下可使用。

C:Program FilesMySQLMySQL Server 5.7bin (自行替换为自己的mysql.exe地址)加入环境变量中。

技术图片

通过mysql -uroot -p命令可以进行登入mysql控制台。

技术图片

1
sudo vim /etc/mysql/mysql.conf.d/mysqld.cnf

修改bind adress: 0.0.0.0

1
sudo service mysql restart
1
2
3
4
# 授予所有权限其实可以细化,on`*.*`是一个正则表达式,表示所有的表赋权限。`root `代表通过root用户连接过来。 `%` 代表所有外部的ip :当然也可以指明某一个ip.所有ip上只要是通过root 用户 Identity by`密码 `都可以访问我的所有表
grant all privileges on *.* to 'root'@'%' identified by 'ty158917' with grant option;

flush privileges;

L 大专栏  2018.2最新-Scrapy+elasticSearch+Django打造搜索引擎(二)inux 安装 mysql

1
2
3
4
5
6
sudo apt-get install mysql-server
ps aux|grep mysql

mysql-uroot -p

show databases;

通过set py3获取py3安装路径。

安装指南:下一步下一步。

下载地址:http://www.navicat.com.cn/download/navicat-for-mysql

我的安装目录: C:softwareNavicat Premium 12

virtualenv和virtualenvwrapper安装和配置

virtualenv介绍

每个应用可能需要各自拥有一套独立的Python运行环境。virtualenv就是用来为一个应用创建一套隔离的Python运行环境。

virtualenv优点:

技术图片

它是将全局Python解释器进行私有化复制。
如果不使用虚拟环境,默认的pip安装都会安装到同一个目录(java是把自己需要的包放到自己项目目录),不同项目使用起来会产生问题

安装virtualenv

进入cmd,(确保自己的pip已经可用)

1
2
3
4
5
6
7
8
9
pip install virtualenv
virtualenv testvir

cd %homepath%
cd testvir
cd Scripts
activate.bat #激活
pip list
deactivate.bat

技术图片

默认使用virtualenv testvir该命令,会将虚拟环境创建在我们当前用户目录。

注意:我的目录在桌面是我的cmder设置的、还请自行cd %homepath%前往自己的目录

这样直接使用步骤有写过于繁琐。所以我们使用virtualenvwrapper

virtualenvwrapper安装

1
2
pip install virtualenvwrapper-win
pip install virtualenvwrapper(Linux)
  • 创建虚拟环境
1
mkvirtualenv DjangoTest

会创建在C:UsersmtianEnvs当前用户目录下的Envs目录。

修改mkvirtualenv创建的目录:新增环境变量WORKON_HOME

技术图片

  • 退出激活状态

    1
    deactivate
  • 知道有哪些虚拟环境

    1
    workon

Linux下安装:

1
2
3
4
5
6
7
8
9
10
11
12
sudo apt-get install python-virtualenv

virtualenv venv --python=python3.5
virtualenv venv --python=python2.7

安装pip

sudo python get-pip.py

pip install virtualenvwrapper

sudo find / -name virtualenvwrapper.sh

技术图片

技术图片

1
2
3
mkvirtualenv articlespider --python=python3.5

rm -rf py3scrapy : 删除目录

以上是关于2018.2最新-Scrapy+elasticSearch+Django打造搜索引擎的主要内容,如果未能解决你的问题,请参考以下文章

scrapy自动抓取蛋壳公寓最新房源信息并存入sql数据库

FPGA 学习笔记:Vivado 2018.2 MicroBlaze Uartlite 配置

Ubuntu18.04 安装 Idea 2018.2

IDEA2018.2版本注册

资源 | Scrapy 爬虫框架视频详解

kali2018.2安装配置OpenVAS-9及错误处置