正排索引记录文档id到文档内容、单词的关联关系。正排索引表是以文档的ID为关键字，表中记录文档中每个字段的值信息，主要场景是通过查询id来把整条文档拿出来，一般mysql关系型数据库是这种方式来查询的。这种组织方法在建立索引的时候结构比较简单，建立比较方便且易于维护，当对ID查询的时候检索效率会很高。

倒排索引表以字或词为关键字进行索引，表中关键字所对应的记录项记录了出现这个字或词的所有文档，每个字段记录该文档的ID和关键字在该文档中出现的位置情况。倒排索引记录单词到文档id的关联关系，包含：

1、单词词典（Term DicTionary）：记录所有文档的单词，一般比较大。

2、倒排索引（Posting List）：记录单词倒排列表的关联信息。

由于每个字或词对应的文档数量在动态变化，所以倒排表的建立和维护都较为复杂，但是一旦完成创建，在查询的时候由于可以一次得到查询关键字所对应的所有文档。

二、分词

分词是指将文本转换成一系列单词（term or token）的过程，也可以叫做文本分析，在es里面称为Analysis。

2.1 分词机制

分词机制如下所示：

Character Filter	对原始文本进行处理	例：去除html标签、特殊字符等
Tokenizer	将原始文本进行分词	例：象在舞是山东人-->象在舞，是，山东人
Token Filters	分词后的关键字进行加工	例：转小写、删除语气词、近义词和同义词等

2.2 分词API

2.2.1 直接指定分词器

POST _analyze

  "analyzer": "standard",
  "text":"我爱中国"

参数释义如下：


  "token": "我",			#分词
  "start_offset": 0,		#开始偏移
  "end_offset": 1,			#结束偏移
  "type": "<IDEOGRAPHIC>",	#单词类型
  "position": 0				#位置

2.2.2 针对索引的字段进行分词测试

2.2.3 自定义分词器

2.3 ElasticSearch自带的分词器

分词器	特点
Standard（es默认）	支持多语言，按词切分并做小写处理
Simple	按照非字母切分，小写处理
Whitespace	按照空格来切分
Stop	去除语气助词，如the、an、的、这等
Keyword	不分词
Pattern	正则分词，默认\\w+，即非字词符号做分割符
Language	常见语言的分词器（30+）

2.4 常见的中文分词器

分词器名称	介绍	特点	地址
IK	实现中英文单词切分	自定义词库	https://github.com/medcl/elasticsearch-analysis-ik
Jieba	python流行分词系统，支持分词和词性标注	支持繁体、自定义、并行分词	http://github.com/sing1ee/elasticsearch-jieba-plugin
Hanlp	由一系列模型于算法组成的java工具包	普及自然语言处理在生产环境中的应用	https://github.com/hankcs/HanLP
THULAC	清华大学中文词法分析工具包	具有中文分词和词性标注功能	https://github.com/microbun/elasticsearch-thulac-plugin

2.5 Character Filters

在进行Tokenizer之前对原始文本进行处理，如增加、删除或替换字符等。这里需要注意的是：进行处理后，会影响后续tokenizer解析的position和offset。

HTML Strip	去除html标签和转换html实体
Mapping	字符串替换操作
Pattern Replace	正则匹配替换

2.6 Token Filter

对输出的单词（term）进行增加、删除、修改等操作。

Lowercase	将所有term转换为小写
stop	删除stop words
NGram	和Edge NGram连词分割
Synonym	添加近义词的term

2.7 自定义分词API

PUT xzw_analyzer

  "settings": 
    "analysis": 
      "analyzer": 
        "my":
          "tokenizer":"punctuation",
          "type":"custom",
          "char_filter":["emoticons"],
          "filter":["lowercase","english_stop"]
        
      ,
      "tokenizer": 
        "punctuation":
          "type":"pattern",
          "pattern":"[.,!?]"
        
      ,
      "char_filter": 
        "emoticons":
          "type":"mapping",
          "mappings":[
              ":)=>_happy_",
              ":(=>_sad_"
            ]
        
      ,
      "filter": 
        "english_stop":
          "type":"stop",
          "stopwords":"_english_"

测试自己定义的分词API：

三、IK分词器

3.1 下载与安装

1、点击此处下载IK分词器的安装包，这里需要注意的是，应该下载与ES版本相对应的安装包。

2、将下载好的安装包上传到ES解压目录的plugins目录下并解压

3、修改所属的用户和用户组

[root@master plugins]# chown -R es:es analysis-ik

4、重新启动ES，发现加载了IK的配置文件，表示安装成功

3.2 IK分词器测试

IK提供了两个分词算法ik_smart和ik_max_word，其中ik_smart为最少切分，ik_max_word为最细粒度划分。

1、最少切分

2、最细切分

以上就是本文的所有内容，比较简单。你们在此过程中遇到了什么问题，欢迎留言，让我看看你们都遇到了哪些问题~

以上是关于八十一ElasticSearch详解（中）的主要内容，如果未能解决你的问题，请参考以下文章