json Numbat的Elasticsearch推文映射

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了json Numbat的Elasticsearch推文映射相关的知识,希望对你有一定的参考价值。

# Numbat tweet mapping (elasticsearch)
This mapping is intended to be used with *raw* tweets gathered through the [Twitter river](https://github.com/elastic/elasticsearch-river-twitter).

Additional field for [Sentiment Analysis](https://www.meaningcloud.com/developer/sentiment-analysis) info. Possible values:
* NA: tweets are indexed before being analyzed (and then updated).
* NONE
* N+
* N
* NEU
* P
* P+

It has three additional *nested* objects:
* category: to index tweets with [Text Classification](https://www.meaningcloud.com/developer/text-classification) info.
  * code
  * label
  * relevance
  * abs_relevance
  * term_list
* concept: to index tweets with [Topics Extraction](https://www.meaningcloud.com/developer/topics-extraction) concepts info.
  * appearances
  * dictionary
  * form
  * id
  * relevance
  * sementity
  * semtheme_list
  * variants
* entity: to index tweets with [Topics Extraction](https://www.meaningcloud.com/developer/topics-extraction) entities info.
  * appearances
  * form
  * id
  * relevance
  * sementity
  * semtheme_list
  * variants
{
   "tweet":{
      "properties":{
         "coordinates":{
            "properties":{
               "coordinates":{
                  "type":"geo_point"
               }
            }
         },
         "created_at":{
            "type":"date",
            "format":"dateOptionalTime"
         },
         "entities":{
            "properties":{
               "hashtags":{
                  "properties":{
                     "indices":{
                        "type":"integer"
                     },
                     "text":{
                        "type":"string",
                        "index":"not_analyzed"
                     }
                  }
               },
               "media":{
                  "properties":{
                     "display_url":{
                        "type":"string"
                     },
                     "expanded_url":{
                        "type":"string",
                        "index":"not_analyzed"
                     },
                     "indices":{
                        "type":"integer"
                     },
                     "media_url_https":{
                        "type":"string"
                     },
                     "type":{
                        "type":"string"
                     },
                     "url":{
                        "type":"string"
                     }
                  }
               },
               "urls":{
                  "properties":{
                     "display_url":{
                        "type":"string"
                     },
                     "expanded_url":{
                        "type":"string",
                        "index":"not_analyzed"
                     },
                     "indices":{
                        "type":"integer"
                     },
                     "url":{
                        "type":"string"
                     }
                  }
               },
               "user_mentions":{
                  "properties":{
                     "id":{
                        "type":"long"
                     },
                     "id_str":{
                        "type":"string"
                     },
                     "indices":{
                        "type":"integer"
                     },
                     "name":{
                        "type":"string"
                     },
                     "screen_name":{
                        "type":"string",
                        "index":"not_analyzed"
                     }
                  }
               }
            }
         },
         "favorite_count":{
            "type":"long"
         },
         "id":{
            "type":"long"
         },
         "id_str":{
            "type":"string"
         },
         "in_reply_to_screen_name":{
            "type":"string",
            "index":"not_analyzed"
         },
         "in_reply_to_status_id":{
            "type":"long"
         },
         "in_reply_to_user_id":{
            "type":"long"
         },
         "lang":{
            "type":"string",
            "index":"not_analyzed"
         },
         "meta":{
            "properties":{
               "category":{
                  "type":"nested",
                  "properties":{
                     "abs_relevance":{
                        "type":"double"
                     },
                     "code":{
                        "type":"long"
                     },
                     "label":{
                        "type":"string",
                        "index":"not_analyzed"
                     },
                     "relevance":{
                        "type":"double"
                     },
                     "term_list":{
                        "properties":{
                           "abs_relevance":{
                              "type":"double"
                           },
                           "form":{
                              "type":"string",
                              "index":"not_analyzed"
                           }
                        }
                     }
                  }
               },
               "concept":{
                  "type":"nested",
                  "properties":{
                     "appearances":{
                        "type":"long"
                     },
                     "dictionary":{
                        "type":"string"
                     },
                     "form":{
                        "type":"string",
                        "index":"not_analyzed"
                     },
                     "id":{
                        "type":"string"
                     },
                     "relevance":{
                        "type":"double"
                     },
                     "sementity":{
                        "properties":{
                           "class":{
                              "type":"string"
                           },
                           "fiction":{
                              "type":"string"
                           },
                           "id":{
                              "type":"string"
                           },
                           "type":{
                              "type":"string",
                              "index":"not_analyzed"
                           }
                        }
                     },
                     "semtheme_list":{
                        "properties":{
                           "id":{
                              "type":"string",
                              "index":"not_analyzed"
                           },
                           "type":{
                              "type":"string",
                              "index":"not_analyzed"
                           }
                        }
                     },
                     "variants":{
                        "properties":{
                           "endp":{
                              "type":"long"
                           },
                           "form":{
                              "type":"string",
                              "index":"not_analyzed"
                           },
                           "inip":{
                              "type":"long"
                           }
                        }
                     }
                  }
               },
               "entity":{
                  "type":"nested",
                  "properties":{
                     "appearances":{
                        "type":"long"
                     },
                     "form":{
                        "type":"string",
                        "index":"not_analyzed"
                     },
                     "id":{
                        "type":"string"
                     },
                     "relevance":{
                        "type":"double"
                     },
                     "sementity":{
                        "properties":{
                           "class":{
                              "type":"string"
                           },
                           "confidence":{
                              "type":"string"
                           },
                           "fiction":{
                              "type":"string"
                           },
                           "id":{
                              "type":"string"
                           },
                           "type":{
                              "type":"string",
                              "index":"not_analyzed"
                           }
                        }
                     },
                     "semtheme_list":{
                        "properties":{
                           "id":{
                              "type":"string"
                           },
                           "type":{
                              "type":"string",
                              "index":"not_analyzed"
                           }
                        }
                     },
                     "variants":{
                        "properties":{
                           "endp":{
                              "type":"long"
                           },
                           "form":{
                              "type":"string",
                              "index":"not_analyzed"
                           },
                           "inip":{
                              "type":"long"
                           }
                        }
                     }
                  }
               }
            }
         },
         "place":{
            "properties":{
               "bounding_box":{
                  "properties":{
                     "coordinates":{
                        "type":"geo_point"
                     },
                     "type":{
                        "type":"string"
                     }
                  }
               },
               "country":{
                  "type":"string"
               },
               "country_code":{
                  "type":"string",
                  "index":"not_analyzed"
               },
               "full_name":{
                  "type":"string"
               },
               "name":{
                  "type":"string"
               },
               "place_type":{
                  "type":"string"
               }
            }
         },
         "retweet_count":{
            "type":"long"
         },
         "retweeted_status":{
            "properties":{
               "coordinates":{
                  "properties":{
                     "coordinates":{
                        "type":"geo_point"
                     }
                  }
               },
               "created_at":{
                  "type":"date",
                  "format":"dateOptionalTime"
               },
               "entities":{
                  "properties":{
                     "hashtags":{
                        "properties":{
                           "indices":{
                              "type":"integer"
                           },
                           "text":{
                              "type":"string",
                              "index":"not_analyzed"
                           }
                        }
                     },
                     "media":{
                        "properties":{
                           "display_url":{
                              "type":"string"
                           },
                           "expanded_url":{
                              "type":"string",
                              "index":"not_analyzed"
                           },
                           "indices":{
                              "type":"integer"
                           },
                           "media_url_https":{
                              "type":"string"
                           },
                           "type":{
                              "type":"string"
                           },
                           "url":{
                              "type":"string"
                           }
                        }
                     },
                     "urls":{
                        "properties":{
                           "display_url":{
                              "type":"string"
                           },
                           "expanded_url":{
                              "type":"string",
                              "index":"not_analyzed"
                           },
                           "indices":{
                              "type":"integer"
                           },
                           "url":{
                              "type":"string"
                           }
                        }
                     },
                     "user_mentions":{
                        "properties":{
                           "id":{
                              "type":"long"
                           },
                           "id_str":{
                              "type":"string"
                           },
                           "indices":{
                              "type":"integer"
                           },
                           "name":{
                              "type":"string"
                           },
                           "screen_name":{
                              "type":"string",
                              "index":"not_analyzed"
                           }
                        }
                     }
                  }
               },
               "favorite_count":{
                  "type":"long"
               },
               "id":{
                  "type":"long"
               },
               "id_str":{
                  "type":"string"
               },
               "in_reply_to_screen_name":{
                  "type":"string",
                  "index":"not_analyzed"
               },
               "in_reply_to_status_id":{
                  "type":"long"
               },
               "in_reply_to_user_id":{
                  "type":"long"
               },
               "lang":{
                  "type":"string",
                  "index":"not_analyzed"
               },
               "place":{
                  "properties":{
                     "bounding_box":{
                        "properties":{
                           "coordinates":{
                              "type":"geo_point"
                           },
                           "type":{
                              "type":"string"
                           }
                        }
                     },
                     "country":{
                        "type":"string"
                     },
                     "country_code":{
                        "type":"string",
                        "index":"not_analyzed"
                     },
                     "full_name":{
                        "type":"string"
                     },
                     "name":{
                        "type":"string"
                     },
                     "place_type":{
                        "type":"string"
                     }
                  }
               },
               "retweet_count":{
                  "type":"long"
               },
               "sentiment":{
                  "type":"string",
                  "index":"not_analyzed"
               },
               "text":{
                  "type":"string"
               },
               "user":{
                  "properties":{
                     "description":{
                        "type":"string"
                     },
                     "followers_count":{
                        "type":"long"
                     },
                     "friends_count":{
                        "type":"long"
                     },
                     "id":{
                        "type":"long"
                     },
                     "id_str":{
                        "type":"string"
                     },
                     "listed_count":{
                        "type":"long"
                     },
                     "location":{
                        "type":"string"
                     },
                     "name":{
                        "type":"string"
                     },
                     "profile_banner_url":{
                        "type":"string"
                     },
                     "profile_image_url_https":{
                        "type":"string"
                     },
                     "screen_name":{
                        "type":"string",
                        "index":"not_analyzed"
                     },
                     "url":{
                        "type":"string"
                     },
                     "verified":{
                        "type":"boolean"
                     }
                  }
               }
            }
         },
         "sentiment":{
            "type":"string",
            "index":"not_analyzed"
         },
         "text":{
            "type":"string"
         },
         "user":{
            "properties":{
               "description":{
                  "type":"string"
               },
               "followers_count":{
                  "type":"long"
               },
               "friends_count":{
                  "type":"long"
               },
               "id":{
                  "type":"long"
               },
               "id_str":{
                  "type":"string"
               },
               "listed_count":{
                  "type":"long"
               },
               "location":{
                  "type":"string"
               },
               "name":{
                  "type":"string"
               },
               "profile_banner_url":{
                  "type":"string"
               },
               "profile_image_url_https":{
                  "type":"string"
               },
               "screen_name":{
                  "type":"string",
                  "index":"not_analyzed"
               },
               "url":{
                  "type":"string"
               },
               "verified":{
                  "type":"boolean"
               }
            }
         }
      }
   }
}

以上是关于json Numbat的Elasticsearch推文映射的主要内容,如果未能解决你的问题,请参考以下文章

用Python解析Elasticsearch的json输出。

Elasticsearch使用 Elasticsearch Painless 脚本以递归方式遍历 JSON 字段

Elasticsearch 返回空的 json 对象

使用 Elasticsearch NEST C# 索引 Json 文档

Elasticsearch 使用 Golang Beats 返回原始 JSON

NEST/Elasticsearch.Net 发送原始JSON请求(Post数据)