json Numbat的Elasticsearch推文映射
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了json Numbat的Elasticsearch推文映射相关的知识,希望对你有一定的参考价值。
# Numbat tweet mapping (elasticsearch)
This mapping is intended to be used with *raw* tweets gathered through the [Twitter river](https://github.com/elastic/elasticsearch-river-twitter).
Additional field for [Sentiment Analysis](https://www.meaningcloud.com/developer/sentiment-analysis) info. Possible values:
* NA: tweets are indexed before being analyzed (and then updated).
* NONE
* N+
* N
* NEU
* P
* P+
It has three additional *nested* objects:
* category: to index tweets with [Text Classification](https://www.meaningcloud.com/developer/text-classification) info.
* code
* label
* relevance
* abs_relevance
* term_list
* concept: to index tweets with [Topics Extraction](https://www.meaningcloud.com/developer/topics-extraction) concepts info.
* appearances
* dictionary
* form
* id
* relevance
* sementity
* semtheme_list
* variants
* entity: to index tweets with [Topics Extraction](https://www.meaningcloud.com/developer/topics-extraction) entities info.
* appearances
* form
* id
* relevance
* sementity
* semtheme_list
* variants
{
"tweet":{
"properties":{
"coordinates":{
"properties":{
"coordinates":{
"type":"geo_point"
}
}
},
"created_at":{
"type":"date",
"format":"dateOptionalTime"
},
"entities":{
"properties":{
"hashtags":{
"properties":{
"indices":{
"type":"integer"
},
"text":{
"type":"string",
"index":"not_analyzed"
}
}
},
"media":{
"properties":{
"display_url":{
"type":"string"
},
"expanded_url":{
"type":"string",
"index":"not_analyzed"
},
"indices":{
"type":"integer"
},
"media_url_https":{
"type":"string"
},
"type":{
"type":"string"
},
"url":{
"type":"string"
}
}
},
"urls":{
"properties":{
"display_url":{
"type":"string"
},
"expanded_url":{
"type":"string",
"index":"not_analyzed"
},
"indices":{
"type":"integer"
},
"url":{
"type":"string"
}
}
},
"user_mentions":{
"properties":{
"id":{
"type":"long"
},
"id_str":{
"type":"string"
},
"indices":{
"type":"integer"
},
"name":{
"type":"string"
},
"screen_name":{
"type":"string",
"index":"not_analyzed"
}
}
}
}
},
"favorite_count":{
"type":"long"
},
"id":{
"type":"long"
},
"id_str":{
"type":"string"
},
"in_reply_to_screen_name":{
"type":"string",
"index":"not_analyzed"
},
"in_reply_to_status_id":{
"type":"long"
},
"in_reply_to_user_id":{
"type":"long"
},
"lang":{
"type":"string",
"index":"not_analyzed"
},
"meta":{
"properties":{
"category":{
"type":"nested",
"properties":{
"abs_relevance":{
"type":"double"
},
"code":{
"type":"long"
},
"label":{
"type":"string",
"index":"not_analyzed"
},
"relevance":{
"type":"double"
},
"term_list":{
"properties":{
"abs_relevance":{
"type":"double"
},
"form":{
"type":"string",
"index":"not_analyzed"
}
}
}
}
},
"concept":{
"type":"nested",
"properties":{
"appearances":{
"type":"long"
},
"dictionary":{
"type":"string"
},
"form":{
"type":"string",
"index":"not_analyzed"
},
"id":{
"type":"string"
},
"relevance":{
"type":"double"
},
"sementity":{
"properties":{
"class":{
"type":"string"
},
"fiction":{
"type":"string"
},
"id":{
"type":"string"
},
"type":{
"type":"string",
"index":"not_analyzed"
}
}
},
"semtheme_list":{
"properties":{
"id":{
"type":"string",
"index":"not_analyzed"
},
"type":{
"type":"string",
"index":"not_analyzed"
}
}
},
"variants":{
"properties":{
"endp":{
"type":"long"
},
"form":{
"type":"string",
"index":"not_analyzed"
},
"inip":{
"type":"long"
}
}
}
}
},
"entity":{
"type":"nested",
"properties":{
"appearances":{
"type":"long"
},
"form":{
"type":"string",
"index":"not_analyzed"
},
"id":{
"type":"string"
},
"relevance":{
"type":"double"
},
"sementity":{
"properties":{
"class":{
"type":"string"
},
"confidence":{
"type":"string"
},
"fiction":{
"type":"string"
},
"id":{
"type":"string"
},
"type":{
"type":"string",
"index":"not_analyzed"
}
}
},
"semtheme_list":{
"properties":{
"id":{
"type":"string"
},
"type":{
"type":"string",
"index":"not_analyzed"
}
}
},
"variants":{
"properties":{
"endp":{
"type":"long"
},
"form":{
"type":"string",
"index":"not_analyzed"
},
"inip":{
"type":"long"
}
}
}
}
}
}
},
"place":{
"properties":{
"bounding_box":{
"properties":{
"coordinates":{
"type":"geo_point"
},
"type":{
"type":"string"
}
}
},
"country":{
"type":"string"
},
"country_code":{
"type":"string",
"index":"not_analyzed"
},
"full_name":{
"type":"string"
},
"name":{
"type":"string"
},
"place_type":{
"type":"string"
}
}
},
"retweet_count":{
"type":"long"
},
"retweeted_status":{
"properties":{
"coordinates":{
"properties":{
"coordinates":{
"type":"geo_point"
}
}
},
"created_at":{
"type":"date",
"format":"dateOptionalTime"
},
"entities":{
"properties":{
"hashtags":{
"properties":{
"indices":{
"type":"integer"
},
"text":{
"type":"string",
"index":"not_analyzed"
}
}
},
"media":{
"properties":{
"display_url":{
"type":"string"
},
"expanded_url":{
"type":"string",
"index":"not_analyzed"
},
"indices":{
"type":"integer"
},
"media_url_https":{
"type":"string"
},
"type":{
"type":"string"
},
"url":{
"type":"string"
}
}
},
"urls":{
"properties":{
"display_url":{
"type":"string"
},
"expanded_url":{
"type":"string",
"index":"not_analyzed"
},
"indices":{
"type":"integer"
},
"url":{
"type":"string"
}
}
},
"user_mentions":{
"properties":{
"id":{
"type":"long"
},
"id_str":{
"type":"string"
},
"indices":{
"type":"integer"
},
"name":{
"type":"string"
},
"screen_name":{
"type":"string",
"index":"not_analyzed"
}
}
}
}
},
"favorite_count":{
"type":"long"
},
"id":{
"type":"long"
},
"id_str":{
"type":"string"
},
"in_reply_to_screen_name":{
"type":"string",
"index":"not_analyzed"
},
"in_reply_to_status_id":{
"type":"long"
},
"in_reply_to_user_id":{
"type":"long"
},
"lang":{
"type":"string",
"index":"not_analyzed"
},
"place":{
"properties":{
"bounding_box":{
"properties":{
"coordinates":{
"type":"geo_point"
},
"type":{
"type":"string"
}
}
},
"country":{
"type":"string"
},
"country_code":{
"type":"string",
"index":"not_analyzed"
},
"full_name":{
"type":"string"
},
"name":{
"type":"string"
},
"place_type":{
"type":"string"
}
}
},
"retweet_count":{
"type":"long"
},
"sentiment":{
"type":"string",
"index":"not_analyzed"
},
"text":{
"type":"string"
},
"user":{
"properties":{
"description":{
"type":"string"
},
"followers_count":{
"type":"long"
},
"friends_count":{
"type":"long"
},
"id":{
"type":"long"
},
"id_str":{
"type":"string"
},
"listed_count":{
"type":"long"
},
"location":{
"type":"string"
},
"name":{
"type":"string"
},
"profile_banner_url":{
"type":"string"
},
"profile_image_url_https":{
"type":"string"
},
"screen_name":{
"type":"string",
"index":"not_analyzed"
},
"url":{
"type":"string"
},
"verified":{
"type":"boolean"
}
}
}
}
},
"sentiment":{
"type":"string",
"index":"not_analyzed"
},
"text":{
"type":"string"
},
"user":{
"properties":{
"description":{
"type":"string"
},
"followers_count":{
"type":"long"
},
"friends_count":{
"type":"long"
},
"id":{
"type":"long"
},
"id_str":{
"type":"string"
},
"listed_count":{
"type":"long"
},
"location":{
"type":"string"
},
"name":{
"type":"string"
},
"profile_banner_url":{
"type":"string"
},
"profile_image_url_https":{
"type":"string"
},
"screen_name":{
"type":"string",
"index":"not_analyzed"
},
"url":{
"type":"string"
},
"verified":{
"type":"boolean"
}
}
}
}
}
}
以上是关于json Numbat的Elasticsearch推文映射的主要内容,如果未能解决你的问题,请参考以下文章
用Python解析Elasticsearch的json输出。
Elasticsearch使用 Elasticsearch Painless 脚本以递归方式遍历 JSON 字段
使用 Elasticsearch NEST C# 索引 Json 文档