专访:华为云搜索与Elasticsearch的故事

Posted Elastic中文社区

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了专访:华为云搜索与Elasticsearch的故事相关的知识,希望对你有一定的参考价值。


Elastic 中国开发者大会马上就要在本周六开始了,精彩议题,干货多多,小编采访了作为这次大会的战略级合作伙伴华为的华为云搜索服务团队的技术专家,一起来聊一聊华为与 Elasticsearch 的故事,下面是访谈的文字实录:


社区小编:这位华为的技术小哥哥,可以麻烦给大家自我介绍一下么?


华为云技术哥哥:好的,大家好,我是华为云云搜索服务团队的一员,目前在  CloudBU EI服务产品部中负责云搜索服务相关的工作。这次代表整个团队接受 Elastic 中文社区的采访,非常荣幸。IT 人员的兴趣好像都差不多:-),就从我们团队的成员来看,大家的兴趣基本上都在体育运动和技术两个方面。现在 IT 技术发展很快,新技术也层出不穷。但是不管怎么变化,都离不开对数据的计算和存储。因此,我们平时关注比较多的也是存储、数据库、大数据相关的技术。当前人工智能比较热,我们也在不断学习,希望能把AI技术能和大数据处理技术结合起来,让我们在云上提供的服务更智能。

 

社区小编:可以给大家介绍一下你们与 Elasticsearch 的故事,比如从什么时候开始接触,当时做什么?


华为云技术哥哥:说起 Elasticsearch,最初接触也是大概4年前了。当时我们在做一个 OM 平台的项目,其中要做一个日志分析模块,那个时候开始和 Elasticsearch 打交道。应该是1.4版本,当时用得还不深,我们由于要做 Schema on Read,自己用 HBase + Storm写了一个日志交互检索的工具。后面随着工作中遇到很多 Schema on Write的场景,加上性能上 ES 好很多,逐步的用 ES 越来越多了。这个过程就发现 ES 发展是很快的,像 Pipeline Aggregation、Reindex、Index Sorting 等很多我们实际场景中需要的东西都随着版本更新上来了,就感觉这个产品很不错,值得长期使用。后来我们在使用过程中,Elasticsearch 的用途越来越广泛,自己也对它做了一定的扩展。不光是日志分析,也有 Web 的检索、数据库的检索,包括我们现在正在做的AI相关的检索能力等等。

 

社区小编:那现在华为内部是如何使用 Elasticsearch 的呢?


华为云技术哥哥:恩,目前我们自己使用 Elasticsearch 主要是运维。 我们搭建了 filebeat+logstash+Elasticsearch+Kibana 的日志方案,做管理面节点软件的日志收集、统计和展示。因为我们云搜索服务中已经包含了 Elasticsearch 和 Kibana,所以我们使用自己的产品,来运维客户的云搜索服务集群。根据获取到的监控指标、运维日志,做图形化监控及告警。

 

社区小编:恩,华为内部使用 Elasticsearch 的一些典型应用场景,总体架构又是如何的呢?


华为云技术哥哥:华为内部使用 Elasticsearch 的典型应用场景主要集中在日志分析和站内搜索,还有一些团队将 Elasticsearch 与 AI 结合起来,做一些向量方面的检索。每个场景不一样,架构也是不一样的,像典型的日志场景,需要考虑数据入库那一段时间的高负载,可以将用来承担 index 功能的 ES 部署在高性能的硬件上面,待数据完成导入集群负载低了后通过 reindex 到指定的 search 集群。对于站内搜索这种要求准确性高和时延低的场景,可以考虑用空间换取搜索的准确性,也有使用自研分词器来提升准确性的,同时也可以在 ES 上面加一层缓存用来提高搜索响应性能。

 

社区小编:您所负责的华为云搜索,具体是一个什么样的产品,和其他的云服务有什么不一样?


华为云技术哥哥:我们的云搜索服务,提供给用户在华为云上方便使用 Elasticsearch 的一个渠道,帮助用户完成了部署、监控、扩容等繁琐又关键的事务,并且帮助用户保障高可靠与高可用,当前有不少客户已经在生产系统中使用了云搜索服务。同时我们还提供一些功能上的改进,包括分词能力的扩展,AI 能力的扩展等。

云搜索服务提供了自研的分词能力,对于分词质量的提升、新词发现等都有帮助。

AI 上我们提供了基于点击流改进排序结果的能力,我们内部俗称“越搜越准”。

同时,为了适应 AI 与多媒体领域不同于传统文本领域的检索需求,我们还提供了基于临近算法的检索模式,支持 AI 与多媒体处理中对向量数据的检索。

 

社区小编:目前 Elasticsearch 集群规模怎么样? 你们云服务的数据接入是如何做的?


华为云技术哥哥:云搜索服务运行在用户的虚拟专用网络内(VPC),因此,如果用户的应用在华为云的 VPC 内部,是可以直接访问的。

如果用户的应用在华为云外部,那访问云搜索服务时,数据需要从云下到云上。

当前的数据接入需借助其他途径;当前主要有两种方式:

1)借助云数据迁移(CDM)或者数据接入服务(DIS)等云上服务;该方法主要适用于批量或者实时数据的接入。

2)借助绑定弹性 IP(EIP)的弹性云服务器(ECS),使用 nginx 进行代理转发。该方法主要适用于访问请求。

 

社区小编:哦,那现在有没有一些典型客户案例和典型的应用场景? 


华为云技术哥哥:当前云搜索的客户遍及各行各业。从使用场景上来说,基本上集中于站内搜索、日志分析和商业分析三个场景。

就站内搜索场景来说,我们有一个比较典型的客户,是国内知名的互联网企业,其主要是做社交 APP,搜索就是他们 APP 中很重要的一个功能。因为是对最终消费者提供在线服务,搜索用户、搜索发帖、基于地理位置搜索等等都需要实时、精准来提升用户体验。因为注册用户量比较大,所以他们也尝试过自己搭建 ES 集群,但是由于缺乏经验,碰到问题解决比较慢,最终搜索效果也欠佳。使用了云搜索服务后,在华为专业技术能力的帮助下,做到了10亿条数据量下的复杂搜索,在500ms内完成。并且根据其自身业务特点,通过自定义词库、自定义权重等方式有效提升了搜索精准度。

在日志分析场景上,因为 ELK 是一套比较成熟的方案,而云搜索服务又可以快速的部署E(Elasticsearch)和K(Kibana),所以,我们有用户在很短的时间内就上手了 ELK,把他们应用的日志收集起来,进行问题排查和分析,大大的提高了解决问题的效率。

 

社区小编:不错,关于本次大会,你们好像也有一个分享,不知道会给大家带来有什么样的议题?


华为云技术哥哥:这次大会主要是给大家带来一些华为云搜索服务在 Elasticsearch 上的一些实践。大家都知道当前AI很火热,怎么把大数据技术和AI技术结合起来,一直是云搜索团队在探索尝试的方向。这次,我们有专家会给大家分享一下我们在图像搜索、音乐检索、搜索结果优化、智能分词等方面所做的一些智能化探索。这些技术,也都是华为在自己的实践中总结探索出来的,内部都有应用。现在在华为云上,作为云服务开放出来,供大家使用。

 

社区小编:作为本次唯一的战略级别的赞助商,可以谈谈你们为什么愿意赞助本次大会么?  


华为云技术哥哥:Elastic Stack 是非常优秀的开源软件,Elastic 公司也是坚持开源非常彻底的公司之一,这一点非常令人敬佩。因此,这次大会,我们也希望能让更多的开发者了解优秀的技术,相互学习,促进技术的进一步发展。

 

社区小编: 感谢华为对 Elastic 的大力支持,那么对于即将推出的 Elastic Stack 版本,你们有什么期待呢?  


华为云技术哥哥:我们知道 Elasticsearch 的一次查询会发往 index 的每个分片的 segment,一次查询的最慢时间取决于最慢的那个节点,社区能不能针对特定的数据比如说时序数据开放出一个配置,配置完之后,任意的时序数据查询能够直接过滤出目标数据所在的分片,而不用查询所有的分片。

 

社区小编:好的,我会反馈给我们的开发小哥哥,请问你如何看待 Elastic 及其开源技术在中国的发展,预计未来怎么样?


华为云技术哥哥:Elastic 及其开源技术的发展,促进了国内很多领域的发展,也丰富了其生态内容。作为基础服务/平台,未来植根于其上的业务将会更加丰富多彩。


社区小编:好的,非常感谢接受我们的采访,也再次感谢华为对本次大会的大力支持,我们大会见。


后记:Elastic 开发者大会将于11月10在深圳 JW 万豪酒店举行,大会门票已经售罄,不在现场的同学可以点击【阅读原文】来访问大会网站的直播页面来收看上午的直播。


华为云:https://www.huaweicloud.com/product/es.html


以上是关于专访:华为云搜索与Elasticsearch的故事的主要内容,如果未能解决你的问题,请参考以下文章

专访腾讯云王琰:下一代CDN如何与智能AI及物联网打通?

墨天轮专访第四期华为云GaussDB苏光牛:发挥生态优势,培养应用型DBA

大数据包围你我,技术人如何走知识分享之路

转:在ElasticSearch之下(图解搜索的故事)

云享·人物开发者故事:从智慧园区智慧金融到智能制造,我们在华为云上实现了降本增效

云图说|ROMA演进史:一个ROMA与应用之间不得不说的故事