文本挖掘与AI结合,达观数据让机器真正读“懂”文字 | 爱分析访谈
Posted 爱分析ifenxi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了文本挖掘与AI结合,达观数据让机器真正读“懂”文字 | 爱分析访谈相关的知识,希望对你有一定的参考价值。
调研 | 李喆
撰写 | 李喆
文本挖掘是一项相当成熟的技术,十几年前Google、百度就在用文本挖掘技术做搜索引擎和个性化推荐。不过在深度学习等新技术出现后,基于自然语言理解的文本挖掘等技术有了突破性进展,机器可以像人一样读“懂”文字。
对企业而言,每天都在产生大量文档,需要配备大量人员对文档进行归类、整理和分析。这些工作如果能用机器来代替,企业可以节省大量人力成本。通过用文本挖掘技术帮助企业提升运营效率,这就是达观数据看中的“风口”。
达观数据的核心团队来自腾讯文学的数据中心部门,文本挖掘技术积累很深,曾多次斩获国际算法竞赛大奖。2015年底成立达观数据后,整个团队主要在探索如何将文本挖掘技术应用于实际的商业场景。
与Google、百度等通用搜索引擎相比,达观数据更注重对垂直领域的数据进行深入挖掘。通用搜索主要针对网站公开数据,强调的是“大”数据,而垂直搜索则更强调“深”挖掘,其数据模型需要与行业知识相结合,从而产生更精准的效果。
作为一支具备互联网基因的团队,达观数据最初以互联网客户为切入点,为互联网媒体、金融财经资讯类客户提供垂直搜索和个性化推荐服务。
通过早期服务互联网客户,达观数据积累了一定品牌优势,并开始为招商银行、浦发银行等传统金融机构提供针对手机银行客户的个性化推荐业务,为银行客户提供资讯、理财产品的推荐。
爱分析认为,达观数据的优势主要在于技术积累,这种技术积累并非基础算法模型的积累,而是通过服务行业客户,接触到各类行业数据,从而优化算法模型,使其能够满足对该行业文本数据的语义理解。
服务模式上,达观数据主要是以API接口形式提供垂直搜索和个性化推荐引擎,不涉及到具体页面和功能开发,整个产品标准化程度高。尽管大客户对个性化推荐的需求存在一些差异,但推荐系统的底层算法模型基本一致,可复制性强。同时,达观数据采用容器技术对产品进行封装,大大降低了部署工作的难度。
文本挖掘市场目前还是“蓝海”,主要应用在搜索、推荐以及舆情监控等少数领域,偏重于互联网应用,尚未深入到企业内部管理,距离真正依靠文本挖掘技术减少人员工作量,提升运营效率还存在一定距离。
从竞争格局来看,百度、Google等通用搜索引擎不会成为达观数据的主要竞争对手,正如上文所言,垂直搜索和通用搜索侧重点不同,达观数据会更贴近于企业客户的需求。
达观数据的主要竞争对手会来自提供舆情监控的文本挖掘公司,如拓尔思、智慧星光等,这类企业主要服务政府部门和大型企业,在客户关系上有一定优势。不过,随着企业对文本挖掘技术的需求逐步深入,当机器不但能完成企业内部文档归类、分析,甚至还能直接撰写文本时,达观数据的技术积累将会进一步体现出来。
近期,爱分析对达观数据CEO陈运文进行访谈,他阐述了达观数据的业务模式以及竞争优势,现将精彩内容与大家进行分享。
以文本挖掘为核心技术,解决垂直搜索和个性化推荐需求
爱分析:达观数据核心在做文本挖掘,感觉产品还挺多的,选择产品方向上有哪些考虑?
陈运文:我们从公司发展角度,大概会分成两个阶段。第一,文本挖掘技术是个土壤,所有有关文字的分析、挖掘、处理,这些都是基础。第二,在这些基础上,长出来很多应用系统。
比如,我们向企业客户提供垂直搜索引擎,因为当企业的内部文档数量稍微多一点,他们就需要通过搜索引擎去查找感兴趣的内容。除了搜索以外,个性化推荐是个非常强的需求,搜索和推荐看上去是两个产品,背后有大量模块是相通的。
爱分析:之前文本挖掘主要是用来做舆情监控,用到的技术和达观数据的技术类似么?
陈运文:不太一样,舆情监控实际上更浅层,只关注负面新闻、危机公关需求等。我们给企业客户做的文本挖掘业务,是要深入到企业内部。
比如做一些客户评论数据分析、故障设备反馈,需要从历史资料中找到相应解决方案,这是原本舆情监控做不了的。再比如,我们给一个企业做文本分类,之前他们已经有很明确的分类体系,我们要做的是把所有文本自动化分到相应类别。
爱分析:您之前在腾讯也做类似的事情,这背后用到的技术有哪些差异?
陈运文:之前在腾讯,我们主要处理的是新闻资讯、小说等偏娱乐内容。成立达观数据的时候,我们发现每个企业客户都有其独特的文本需求,每个垂直行业的文字特点,文本挖掘需求都是不一样的。
所以,我们需要尊重每个行业文本挖掘习惯,为每个行业定制符合这个行业要求的应用系统,帮助他们自动化完成原先需要靠大量人力完成的工作。
爱分析:达观数据做的搜索与百度等搜索引擎有哪些差异?
陈运文:主要有两点差异,第一,百度主要是通过爬虫抓下来的公开网页信息,我们用的是企业内部提供的第一手数据,互联网上的所有数据,通过爬虫技术只能拿到10%,剩下的数据是无法爬取的,很多是企业内部的数据;第二,我们会拿到企业内部的用户行为数据,这是通用搜索引擎无法拿到的,我们有了这些用户数据后,可以开发更加符合用户场景需求的垂直搜索产品。
爱分析:如果Google、百度将自己的搜索算法引擎开源出来,会对达观数据这样的公司产生影响么?
陈运文:不会,这个事情不是说有个通用技术就可以实现。第一,每个行业需求不一样,通用平台很难解决客户所有需求;第二,本质上我们提供的是服务,需要了解企业实实在在需求,根据需求开发系统并长期优化,这些不是靠一套开源方案能够解决的。
因此,我们现在提供的既有一套优秀的算法模型系统,同时在企业扎扎实实落地,帮这些企业能够解决痛点问题,提升业绩,这是个长期过程。我们现在的收费方式也是客户按年付费。
爱分析:个性化推荐里面的技术门槛有哪些?
陈运文:其实和搜索引擎的技术壁垒是类似的,Google、百度这样的搜索引擎已经诞生十几年,还在有大量工程师每天在做算法开发,对待推荐、待搜索内容的深度挖掘理解是个很难的事情。
让计算来理解人类文章内容、图片内容,技术远没有到成熟的地步,比如中文的自然语义理解,中文是门非常灵活的语言,不同语境下面的同一句话的含义其实是不一样的,这是非常困难的事情,有时候让人来读懂字里行间背后的意思都很难,对机器来说也是很大的挑战。
重点服务互联网媒体、财经资讯以及传统银行等信息化程度高的行业
爱分析:达观数据的业务现在覆盖了哪些行业?
陈运文:我们最早是覆盖互联网媒体行业,之后在金融财经领域拓展客户,比如和讯,他们的文本挖掘和个性化推荐引擎是我们提供的。传统金融机构,如招行、浦发银行,他们的文本挖掘引擎是我们提供的,此外华为、中兴等传统IT厂商也是我们的客户。
爱分析:所以,达观数据给华为、中兴这些大客户提供的产品,展现出来是什么样的?
陈运文:前端部分我们做的相对比较少,这些都是对方业务团队,根据实际需求开发相应的界面、功能,我们提供的是后台引擎,以API形式与前端展示界面对接。
爱分析:从互联网媒体、到财经资讯,再到银行,这样的推广顺序是如何考虑的?
陈运文:首先,这个行业信息化、数据化水平要达到一个比较好的程度。很多企业都没有做数据采集,很可能只是EXCEL里面记账,数据基础没有打牢的话,我们这种服务进去相对比较难。
我们前段时间和神策数据建立战略合作,主要是考虑我们一些客户数据采集这部分工作没有做好,请神策数据来打牢数据基础,我们在上面开发应用系统。
爱分析:产品目前定制化程度如何?
陈运文:我们是按行业定制,很少为客户定制一套全新的系统,但是我们会为一个行业定制算法模型,在这些行业里面拓展应用。
我们和传统软件外包不一样,软件外包每个项目需求都是千变万化。我们做的非常垂直,提供的是搜索引擎、推荐引擎、文本挖掘引擎,基本是标准化产品。
我们主要工作是每个行业的垂直算法模型训练。这需要运用大量的数据,要做很多算法调试,开发一些针对这个行业的算法模型。这方面需要花费较多精力,但因此我们的技术门槛也比较高。
新龙榜
新金融
|
|
|
|
|
|
企业服务
|
|
|
|
其它
| | |
| T |
| | t
W | |
|
| | |
| |
|
| | |
| |
以上是关于文本挖掘与AI结合,达观数据让机器真正读“懂”文字 | 爱分析访谈的主要内容,如果未能解决你的问题,请参考以下文章