达观数据CTO 纪达麒:基于阿里云计算底座,打造智能办公机器人

Posted 弹性计算百晓生

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了达观数据CTO 纪达麒:基于阿里云计算底座,打造智能办公机器人相关的知识,希望对你有一定的参考价值。

“机器人”一词最早出现在1921年卡雷尔·卡佩克(Karel Capek)创作的一部科幻剧中,而在科学智能技术创新发展百年后的今天,智能机器人已经成为了一个可以应用于各个行业的前沿科技产品,代替人类从事繁琐重复的单调劳动。

随着人工智能技术的进步,智能机器人产业如雨后春笋般蓬勃发展,政策指导、社会环境、科技突破和就业形势均呈上升姿态,目前智能机器人已在制造、办公等全球范围内的多个领域占有“一席之地”。大势所趋,同时也在行业刚需的促使下,达观数据应运而生。

达观数据是一家为企业提供各类场景智能办公机器人的国家高新技术企业,荣获中国人工智能领域最高奖“吴文俊人工智能奖”、国家级专精特新“小巨人”企业等荣誉资质。达观利用先进的自然语言处理(NLP)、光学字符识别(OCR)、机器人流程自动化(RPA)、知识图谱等技术,为大型企业和政府机构提供办公流程自动化、文档智能审阅、文字识别、企业级垂直搜索、智能推荐等智能办公机器人产品,让计算机协助人工完成业务流程自动化,大幅度提高企业效率与智能化水平。

【图】达观数据CTO 纪达麒

云原生企业,达观数据七年持续选择阿里云

实际上,达观数据是一家云原生企业,2015年成立以来一直选择阿里云作为底层基础设施的支撑,“有了阿里云的支撑,也让达观数据能够更加专注地进行业务场景研发。”达观数据CTO 纪达麒说道。

谈到当初为何选择阿里云时,纪达麒表示,“达观数据刚刚成立初期,只有10个人,当时的基础设施有两个选择:自建机房或者上云。但考虑到自建机房初始投入成本很高,还需配备专业的运维能力,团队成员仍希望将更多的精力投入到产品研发上面,所以选择了上云。而阿里云作为业界上云首选云厂商,自然而然就成了达观数据的第一选择,也是没有过多讨论和犹豫的第一选择。”

随着业务发展,在阿里云的合作过程中团队成员们发现阿里云的服务器极为稳定和可靠,服务响应迅速,即使在非工作时间也会有专业的人员积极支持和配合排查问题。而随着业务发展,达观数据越来越多的SaaS客户也都选择了阿里云,与客户选择同一云平台,还可以通过内网进行传输、减少延迟,客户也拥有了更好的体验,这也是达观数据持续选择阿里云的原因。

神龙架构,超强算力助力达观数据加速业务创新

达观数据的核心是做文本智能处理,通过自研的NLP、OCR、RPA以及多个行业知识图谱小样本学习算法,成功为百余家企业客户提供智能化服务,有效实现了规模化的商业应用。但客户的诉求和自身技术的创新要求在不断增加,导致在计算性能、资源的弹性和稳定性方面的问题也面临着不同的挑战。

对于智能办公机器人,企业客户的诉求是希望又快、又准、又稳定地进行数据处理,比如excel表格解析、word文档内容审核等工作,这也是最常见的场景,本质上是数据录入。基于此客户诉求,就要求达观数据不断升级算法,打磨产品,深耕各行业多种场景,以便更好地服务客户;另一方面对基础设施底层也提出了更高的要求,包括足够的算力、稳定的环境、监控报警等等。

在AI算法这块,不论是NLP(自然语言处理技术)还是OCR(文字识别技术),都需要大量的计算资源和比较多的CPU机器,但自建机房的初始成本过高,还需要搭配专业的运维能力进行辅助,依托阿里云自研的软硬一体的神龙架构提供的超强算力和高稳定性,帮助达观数据有效提升了AI算法的研发效率,极致的弹性也让达观数据可以根据客户的需要,随时地快速扩容,在算力保障的同时,超强的稳定性也让达观数据为客户提供了更加稳定、安全的服务

目前,达观智能办公机器人已经广泛运用于金融、制造、通信、法律、审计、媒体、银行、政府等多种文字密集型行业。其中,针对券商客户,业务中涉及了大量非结构化银行流水数据,业务人员需要从中获取关键流水数据信息,才能分析企业流水真实性情况、股权穿透情况以及企业现金流情况,达观数据的流水智能核查系统能使系统平台的综合工作效率较人工提升达人员的5-10倍;使得其券商客户体验进一步提升进步,无缝衔接客户核心诉求,满足客户要求。

持续创新,达观数据为行业客户赋能

基于阿里云平台,达观数据打造达观智能服务引擎,提供更加创新的企业服务,已广泛用于金融、政务、制造、医疗、教育供应链等行业;同时打造了达观产品体系,完善了客户的服务流程,做到了指标提升、产品提升、以及业务提升。

纪达麒表示:“未来,达观数据将与阿里云继续紧密合作,实现技术创新,让重复的工作和繁琐的办公流程更加自动化和智能化,为企业客户带来更大价值,为数字化办公行业保驾护航。”

福利时间:阿里云采购季活动继续进行中,整个3月天天有惊喜,老用户续费6.5折起。点击链接,参与续费享折扣优惠。

 

阿里云专家带你揭秘云计算数据底座——对象存储

云计算是新一代的IT 技术,也是数字化转型的新基础设施。有了云计算平台,大数据技术才得以迅猛发展。

怎样获取、存储、处理、应用数据,是一整套方法论,也要有一整套的工具。

对象存储因云而生,是面向各种计算应用的存储资源池,提供弹性的服务化能力。

随着各行业数字化的蓬勃发展和企业数字化的转型,数据迎来爆炸式增长,2020 年全球产生的数据预估是 59ZB,2025 年预计达到 175ZB。

尽管产生了大量的数据,但只有大约 10% 的数据被存储下来,大约只有 5% 的数据被分析过,低成本、易管理、易分析的存储需求驱动了对象存储的产生和发展。

1

为什么对象存储是云计算数据存储底座呢?
云计算从本质上就涉及两件事:

一是用分布式技术替代了集中化技术,取代了原有的小型机、大型机、集中式存储、集中式数据库等,这是互联网公司崛起带来的一个显著现象。分布式技术巨大地提升了运行效率,把IT 设施更加统一化和一致化,被产品化之后就成了如今的云计算;

二是云本身也发生了很大的变化,把所有计算资源整合成计算资源池,所有存储资源整合成存储资源池,通过数据在计算资源池和存储资源池之间流动产生价值。

对象存储提供简单易扩展的名字空间,它通过RESTful 接口提供了在任何时间、任何地点、任何互联网设备上进行上传和下载数据的能力。

通过分布式存储技术的加持,跨数据中心和跨地域的容错能力,对象存储具备低成本、高可靠和易扩展的优势。对象存储在合规性、安全性、管理、生态、数据湖等领域不断发展,满足业务的需求,促进业务的创新。

随着云计算的发展,对象存储已成为事实标准的云存储。自动驾驶汽车、智能手机、平板电脑、IoT 设备等可以通过移动网络便捷的通过互联网访问对象存储,公共云、混合云的计算服务器也可以通过专有网络 VPC访问对象存储。不同网络流入的数据都能存储在对象存储相同的资源池中,从而自然而然成为云计算的数据存储底座。

2

对象存储前世今生
1956 年IBM 发布350 Disk Storage Unit,它是第一代真正意义上的磁盘存储。它的体积约为2 个中等大小的冰箱,只能存放3.75 MB 数据。2020 年的20TB 硬盘容量是第一代硬盘的560 万倍,尺寸也只有普通人手掌大小。

尽管盘的技术在飞速发展,但它无法解决单块盘出现故障带来的数据丢失问题。为此业界引入了廉价磁盘冗余阵列(RAID)技术,并逐步演化为存储区域网络(SAN),提供高可靠、高可用、高性能的块存储。

块存储只能提供线性地址空间,本身不具备数据管理能力,无法直接存放一张图片、一首音乐、一段视频,需要在它之上格式化文件系统来满足。但文件系统不擅长数据共享,从而演进到网络附加存储(NAS),服务器通过挂载指定NAS的网络IP地址访问共享文件夹,实现数据的高效共享。

网络附加存储随着保存文件的不断增多,海量文件管理成为难题,对象存储技术诞生就是为了解决该问题,它通过桶和对象的平坦模式组织数据,实现横向海量扩展。

存储始终围绕着高可靠、高可用、高扩展、易用性等需求不断演进,对象存储是存储技术不断迭代、持续发展的结果,直至演化为云计算至关重要的基础产品服务。

在阿里云对象存储负责人罗庆超老师所写的《对象存储实战指南》一书中,深入浅出地将对象存储发展历史娓娓道来。

3

这是一本怎样的书
▊ 题目前沿,现有参考资料较少

对象存储 OSS成功对接了云计算上丰富的数据分析技术生态,在它不断发展过程中支撑了大量热门领域。

为“城市大脑”提供海量图片和视频的高可靠、易扩展 7 x 24 不间断存储。

在新冠早期支撑钉钉实现1周内10倍扩容,保障钉钉 3 亿用户远程办公。

奥运会体育视频利用对象存储的智能处理、高效分发让媒体转播更有效、成本更低。

对象存储 OSS 作为公共云的IaaS服务,为PaaS和SaaS提供基础的数据存储平台,支持各种前沿创新场景,为数据湖、混合云、移动网络5G、人工智能等新领域提供数据存储基石。

▊ 从实践中来,到实践中去

本书从对象存储 OSS的业务需求出发,从客户实际痛点提炼产品特性,深入学界和高校学者合作创新的架构原理和特性实现,再将领先的技术转化为代码实现的功能规格,同行业专家、客户一起应用到实际生产,推动行业数字化发展。

通过理论设计和产品实践的螺旋上升,让对象存储 OSS 实现 12 个 9 的高可靠和99.99%的高可用能力,达到业界领先。在整个过程中,也总结了一套入门使用、数据迁移、安全合规、数据保护、应用场景最佳实践的实战指南。

▊ 架构清晰,写作流畅

本书从分布式存储基础架构入手,结合技术原理和产品实践展开讨论,并从入门和使用维度深入介绍对象存储服务 OSS 的应用实战。

全书分为三篇:

第一篇,基础与原理;

第二篇,操作和使用;

第三篇,总结与展望。

4

本书主要内容




5

你可以收获什么
▊ 掌握存储发展历史

通过块存储、文件存储、对象存储的技术演进史,了解技术发展背后的问题驱动。

▊ 理解分布式系统技术原理

深入浅出的分析分布式领域的单点技术原理,特别是存储系统最关键的数据完整性。

▊ 实战对象存储OSS配置管理

实操入门上手、数据迁移、安全合规、数据保护以及应用场景最佳实践,助你成为使用云计算对象存储服务的合格管理员。

▊ 前瞻对象存储未来发展新趋势

介绍对象存储支持的业界新趋势,了解新赛道的场景需求、技术方案。

6

听听专家怎么说
本书为阿里云内部核心技术人员所著,从分布式存储基础架构入手,结合技术原理和产品实践展开讨论,并从入门和使用维度深入介绍对象存储的应用实战。阿里云对象存储的产品验证和客户场景最佳实践,具有重大的参考意义和示范效应。

——舒继武 清华大学教授,中国计算机学会信息存储技术专业委员会主任

“稳定安全高性能、普惠智能新存储”是阿里云存储的理念,不断优化服务质量、降低使用成本、提高客户易用性,让数据存取随处可得。本书通过最佳实践介绍如何更好地配置和使用对象存储,有助于读者了解对象存储并对数字时代创新有更加深入的认识。

——张建锋(行癫) 阿里云智能总裁

阿里的对象存储从早期的TFS系统演化至今,经受了大规模业务的考验,已经是世界上较为成熟的产品之一。本书介绍的对象存储基于盘古存储引擎实现,后者和存储产品结合已进行研发演进。

——蒋江伟(小邪) 阿里云高级研究员

本书结合阿里云十几年在分布式存储领域和对象存储领域的研发实践,理论结合实践阐述了对象存储领域的关键技术,深入地分析和总结了阿里云存储的实践和创新。

——吴结生 阿里云高级研究员

我对本书的评价是两个字:严谨,本书兼具教科书的架构感和工具书的实用性。本书给大家展示的是数千PB 数据下的大规模实践。

——陈绪 阿里云技术战略总监

7

作者简介

罗庆超
阿里巴巴资深技术专家,阿里云对象存储负责人,在企业存储和云存储领域有丰富的技术与产品经验。

曾就职于世界500强以及知名跨国公司的存储团队,负责过高端存储阵列的数据路径架构设计和开发,作为海量存储首席架构师负责文件存储、对象存储以及下一代分布式云存储的架构设计和实现,同时在灾备以及数据管理领域亦有多年开发和运维经验。

带领技术研发团队,多次在大规模商业项目中成功落地。毕业于电子科技大学计算机系统架构专业,并获得硕士学位,在相关技术研究领域,支持并参与多本行业专业书籍的编写工作,被授予包括块存储、文件存储、对象存储、数据湖等方向的20多项发明专利,技术成果成功应用到产品创新迭代。

如果想要更多地了解对象存储的历史由来、技术细节、实战操作和未来展望,欢迎阅读《对象存储实战指南》一书。

以上是关于达观数据CTO 纪达麒:基于阿里云计算底座,打造智能办公机器人的主要内容,如果未能解决你的问题,请参考以下文章

联想首次详解混合云Lenovo xCloud五大优势,如何打造智能化数字底座

阿里云专家带你揭秘云计算数据底座——对象存储

全栈自研“AI大底座”发布!百度智能云:智能计算基础设施正面临全面升级...

阿里云混合云Apsara Stack 2.0发布 加速政企数智创新

阿里云混合云Apsara Stack 2.0发布 加速政企数智创新

阿里云混合云Apsara Stack 2.0发布,加速政企数智创新