金智塔CTO陈超超:构建产学研用价值闭环,持续探索隐私计算技术前沿 | 数据猿专访...
Posted 数据猿
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了金智塔CTO陈超超:构建产学研用价值闭环,持续探索隐私计算技术前沿 | 数据猿专访...相关的知识,希望对你有一定的参考价值。
数据智能产业创新服务媒体
——聚焦数智 · 改变商业
随着《数据安全法》和《个人信息保护法》的陆续出台,国内对数据分级分类管理、数据安全保护等要求逐渐上升至新台阶。而雏形阶段的Web3.0,其去中心化、链上数据可查等核心属性亦需得到隐私保护。
在此背景之下,以隐私计算为代表的数据流通关键技术迅速发展,为数据要素安全、合规、有序流通交易提供了技术支撑。
作为释放数据价值的新兴技术,隐私计算相关技术虽已得到理论层面的证明,但实际应用落地仍需融合不同技术流派,甚至需要结合区块链、AI等技术,这导致当下技术路线分支众多,隐私计算的商业化落地尚处起步阶段。在实际应用场景中,隐私计算虽能实现“数据可用不可见”,但也存在着诸如“计算孤岛”、“数据投毒”等诸多挑战。
面对行业的诸多问题,具备较强技术实力的隐私计算厂商,则是破局的关键。由浙江大学人工智能研究所和浙江大学金融科技研究院联合孵化的金智塔科技,便是这样一位具备深厚技术积累的“学院派”玩家。
近日,数据猿采访到了金智塔CTO陈超超,探讨隐私计算企业如何考量、选取技术路径,以及如何面对市场共性问题、行业该如何破局等命题。
融合多项技术,打造适配多样应用场景的隐私计算平台
目前,隐私计算行业存在着多方安全计算、联邦学习、可信执行环境、差分隐私等多种技术方向。陈超超认为,不同技术路径各有优劣。以可信执行环境为例,主要通过预设软硬件工作方式,构建出不受平台、第三方影响的可信计算环境。该技术方案虽具备高精度、高安全性等特点,但却高度依赖第三方环境,在场景化方面存在限制。
因此,不同的技术方案适用不同的业务场景。“对安全性要求较高的金融场景,我们推荐多方安全计算方案,而一些对数据安全要求相对较低、数据量大的智能营销类场景,联邦学习方案则更适配此类需求。”陈超超介绍道。
有没有适用性更广的技术方案呢?在技术路径层面,金智塔将多方安全计算、联邦学习、差分隐私等多种技术融合至统一架构,从而更全面地适配应用场景。
此外,金智塔隐私计算平台还融合了数字水印、区块链等多项技术,并具备数据鉴权、追溯、审计等多重能力,帮助客户打通数据孤岛,激发数据价值。
金智塔隐私计算平台实施流程图
据陈超超介绍,金智塔隐私计算平台具备四大特点,即高安全、高性能、高扩展、强互通:
高安全,金智塔采用多种技术对数据使用的全链路进行安全防护,为安全性提供了深度保障;
高性能,金智塔所采用的分层设计理念,可针对不同的业务场景及环境设置进行深入的定制与优化,以此保证性能层面的稳定;
高扩展,金智塔隐私计算平台采用全对称的分布式架构,可随时根据需求增添、减少子节点,以满足不同客户不同业务的需求;
强互通,针对“计算孤岛”问题,金智塔开放了系统层接口,并支持与不同隐私计算平台的互联互通。
此外,对于隐私计算具体应用过程中的问题,金智塔亦以技术创新予以应对。以“数据投毒”为例,攻击者往往会将“脏数据”施以伪装混淆入正常数据中,污染正常的深度学习模型。
对此,陈超超指出,数据投毒其实是众多攻击、防御问题中的一类,这方面金智塔具有一系列检测及防御机制。
“我们一直联合高校等科研机构探索前沿技术,对数据投毒的检测及防御机制便是其中一项。为了解决“数据投毒”问题,我们会对数据源进行鉴别,以此确认数据质量。”陈超超解释道。
“以联邦学习模型为例,如果某个参与方模型同全局模型均值偏差较大,便能以此推算出其是否存在问题。在安全机制加持下,不论是针对数据源的数据投毒,还是针对模型的注入攻击手段,都会有相应技术予以保障。”
除了隐私计算不同技术方案的融合发展,业界也涌现出诸多“AI+隐私计算”的融合方案,以及隐私计算芯片/一体机等软硬件结合的技术方案。陈超超指出,由于背靠浙江大学人工智能研究所,金智塔AI方面能力尤为突出,已然跑在了行业的前列。
金智塔的技术应用具有前沿性,而就像陈超超所解释那番,金智塔前沿性技术创新,同其背后的产学研用路径高度相关。
构建产学研用价值闭环,持续引领隐私计算技术前沿
在陈超超看来,目前隐私计算赛道正处于急速上升阶段,但因其尚属新兴赛道,市场亦尚未成熟,技术、场景等各方面均有着很多不确定性。
如何应对赛道的不确定性,陈超超给出的回答是:将技术研发跑在应用之前。“金智塔团队拥有强大的科研基因,一直在布局超前的技术研究。”
以异构数据的存储与交换为例,金智塔已然拿出了一套完备的技术解决方案,但据陈超超透露,目前客户企业所要求的多为基础性需求,场景端遇到的异构数据存储和计算这类的复杂性需求相对较少。纵使如此,金智塔还是将这类复杂性应用置入标准化产品中,走在客户需求的前面。
金智塔之所以全力探索前沿技术,一方面是为了推出领先市场的隐私计算平台产品,另一方面也是其产学研用一体化发展路径的自然结果。
“并非每一项看似先进、超前的技术都能用于实践中,所以尝试必不可少。我们的研发团队大多有着高校学术背景,在学术界、产业界均拥有丰富的资源,合作开展前沿技术探索更像是水到渠成的事。”陈超超解释道。
陈超超告诉数据猿,目前金智塔已与众多高校达成合作,共同承担国家及省部级科研课题。在与高校的合作过程中,金智塔的资金与产业资源能为高校人才的学术研究提供支持,而高校研究成果亦能推动金智塔的技术产品研发,这就构成了一个正向的产学研用价值闭环。
金智塔通过同浙江大学等高校以及国家研发机构的合作,不仅实现了人才培养及价值循环,亦通过多项政府牵头的科研项目积累了较为深厚的政府资源。
作为国内最早一批自研国产隐私计算平台的厂商,金智塔早在2018年便参与了国家重点研发项目“大数据征信及智能评估技术”,负责互联网征信大数据流通环节的隐私计算支撑平台研发,专攻“安全、实时、高性能征信大数据关键技术研究及平台研制”课题,并实现了数据质量审查、数据分级分类、基于多方安全计算和安全联邦学习的隐私计算等一系列原创研发。
此后数年间,金智塔先后承担了10多项国家、省部级科研项目。作为脱胎于国家重点研发项目的隐私计算公司,金智塔取得了多项突出成就,具体包括:全面布局隐私计算行业和应用专利,并获得40余项发明专利和软著;深度参与国标、行标制定,参编由科技部、工信部中国信通院等权威机构组织的各项标准40余项;多项创新成果发表在NeurIPS、WWW、TDSC、IJCAI等国际顶级会议和期刊上;创新科研成果先后于2020年和2021年被中国人工智能学会李德毅院士、潘云鹤院士等专家鉴定为世界先进或国际领先水平,全项通过国家金融科技测评中心认证,全面符合央行对金融科技的要求;在中国信通院组织的性能、功能、安全评测中,多项指标名列行业第一。
技术领域的研究,终将实现商业落地。据陈超超透露,在这场寻求商业化落地的旅途中,金智塔为自身锚定了三大应用领域,金融、政务和企业。
瞄准金融、政务、企业场景,不断拓展隐私计算的应用边界
数字化时代,数据成为重要的生产要素,尤其是在金融领域,数据更是数字化经营和风险控制的关键。在此过程中,为创造业务价值,金融机构往往会采用多维度数据,并引入大量外部数据对服务对象的商业信誉、安全风险等予以验证。
然而,在数据隐私保护的背景下,金融行业既往的打法暴露出极大的数据安全风险,金融行业现阶段面临着合规环境下“数据孤岛”的挑战。
以信贷场景为例,面对规模较小、资产不足、信息分散的中小微企业,金融机构很难在征信数据不够丰富全面的情况下精准授信,而“重技术、轻资产”的科创型企业亦属难以鉴定行列,金融机构信贷工作自然面临着重重挑战。
据陈超超介绍,为解决科创企业的授信难题,金智塔自主研发了以企业生命周期模型、企业成长力模型、知识产权估价模型为核心的授信模型,专用于金融机构对科创企业的智能授信。
金智塔隐私计算平台智能授信模型
以某商业银行客户为例,基于金智塔隐私计算平台,研发了面向小微、科创企业的科创贷平台,融合政府部门开放数据、行内数据、第三方商业数据,通过隐私计算解决数据孤岛和用户隐私保护难题,从而实现企业智能分类、多维度建模、智能化授信等场景应用。
金智塔隐私计算平台智能授信业务场景图
截至目前,科创贷平台有效解决某区12.8万家小微、科创企业的在线智能授信问题,授信准确率从82%提升到93%以上,帮助企业降低50%以上融资成本,助力政府扶持小微企业、服务实体经济。
除金融行业外,新型数字政府建设同样面临着数据开放和隐私保护之间难以两全的局面,无论是内部跨部门、跨层级、跨地区的数据流动,还是政府内外部的数据共享,均面临着数据安全方面的压力。同时,政府由于其性质的特殊性,掌握着较多高质量数据,政务系统用户基数大、并发量高,对软硬件性能、稳定性均提出了更高的要求。
为此,金智塔通过多方安全计算、联邦学习、同态加密、差分隐私、数字水印、区块链、数据脱敏等技术,为政务客户提供基层数据共享、联合查询、联合建模、联合统计等服务;以数据授权审批保证数据用途安全可控;并提供存证审计功能,实现数据使用可查可溯源。
以金智塔与浙江省某厅级单位合作的项目为例,作为浙江省内首个厅级政务数据隐私计算平台,其实现了对企业经营状态的智能判断,提高了数据的可靠性和审核效率,审核准确率从85%提高到99%,工作效率更是提升超500%,有效助力政府精准施政。
陈超超指出,针对政务场景,金智塔已然建立起数据分类分级、安全管控制度。未来,金智塔会助力更多政务相关场景的大数据建设,在保障数据安全、保护数据隐私的前提下,促进政企数据的融合应用,推动数字经济的创新发展。
除此之外,数字化浪潮为一众企业带来了海量极富价值的数据,但“数据孤岛”却限制了企业内外部数据价值的流通与共享。以零售业为例,目前零售品牌在线下扩张过程中往往会面临城市覆盖面有限、成本高、周期长、调研数据维度不足等问题。为此,金智塔针对性地推出“金智塔智能选址平台”,通过融合企业内部、移动运营商、银联、高德、政府统计等多方数据,实现零售门店的智能选址和销售预测,合法合规的解决了零售企业营销方面的主要问题。
市场的发展,往往是需求和供给双轮驱动的。一方面,隐私计算市场需求快速增长。据毕马威《2021隐私计算行业研究报告》显示,在大数据融合应用和隐私保护的双重需求驱动下,国内隐私计算市场将快速发展,三年后技术服务营收有望触达100亿至200亿元空间,甚至将撬动千亿级数据平台运营收入空间;另一方面,国内涌现出不少像金智塔这样具备较强技术实力和优质服务能力的隐私计算厂商,推动着隐私计算供给侧的持续进化。可以预见,未来几年我国隐私计算产业将迎来一段高速增长的黄金发展时期。
文:威化化 / 数据猿
《2022中国企业数智化转型升级服务全景图/产业图谱1.0版》
❸ 创新服务产品榜
❸ 最具投资价值榜
❺ 创新技术突破榜
联系数据猿
DevOps 国际峰会 | 七牛云陈超:做 DevOps 的践行者
近日,由 OSCAR 联盟指导、DevOps 社区与高效运维社区联合主办的 DOIS(DevOps 国际峰会)2018 在京举行,作为国内唯一的国际性 DevOps 技术峰会,会上,拥有来自全球 80 余名顶级专家畅聊 DevOps 落地的技术,包括持续交付、SRE、高可用架构与微服务、安全技术、Kubernetes、Ansible、AI 等,并深入探讨了 DevOps 在金融、电信、零售、能源等行业的落地与实践,为参会者带来了一场 DevOps 饕餮盛宴。
在此次峰会上,七牛云技术总监陈超受邀出席,作为国内 Spark 领域首席布道专家,陈超有着丰富的分布式系统设计与实践经验,并且在分布式数据库方面有着深入研究。
在金融行业 DevOps 解决方案专场中,陈超了发表以《七牛云智能日志管理平台实践》的主题演讲,向大家分享了 DevOps 的实践经验以及七牛云在智能日志管理平台与 DevOps 彼此间的联系。
- 七牛云技术总监陈超 -
“实际上我们是属于 DevOps 的践行者,其他演讲人讲到了很多方法论,而在七牛云来说则是更多的去进行实践。“陈超表示。会上,陈超首先介绍了在研发场景中遇到的一些问题,如复杂的编译和运行环境、质量难控制、发布要求高、协作难度大等,以及代码分支多,合并频度高, issue 状态难跟踪等问题。为了解决上述问题,七牛云逐渐引入各种工具,如代码库管理 github、CI/CD 工具 Jenkins、自动化测试框架、流程管理协作工具 jira 等。
但是,陈超表示“我们发现,松散的工具不等于效率的提升,我们看起来引用很多很好的工具,但发现效率没有提升。软件工程的生命周期从来没有被完全信息化,通俗说就是从头到尾不连贯,而这也是 Spock 诞生的原因。”
对此,陈超详细介绍了七牛 Spock Pipeplines 的实践经验,“我们的做法是你的 PR 其实是提交在 develop 分支上的,master 是线上正在运行的稳定代码,develop 是我们的开发分支。当代码提交上去的时候,首先我们提交到 develop 上去,代码写完自动测试,这里全是自动的,对于七牛的工程师来讲只干了一件事情,就是在 github 上面提交 PR。”
- 七牛 Spock Pipeplines 实践 -
- 七牛微服务实践 -
众多散落各地的日志该如何安放?Pandora 全能力图解析
日志管理的传统方案以及弊端包括,如在使用 grep/sed 等脚本工具时,无需额外工具支持,但效率较低易出错;使用 MySQL 汇聚数据,使用虽然方便,但是能力有限;使用 NoSQL 数据库,存储能力虽然足够,但不支持交叉查询与全文搜索,使用负担较大;使用 Hadoop/Spark 等比较繁杂不支持全文检索;使用 ELK,产品化及体验层面做的远远不足,稳定性仍存在挑战。对此,基于以上问题以及存在的一些方案评估,七牛云推出了智能日志管理平台 Pandora。
七牛云 Pandora 作为一套面向海量数据,能够让基础技术人员轻松管理大数据传输、计算、存储和分析的大数据平台。提供简单、高效、开放的一站式大数据服务,能够实现对日志的全生命周期智能管理,适用于运维监控、安全审计、业务数据分析等典型场景,对互联网、智能硬件和智能制造、金融、新媒体等行业的数字化转型都有极大的价值。
会上,陈超详细介绍了 Pandora 全能力图,包括支持各类数据源、Pipelines、logkit 以及支持各类第三方可视化工具。其中,Pipelines 包含了收集(支持收集文本文件、常见消息队列等多种数据来源渠道的数据,配置简便)、解析(可以自动并可控的快速提取杂乱日志中的各种关键字段。自动化划分提取字段,自动化规则匹配)、转换(支持本地转换和服务端转换两种模式,支持丰富的预定义转换规则)、发送四大功能。
- Pandora 能力全景图 -
而 logkit 则可以对于收集到的日志进行全方位的快速分析并对结果进行展示,其中包括:
日志搜索:使用兼容 Lucene 标准的搜索语法快速检索日志内容,且基于搜索可以迅速完成各项工作
自动字段分析:自动对提取的字段进行分析和统计
划词分析:无需掌握搜索语法,通过划词直接进行搜索或者对搜索结果进行二次过滤
实时搜索:支持搜索结果实时滚动
开箱即用的报表:丰富的图表支持,灵活的报表定义,贴心的报表管理,支持大屏展示
机器学习(异常检测)—分析预测:支持自动化的智能分析,快速发现数据中的异常点。
机器学习(异常检测)—极简使用:基于时序数据自动学习,自动选择最优算法,零门槛使用
最后,可以将 Pandora 的优势总结为六点:
1、数据规模大,拥有完全横向扩展的存储设计、完全横向扩展的计算设计、累计存储数据超过 40P 等;
2、处理速度快,入口打点毫秒级响应、实时计算毫秒-秒级响应;
3、开放接口巧,通过支持 https 中转适配任意目的地,所有操作均有对应的 API 支持;
4、生态支持多,包括 Oracle、Hadoop、Kubernetes 等;
5、用户体验爽,超过 3 年以上的用户体验迭代,超过 200 项细节极致的打磨;
6、公有云经验足,日均数据流入超 250 TB、日均参与计算数据量超 3.2 P、日均日志条数超 3650 亿等。
作为国内领先的以视觉智能和数据智能为核心的企业级云计算服务商,同时也是国内最有特色的智能视频云服务商,七牛云每年营收增速超 300%,累计为 70 多万家企业提供服务,覆盖了国内 80% 网民。在未来,七牛云将更加致力于为各行各业客户提供服务,创造更广阔的商业价值。
七牛云.智能日志管理平台 已正式上线
点击阅读原文 - 即刻了解详情并获取免费额度
以上是关于金智塔CTO陈超超:构建产学研用价值闭环,持续探索隐私计算技术前沿 | 数据猿专访...的主要内容,如果未能解决你的问题,请参考以下文章
环保行业SaaS多租户商城系统:构建闭环电商生态,赋能环保产业数智化发展