你所知道的大数据或许只是金矿脚下的细沙|七牛云存储 许式伟|RedCouch X 微链

Posted 红沙发RedCouch

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了你所知道的大数据或许只是金矿脚下的细沙|七牛云存储 许式伟|RedCouch X 微链相关的知识,希望对你有一定的参考价值。

视频来源于许式伟在微链链大会上海场的分享实录,点击阅读原文跳转七牛云存储

↑ 时长:7′41″,体积:16MB


分享者

许式伟,七牛云存储CEO。南京大学物理系毕业,2000年至2008年在金山软件期间,以首席架构师身份主导了WPS架构设计和开发。


背景

七牛云存储成立于2011年,主要为托管企业的富媒体文件如图片、音视频等,提供一站式在线托管、全国乃至全球范围的上传下载加速、以及云端数据处理,如图片缩放、打水印、音视频转码、流媒体播放等。


简介

谈到大数据,你脑海里闪现出的还是一个个鲜活跳跃的数字吗:飞行里程,支付宝账单,微信运动的步数,开房记录……今天,在比特世界里的数据每三年就会翻一倍,不得不说这是一个非常惊人的数字。而这其中占比超过90%的数据都是非结构化的形式存在(且占比有逐年增大的趋势),也就是那些远未得到我们充分重视和利用的图片、音频、视频、文字……


先来看看这些意识到非结构化数据价值的创业者如是说:


蘑菇街CEO陈琪曾分析说,估值相差逾10倍的美图秀秀与Instagram在核心的feature层面上并没有很大的差异,其估值差距主要来自于对图片内容的组织沉淀以及进行二次消费的能力的高下(点击跳转的分享)。


Nice的创始人周首也曾在分享其产品设计逻辑时提到过相似的观点:用加tag的方式刺激UGC(数据产生)——利用deep learning进行图形识别(数据分析)——照片和标签的集合构建起个人lifestyle的profile(数据使用)(点击跳转的分享)。


在本期许式伟的分享中,我们可以更清晰地感受到,不断涨潮的比特海洋中隐藏着的未来企业和商业的变革机会。诚然,我们知道这对于数据服务的挑战是巨大的,从数据的存储,到非结构化数据的二次分析,再到日志更深度的量化分析,这些都不是目前哪一家公司可以独自完成的。但我们有一点要提醒的是,当一部分人只看到眼下技术对数据挖掘的瓶颈效应时,另一部分人已经悄悄在前夜里埋起了火药。


附全文


如何挖掘数据中的商业价值

今天我们在谈大数据,谈互联网,其实在互联网之前我们知道信息就是一直存在的,但是为什么今天我们才会去谈大数据?今天互联网+背后代表的是信息技术,信息技术背后需要数据,所以这个就是今天会有大数据,这也就是互联网带来数据洪流背后的成因。数据背后给商业和企业带来的变化是什么,这就是我今天想谈的。


在企业的新常态里,商业模式需要变更,需要从旧的商业模式转向新的模式。旧的模式到底是什么?如果用一个词去描绘旧的商业模式我觉得就是面对面的交易,就是现场的交易。互联网其实带来的一个最大的变化就是让远程交易成为了可能,因为刚才我们也谈到互联网带来的实际上是一个连接方式的变化,人和人在世界任何一个角落连接都成为可能,这个意味着企业的业务需要到网上,而企业的业务到网上以后数据就在背后自然而然呈现。



↑互联网数据分类


我们去想一下,其实在这个世界上数据有很多,我们大概会把数据分成几类:第一个是非结构化数据。为什么会有非结构化数据?非结构化数据就是图片、音频、视频和文字,这些都是非结构化的。非结构化的数据是计算机很难理解的,但是为什么在互联网时代会有大量的非结构化的数据产生?这是因为非结构化数据是人和人沟通最自然的方式。我们很容易的去通过一段文字、一段语音、一段视频去表达我们想表达的含义,让别人在远程也能够搞清楚。但是这些信息其实计算机只是原封不动的传达,它其实并不理解这其中所蕴含的含义,所以我们认为这是上网导致非结构化数据爆发式的增长,而这个增长是最惊人的一部分。


今天我们谈大数据,大数据是什么?我认为是在业务上网基础之上,我们人和人产生交易以后的半结构化的信息。比如购买机票,比如我在路上行走可能会有整个行动的一个轨迹,这些记录其实是偏物质型的数据,这些数据和我们今天谈的大数据会更有关系一些,因为这些数据和我们刚才提的图片、视频、音频不一样的就是,计算机产生了这些数据,所以计算机完全理解这些数据背后是什么含义,而这个是我们认为今天企业进行商业运营的核心的一个动力


非结构化数据有非常大的一个挑战,第一个挑战就是它的数据量非常巨大。这个世界上90%以上的数据是非结构化数据,而且这个比例是在增加而不是减少。到今天为止我相信有超过95%,甚至未来是超过99%的数据都是非结构化数据。但是这么多的数据我们需要去存储,不仅需要存储,我们还需要进行进一步的优化,这个优化是什么?是我们在交互技术的一个优化。比如我们今天计算机只是呈现这个数据,让我们的沟通的伙伴知道我今天在讲什么。但是有一天也许我们可以通过一些二次加工的方法,让计算机理解我们说的这些东西以及我们打的文字等等,这个会对交互技术的智能化其实有很大的提升空间。由于数据量的巨大以及二次分析手段匮乏,所以今天非结构化数据的潜力远远没有挖掘,因为大部分的数据都没有进行二次分析。


谈完非结构化数据,我们再谈谈日志。日志我认为是一个更巨大的金矿,因为这是计算机完全可以读懂的,这是和非结构化数据非常不一样的地方。但是我们也应该承认就是今天我们尤其是在中国,日志分析的这个金矿是远远未挖掘的。原因是因为大量的企业都没有上网,所以他们根本就没有用户行为的记录,所以它无从去理解用户,他们维护用户的过程还非常原始,就算有的企业记录了用户的行为,但是他们对于用户行为的挖掘能力还远远不足。大部分的甚至是很多互联网的公司仍然停留在用户日活是多少,留存是多少这些基础的分析方法上,我们认为在这块上仍然有非常大的提升空间


第三个是今天虽然有很多公司也在记录数据,但是这些公司仍然在不停的删除这些日志数据,因为他们没有想理解,这些数据到底未来会给我这个企业能带来多大的价值,这方面其实在中国和美国我认为差异是非常巨大的。我经常举一个例子,Google在推出Google Analytics这个产品的时候,它所有从Google刚成立之初的所有用户搜索记录都存在,但是我们知道百度有百度的分析,但是百度的分析只是在上线之后的用户搜索记录才能够被检索。这个我觉得能够让大家很直觉感知到中美企业对于日志数据价值的一个看法,今天我其实很想跟大家交流的是其实日志这个东西很重要,你记录下来未来有一天它就是一个金矿。



合作小伙伴

GDG社区 小饭桌 七牛开发者最佳实践日

华兴逐鹿X 口袋巴士

中国移动开发者俱乐部 IT高管会

众创学院 以太学堂 方创资本

IDG资本 ZhenTalk InnoSpace PMCamp UCloud

GameLook GitCafe SegmentFault GirlUp OneAPM

新浪创业课 接力成长营 常青藤论坛

真驿站 腾讯众创空间 微链



红沙发 RedCouch
我们纪录时代的创造者

分享互联网创业的经验、新知与思想

科技不息,分享不止


点击右上角分享

长按二维码关注

以上是关于你所知道的大数据或许只是金矿脚下的细沙|七牛云存储 许式伟|RedCouch X 微链的主要内容,如果未能解决你的问题,请参考以下文章

我为啥最终选择了七牛云存储

图片存储方案-七牛云存储

七牛云存储创建与对接

专访吕桂华:七牛云存储未来一定是七牛云!

免费的对象存储——七牛云还是腾讯云

WP七牛云插件详解 - WP-QINIU 插件(WordPress连接到七牛云存储)-原创