社交媒体数据如何成为非结构化数据?

Posted

技术标签:

【中文标题】社交媒体数据如何成为非结构化数据?【英文标题】:How is social media data unstructured data? 【发布时间】:2015-02-08 22:36:53 【问题描述】:

我最近开始阅读大数据,以及如何使用诸如 hadoop 或 BigInsights 之类的工具来管理结构化和非结构化数据。

社交媒体分析可以在 BigInsights 上完成,它采用非结构化数据并相应地对其进行分析/结构化。

这让我想知道,社交媒体数据是如何非结构化的?例如,您可以使用 Twitter REST API 调用您在推文中收到的信息,并以结构化 JSON 格式返回给您。

那么社交媒体数据不是已经结构化了吗?如果是这样,您为什么需要一个主要管理非结构化数据的平台?

【问题讨论】:

【参考方案1】:

有些人也将区分“半结构化”。

但重点是查询数据的能力。是的,推文等通常有一些结构。但它对分析没有帮助

鉴于丑陋的 SQL 架构,您确实可以运行类似的查询

 SELECT AVG(TweetID) FROM Twitter;

但该功能在实践中毫无用处。这可能就是为什么最好将数据视为非结构化数据的原因:将其压缩到关系模式中不会受益。

不过,请注意使用大数据的流行词宾果游戏。通常,“支持非结构化数据”实际上意味着“不会从数据中的结构中受益(通过使用索引),但每次都会重新读取数据”

【讨论】:

【参考方案2】:

这不仅仅是获取推文。数据的真正价值在于了解正在发布的内容。以 Facebook 为例,我们可以在其中评论任何图片或视频。我们需要一个平台来了解所有 cmets 对视频的正面评价,或者有多少在雪橇,或者有多少 cmets 是对它的真实反馈。有多少人为此提供了更好的建议。您还需要知道视频被分享和喜欢的次数。同样,所有共享的人是谁,谁不喜欢它或喜欢它。可以收集到这么多种类的数据,所以这些都被称为非结构化数据。

【讨论】:

以上是关于社交媒体数据如何成为非结构化数据?的主要内容,如果未能解决你的问题,请参考以下文章

如何使用具有火花数据流结构的非基于时间的窗口?

大数据在银行业的应用与实践

向量连接世界,Zilliz 举办首届非结构化数据峰会

大数据分析工具采购指南

Java专业人员如何利用Hadoop的力量?

如何将图片上传到Cloudinary云平台?