有没有关于使用大数据的好网站?
Posted
技术标签:
【中文标题】有没有关于使用大数据的好网站?【英文标题】:Are there good sites about working with big data? 【发布时间】:2012-06-22 18:59:51 【问题描述】:我正在寻找人们解释他们如何使用大数据解决性能和其他问题的网站\博客。我知道一些关于可扩展 Web 应用程序和网站的资源(如 twitter、facebook)。没关系,但我正在寻找主要用于数据挖掘的具体算法。
【问题讨论】:
【参考方案1】:实际上,在大数据上所做的很多事情都不符合“数据挖掘”的条件。 他们最多应用以前学习的规则来统一大数据,主要是预测消费者的兴趣以向他们提供广告。但这主要归结为“对体育感兴趣”类型的决定。相当大的错误率在这里是可以接受的,因为向对体育不感兴趣的人提供体育广告几乎没有成本。网络上充斥着谷歌将人们置于错误的消费群体中的故事。甚至经常会错误地预测性别。
每当您看到“大数据”时,都要对它持保留态度。它主要是吹牛和流行语宾果游戏。大数据的挑战仍然在于真正完成它,而不是(还)正确地完成它。
这篇文章就是一个很好的例子:http://www.technologyreview.com/web/39487/
雅虎预测(使用推特“大数据”并推这篇文章,声称他们比出口民意调查要好得多。吹嘘吹嘘)“罗姆尼有 90% 的机会赢得南卡罗来纳州”。实际上,罗姆尼得到了 28%,而金里奇得到了 40%。
或者尝试一些“情绪分析”类型的工具。他们会告诉你,包含“小狗”的推特帖子是正面的,包含“蟑螂”的帖子是负面的。这就是他们如今通过“情绪分析”获得的质量。同样,他们非常专注于从数据中获取任何东西,他们还没有真正分析(甚至验证)结果。对不起。我敢打赌,我会因为如此批评而遭到一些反对,但这就是每天都在发生的事情。请参阅雅虎示例。他们显然能够处理他们的“大数据”,但他们的结果肯定还没有为黄金时段做好准备,他们仍然需要努力。
同样,对于某些情况,例如广告定位,错误率可能非常高。任何比随机更好的东西,都比随机更好!这意味着比只投放随机广告更多的钱。所以它不是一文不值;只是可能无法与非大数据方法相比。
【讨论】:
以上是关于有没有关于使用大数据的好网站?的主要内容,如果未能解决你的问题,请参考以下文章