使用R和Apache Spark处理大规模数据 [session]

Posted OReillyData

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了使用R和Apache Spark处理大规模数据 [session]相关的知识,希望对你有一定的参考价值。

讲师:Xiaoyong Zhu (Microsoft)

11:15–11:55 Friday, 2017-07-14

数据科学&高级分析 (Data science & advanced analytics)

地点: 多功能厅5B+C

观众水平: 中级

必要预备知识

A basic understanding of R, Spark, and machine learning

您将学到什么

Learn how to use R to analyze terabytes of data

描述

R是一个流行的用于数据分析的数据科学工具。然而它有不少的缺陷,比如它的内存使用问题以及单线程的设计。

本演讲:

  • 我们会介绍微软R服务器的设计原则和架构,以及它和Apache Spark的集成。

  • 演示如何使用R服务器来进行在Apache Spark上的可扩展的机器学习,以及使用R语言来分析T字节级数据。


讲师介绍

Xiaoyong Zhu (Microsoft)

Xiaoyong Zhu is a program manager at Microsoft focusing on scalable machine learning and advanced analytics.



Strata Data Conference北京站正在报名中,点击阅读原文可登录会议网站。

注意:早期票价优惠期截止到6月9日,尽快注册以确保留位



以上是关于使用R和Apache Spark处理大规模数据 [session]的主要内容,如果未能解决你的问题,请参考以下文章

如何基于Apache Pulsar和Spark进行批流一体的弹性数据处理?

KDD2021-腾讯Apache Spark大规模网络嵌入

Java应用XIII使用Apache Spark MLlib构建机器学习模型上

Spark基础操作

带有原生Kubernetes支持的Apache Spark 2.3

spark配置和word-count