spark持久化

Posted wakerwang

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了spark持久化相关的知识,希望对你有一定的参考价值。

 

package com.wll;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
public class Persist {
    static SparkConf conf=new SparkConf().setMaster("local").setAppName("persist");
    static JavaSparkContext sc=new JavaSparkContext(conf);
    public static void main(String[] args){
        noCache();
        //cache();
    }
    public static void noCache(){

        JavaRDD<String> list=sc.textFile("C:\Users\wanglonglong\Desktop\hive-default.xml");
        long beginTime=System.currentTimeMillis();
        long count=list.count();
        System.out.println("无持久化第一次"+(System.currentTimeMillis()-beginTime));

        beginTime=System.currentTimeMillis();
        count=list.count();
        System.out.println("无持久化第二次"+(System.currentTimeMillis()-beginTime));
    }
    public static void cache(){
        JavaRDD<String> list=sc.textFile("C:\Users\wanglonglong\Desktop\hive-default.xml").cache();
        long beginTime=System.currentTimeMillis();
        long count=list.count();
        System.out.println("持久化第一次"+(System.currentTimeMillis()-beginTime));

        beginTime=System.currentTimeMillis();
        count=list.count();
        System.out.println("持久化第二次"+(System.currentTimeMillis()-beginTime));
    }
}

以上是关于spark持久化的主要内容,如果未能解决你的问题,请参考以下文章

生成 Spark 模式代码/持久化和重用模式

持久片段和查看器

spark关于join后有重复列的问题(org.apache.spark.sql.AnalysisException: Reference '*' is ambiguous)(代码片段

片段中的Firebase数据不是持久的,会重新下载

Spark性能调优之代码方面的优化

Spark:持久化和重新分区顺序