spark append 如何保证原子性

Posted 2023-05-11

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了spark append 如何保证原子性相关的知识，希望对你有一定的参考价值。

参考技术A 您可以创建另一个表来跟踪是否将结果写入Table1，Table2和ADLS。这将使您能够创建重试逻辑并使过程“原子化”。
在笔记本的开始处，您可以编写逻辑以检查该过程的最新时间戳，并确保所有三个标志均指示为最新时间戳写入了结果。如果其中一个标志指示未写入结果，则您的逻辑应该指示它使用数据的当前状态写入相应的目标表/ ADLS。

为什么volatile能保证有序性不能保证原子性

对于内存模型的三大特性：有序性、原子性、可见性。

大家都知道volatile能保证可见性和有序性但是不能保证原子性，但是为什么呢？

一、原子性、有序性、可见性

1、原子性：

（1）原子的意思代表着——“不可分”；
（2）在整个操作过程中不会被线程调度器中断的操作，都可认为是原子性。原子性是拒绝多线程交叉操作的，不论是多核还是单核，具有原子性的量，同一时刻只能有一个线程来对它进行操作。例如 a=1是原子性操作，但是a++和a +=1就不是原子性操作。

2、可见性

线程执行结果在内存中对其它线程的可见性。

变量经过volatile修饰后，对此变量进行写操作时，汇编指令中会有一个LOCK前缀指令，加了这个指令后，会引发两件事情：

发生修改后强制将当前处理器缓存行的数据写回到系统内存。
这个写回内存的操作会使得在其他处理器缓存了该内存地址无效，重新从内存中读取。

3、有序性

有序性：即程序执行的顺序按照代码的先后顺序执行。

在本线程内观察，所有操作都是有序的（即指令重排不会导致单线程程序执行结果与排序前有任何差别）。在一个线程观察另一个线程，所有操作都是无序的，无序是因为发生了指令重排序。在 Java 内存模型中，允许编译器和处理器对指令进行重排序，重排序过程不会影响到单线程程序的执行，却会影响到多线程并发执行的正确性。

二、线程安全的两个问题，执行控制和内存可见

执行控制（synchronize）：控制代码只能顺序执行（执行一次只能被一个线程执行）或者可以多线程并发执行。

内存可见控制（volatile）：线程执行结果在内存中对其它线程的可见性。线程在具体执行时，会先拷贝主存数据到线程本地（CPU缓存），操作完成后再把结果从线程本地刷到主存。

volatile和synchronize两个关键字就是上述两种作用。

synchronize关键字使得同一时刻只有一个线程可以获得当前变量、方法、类的锁，其他线程无法访问，也就无法同步并发执行，synchronized还会创建一个内存屏障，内存屏障指令保证了所有CPU操作结果都会直接刷到主存中，从而保证了操作的内存可见性，同时也使得先获得这个锁的线程的所有操作，都happens-before于随后获得这个锁的线程的操作，保障有序性、可见性、原子性；
volatile通过强制将当前线程修改后的值写回内存并使得其他线程中该值无效的方式保证其可见性，通过禁止指令重排的方式保证有序性，具体为何不能保证原子性在下一部分讨论。

三、为什么volatile不能保证原子性

对于i=1这个赋值操作，由于其本身是原子操作，因此在多线程程序中不会出现不一致问题，但是对于i++这种复合操作，即使使用volatile关键字修饰也不能保证操作的原子性，可能会引发数据不一致问题。

 private volatile int i = 0;
 i++;

如果启了500条线程并发地去执行i++这个操作最后的结果i是小于500的

 i++操作可以被拆分为三步：

      1，线程读取i的值

      2、i进行自增计算

      3、刷新回i的值

网上一些博客的解释是：

假设某一时刻i=5，此时有两个线程同时从主存中读取了i的值，那么此时两个线程保存的i的值都是5，此时A线程对i进行了自增计算，然后B也对i进行自增计算，此时两条线程最后刷新回主存的i的值都是6（本来两条线程计算完应当是7）所以说volatile保证不了原子性。

我的不解之处在于：

既然i是被volatile修饰的变量，那么对于i的操作应该是线程之间是可见的啊，就算A.,B两个线程都同时读到i的值是5，但是如果A线程执行完i的操作以后应该会把B线程读到的i的值置为无效并强制B重新读入i的新值也就是6然后才会进行自增操作才对啊。

后来参照其他博客终于想通了：

1、线程读取i

2、temp = i + 1

3、i = temp

当 i=5 的时候A,B两个线程同时读入了 i 的值，然后A线程执行了 temp = i + 1的操作，要注意，此时的 i 的值还没有变化，然后B线程也执行了 temp = i + 1的操作，注意，此时A，B两个线程保存的 i 的值都是5，temp 的值都是6，然后A线程执行了 i = temp （6）的操作，此时i的值会立即刷新到主存并通知其他线程保存的 i 值失效，此时B线程需要重新读取 i 的值那么此时B线程保存的 i 就是6，同时B线程保存的 temp 还仍然是6，然后B线程执行 i=temp （6），所以导致了计算结果比预期少了1。

四、volatile和synchronized的区别

volatile本质是在告诉jvm当前变量在寄存器（工作内存）中的值是不确定的，需要从主存中读取； synchronized则是锁定当前变量，只有当前线程可以访问该变量，其他线程被阻塞住。
volatile仅能使用在变量级别；synchronized则可以使用在变量、方法、和类级别的
volatile仅能实现变量的修改可见性，不能保证原子性；而synchronized则可以保证变量的修改可见性和原子性
volatile不会造成线程的阻塞；synchronized可能会造成线程的阻塞。
volatile标记的变量不会被编译器优化；synchronized标记的变量可以被编译器优化

以上是关于spark append 如何保证原子性的主要内容，如果未能解决你的问题，请参考以下文章

synchronized能够保证原子性吗

CAS指令如何保证原子性

为什么volatile能保证有序性不能保证原子性

为什么Redis的操作是原子性的，怎么保证原子性的？

Java内存模型之原子性问题