尝试正确理解网络分区
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了尝试正确理解网络分区相关的知识,希望对你有一定的参考价值。
参考技术A 理解CAP 中的P对我来说挺难的,之前读过很多次相关的概念,但是始终对于network parition 没有清晰的定义。事实上,Partition Tolerance 描述的是非常具体的一类网络通信异常。有很多我以为属于network parition的不正常网络情况其实不算network parition
首先,考虑以下这种情况,一共5个节点,运行raft算法,node 0,1具有较高优先级,node 2,3,4具有较低优先级。
假设最开始一切正常,node 0 是leader。
突然发生了诡异的事情,所有通讯仍然正常,除了node 0 和 node 1 无论如何都联络不到彼此,那么请问,这种情况叫网络分区吗?(node 0 和 node 234 通讯正常,node1 也是)
这样是不是就发现了一些些问题。一个5个节点组成的网络,可能的网络不正常连接情况有很多种,是所有的网络不正常情况都能被称为network partition 吗? 以前我从来没有思考过这种问题,也就是网络分区的详细定义,哪些错误情况才算网络分区,哪些网络错误情况是CAP也解决不了的。(不得不感叹一下,这就是组合的力量,数学的力量啊)
我仍然不确定这能不能称之为network partition,但我发现原RAFT 论文描述会在这种情况下导致leader的频繁更换。举例如下,假设初始term是k
node 1 因为收不到 node 0 的心跳包转成candidate,把term 变为k+1,并由于node 234 都会投node 1 的赞同票,node 1 成为 k+1 term的leader。与此同时node 0 在向 node 2 , 3 , 4 发送心跳包的时候 发现term 已经变成 k+1了,根据raft node 0也会把term设置为 k + 1 并退回到follower状态。
接下来的事情大家就都懂了,同样的惨剧也会发生在node 1 上,就这样,node 0, 1 就会一直交替着成为leader, 集群处于非常不稳定的状态。而且这种不稳定的状态是在我们的前提条件下是一定会发生的。
因此从这个问题我就开始想,到底这算不算network partition呢?我觉得不算,于是我去wiki 找了下,定义如下
这句话并没有很清晰的定义network partition, 但是我们感觉到这样一件事:每个subnet内部应该是正常工作的,不同的subnet之间不能正常通信。
于是,我尝试用自己的话来归纳一下我现在所理解的network partition。注意这只是我自己的定义,因此很有可能我之后回过头来看又发现自己说错了。只是参考嘿嘿。
首先我们定义 正常连接:两个节点可以在一定的延迟范围内内双向通信; 无连接:两个节点不能在一定的延迟范围内进行单向通信。(当然双向通信更不可一了)
那么对于一个n个节点组成的网络来说,如果n 个节点可以被分为k个不相交且覆盖的group, 每个group内所有节点全是两两正常连接,而任意两个group之间的任何节点无连接。当k=1 时,网络正常,当k > 1 时,我们称之为network partition。
当然之后肯定还要看更多的资料才能慢慢体会到什么是network partition。现在的定义可能太狭窄了。欢迎大家批评交流~
带有 hive 的 pyspark - 无法正确创建分区并从数据框中保存表
【中文标题】带有 hive 的 pyspark - 无法正确创建分区并从数据框中保存表【英文标题】:pyspark with hive - can't properly create with partition and save a table from a dataframe 【发布时间】:2019-09-04 13:31:03 【问题描述】:我正在尝试通过很少的转换(添加日期)将 json 文件转换为镶木地板,但我需要先对这些数据进行分区,然后再将其保存到镶木地板。
我在这个区域碰壁了。
下面是表的创建过程:
df_temp = spark.read.json(data_location) \
.filter(
cond3
)
df_temp = df_temp.withColumn("date", fn.to_date(fn.lit(today.strftime("%Y-%m-%d"))))
df_temp.createOrReplaceTempView("_tmp".format("duration_small"))
spark.sql("CREATE TABLE IF NOT EXISTS 1 LIKE 0_tmp LOCATION '2/1'".format("duration_small","duration", warehouse_location))
spark.sql("DESC ".format("duration"))
那么关于转换的保存:
df_final.write.mode("append").format("parquet").partitionBy("customer_id", "date").saveAsTable('duration')
但这会产生以下错误:
pyspark.sql.utils.AnalysisException: '\n指定的分区与现有表 default.duration 的不匹配。\n指定的分区列:[customer_id, date]\n现有的分区列:[]\n ;'
架构是:
root
|-- action_id: string (nullable = true)
|-- customer_id: string (nullable = true)
|-- duration: long (nullable = true)
|-- initial_value: string (nullable = true)
|-- item_class: string (nullable = true)
|-- set_value: string (nullable = true)
|-- start_time: string (nullable = true)
|-- stop_time: string (nullable = true)
|-- undo_event: string (nullable = true)
|-- year: integer (nullable = true)
|-- month: integer (nullable = true)
|-- day: integer (nullable = true)
|-- date: date (nullable = true)
因此我尝试将创建表更改为:
spark.sql("CREATE TABLE IF NOT EXISTS 1 LIKE 0_tmp PARTITIONED BY (customer_id, date) LOCATION '2/1'".format("duration_small","duration", warehouse_location))
但这会产生如下错误:
...不匹配的输入“PARTITIONED”期待...
所以我发现 PARTITIONED BY 不适用于LIKE
,但我的想法已经不多了。
如果使用 USING
而不是 LIKE
我得到了错误:
pyspark.sql.utils.AnalysisException: '当未定义表架构时,不允许指定分区列。当未提供表架构时,将推断架构和分区列。;'
建表时如何添加分区?
Ps - 一旦使用分区定义了表的架构,我想简单地使用:
df_final.write.format("parquet").insertInto('duration')
【问题讨论】:
是否已经定义了工期表?那么它没有分区,但您尝试使用分区附加数据。 嗯,它是在 CREATE TABLE 上定义的,我正在尝试弄清楚如何使用分区创建它 【参考方案1】:我终于想通了如何用 spark 做到这一点。
df_temp.read.json...
df_temp.createOrReplaceTempView("_tmp".format("duration_small"))
spark.sql("""
CREATE TABLE IF NOT EXISTS 1
USING PARQUET
PARTITIONED BY (customer_id, date)
LOCATION '2/1' AS SELECT * FROM 0_tmp
""".format("duration_small","duration", warehouse_location))
spark.sql("DESC ".format("duration"))
df_temp.write.mode("append").partitionBy("customer_id", "date").saveAsTable('duration')
我不知道为什么,但如果我不能使用 insertInto,它会突然使用一个奇怪的 customer_id,并且不会附加不同的日期。
【讨论】:
以上是关于尝试正确理解网络分区的主要内容,如果未能解决你的问题,请参考以下文章