GI分布式存储中的“PolarCode”依然是GIS技术的思考延续,可标识“云”中的每一口井每一地震道
Posted GI 地质智能软件平台
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GI分布式存储中的“PolarCode”依然是GIS技术的思考延续,可标识“云”中的每一口井每一地震道相关的知识,希望对你有一定的参考价值。
前面三篇,分别阐述了GI针对E&P领域数据模型的元建模思考(ST-Based KIDA元模型)、体现GI的GIS数据集成技术特色的自主空间数据库存储(再次阐述:“面向数据内容”,用于跟随不同类型的专业APP在定义不同研究环节的同时,便捷“获取”系列不同类型的基础数据)、以及面向深度学习解决方案的大数据存储方案(再次阐述:“面向算法”,服务于高效并行计算、诸如中石化体量下的快速数据定位与抽取,“养育”系列深度学习模型)。有个关键的问题,GI如何将自主空间数据库存储与分布式存储有机结合,形成高效的二级数据存储框架的同时(图),高效管理ZB级、分布在不同地理区域(油公司)的不同机柜中或“云”中的海量地震、测井等数据子块文件?!GI的解决方案,通过结合全球地理网格剖分编码和地质信息编码,建立了基于空间位置索引的分布式文件命名、分配与管理机制,可高效管理ZB级数量的文件并快速定位。
提出
GI之所以没有采用HDFS存储解决方案,而是强调自主研发,主要以下几方面的考虑:第一,遵循GFS设计理念的HDFS适宜存储对象更多是网页等为代表的非结构化数据,其文件管理与存储机制不可能体现井震数据存储特点;第二,基于HDFS存储的数据分析解决方案,更多适宜应用于后台而不是前台实时计算,数据实时访问能力还有待提升。第三,基于目录结构的数据文件管理方式,注定了ZB级数量的文件下的深层次目录结构访问是个明显性能瓶颈。针对上述问题,GI的分布式存储文件系统的攻关重点,放在设计一种新的分布式子块数据文件编码机制,高效管理ZB级数量的分布式子块文件,以及如何基于TB级大小的井震数据特点,建立针对性分布式存储机制,进而实现快速存取:
编码
1)全球空间网格编码(location code)
将全球范围进行网格划分,把经纬度按照16乘16进行分割,形成256个格子,每个格子在下一级中又被分成16乘16个格子,以此类推,共形成7级网格,最细一级的网格经度在厘米级。经度范围从-180到180,表示从西经180到东经180度;纬度范围与经度范围保持一致,也扩展成-180到180。
不同分层下的空间网格需要有唯一空间信息编码。该码第一位和第二位分别是第一层级网格下的经向标识和纬向标识,第三位和第四位是第二层级网格下的经向标识与纬向标识,以此类推。也就是说,定位网格编码共14位,奇数位编码为经向编码,偶数位编码为纬向编码,取值范围均为十六进制的0-F。
2)不同类型地质信息编码(geological code)
对于要存储的数据,分配分布式文件时,除了空间网格编码,还需进一步补充其它类型地质信息,形成最终的分布式子块文件对应的文件编码(chunk code)。补充的地质信息包含多项基础数据地质描述信息,包括方位或形状,数据长度,数据类型等。地震类型的基础数据,编码信息体现的主要是地震测网描述信息;测井类型的基础数据,包括测井曲线类型、井眼方位、测井深度等描述信息。如,增加井眼的方位编码,值为0到F,对应360度分割为16等分后的每一份。
3)以空间网格为聚簇单元,分配、定位分布式子块文件
将需要进行分布式存储的基础数据,考虑其所在地域位置及地质信息后,产生子块文件编码(chunk code)后,将其传给分布式服务器。分布式服务器根据编码解译出具体的地理网格信息,然后通过空间网格定位的规则决定数据要存放于哪个空间网格以及要存储的数据要切割成多少子块。同时,利用一致性散列算法,将不同的网格中的数据存储到不同的机器中实现分布式存储。分布式服务器中维护空间网格相关信息,记录了已有数据的各个网格,并且记录了每个网格中含有哪些数据。其中,每个网格可能含有多个分布式子块文件,每个分布式子块文件中可能含有多组分布式数据,当一组分布式数据大小超过文件容量限制时,一组分布式数据也会进一步切分,分段存到多个分布式子块文件中(图)。
以上是关于GI分布式存储中的“PolarCode”依然是GIS技术的思考延续,可标识“云”中的每一口井每一地震道的主要内容,如果未能解决你的问题,请参考以下文章