阅读报告:Scalable Processing of Contemporary Semi-Structured Data
Posted CS Live House
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了阅读报告:Scalable Processing of Contemporary Semi-Structured Data相关的知识,希望对你有一定的参考价值。
论文题目
Scalable Processing of Contemporary Semi-Structured Data on Commodity Parallel Processors - A Compilation-based Approach ASPLOS 2019
研究背景
JSON及其派生类在现代计算基础架构中具有重要地位,随着应用的发展JSON使用的规模也在不断增加,但是现有程序内的通常无法大规模地处理此类数据。这是由于处理JSON需要构建内存中的解析树,同时固有依赖阻碍了数据层面的并行化。开发人员往往需要构建临时的预解析器来拆分数据流。
要解决的问题
旧有的JSON处理方案可拓展性较差,构建预解析器需要消耗人工。因此需要一种能够自动对JSON文件进行处理的新技术,能够减少调用JSON时的内存消耗与对并行实现支持。
核心设计/算法
本文提出了一种针对JSON的编译系统JPStream:
将标准JSONPath查询编译为具有有限内存占用的并行可执行文件。
将查询和JSON语法一起编译为一个自动机来打破依赖。
核心的创新点(contribution)
引入自动机来进行对JSON数据流的处理。
设计了一组针对JSON处理的并行化技术。
设计了一种可以提高运行时并行化效率的数据约束学习方案。
主要的不足/可改进的地方(limitation)
本文的实验结果没有体现在减少内存开销同时的性能下降。
没有看懂的地方
对于编译系统不是很理解,根据CCF的分类来看是计算机系统组织的一种,相关的论文不多。从处理形式上来看像是针对JSON数据类型的存储系统,根据所需存储的JSON的结构提前构建基于自动机的可执行文件。从而实现对JSON数据的预处理。
自己的理解或看法(正面观点或反面观点均可)
本文所提出的JPStream基于一种新的优化思路。本文针对处理JSON时需要占用内存以构建解析树的现象,通过生成自动机,相当于对同一类相同结构的JSON进行预处理,从而减少了实际处理JSON数据时的内存开销。
可以寻找其他数据交换格式在使用中存在的额外开销,进行针对该种数据交换格式优化的系统设计。
以上是关于阅读报告:Scalable Processing of Contemporary Semi-Structured Data的主要内容,如果未能解决你的问题,请参考以下文章
论文阅读|node2vec: Scalable Feature Learning for Networks
论文阅读:FlowBlaze Stateful Packet Processing in Hardware
论文阅读《Block-NeRF: Scalable Large Scene Neural View Synthesis》
论文阅读|深读node2vec: Scalable Feature Learning for Networks