嵌入式数据库-分析型数据库-DuckDB

Posted 辰令

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了嵌入式数据库-分析型数据库-DuckDB相关的知识,希望对你有一定的参考价值。

DuckDB

数据库

按照是否是关系型
  关系型数据库可分为交易型数据库(OLTP)、分析型数据库(OLAP)和混合负载数据库(HTAP)。
    交易型数据库满足处理在线的实时交易事务场景,
    分析型数据库满足分析业务场景,
    混合负载数据库目标是同时处理简单交易和复杂分析场景
  非关系型数据库(NoSQL)
          键值数据库(Key-Value Database)、图数据库(Graph Database)、时序数据库(Time Series Database)、
 	     列簇式数据库(Column-family Database)和文档数据库(Document-Oriented Database)。
 		Clickhouse 
 		 
 按照部署形态区分
    本地部署和云原生数据库。
         本地部署按照架构分类主要有三类:单机、集群、分布式

按照是否
    嵌入式数据库(Embedded Database)和数据库服务器(Database Server)
	   数据库服务器(Database Server):客户端和服务器通过TCP/IP进行通讯 将数据与应用程序分离,便于对数据访问的控制和管理。	

数据库产品

国内:
  三个商业数据库品牌:达梦、GBase、金仓;
      达梦数据库DM8:通用关系型数据库
 三个开源数据库品牌:openGauss、TiDB、OceanBase;
 三个云数据库品牌:GaussDB、PolarDB、TDSQL
  MySQL、PostgreSQL
     MariaDB 客户端-服务器用例设计
     PostgreSQL 
     openGauss 是华为 一款企业级开源关系型数据库,内核基于PostgreSQL
     GaussDB 是华为自研数据库品牌,是华为基于外部电信与金融政企经验
     OceanBase 是蚂蚁集团完全自研的原生分布式关系数据库软件
     PolarDB是阿里云自主研发的新一代关系型云原生数据库
     AnalyticDB 阿里云:分析型数据库
     TDSQL  鹅厂
     TiDB是PingCAP公
	 Creenplum。GP数据库
	跨数据中心--监管等原因这个是迟早要来的
	存算分离:只有存算分离吗?不,能分离的都可以分离,都可以自由扩展,包括存储、缓存、网络、CPU等。

嵌入式数据库

SQLite  SQLite(开源,商用免费
 SQLite 等典型的 OLTP 关系数据库是面向行的
    RQLite基于SQLite创建分布式数据库系统
    9 offbeat databases worth a look
Berkeley DB (开源,商用收费)
  可以保存任意类型的键/值对(Key/Value Pair)	
Firebird嵌入服务器版(Embedded Server)  
UnQLite是一个文档存储数据库,类似于MongoDB、Redis、CouchDB等。同时,也是一个标准的Key/Value存储

DuckDB

 学习数据库内部实现的一个绝佳范例 适合作为一些嵌入式应用的内嵌分析型数据库
本地数据集提供快速的内存中分析处理,存算分离的架构,基于云计算进行构建的,底层基于对象存储,上层的计算节点是可以随意扩展的
DuckDB Labs
  SIGMOD2019 DuckDB,弥补了sqlite没有数据分析能力的缺陷。
    嵌入式的OLAP分析引擎,定位为高性能,高可靠和方便使用的数据库系统
	DuckDB对标SQLite,都是嵌入式数据库。
	    SQLite是嵌入式的OLTP,而DuckDB是嵌入式OLAP
  不需要启动数据库服务器,也不需要使用客户端连接服务器。			
Snowflake 分离了计算和存储,而 MotherDuck 将计算接入存储

下载安装

https://github.com/duckdb/duckdb/releases
  https://github.com/duckdb/duckdb/releases/download/v0.7.1/duckdb_cli-windows-amd64.zip
  pip install duckdb==0.7.1
  install.packages("duckdb")
 
 <dependency>
   <groupId>org.duckdb</groupId>
   <artifactId>duckdb_jdbc</artifactId>
   <version>0.7.1</version>
 </dependency>
 
 DuckDB 将保持其作为进行学术研究的工具的地位

Storage/Computation分离

示例:
    01.打开数据库 --duckdb to run the executable
         simply include a path as a command line argument like duckdb path/to/my_database.duckdb
       duckdb   #这个是 in-memory database
       或者	
       duckdb path/to/my_database.duckdb	  ##创建或者打开open or create a database at that location as needed
    02.连接数据库
     DuckDB 支持内存型和持久化型两种工作模式
       内存型不持久化数据,采用 InMemoryBlockManager 来管理数据,
       DuckDB 采用 SingleFileBlockManager 来管理外存上的数据
           SingleFile 的数据划分成定长块,包括两大类:header 和 block
    .show
      DuckDB, by default, connects to a transient in-memory database. 
           In other words, when the process is terminated, the data loaded is flushed	
      .open	
     eg: 
      mytest.db
      mytest.db.wal   < the write-ahead log file>
	  
	  Essentially the WAL contains a list of all the changes that have been committed/written to disk, but have not been checkpointed
	  https://sqlite.org/wal.html
	  https://github.com/duckdb/duckdb/issues/301
	    事务的支持有两种模式:
          回滚模式 (Rollback mode)。在事务处理中,SQLite 把原本的页写入到回滚日志中并且把修改的页写入到数据库文件中。
		       该模式同时支持 DELETE 和 TRUNCATE 两种子模式。
          预写式日志模式 (Write-ahead log mode)。
		    在事务处理中,不修改原本的页而是把修改的页追加写到单独的预写式日志文件中。
            预写式日志模式可以支持更高的并发度并且常常有更好的性能。
			但是相较于回滚模式,预写式日志模式不能用于网络文件系统并会增加整体文件管理的复杂度。
    	
    数据导入
       数据导入导出方面,支持CVS/Parquet/S3 Parquet导入导出
       reads Parquet, CSV and JSON files from either your local filesystem or HTTP servers
    
    
    	   
      the database parameter to the connect method persists all further changes. 
      Two new files will be created.
    
      Loading the data	  
    中途保存
       .backup	
    
    退出程序
       .quit
     
    	      mytest.db		
DBeaver SQL IDE for DuckDB				  
     https://duckdb.org/docs/guides/sql_editors/dbeaver   
	 https://central.sonatype.com/artifact/org.duckdb/duckdb_jdbc/0.7.1
	 https://repo1.maven.org/maven2/org/duckdb/duckdb_jdbc/0.7.1/
	 
     JDBC URL to: jdbc:duckdb:/home/<LOCAL_PATH>/db.duckdb
     Path to: /home/<LOCAL_PATH>/db.duckdb   
   
命令方式
    dot commands 点式命令
      begin the line with a period (.) immediately followed by the name of the command you wish to execute		
扩展
     查看扩展--select * from duckdb_extensions();
    JSON Import/Export
      When the JSON extension is installed, FORMAT JSON is supported for 
      COPY FROM, COPY TO, EXPORT DATABASE and IMPORT DATABASE. See Copy and Import/Export.
     从S3中下载扩展 
     从S3中下载扩展 
      D:\\annotation\\corner.json
   线上命令  
    https://shell.duckdb.org/
 
数据库是查询引擎和储存系统的结合,但现在好像单独的查询引擎或储存系统都可以算是数据库了,它们的边界在一点点模糊

其他

 Streamlit 是一个基于 Python 的 Web 应用程序框架,致力于以更高效、更灵活的方式可视化数据,并分析结果	 
 
 rilldata
 
 Pulumi 是一个开源工具,用于配置和管理云基础架构和资源 Terraform 
 
 Worktile 
     线项目管理系统的成本是约是15万/年
  PingCode	
   Worktile 是国内市场占有率最高的项目管理软件之一	
   OpenProj 是一款开源的项目管理软件	   
查询其他数据库的数据
   Querying SQLite data from DuckDB
   duckdb> LOAD \'build/release/sqlite_scanner.duckdb_extension\';
   duckdb> CALL sqlite_attach(\'sqlite3.db\');

 duckdb> LOAD \'build/release/postgres_scanner.duckdb_extension\';
 duckdb> CALL POSTGRES_ATTACH(\'host=127.0.0.1 port=5432 user=postgres dbname=postgres\');

参考

https://motherduck.com/
https://duckdb.org/
https://duckdb.org/docs/
https://github.com/duckdb/duckdb
DuckDB官网: https://duckdb.org/
DuckDB github 开源地址:https://github.com/duckdb/

以上是关于嵌入式数据库-分析型数据库-DuckDB的主要内容,如果未能解决你的问题,请参考以下文章

使用 cmake 在 windows 上编译 c++ 数据库时出错

拉新×23,盈利可能性高出19倍,嵌入式分析到底有多香

拉新×23,盈利可能性高出19倍,嵌入式分析到底有多香

画像分析(6-2)阿里云画像分析总结

python基础

分析型数据库 TDSQL-A 产品特性 应用场景