在 Google Composer 中将 Bigquery 结果保存为 JSON

Posted

技术标签:

【中文标题】在 Google Composer 中将 Bigquery 结果保存为 JSON【英文标题】:Save Bigquery results to JSON in Google Composer 【发布时间】:2020-03-18 09:05:35 【问题描述】:

我在 DAG 下创建了每天运行 sql 脚本。如何将查询结果保存到 JSON 文件并保存在 Google Composer 的 DAG 文件夹中?

import datetime
import airflow
from airflow.operators import bash_operator
from airflow.contrib.operators import bigquery_operator

START_DATE = datetime.datetime(2020, 3, 1)

default_args = 
    'owner': 'Alen',
    'depends_on_past': False,
    'email': [''],
    'email_on_failure': False,
    'email_on_retry': False,
    'retries': 1,
    'retry_delay': datetime.timedelta(minutes=15),
    'start_date': START_DATE,


with airflow.DAG(
        'Dag_Name',
        'catchup=False',
        default_args=default_args,
        schedule_interval=datetime.timedelta(days=1)) as dag:

    task_name = bigquery_operator.BigQueryOperator(
        task_id='task_name',
        sql= 'query.sql',
        use_legacy_sql=False,
        write_disposition= 'WRITE_TRUNCATE' ,        
        destination_dataset_table='Project.Dataset.destination_table')

【问题讨论】:

【参考方案1】:

另一种方法是将 DAG 文件夹作为目标运行从 BQ 到 GCS 的导出。

您可以使用 bash 或 bq 运算符

然后在脚本末尾运行类似这样的内容:

copy_files_to_DAG_folder = bash_operator.BashOperator(
    task_id='Copy_files_to_GCS',
    bash_command='bq extract --destination_format JSON--print_header=false 'BQ_TABLE' 
    'GCS_DAG_FOLDER_LOCATION''

来自文档:

 bq --location=location extract \
 --destination_format format \
 --compression compression_type \
 --field_delimiter delimiter \
 --print_header=boolean \
 project_id:dataset.table \
 gs://bucket/filename.ext

【讨论】:

以上是关于在 Google Composer 中将 Bigquery 结果保存为 JSON的主要内容,如果未能解决你的问题,请参考以下文章

Google Cloud Composer DAG 未出现在 UI 中

无法在 Google Cloud Composer 上安装新的 pipy 包

google-cloud-composer BigQuery 跨数据集加载

连接 BigQuery 和 Google 表格 - 日期参数问题

DAG 在 Google Cloud Composer 网络服务器上不可点击,但在本地 Airflow 上运行良好

使用 Google Composer 运行 Bigquery 查询