在 Google Composer 中将 Bigquery 结果保存为 JSON
Posted
技术标签:
【中文标题】在 Google Composer 中将 Bigquery 结果保存为 JSON【英文标题】:Save Bigquery results to JSON in Google Composer 【发布时间】:2020-03-18 09:05:35 【问题描述】:我在 DAG 下创建了每天运行 sql 脚本。如何将查询结果保存到 JSON 文件并保存在 Google Composer 的 DAG 文件夹中?
import datetime
import airflow
from airflow.operators import bash_operator
from airflow.contrib.operators import bigquery_operator
START_DATE = datetime.datetime(2020, 3, 1)
default_args =
'owner': 'Alen',
'depends_on_past': False,
'email': [''],
'email_on_failure': False,
'email_on_retry': False,
'retries': 1,
'retry_delay': datetime.timedelta(minutes=15),
'start_date': START_DATE,
with airflow.DAG(
'Dag_Name',
'catchup=False',
default_args=default_args,
schedule_interval=datetime.timedelta(days=1)) as dag:
task_name = bigquery_operator.BigQueryOperator(
task_id='task_name',
sql= 'query.sql',
use_legacy_sql=False,
write_disposition= 'WRITE_TRUNCATE' ,
destination_dataset_table='Project.Dataset.destination_table')
【问题讨论】:
【参考方案1】:另一种方法是将 DAG 文件夹作为目标运行从 BQ 到 GCS 的导出。
您可以使用 bash 或 bq 运算符
然后在脚本末尾运行类似这样的内容:
copy_files_to_DAG_folder = bash_operator.BashOperator(
task_id='Copy_files_to_GCS',
bash_command='bq extract --destination_format JSON--print_header=false 'BQ_TABLE'
'GCS_DAG_FOLDER_LOCATION''
来自文档:
bq --location=location extract \
--destination_format format \
--compression compression_type \
--field_delimiter delimiter \
--print_header=boolean \
project_id:dataset.table \
gs://bucket/filename.ext
【讨论】:
以上是关于在 Google Composer 中将 Bigquery 结果保存为 JSON的主要内容,如果未能解决你的问题,请参考以下文章
Google Cloud Composer DAG 未出现在 UI 中
无法在 Google Cloud Composer 上安装新的 pipy 包
google-cloud-composer BigQuery 跨数据集加载
连接 BigQuery 和 Google 表格 - 日期参数问题