如何使用 python 在 BigQuery 中执行 job.insert?我得到“需要登录”,但可以列出所有表和数据集

Posted

技术标签:

【中文标题】如何使用 python 在 BigQuery 中执行 job.insert?我得到“需要登录”,但可以列出所有表和数据集【英文标题】:How do I do a job.insert in BigQuery using python? I get "login required" but yet can list all tables and datasets 【发布时间】:2013-11-13 23:43:57 【问题描述】:

我一直在尝试让 API 客户端在 Ruby 中工作,以执行插入作业以从云存储中获取数据并将其放入 BigQuery 中的表中,但并不太成功。过去,我查看了 Python API 并在 Ruby 中进行了操作,但这让我感到困惑。

import httplib2
import urllib2

from apiclient.discovery import build
from oauth2client.client import SignedJwtAssertionCredentials


def loadTable(service, projectId, datasetId, targetTableId):
  try:
    jobCollection = service.jobs()
    jobData = 
      'projectId': XXXXXXXXX,
      'configuration': 
          'load': 
            'sourceUris': ["gs://person-bucket/person_json.tar.gz"],
            'schema': 
              'fields'=> [
                   'name'=>'person_id', 'type'=>'integer' ,
                   'name'=> 'person_name', 'type'=>'string' ,
                   'name'=> 'logged_in_at', 'type'=>'timestamp' ,
                ]
            ,
            'destinationTable': 
              'projectId': XXXXXXXXX,
              'datasetId': 'personDataset',
              'tableId': 'person'
            ,
          
        
      

    insertResponse = jobCollection.insert(projectId=projectId, body=jobData).execute()

    # Ping for status until it is done, with a short pause between calls.
    import time
    while True:
      job = jobCollection.get(projectId=projectId,
                                 jobId=insertResponse['jobReference']['jobId']).execute()
      if 'DONE' == job['status']['state']:
          print 'Done Loading!'
          return

      print 'Waiting for loading to complete...'
      time.sleep(10)

    if 'errorResult' in job['status']:
      print 'Error loading table: ', pprint.pprint(job)
      return

  except urllib2.HTTPError as err:
    print 'Error in loadTable: ', pprint.pprint(err.resp)



PROJECT_NUMBER = 'XXXXXXXXX'
SERVICE_ACCOUNT_EMAIL = 'XXXXXXXXX@developer.gserviceaccount.com'

f = file('key.p12', 'rb')
key = f.read()
f.close()

credentials = SignedJwtAssertionCredentials(
    SERVICE_ACCOUNT_EMAIL,
    key,
    scope='https://www.googleapis.com/auth/bigquery')

http = httplib2.Http()
http = credentials.authorize(http)

service = build('bigquery', 'v2')
tables = service.tables()
response = tables.list(projectId=PROJECT_NUMBER, datasetId='person_dataset').execute(http)

print(response)
print("-------------------------------")


loadTable(service, PROJECT_NUMBER, "person_dataset", "person_table")

当我询问表格列表时,我必须获得授权,并且可以查看表格详细信息,但似乎无法使用从云存储导入的数据创建表格。

这是我在控制台中得到的输出:

No handlers could be found for logger "oauth2client.util"
u'totalItems': 2, u'tables': [u'kind': u'bigquery#table', u'id': u'xxx:xxx.xxx', u'tableReference': u'projectId': u'xxx', u'tableId': u'xxx', u'datasetId': u'xxx', u'kind': u'bigquery#table', u'id': u'xxx:xxx.yyy', u'tableReference': u'projectId': u'xxx', u'tableId': u'yyy', u'datasetId': u'xxx'], u'kind': u'bigquery#tableList', u'etag': u'"zzzzzzzzzzzzzzzz"'
Traceback (most recent call last):
  File "test.py", line 96, in <module>
    loadTable(service, PROJECT_NUMBER, "person_dataset", "person_table")
  File "test.py", line 50, in loadTable
    body=jobData).execute()
  File "/usr/local/lib/python2.7/dist-packages/oauth2client-1.2-py2.7.egg/oauth2client/util.py", line 132, in positional_wrapper
    return wrapped(*args, **kwargs)
  File "/usr/local/lib/python2.7/dist-packages/google_api_python_client-1.2-py2.7.egg/apiclient/http.py", line 723, in execute
    raise HttpError(resp, content, uri=self.uri)
apiclient.errors.HttpError: <HttpError 401 when requesting https://www.googleapis.com/bigquery/v2/projects/xxxxxxxx/jobs?alt=json returned "Login Required">

有人可以告诉我我做错了什么或指出我正确的方向吗?

任何帮助将不胜感激。

谢谢,祝你有美好的一天。

【问题讨论】:

【参考方案1】:

我不是 ruby​​ 开发人员,但我相信当您调用 build('bigquery', 'v2') 时,您应该传递授权的 http 对象。使用的方法似乎与 python 相同——相关示例如下:https://developers.google.com/api-client-library/python/samples/authorized_api_cmd_line_calendar.py

【讨论】:

【参考方案2】:

谢谢你。问题已解决:如果其他人有兴趣请看这里:How to import a json from a file on cloud storage to Bigquery

【讨论】:

UI 不会自动更新。如果你重新加载 UI,你看到表格数据了吗?你有你所从事的工作的工作 ID 吗?成功了吗?

以上是关于如何使用 python 在 BigQuery 中执行 job.insert?我得到“需要登录”,但可以列出所有表和数据集的主要内容,如果未能解决你的问题,请参考以下文章

如何使用 python API 在 bigquery 中创建新视图?

如何在 bigquery 中使用 python 将数据添加到 RECORD 类型的列

如何使用python修复在bigquery中上传csv文件

在 Python 中运行 BigQuery SQL 查询,如何进行身份验证?

如何使用 Python 与 BigQuery 建立连接

如何使用 google-api-python-client 设置 BigQuery 配置属性?