如何处理 BigTable Scan InvalidChunk 异常?

Posted

技术标签:

【中文标题】如何处理 BigTable Scan InvalidChunk 异常?【英文标题】:How to handle BigTable Scan InvalidChunk exceptions? 【发布时间】:2017-04-08 21:26:54 【问题描述】:

我正在尝试扫描某些行“脏”的 BigTable 数据 - 但这取决于扫描失败,导致(序列化?)InvalidChunk 异常。 代码如下:

from google.cloud import bigtable
from google.cloud import happybase
client = bigtable.Client(project=project_id, admin=True)
instance = client.instance(instance_id)
connection = happybase.Connection(instance=instance)
table = connection.table(table_name)

for key, row in table.scan(limit=5000):  #BOOM!
    pass

省略一些列或将行限制为更少或指定开始和停止键,可以使扫描成功。 我无法从堆栈跟踪中检测到哪些值有问题 - 它因列而异 - 扫描失败。这使得从源头清理数据成为问题。

当我利用 python 调试器时,我看到块(类型为 google.bigtable.v2.bigtable_pb2.CellChunk)没有任何值(它是 NULL/未定义):

ipdb> pp chunk.value
b''
ipdb> chunk.value_size
0

我可以通过 rowkey 中的 HBase shell 确认这一点(我来自 self._row.row_key

所以问题变成了:BigTable 如何扫描过滤掉具有未定义/空/空值的列?

我从两个谷歌云 API 中都遇到了同样的问题,它们返回生成器,这些生成器在 gRPC 上将数据作为块内部流式传输:

google.cloud.happybase.table.Table# scan() google.cloud.bigtable.table.Table# read_rows().consume_all()

stacktrace 的缩写如下:

---------------------------------------------------------------------------
InvalidChunk                              Traceback (most recent call last)
<ipython-input-48-922c8127f43b> in <module>()
      1 row_gen = table.scan(limit=n) 
      2 rows = []
----> 3 for kvp in row_gen:
      4     pass
.../site-packages/google/cloud/happybase/table.py in scan(self, row_start, row_stop, row_prefix, columns, timestamp, include_timestamp, limit, **kwargs)
    391         while True:
    392             try:
--> 393                 partial_rows_data.consume_next()
    394                 for row_key in sorted(rows_dict):
    395                     curr_row_data = rows_dict.pop(row_key)

.../site-packages/google/cloud/bigtable/row_data.py in consume_next(self)
    273         for chunk in response.chunks:
    274 
--> 275             self._validate_chunk(chunk)
    276 
    277             if chunk.reset_row:

.../site-packages/google/cloud/bigtable/row_data.py in _validate_chunk(self, chunk)
    388             self._validate_chunk_new_row(chunk)
    389         if self.state == self.ROW_IN_PROGRESS:
--> 390             self._validate_chunk_row_in_progress(chunk)
    391         if self.state == self.CELL_IN_PROGRESS:
    392             self._validate_chunk_cell_in_progress(chunk)

.../site-packages/google/cloud/bigtable/row_data.py in _validate_chunk_row_in_progress(self, chunk)
    368         self._validate_chunk_status(chunk)
    369         if not chunk.HasField('commit_row') and not chunk.reset_row:
--> 370             _raise_if(not chunk.timestamp_micros or not chunk.value)
    371         _raise_if(chunk.row_key and
    372                   chunk.row_key != self._row.row_key)

.../site-packages/google/cloud/bigtable/row_data.py in _raise_if(predicate, *args)
    439     """Helper for validation methods."""
    440     if predicate:
--> 441         raise InvalidChunk(*args)

InvalidChunk: 

你能告诉我如何从 Python 扫描 BigTable,忽略/记录引发 InvalidChunk 的脏行吗?try ... except 无法绕过生成器,它位于谷歌云 API row_data PartialRowsData 类中)

另外,你能告诉我在 BigTable 中对表扫描进行分块流式处理的代码吗? 似乎不支持 HappyBase batch_sizescan_batching

【问题讨论】:

这听起来像是库或服务中的错误。实际上不应该有一个无效的块。 github.com/GoogleCloudPlatform/google-cloud-python 【参考方案1】:

这可能是由于这个错误:https://github.com/googleapis/google-cloud-python/issues/2980

这个错误已经修复,所以这应该不再是问题了。

【讨论】:

以上是关于如何处理 BigTable Scan InvalidChunk 异常?的主要内容,如果未能解决你的问题,请参考以下文章

我如何处理 java 命令行参数? [复制]

BigTable Scan withStopRow 包含问题

c# FileSystemWatcher如何处理多个文件?

如何处理 MaxUploadSizeExceededException

如何处理 UsernameNotFoundException 春季安全

如何处理c#中的错误代码