Azure 数据工厂中的复制数据未完全读取文件

Posted 2023-03-25

技术标签:

【中文标题】Azure 数据工厂中的复制数据未完全读取文件【英文标题】：File is not readed completely by Copy Data in Azure Data Factory 【发布时间】：2021-12-12 08:01:43 【问题描述】：

我正在开发一个管道，该管道能够将位于 Blob 存储中的 .txt 文件中的数据插入到 SQL 数据库中的表中。

问题：不知何故，活动配置无法正常工作，因为'没有读取文件中的所有记录，因此没有将所有数据加载到数据库中（我在打开文件并比较时意识到了这个问题.text 文件中针对 SQL 表的记录数。另外，当我在 SQL 表中搜索上个月的记录时，我没有找到它们）

注意：我从 SQL 中检查了表中字符的大小限制，这不是问题。

我还想与您分享数据复制活动和源数据集配置：

接收数据集：

你们知道我在这里做错了什么吗？希望你能帮助我，最好的问候。

附： Here's the Source Dataset

【问题讨论】：

你可以看到，“复制到接收器的行数”指标“在不解析文件的情况下按原样复制文件时不适用，例如，当源和接收器数据集为二进制格式类型或其他格式时使用相同的设置键入。”我刚刚复制活动失败，但仍然显示写的行数：266,206 你能分享一下接收器数据集的配置吗，自从选择了自动创建表后你是如何指定表名的 @KarthikBhyresh-MT 您能否向我解释一下您是如何正确加载数据的？另外，我更新了帖子并添加了接收器数据集配置屏幕截图我在第一条评论中的意思是，即使复制活动失败，管道运行详细信息显示写入的行数与读取的行数相同，但实际复制的行数不会相同我遵循了与您完全相同的配置，我设置了 DISTRIBUTION = HASH（描述），CLUSTERED COLUMNSTORE INDEX。写入的数据：28.054 MB 写入的行数：266,206 您是自动导入架构还是手动映射 【参考方案1】：

正如 cmets 中所讨论的，在使用复制活动时，您必须确保在运行活动之前设置架构。按照设计，架构映射为空，必须由用户手动配置或要求 adf 从数据集中导入架构。