SSIS中 merge join与lookup 哪个性能更好些

Posted 2023-05-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了SSIS中 merge join与lookup 哪个性能更好些相关的知识，希望对你有一定的参考价值。

首先Merge Join 要求你的 200W 和 1亿条的查询数据都必须在 JOIN 之前排序，这个排序的过程对性能上也是有很大影响的。一般的情况下，我可能会先考虑使用 Lookup，一是不需要考虑排序的问题，二是可以利用上缓存。但是这个不是绝对的，考虑到你的目标表有1亿条左右，Lookup 缓存是否足够使用也和你本身的服务器配置相关，内存过于紧张，性能可能还不如 Merge Join。所以关于何时选择 Merge Join 还是 Lookup 因环境而异，没有绝对的结论。

给你一个参考，我以前做过一个 1500W目标表，源10W的测试结果，表字段大约100多列，源查询的时候并非直接取表的值，而是需要做一些转换。在本机测试 8G虚机情况下，使用 Lookup 和 Merge Join 的时间都很慢，都是以小时计。但是在 16G的测试服务器上(和真实产品服务器的配置是一样的) Lookup 的时间要远远优于 Merge Join 的时间。但是就可以明显的看出来，在不同的环境下，结论完全是不一样的。

最好的方式，就是在同一环境下，单用户的访问下，按照实际数据量依次尝试这几种方式：Lookup，Merge Join 和 SQL Server 中的 Merge，并记录比较实际的执行时间，这样的结论往往会比较准确些。但同时也要考虑到并行和串行的环境下，对内存争夺也会影响实际测试结果。

这几个控制本身的配置不会花费很多时间，所以完全可以尝试一下。参考技术A 三个阶段的主要区别在与所使用的内存、对不匹配记录的处理以及对输入数据的要求不同。

join stage：多个输入链接，一个输出链接。会对输入数据进行按键分区，确保相同键值的记录位于同一分区并用同一节点进行处理，故每次只取较少行，所需内存小。对于不匹配记录按照链接方式的不同而有所差异。

merge stage：多个输入链接，其中一个表示主数据集，其余表示更新数据集，一个输出链接和多个reject链接。可在链接顺序中指定更新链接与reject链接的对应关系。会对输入数据进行按键分区，确保相同键值的记录位于同一分区并用同一节点进行处理，故每次只取较少行，所需内存小。对不匹配记录会放入reject指定的数据输出中。要求主数据集与更新数据集均无重复值。

lookup stage：一个主链接，一个或多个引用链接，一个输出链接，一个reject链接。查找操作基于引用表的查找键列。查找键列在lookup中定义。查找数据与引用数据会全部读入内存，故需内存较大。无需对数据排序，但是应注意查找表的分区方式，与引用表相同或者采用全部分区方式。本回答被提问者和网友采纳

mongodb `$lookup` 或 `join` 与对象数组内的属性

【中文标题】mongodb `$lookup` 或 `join` 与对象数组内的属性【英文标题】：mongodb `$lookup` or `join` with attributes inside array of objects 【发布时间】：2020-08-18 08:19:34 【问题描述】：

我有这个来自 mongodb 的对象

[
    
        "_id": "5eaf2fc88fcee1a21ea0d94d",
        "migration_customer_union_id": 517,
        "__v": 0,
        "account": 1,
        "createdAt": "2020-05-03T20:55:36.335Z",
        "customerUnion": "5eaf2fc7698de8321ccd841d",
        "shaufel_customers": [
            
                "percent": 50,
                "_id": "5eaf2fc8698de8321ccd881f",
                "customer": "5eaf2fb9698de8321ccd68c0"
            ,
            
                "percent": 50,
                "_id": "5eaf2fc9698de8321ccd8a9d",
                "customer": "5eaf2fb9698de8321ccd68c0"
            
        ],
    
]

您可以注意到在 shaufel_customers 数组中有一个名为 customer 的属性，我想用它来加入客户文档，所以这就是我正在做的事情（在 *** 的帮助下编写了这段代码:)）

const aggregate = await CustomerUnionCustomer.aggregate(
        [
            
                $match: migration_customer_union_id: 517
            ,
            
                $lookup: 
                    from: 'customers',
                    localField: 'shaufel_customers.customer',
                    foreignField: '_id',
                    as: 'customers',
                
            ,
            
                $project: 
                    shaufel_customer_union_id: 1,
                    customerUnion: '$customerUnions',
                    shaufel_customers: 
                        $map: 
                            input: "$customers",
                            as: "c",
                            in: 
                                $mergeObjects: [
                                    "$$c",
                                    
                                        $arrayElemAt: [
                                            $filter: 
                                                input: "$shaufel_customers",
                                                cond: $eq: ["$$this.customer", "$$c._id"]
                                            
                                        , 0]
                                    ,

                                ]
                            
                        ,

                    
                
            ,
            
                "$project":  // this project just to get some specific values inside shaufel_customers
                    '_id': 0,

                    "shaufel_customers": 
                        "$map": 
                            "input": "$shaufel_customers",
                            "as": "customer",
                            "in": 
                                "customer_id": "$$customer.shaufel_customer_id",
                                "percent": "$$customer.percent"
                            
                        
                    
                
            

        ]
    )

执行此代码时，我收到以下响应

[
    
        "shaufel_customers": [
            
                "customer_id": "869",
                "percent": 50
            
        ]
    
]

你可以注意到我得到了一个对象，虽然上面的原始数组中有两个对象，这是因为上面的客户属性具有相同的 ObjectId 值5eaf2fb9698de8321ccd68c0，这就是我想问的。即使 id 相同，我也想获得相同的两个对象，所以我在这里期待的结果是

[
    
        "shaufel_customers": [
            
                "customer_id": "869",
                "percent": 50
            ,
            
                "customer_id": "869",
                "percent": 50
            ,
        ]
    
]

我该怎么做:(

【问题讨论】：

【参考方案1】：

您需要恢复您的 $map 并迭代 shaufel_customers 而不是 customer - 这将返回两个结果：


    $project: 
        shaufel_customer_union_id: 1,
        customerUnion: '$customerUnions',
        shaufel_customers: 
            $map: 
                input: "$shaufel_customers",
                as: "sc",
                in: 
                    $mergeObjects: [
                        "$$c",
                        
                            $arrayElemAt: [
                                $filter: 
                                    input: "$customers",
                                    cond: $eq: ["$$this._id", "$$sc.customer"]
                                
                            , 0]
                        ,

                    ]
                
            ,

        
    
,

【讨论】：

成功了！谢谢。你又救了我，感谢你的帮助。

以上是关于SSIS中 merge join与lookup 哪个性能更好些的主要内容，如果未能解决你的问题，请参考以下文章