如何根据 std::map 的值获取前 n 个键？

Posted 2023-02-22

技术标签:

【中文标题】如何根据 std::map 的值获取前 n 个键？【英文标题】：How can i get the top n keys of std::map based on their values? 【发布时间】：2013-07-31 07:13:55 【问题描述】：

如何根据值获取 std::map 的前 n 个键？有没有一种方法可以让我得到一个列表，例如前 10 个键值最大的键值？假设我们有一张类似这样的地图：

mymap["key1"]= 10;
mymap["key2"]= 3;
mymap["key3"]= 230;
mymap["key4"]= 15;
mymap["key5"]= 1;
mymap["key6"]= 66;
mymap["key7"]= 10;

我只想列出前 10 个键的列表，这些键与其他键相比具有更大的价值。例如，我们的 mymap 的前 4 名是

key3
key6
key4 
key1
key10

注意： 这些值不是唯一的，实际上它们是每个键的出现次数。我想得到一个最常出现的键的列表

注 2： 如果 map 不是一个好的候选人，你想建议什么，请按照 c++11 做，我当时不能使用 boost。

注3： 如果使用std::unordered_multimap<int,wstring>，我还有其他选择吗？

【问题讨论】：

也许 std::map 不是你想要的。 Boost.Bimap 允许你使用值类型作为键 c++ - Tricky Method - need solution 和 map operations(find most occurence element) 等可能重复对此有任何 c++11 解决方案吗？我当时不能使用 boost 【参考方案1】：

map 的顺序是基于它的键而不是它的值，并且不能重新排序，因此有必要遍历 map 并维护遇到的前十名或Potatoswatter 评论的列表使用 partial_sort_copy() 为您提取前 N 个值：

std::vector<std::pair<std::string, int>> top_four(4);
std::partial_sort_copy(mymap.begin(),
                       mymap.end(),
                       top_four.begin(),
                       top_four.end(),
                       [](std::pair<const std::string, int> const& l,
                          std::pair<const std::string, int> const& r)
                       
                           return l.second > r.second;
                       );

见online demo。

选择不同类型的容器可能更合适，boost::multi_index 值得研究，其中：

... 支持构建容器，维护一个或多个具有不同排序和访问语义的索引。

【讨论】：

使用std::partial_sort_copy可以省去迭代和保持top N的手动工作。实际上再三考虑，我认为警告甚至不适用。它是工作的正确工具。 @Potatoswatter：谢谢，我今天学习了一种新的 STL 算法！太好了，谢谢十亿，partial_sort_copy 的顺序是什么？【参考方案2】：

#include <iostream>
#include <map>
#include <vector>
#include <algorithm>
#include <string>
using namespace std;

int main(int argc, const char * argv[])

    map<string, int> entries;

    // insert some random entries
    for(int i = 0; i < 100; ++i)
    
        string name(5, 'A' + (char)(rand() % (int)('Z' - 'A') ));
        int number = rand() % 100;

        entries.insert(pair<string, int>(name, number));
    

    // create container for top 10
    vector<pair<string, int>> sorted(10);

    // sort and copy with reversed compare function using second value of std::pair
    partial_sort_copy(entries.begin(), entries.end(),
                      sorted.begin(), sorted.end(),
                      [](const pair<string, int> &a, const pair<string, int> &b)
    
        return !(a.second < b.second);
    );

    cout << endl << "all elements" << endl;

    for(pair<string, int> p : entries)
    
        cout << p.first << "  " << p.second << endl;
    

    cout << endl << "top 10" << endl;

    for(pair<string, int> p : sorted)
    
        cout << p.first << "  " << p.second << endl;
    

    return 0;

【讨论】：

【参考方案3】：

std::map 不仅不按映射到的值排序（这样的值不需要有任何定义的排序顺序），它不允许重新排列其元素，因此在映射值的假设结构上执行 ++ map[ "key1" ];返回键将使反向映射无效。

最好的办法是将键值对放入另一个结构中，并在需要反向映射时按值对其进行排序。如果您始终需要反向映射，则每次更改值时都必须删除、修改和重新添加。

将现有地图分类为新结构的最有效方法是 std::partial_sort_copy，正如（刚刚）由 Al Bundy 说明的那样。

【讨论】：

【参考方案4】：

由于映射的值没有被索引，您必须阅读所有内容并选择 10 个最大值。

std::vector<mapped_type> v;
v.reserve(mymap.size());

for(const auto& Pair : mymap)
 v.push_back( Pair.second );

std::sort(v.begin(), v.end(), std::greater<mapped_type>());

for(std::size_t i = 0, n = std::min<int>(10,v.size()); i < n; ++i)
  std::cout << v[i] << ' ';

另一种方法是使用两个映射或一个双映射，因此映射的值将被排序。

【讨论】：

Hossein 想要钥匙，而不是价值吗？【参考方案5】：

您正在寻找的算法是 nth_element，它对一个范围进行部分排序，以便第 n 个元素位于完全排序的范围内。例如，如果您希望前三项按降序排列，您可以编写（在伪 C++ 中）

nth_element(begin, begin + 3, end, predicate)

问题是 nth_element 不适用于 std::map。因此，我建议您将数据结构更改为成对的向量（并且根据您正在处理的数据量，您可能会发现这是一个更快的数据结构）。所以，在你的例子中，我会这样写：

typedef vector<pair<string, int>> MyVector;
typedef MyVector::value_type ValueType;

MyVector v; 

// You should use an initialization list here if your
// compiler supports it (mine doesn't...)
v.emplace_back(ValueType("key1", 10));
v.emplace_back(ValueType("key2", 3));
v.emplace_back(ValueType("key3", 230));
v.emplace_back(ValueType("key4", 15));
v.emplace_back(ValueType("key5", 1));
v.emplace_back(ValueType("key6", 66));
v.emplace_back(ValueType("key7", 10));

nth_element(v.begin(), v.begin() + 3, v.end(), 
    [](ValueType const& x, ValueType const& y) -> bool
    
        // sort descending by value
        return y.second < x.second;
    );

// print out the top three elements
for (size_t i = 0; i < 3; ++i)
    cout << v[i].first << ": " << v[i].second << endl;

【讨论】：

【参考方案6】：

#include "stdafx.h"
#include <iostream>
#include <vector>
#include <map>
#include <string>
#include <algorithm>
#include <cassert>
#include <iterator>
using namespace std;

class MyMap

public:
    MyMap();
    void addValue(string key, int value)
    
        _map[key] = value;
        _vec.push_back(make_pair(key, value));
        sort(_vec.begin(), _vec.end(), Cmp());
    
    vector<pair<string, int> > getTop(int n)
    
        int len = min((unsigned int)n, _vec.size());
        vector<Pair> res;
        copy(_vec.begin(), _vec.begin() + len, back_inserter(res));
        return res;
    
private:
    typedef map<string, int> StrIntMap;
    typedef vector<pair<string, int> > PairVector;
    typedef pair<string, int> Pair;
    StrIntMap  _map;
    PairVector _vec;
    struct Cmp: 
        public binary_function<const Pair&, const Pair&, bool>
    
        bool operator()(const Pair& left, const Pair& right)
        
            return right.second < left.second;
        
    ;
;

int main()

    MyMap mymap;
    mymap.addValue("key1", 10);
    mymap.addValue("key2", 3);
    mymap.addValue("key3", 230);
    mymap.addValue("key4", 15);
    mymap.addValue("key6", 66);
    mymap.addValue("key7", 10);

    auto res = mymap.getTop(3);

    for_each(res.begin(), res.end(), [](const pair<string, int> value)
                                        cout<<value.first<<" "<<value.second<<endl;);

【讨论】：

多映射不是更好的选择吗，因为与键不同的值可以重复并且无法在映射中表示？【参考方案7】：

最简单的解决方案是使用std::transform 来构建第二张地图：

typedef std::map<int, std::string> SortedByValue;
SortedByValue map2;
std::transform(
    mymap.begin(), mymap.end(),
    std::inserter( map2, map2.end() ),
    []( std::pair<std::string, int> const& original ) 
        return std::pair<int, std::string>( original.second, original.first );
         );

然后挑选map2 的最后n 个元素。

或者（并且可能更有效），您可以使用 std::vector<std::pair<int, std::string>> 并对其进行排序之后：

std::vector<std::pair<int, std::string>> map2( mymap.size() );
std::transform(
    mymap.begin(), mymap.end()
    map2.begin(),
    []( std::pair<std::string, int> const& original ) 
        return std::pair<int, std::string>( original.second, original.first );
         );
std::sort( map2.begin(), map2.end() );

（请注意，这些解决方案会优化时间，但代价是更多内存。）

【讨论】：

非常感谢:) 哪个算快？与手动遍历旧地图并将值插入新的多地图相比，std::transform() 有什么好处吗？（因为肯定有相同的出现，我不想丢失它们）？与使用地图相比，在向量中的每次插入中创建/删除/复制项目效率低吗？带有向量的解决方案肯定是这里考虑的两个解决方案中更快的（尽管带有partial_sort_copy 的解决方案可能更快）。插入地图（或多地图）通常是一项相当昂贵的操作；插入向量非常快（平均而言），并且在第二个解决方案中，最初以所需的大小构造向量。（一个有趣的替代方法是使用目标大小的向量，使用第一个 n 元素初始化，然后作为堆管理，在其余元素上使用 for_each。

以上是关于如何根据 std::map 的值获取前 n 个键？的主要内容，如果未能解决你的问题，请参考以下文章