按元素频率顺序遍历多重集的最简单方法?

Posted

技术标签:

【中文标题】按元素频率顺序遍历多重集的最简单方法?【英文标题】:Simplest way to iterate through a Multiset in the order of element frequency? 【发布时间】:2011-05-19 17:45:36 【问题描述】:

考虑这个打印出一些设备类型统计信息的例子。 (“DeviceType”是一个包含十几个值的枚举。)

Multiset<DeviceType> histogram = getDeviceStats();
for (DeviceType type : histogram.elementSet()) 
    System.out.println(type + ": " + histogram.count(type));

按频率顺序打印不同元素的最简单、最优雅的方法是什么(最常见的类型在前)?

快速浏览一下Multiset 接口,没有现成的方法可以做到这一点,而且 Guava 的Multiset 实现(HashMultisetTreeMultiset 等)似乎都不会自动保持元素按频率排序要么。

【问题讨论】:

code.google.com/p/guava-libraries/issues/detail?id=356 【参考方案1】:

我刚刚将此功能添加到 Guava,请参阅 here 获取 Javadoc。

编辑Multisets.copyHighestCountFirst() 的用法示例根据原始问题:

Multiset<DeviceType> histogram = getDeviceStats();
for (DeviceType type : Multisets.copyHighestCountFirst(histogram).elementSet()) 
    System.out.println(type + ": " + histogram.count(type));

【讨论】:

哇,谢谢!所以这显然会包含在 Guava 版本 11 中? 是的。 (今年夏天我是番石榴实习生。)不过,它可能会被重命名;见code.google.com/p/guava-libraries/issues/detail?id=356。 我冒昧地添加了一个代码示例。现在也将其标记为已接受。再次感谢您实施该功能! 嗯,很不错,但如果能够选择升序/降序排序会更好。 @Sonson123:我刚刚用 Guava 18.0(最新版本)进行了测试,copyHighestCountFirst() 工作正常。【参考方案2】:

这是一个返回 List 条目的方法,按频率排序(更新:使用标志来切换升序/降序并使用 Guava 最喜欢的玩具:Enum Singleton Pattern,如发现在Effective Java,第 3 项):

private enum EntryComp implements Comparator<Multiset.Entry<?>>
    DESCENDING
        @Override
        public int compare(final Entry<?> a, final Entry<?> b)
            return Ints.compare(b.getCount(), a.getCount());
        
    ,
    ASCENDING
        @Override
        public int compare(final Entry<?> a, final Entry<?> b)
            return Ints.compare(a.getCount(), b.getCount());
        
    ,


public static <E> List<Entry<E>> getEntriesSortedByFrequency(
    final Multiset<E> ms, final boolean ascending)
    final List<Entry<E>> entryList = Lists.newArrayList(ms.entrySet());
    Collections.sort(entryList, ascending
        ? EntryComp.ASCENDING
        : EntryComp.DESCENDING);
    return entryList;

测试代码:

final Multiset<String> ms =
    HashMultiset.create(Arrays.asList(
        "One",
        "Two", "Two",
        "Three", "Three", "Three",
        "Four", "Four", "Four", "Four"
    ));

System.out.println("ascending:");
for(final Entry<String> entry : getEntriesSortedByFrequency(ms, true))
    System.out.println(MessageFormat.format("0 (1)",
        entry.getElement(), entry.getCount()));


System.out.println("descending:");
for(final Entry<String> entry : getEntriesSortedByFrequency(ms, false))
    System.out.println(MessageFormat.format("0 (1)",
        entry.getElement(), entry.getCount()));

输出:

升序: 一 (1) 个 两 (2) 三 (3) 四 (4) 降序: 四 (4) 三 (3) 两 (2) 一 (1) 个

【讨论】:

这很不错,很可能是目前最简单的方法,而 Multiset 本身不提供它! (Guava 太酷了;我之前没有注意到 Ints 类。再看看 API 文档,Files 对我来说也是新的——一个 util 集合类似于什么Commons IO 有,除了泛型支持和整体上更清洁。)【参考方案3】:

使用ForwardingMultiSet 的实现:

EntryComp来自seanizer'sanswer)

enum EntryComp implements Comparator<Multiset.Entry<?>> 
    DESCENDING 
        @Override
        public int compare(final Entry<?> a, final Entry<?> b) 
            return Ints.compare(b.getCount(), a.getCount());
        
    ,
    ASCENDING 
        @Override
        public int compare(final Entry<?> a, final Entry<?> b) 
            return Ints.compare(a.getCount(), b.getCount());
        
    ,


public class FreqSortMultiSet<E> extends ForwardingMultiset<E> 
    Multiset<E> delegate;
    EntryComp comp;

    public FreqSortMultiSet(Multiset<E> delegate, boolean ascending) 
        this.delegate = delegate;
        if (ascending)
            this.comp = EntryComp.ASCENDING;
        else
            this.comp = EntryComp.DESCENDING;
    

    @Override
    protected Multiset<E> delegate() 
        return delegate;
    

    @Override
    public Set<Entry<E>> entrySet() 
        TreeSet<Entry<E>> sortedEntrySet = new TreeSet<Entry<E>>(comp);
        sortedEntrySet.addAll(delegate.entrySet());
        return sortedEntrySet;
    

    @Override
    public Set<E> elementSet() 
        Set<E> sortedEntrySet = new LinkedHashSet<E>();
        for (Entry<E> en : entrySet())
            sortedEntrySet.add(en.getElement());
        return sortedEntrySet;
    

    public static <E> FreqSortMultiSet<E> create(boolean ascending) 
        return new FreqSortMultiSet<E>(HashMultiset.<E> create(), ascending);
    

    /*
     * For Testing
     * public static void main(String[] args) 
        Multiset<String> s = FreqSortMultiSet.create(false);
        s.add("Hello");
        s.add("Hello");
        s.setCount("World", 3);
        s.setCount("Bye", 5);
        System.out.println(s.entrySet());
    */


【讨论】:

+1。在某种程度上,优雅地拥有一个包含并抽象出所有排序逻辑的 Multiset 实现。使用它的客户端代码将保持简单(只要使用 FreqSortMultiSet,就不需要对我的问题中的示例代码进行更改)。当然,缺点是必须编写和维护比S.P.Floyd's solution 更多的代码...【参考方案4】:

由于it is not yet implemented,我猜你可以创建一个Map,key=type 和value=count。然后对该地图进行排序 - 请参阅 here

【讨论】:

以上是关于按元素频率顺序遍历多重集的最简单方法?的主要内容,如果未能解决你的问题,请参考以下文章

按字母顺序获取地图中的键的简单方法

检查用户是不是更改了连续子表单记录集的最简单方法?

合并 ES6 地图/集的最简单方法?

从中到外访问数组(非向量)元素的最简单方法是什么?

mongodb - 按顺序计算缺失索引的最有效方法

删除页面中所有样式的最简单方法