按元素频率顺序遍历多重集的最简单方法?
Posted
技术标签:
【中文标题】按元素频率顺序遍历多重集的最简单方法?【英文标题】:Simplest way to iterate through a Multiset in the order of element frequency? 【发布时间】:2011-05-19 17:45:36 【问题描述】:考虑这个打印出一些设备类型统计信息的例子。 (“DeviceType”是一个包含十几个值的枚举。)
Multiset<DeviceType> histogram = getDeviceStats();
for (DeviceType type : histogram.elementSet())
System.out.println(type + ": " + histogram.count(type));
按频率顺序打印不同元素的最简单、最优雅的方法是什么(最常见的类型在前)?
快速浏览一下Multiset
接口,没有现成的方法可以做到这一点,而且 Guava 的Multiset
实现(HashMultiset
、TreeMultiset
等)似乎都不会自动保持元素按频率排序要么。
【问题讨论】:
code.google.com/p/guava-libraries/issues/detail?id=356 【参考方案1】:我刚刚将此功能添加到 Guava,请参阅 here 获取 Javadoc。
编辑:Multisets.copyHighestCountFirst()
的用法示例根据原始问题:
Multiset<DeviceType> histogram = getDeviceStats();
for (DeviceType type : Multisets.copyHighestCountFirst(histogram).elementSet())
System.out.println(type + ": " + histogram.count(type));
【讨论】:
哇,谢谢!所以这显然会包含在 Guava 版本 11 中? 是的。 (今年夏天我是番石榴实习生。)不过,它可能会被重命名;见code.google.com/p/guava-libraries/issues/detail?id=356。 我冒昧地添加了一个代码示例。现在也将其标记为已接受。再次感谢您实施该功能! 嗯,很不错,但如果能够选择升序/降序排序会更好。 @Sonson123:我刚刚用 Guava 18.0(最新版本)进行了测试,copyHighestCountFirst()
工作正常。【参考方案2】:
这是一个返回 List
条目的方法,按频率排序(更新:使用标志来切换升序/降序并使用 Guava 最喜欢的玩具:Enum Singleton Pattern
,如发现在Effective Java,第 3 项):
private enum EntryComp implements Comparator<Multiset.Entry<?>>
DESCENDING
@Override
public int compare(final Entry<?> a, final Entry<?> b)
return Ints.compare(b.getCount(), a.getCount());
,
ASCENDING
@Override
public int compare(final Entry<?> a, final Entry<?> b)
return Ints.compare(a.getCount(), b.getCount());
,
public static <E> List<Entry<E>> getEntriesSortedByFrequency(
final Multiset<E> ms, final boolean ascending)
final List<Entry<E>> entryList = Lists.newArrayList(ms.entrySet());
Collections.sort(entryList, ascending
? EntryComp.ASCENDING
: EntryComp.DESCENDING);
return entryList;
测试代码:
final Multiset<String> ms =
HashMultiset.create(Arrays.asList(
"One",
"Two", "Two",
"Three", "Three", "Three",
"Four", "Four", "Four", "Four"
));
System.out.println("ascending:");
for(final Entry<String> entry : getEntriesSortedByFrequency(ms, true))
System.out.println(MessageFormat.format("0 (1)",
entry.getElement(), entry.getCount()));
System.out.println("descending:");
for(final Entry<String> entry : getEntriesSortedByFrequency(ms, false))
System.out.println(MessageFormat.format("0 (1)",
entry.getElement(), entry.getCount()));
输出:
升序: 一 (1) 个 两 (2) 三 (3) 四 (4) 降序: 四 (4) 三 (3) 两 (2) 一 (1) 个
【讨论】:
这很不错,很可能是目前最简单的方法,而 Multiset 本身不提供它! (Guava 太酷了;我之前没有注意到Ints
类。再看看 API 文档,Files
对我来说也是新的——一个 util 集合类似于什么Commons IO 有,除了泛型支持和整体上更清洁。)【参考方案3】:
使用ForwardingMultiSet 的实现:
(EntryComp来自seanizer'sanswer)
enum EntryComp implements Comparator<Multiset.Entry<?>>
DESCENDING
@Override
public int compare(final Entry<?> a, final Entry<?> b)
return Ints.compare(b.getCount(), a.getCount());
,
ASCENDING
@Override
public int compare(final Entry<?> a, final Entry<?> b)
return Ints.compare(a.getCount(), b.getCount());
,
public class FreqSortMultiSet<E> extends ForwardingMultiset<E>
Multiset<E> delegate;
EntryComp comp;
public FreqSortMultiSet(Multiset<E> delegate, boolean ascending)
this.delegate = delegate;
if (ascending)
this.comp = EntryComp.ASCENDING;
else
this.comp = EntryComp.DESCENDING;
@Override
protected Multiset<E> delegate()
return delegate;
@Override
public Set<Entry<E>> entrySet()
TreeSet<Entry<E>> sortedEntrySet = new TreeSet<Entry<E>>(comp);
sortedEntrySet.addAll(delegate.entrySet());
return sortedEntrySet;
@Override
public Set<E> elementSet()
Set<E> sortedEntrySet = new LinkedHashSet<E>();
for (Entry<E> en : entrySet())
sortedEntrySet.add(en.getElement());
return sortedEntrySet;
public static <E> FreqSortMultiSet<E> create(boolean ascending)
return new FreqSortMultiSet<E>(HashMultiset.<E> create(), ascending);
/*
* For Testing
* public static void main(String[] args)
Multiset<String> s = FreqSortMultiSet.create(false);
s.add("Hello");
s.add("Hello");
s.setCount("World", 3);
s.setCount("Bye", 5);
System.out.println(s.entrySet());
*/
【讨论】:
+1。在某种程度上,优雅地拥有一个包含并抽象出所有排序逻辑的 Multiset 实现。使用它的客户端代码将保持简单(只要使用 FreqSortMultiSet,就不需要对我的问题中的示例代码进行更改)。当然,缺点是必须编写和维护比S.P.Floyd's solution 更多的代码...【参考方案4】:由于it is not yet implemented,我猜你可以创建一个Map
,key=type 和value=count。然后对该地图进行排序 - 请参阅 here
【讨论】:
以上是关于按元素频率顺序遍历多重集的最简单方法?的主要内容,如果未能解决你的问题,请参考以下文章