ColumnDataClassifier 的最大类数
Posted
技术标签:
【中文标题】ColumnDataClassifier 的最大类数【英文标题】:maximum number of classes for ColumnDataClassifier 【发布时间】:2018-09-06 06:26:09 【问题描述】:在使用 ColumnDataClassifier 时我可以拥有的最大类数是否有限制?我有一些我想分配给 10k 组织的地址,但即使在我将 -xmx 编号设置为最大值后,我仍然遇到内存问题。
【问题讨论】:
您想为这 10k 个组织应用多少个标签?您是否尝试读入组织名称的文本然后标记它? 不,输入是一个组织的地址,比如“450 Serra Mall, Stanford, CA 94305”,输出(标签)是“Stanford University”。我有 10k 个这样的标签。除非我将特征限制在 2500 以下,否则我无法停止 OOM。但这会严重影响准确性。 【参考方案1】:标签集的大小没有明确的限制,但 10k 是一个非常大的集,我对您遇到内存问题并不感到惊讶。您应该尝试使用小得多的标签集(约 100 个标签)进行一些实验,看看您的问题是否会消失。我不知道有多少标签实际上会起作用,但我怀疑它接近 10,000 个。我会尝试更小的集合,以了解内存使用量在标签集大小增长时如何增长。
您可能必须具有标签层次结构和不同的分类器。你可以想象第一个标签是“California-organization”,然后有第二个分类器来选择各种加州组织,等等......
【讨论】:
非常感谢!这真的很有帮助。那么你的意思是我需要训练,例如,加利福尼亚的一个模型,德克萨斯的一个模型等? 当然。您需要为分类器设置更小的标签集。因此,将标签排列成层次结构可以让您使用一系列分类器执行相同的 10,000 个标签分类。以上是关于ColumnDataClassifier 的最大类数的主要内容,如果未能解决你的问题,请参考以下文章