使用 LIBSVM 预测用户的真实性
Posted
技术标签:
【中文标题】使用 LIBSVM 预测用户的真实性【英文标题】:Using LIBSVM to predict authenticity of the user 【发布时间】:2011-07-12 22:33:42 【问题描述】:我计划使用 LibSVM 来预测 Web 应用程序中的用户真实性。 (1) 收集特定用户行为的数据(例如登录时间、IP 地址、国家等) (2) 使用 Collected Data 训练 SVM (3) 使用实时数据比较并生成真实性级别的输出
有人能告诉我如何用 LibSVM 做这样的事情吗? Weka 可以帮助解决这些类型的问题吗?
【问题讨论】:
是的,Weka 可以提供帮助,因为它可以让您探索机器学习。你有这方面的经验吗? 我在这方面不是很有经验.. 但是.. 谁能告诉我我需要在这里做什么?在执行此类任务时可能需要执行哪些步骤? 【参考方案1】:您提到的三个步骤是解决方案的概要。更详细一点:
-
确保您获得大量标记数据,即带有真实/非真实注释的行为日志。 (如果没有标记数据,您将进入相当高级的半监督学习领域,或者必须考虑其他解决方案。)
根据您认为可以很好地预测真实性的数据设计许多功能。尝试该方法并对其进行改进,直到它在某些统计标准上足够好为止。使用ten-fold cross validation 确保您没有过度拟合。
LibSVM 可以输出概率估计及其答案;请参阅其manual 的第 8 节。
【讨论】:
LibSVM 可以输出概率估计(使用标志 -b 1 运行) 所以.. 只是为了澄清.. 概率估计是捕获实例的程度(我说的只是 1 个实例)匹配用于训练的实例?或者在这种情况下当前用户成为合法用户的概率? 它是对每个类别(真实或非真实)被分类实例属于该类别的概率的估计。 @ruwanego:如果这回答了您的问题,请点击我帖子旁边的复选标记。这被认为是出于礼貌,如果您不接受答案,下次人们将不太愿意帮助您。 完成!.. 并且.. 我想在一个文件中表示上述数据以输入到 LibSVM。我应该如何格式化文件?我在哪里可以找到关于 LibSVM 输入格式示例的好教程?以上是关于使用 LIBSVM 预测用户的真实性的主要内容,如果未能解决你的问题,请参考以下文章