有趣的 NLP/机器学习风格项目——分析隐私政策

Posted

技术标签:

【中文标题】有趣的 NLP/机器学习风格项目——分析隐私政策【英文标题】:Interesting NLP/machine-learning style project -- analyzing privacy policies 【发布时间】:2012-03-31 08:16:42 【问题描述】:

我想就分配给我的一个有趣问题提供一些意见。任务是分析数百甚至数千个隐私政策并确定它们的核心特征。例如,他们是否获取用户的位置?他们是否与第三方共享/出售?等等。

我与一些人交谈过,阅读了很多关于隐私政策的内容,并且我自己也思考过这个问题。这是我目前的攻击计划:

首先,阅读大量隐私并找到满足某个特征的主要“线索”或指标。例如,如果数百个隐私政策具有相同的行:“我们将获取您的位置。”,该行可能是一个 100% 确信该隐私政策包括获取用户位置的提示。其他线索对某个特征的置信度会小得多。例如,“位置”一词的存在可能会使用户位置被存储的可能性增加 25%。

我们的想法是不断开发这些线索及其适当的置信区间,直到我可以高度自信地对所有隐私政策进行分类。这里可以类比为垃圾邮件捕获系统,该系统使用贝叶斯过滤器来识别哪些邮件可能是商业邮件和未经请求的邮件。

我想问一下你们是否认为这是解决这个问题的好方法。你将如何解决这样的问题?此外,您是否推荐使用任何特定的工具或框架。欢迎任何意见。这是我第一次做涉及人工智能的项目,特别是机器学习和 NLP。

【问题讨论】:

问题不在于文档分类。您想将每个文档分成块,然后标记/分类/总结每个块。一种幼稚的方法可以将每个段落或语法句子视为一个块,但它可能过于粗糙。 不过,只有某些段落实际上对典型用户的隐私很重要。我对“热键”问题感兴趣,例如获取位置、出售给第 3 方等。标准样板文件无关紧要。 我试图指出的一点是,对于这样的系统来说,如果无法区分“我知道这是什么,我可以忽略它”和“我不知道这是什么”。所以我认为事实上你确实需要确定你所谓的“标准样板”。如果它确实是标准和样板文件,那么与主要任务相比,它应该很容易。 【参考方案1】:

确实是一个非常有趣的问题!

在更高的层次上,您想要的是summarization- 必须将文档简化为几个关键短语。这远不是一个已解决的问题。一种简单的方法是搜索关键字而不是关键短语。您可以尝试使用 LDA 之类的方法进行主题建模,以查找每个文档的内容。然后,您可以搜索所有文档中存在的主题——我怀疑会出现与许可证、位置、版权等有关的内容。MALLET 有一个易于使用的 LDA 实现。

【讨论】:

【参考方案2】:

我们的想法是不断开发这些线索及其适当的置信区间,直到我可以高度自信地对所有隐私政策进行分类。这里可以类比为垃圾邮件捕获系统,该系统使用贝叶斯过滤器来识别哪些邮件可能是商业邮件和未经请求的邮件。

这是text classification。鉴于每个文档有多个输出类别,它实际上是 multilabel classification。标准方法是manually label 一组具有您要预测的类/标签的文档,然后根据文档的特征训练分类器;通常是单词或 n-gram 出现或计数,可能由 tf-idf 加权。

用于文档分类的流行学习算法包括朴素贝叶斯和线性 SVM,但其他​​分类器学习器也可以使用。任何分类器都可以通过one-vs.-rest (OvR) 构造扩展为多标签分类器。

【讨论】:

【参考方案3】:

我会将此视为一个机器学习问题,您试图以多种方式对事物进行分类 - 即想要位置、想要 ssn 等。

您需要列举要使用的特征(位置、ssn),然后为每个文档说明该文档是否使用该信息。选择你的特征,训练你的数据,然后分类和测试。

我认为像单词和 n-gram 这样的简单特征可能会让你走得更远,而与 ssn 或 location 等内容相关的单词字典会很好地完成它。

使用您选择的机器学习算法 - 朴素贝叶斯非常易于实现和使用,并且可以作为解决问题的第一步。

【讨论】:

以上是关于有趣的 NLP/机器学习风格项目——分析隐私政策的主要内容,如果未能解决你的问题,请参考以下文章

太强了,机器学习代码,自动生成!

13.深度学习(词嵌入)与自然语言处理

#夏日挑战赛# FFH从零开始的鸿蒙机器学习之旅-NLP情感分析

Facebook 开发者关于隐私政策的提醒

13.深度学习(词嵌入)与自然语言处理--HanLP实现

我如何处理这个机器学习/NLP 上下文感知文本分类项目?请参阅下面的说明