如何根据内容对与圣经相关的文本进行分类
Posted
技术标签:
【中文标题】如何根据内容对与圣经相关的文本进行分类【英文标题】:How to classify texts that are related to the bible based on their content 【发布时间】:2020-07-03 02:40:05 【问题描述】:我有一个来自社交网络(FB、Twitter)的 cmets 的文本数据库。 我的目标是根据内容对与圣经有密切关系的文本进行分类(例如,如果使用了引用或“圣经”词。 这是一个二元分类问题,我需要帮助来弄清楚如何处理它(也许以某种方式将圣经用作字典)。谢谢!
【问题讨论】:
【参考方案1】:您可以训练有监督的二元分类器(例如,基于 TF-IDF 计数器的逻辑回归,或 fasttext 分类器,或微调 BertForSequenceClassification)。
然后将此分类器应用于您的 cmets 数据库,并找到一个合理的概率阈值,以仅保留分类器足够自信的 cmets。
作为训练的正例,您可以使用圣经本身的句子,圣经相关的***文章的句子等。作为负例,您可以使用从网络收集的任何句子语料库 - 例如the Leipzig corpora 之一。
【讨论】:
谢谢!在其他文本上训练分类器进行训练而不是在我的数据集上进行测试的想法听起来很棒。您是否有类似代码的 python 或 r 笔记本的参考资料? 只是谷歌“tf-idf +逻辑回归”;例如这是第一个搜索结果kaggle.com/sudhirnl7/logistic-regression-tfidf以上是关于如何根据内容对与圣经相关的文本进行分类的主要内容,如果未能解决你的问题,请参考以下文章