Quora Question Pairs 挑战,使用二元交叉熵损失预测两个问题是不是问同一个问题来评估预测

Posted

技术标签:

【中文标题】Quora Question Pairs 挑战,使用二元交叉熵损失预测两个问题是不是问同一个问题来评估预测【英文标题】:Quora Question Pairs challenge, predict if two questions ask the same thing using binary cross entropy loss to evaluate the predicitionQuora Question Pairs 挑战,使用二元交叉熵损失预测两个问题是否问同一个问题来评估预测 【发布时间】:2019-06-05 19:19:28 【问题描述】:

我有一个 csv 文件,其中包含来自 Quora Question Pairs Challenge 的成对问题。对于每一对,都有一个相应的标签来指定问题是否相同。我想创建一种方法,以便如果我们有未知的问题对,我可以回答他们是否问同样的问题。结果的准确性应使用二元交叉熵损失来确定。

这是一个我必须做的关于信息检索课程的项目。问题是到目前为止我发现的所有解决方案都包括机器学习(例如神经网络),并且在本课程中我们没有被教导如何使用任何机器学习模型。如何在不使用任何机器学习的情况下解决此问题?

我考虑过清理数据(例如,停用词reomval 和标点符号删除)计算 tf-idf,然后在两对之间应用余弦相似度。像这样,我可以在不使用标签的情况下找到已经给出的两个问题有多相似。但是,我如何利用标签来发挥自己的优势,并在没有机器学习的情况下预测两对未知问题之间的相似性,是否有一种我遗漏的简单方法?

【问题讨论】:

【参考方案1】:

您需要使用机器学习模型来解决此问题。您已经完成了很好的清理部分,并使用 tf-idf 来获取该单词在给定问题中出现的次数。你也可以试试 word-2vec 模型,它也会带出单词之间的语义。 Infact quora 使用随机森林作为模型来预测两个问题之间的相似性,您可以查看此链接以获取更多详细信息。 https://engineering.quora.com/Semantic-Question-Matching-with-Deep-Learning

现在你的解决方案太简单了,虽然它很好开始。 但如果您想要更高的准确性,我建议您了解有关逻辑回归、决策树等模型的基本知识来解决这个问题。

【讨论】:

以上是关于Quora Question Pairs 挑战,使用二元交叉熵损失预测两个问题是不是问同一个问题来评估预测的主要内容,如果未能解决你的问题,请参考以下文章

linux内核相关

在 Amazon Redshift 中存储极小的值

Quora的技术探索

Quora图片懒加载

使用 Selenium 从 Quora 中提取“(更多)”文本 - Python

秒杀活动的技术挑战