基于 WordNet 的语义相似度 (WNetSS) API

Posted

技术标签:

【中文标题】基于 WordNet 的语义相似度 (WNetSS) API【英文标题】:WordNet-based Semantic Similarity (WNetSS) API 【发布时间】:2018-07-24 08:06:30 【问题描述】:

我在研究中使用WNetSS API 来计算单词之间的语义相似度。我按照他们在this page 中列出的说明进行操作。我运行first example,它运行良好,数据库已成功加载,但是当我尝试运行second example时,显示此错误:

run:
The database WordnetSemanticSimilarity is created.
Feb 13, 2018 11:34:07 PM net.sf.extjwnl.dictionary.Dictionary setInstance
INFO: Installing dictionary net.sf.extjwnl.dictionary.FileBackedDictionary@e73f9ac
Loading WordNet2.1 in progress ...
Exception in thread "main" com.mysql.jdbc.exceptions.jdbc4.MySQLIntegrityConstraintViolationException: Duplicate entry '1740-noun' for key 'PRIMARY'
    at sun.reflect.NativeConstructorAccessorImpl.newInstance0(Native Method)
    at sun.reflect.NativeConstructorAccessorImpl.newInstance(NativeConstructorAccessorImpl.java:62)
    at sun.reflect.DelegatingConstructorAccessorImpl.newInstance(DelegatingConstructorAccessorImpl.java:45)
    at java.lang.reflect.Constructor.newInstance(Constructor.java:423)
    at com.mysql.jdbc.Util.handleNewInstance(Util.java:411)
    at com.mysql.jdbc.Util.getInstance(Util.java:386)
    at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:1040)
    at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:4074)
    at com.mysql.jdbc.MysqlIO.checkErrorPacket(MysqlIO.java:4006)
    at com.mysql.jdbc.MysqlIO.sendCommand(MysqlIO.java:2468)
    at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2629)
    at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2719)
    at com.mysql.jdbc.PreparedStatement.executeInternal(PreparedStatement.java:2155)
    at com.mysql.jdbc.PreparedStatement.executeUpdate(PreparedStatement.java:2450)
    at com.mysql.jdbc.PreparedStatement.executeUpdate(PreparedStatement.java:2371)
    at com.mysql.jdbc.PreparedStatement.executeUpdate(PreparedStatement.java:2355)
    at WordNetSemanticSimilarity.WordNetTreatment.WordNetProcessing.LoadWordNetInDataBase(WordNetProcessing.java:259)
    at wnetssexamples.Example0.main(Example0.java:39)
C:\Users\Administrator\AppData\Local\NetBeans\Cache\8.2\executor-snippets\run.xml:53: Java returned: 1
BUILD FAILED (total time: 1 second)

我尝试打开第一个示例中创建的数据库,发现有四行具有相同的键值,但不确定这是否会改变 api 的逻辑:

当我进一步尝试查找该表中有多少重复行时,我发现了一个巨大的数字,如下图所示:

我不知道如何解决这个问题,因为我自己没有创建数据库,我只是在加载它。不知道这是作者的错还是我做错了什么。您的快速反应将有很大帮助。

谢谢

【问题讨论】:

【参考方案1】:

这是因为您运行了示例 0 两次,这将重复数据集中的记录,应该做的是运行示例 0,然后示例 1 运行四次,每次更改以下行:

第一次POS pos=POS.ADVERB; 第二次POS pos=POS.ADJECTIVE; 第三次POS pos=POS.NOUN; 第四次POS pos=POS.VERB;

然后将示例 6 运行四次,并进行与示例 1 相同的修改。

然后尝试注释这些类并且不再运行它们,这样数据库和表就不会被覆盖。

【讨论】:

以上是关于基于 WordNet 的语义相似度 (WNetSS) API的主要内容,如果未能解决你的问题,请参考以下文章

词义相似度计算

WordNet Python 单词相似度

Python:字符串的语义相似度得分

是否有 Wordnet 相似性度量的替代方法

词语义相似度(距离度量)网络服务?

基于本体概念的语义相似度计算