这篇随笔是写在看了若干篇关于高频关键词共现和ACA的文章之后的一个总结,这些论文大多是2010年之前发表的,这与这种方法是传统方法有很大关系。同时,这些文章不仅限于图书情报领域。
下面是正文:
①大多数论文用的方法就是崔雷说不太合适的,具体来说是:先用SPSS里的分析--相关--距离--皮尔森系数,将原始共现矩阵转化为相似性矩阵(其实也可以用cosine,许海云的文章就是没用Pearson用的cosine),然后在这个矩阵的基础上进行聚类分析和MDS分析。MDS分析就是用的是得到的矩阵然后操作就是按照http://blog.sina.com.cn/s/blog_49f78a4b0100hr4j.html这个网址里说的,当然其实用原始共现矩阵也可以,这样的话就是完全按照网址里说的。。而因子分析一般是用原始的矩阵进行,就是那种做问卷的因子分析,然而这里就是用之前的那个转化后得到的相关矩阵来做。
②做高频词(关键词)的时候用1去减①里提到的相似矩阵(不过这时候用的是Ochiai系数了结果都是正数的系数)的值得到的结果就是相异矩阵,很好理解,因为相似程度1,相异程度自然就是0。关键词分析的话是用相异矩阵做MDS,用相似矩阵做聚类,用原始共现矩阵做因子分析(这是马费成和张勤写的《国外知识管理研究范式》里说的,发表在07年12月的管理科学学报上)
③皮尔森相关系数矩阵是可以算出负数的,这种情况下应该还是不用管,就是按照①里面说的,进行MDS操作和聚类