机器学习文本挖掘之spherical k-means algorithm初识

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习文本挖掘之spherical k-means algorithm初识相关的知识,希望对你有一定的参考价值。

Spherical K-Means 法によるクラスタ分析の実験検証

 

1.1研究背景、目的:

インターネットの普及などにより、膨大なデータの中からデータ間の関係を見つけ出したり、有用な情報をを取り出すためにクラスタリングを行われている。

{

本研究では、データマイニングの手法の一つであるクラスタリングに関して研究を行う。ク

ラスタリングとは、様々な数値解析手法の総称であり、それらの目的は多変量データを解析

し、観測データを同一のクラスタごとに分類し、それぞれのクラスタの区別を明確化あるいは

発見することである。クラスタリングは「似たものどうし」を集めるという、極めて単純明快

な目的のための方法である。しかし、類似性の尺度や手法によっては結果は様々となる。

本研究では、類似性の尺度にコサイン類似度を用いることで、球面上で k-means アルゴリズ

ムを行うクラスタリング手法について研究を行う。

}

 

 

教師なし機械学習(Unsupervised Learning)

クラスター分析

主成分分析

ベクトル量子化

自己組織化マップ

 

 

???关于距离选取

关于余弦类似度:http://www.ruanyifeng.com/blog/2013/03/cosine_similarity.html

 

 

 句子A:[1, 2, 2, 1, 1, 1, 0]

句子B:[1, 2, 2, 1, 1, 2, 1]

 

 

为什么要文本正规化,什么是cosine正规化

単に tf/idf を用いると、長い Web 文書に現れる単語ほど重みが高くなってしまうという 問題点がある。そのため Web 文書長の正規化を行った。正規化にはコサイン正規化を用い た。tfij、idfj を用いてコサイン正規化による文書長の正規化係数は、以下のようになる。 コサイン正規化は、Web 文書全体に含まれる単語の総数を m としたとき、m 次元ベクトル (tfi1idf1, tfi2idf2, · · · , tfimidfm) の向きを変化させずに、ベクトル長を 1 にする処理であると いえる。

From tukuba

 

 

A starting point for applying clustering algorithms to unstructured text data is to create

a vector space model for text data

 

Observe that we may regard the vector space model of a text data set

as a word-by-document matrix whose rows are words and columns are document vectors.

 

the document vectors are very highdimensional.

 

Hence, the

document vectors are very sparse.

 

It is natural to measure “similarity” between such vectors by their inner product, known as

cosine similarity

 

any word that does not help in discriminating a cluster from its neighbors is a function word.

 

VECTOR SPACE MODEL

 

Words(remaining)=1,2,3......d

Document=1,2,3......n

 

number of occurrences of word j --> document i-->f ji  <---tji:relative importance of a word

number of documents which contain the word j--->dj   <---gj:overall importance of a word

For i<=j<=d, set the j-th component of document vector xi  i=1 to n

xji = tji * gj * si

 

tji  is the term weighting component and depends only on  fji

 

gj is the global weighting component and depends on dj

 

 

 

自然言語処理(しぜんげんごしょり、

 

这是弧度制 
π=180° 
2π=360°

 

以上是关于机器学习文本挖掘之spherical k-means algorithm初识的主要内容,如果未能解决你的问题,请参考以下文章

干货|机器学习:Python实现聚类算法之K-Means

福利机器学习:Python实现聚类算法之K-Means

机器学习算法与编程实践之中文文本分类

机器学习笔记之一深入浅出学习K-Means算法

机器读心术之文本挖掘与自然语言处理

45-文本挖掘:无案牍之劳形