T-SNE可视化高维数据，亮瞎审稿人

Posted 2022-05-17 Tina姐

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了T-SNE可视化高维数据，亮瞎审稿人相关的知识，希望对你有一定的参考价值。

文章目录

t-Distributed Stochastic Neighbor Embedding (t-分布随机邻域嵌入, 简称 t-SNE) 是一种降维技术，特别适用于高维数据集的可视化

经典案例-MNIST手写数字降维可视化

MNIST 原始数据大小： 60000 * 784，每个数据 784 维
2D-t-SNE后为: 60000 x 2
3D-t-SNE后为: 60000 x 3

可见，把 784 维数据（图像大小 28x28，拉直后为784，对 MNIST 不了解请百度）降成 2 维或 3 维是很大程度上的压缩。降维后的结果如图所示。

2D-t-SNE

3D-t-SNE

上边是2D-t-SNE，数字0-9一共是10个类，每个类分别是不同的颜色，通过二维图像，我们很容易看到每个类别的分布差异性。

论文中使用 t-SNE 案例

Paper: GANomaly: Semi-Supervised Anomaly Detection via Adversarial Training
把正常数据和异常数据分开用二维展示，可以明显看出两个类别之间的分布是有界限的。

Paper: MAMA Net: Multi-scale Attention Memory Autoencoder Network for Anomaly Detection
使用 t-SNE 可视化模型的潜在空间（比如 U-NET 模型的瓶颈层），以比较使用EM和不使用 EM loss 对潜在空间的影响。

Paper: Unsupervised Detection of Lesions in Brain MRI using constrain-ed adversarial auto-encoders
使用 t-SNE 可视化健康图像和异常图像之间的分布差异性，通过图像可以看出，二者的分布差异较小。

从上面这些例子可以直观看出 t-SNE 在可视化方面用的非常多。在做分类任务之前，我们也可以用它看看不同类别之间有没有明显的分界线。如果分界线明显，可以说明分类任务比较简单。反之则说明类别之间不容易区分，如果我们的分类结果不是很好，可以用此图说明任务的难度。如果分类结果很好，也可以更加展示算法的优势。

当然，这只是例举一个用处，它的作用不止这些。

t-SNE 实战

它的作用了解了，看看怎么用代码实现它。经过多次实践发现，虽然实现他的方法很多，但是最好用最方便的还是使用 sklearn.manifold.TSNE

接下来讲解2个使用该方法的案例

MNIST 可视化教程

kaggle MNIST 可视化教程上面讲的很详细，还对比 PCA 和 t-SNE 的区别

MRI 脑肿瘤三维数据可视化

实验背景与目的： brats 是三维脑 MRI 肿瘤数据，大小= 240x240x150, 把每个数据中的肿瘤层面看成是异常层，不含肿瘤的层面看成是正常层。使用 t-SNE 可视化，以观察正常层和异常层在分布上是否有差异。

这里的层指的是 axial-slice, 即横断面。一个三维数据有150层，每层的大小都等于240x240

1.导入包

import numpy as np
import matplotlib.pyplot as plt
from sklearn import manifold
from glob import glob
import nibabel as nib

2.加载数据
我的数据是三维的，格式为 .nii.gz

# load data
brats = sorted(glob('BraTs/*.gz'))
brats_gt = sorted(glob('BraTsseg/*.gz'))

brats_tra = []
brats_label = []
for i, j in zip(brats, brats_gt):
    brats_np = nib.load(i).get_fdata()
    brats_gt_np = nib.load(j).get_fdata()

    assert brats_gt_np.shape == brats_np.shape

    z = brats_np.shape[-1]
    for zi in range(z):
        brats_tra.append(brats_np[..., zi].flatten())  # 横断层拉直，维度=240x240=57600
        if brats_gt_np[..., zi].any():
            brats_label.append(1)
        else:
            brats_label.append(0)
            
brats_array = np.array(brats_tra, dtype='uint8')  # [6200, 57600]
brats_label_array = np.array(brats_label, dtype='uint8')   # [6200]

brats_array 大小为[6200, 57600]，表示一共有6200层，每层的数据维度是57600，对它进行降维到[6200, 2]

3.可视化-使用sklearn-TSNE

tsne = manifold.TSNE(n_components=2, init='pca', random_state=42).fit_transform(brats_array)

tsne shape [6200, 2]，由于数据维度非常大，还要迭代1000次，因此非常慢。

参数介绍

n_components（默认值：2）：嵌入空间的维度，需要降到几维写几维。
init: 初始化方法，多采用 PCA 初始化
perplexity（默认值：30）：perplexity 与其他流形学习算法中使用的最近邻的数量有关。考虑选择 5 到 50 之间的值。
n_iter（默认值：1000）：优化的最大迭代次数。应至少为 250。
random_state：随机种子
还有其他参数可以调整。有关详细信息，请参阅文档

t-SNE 归一化

# tsne 归一化， 这一步可做可不做
x_min, x_max = tsne.min(0), tsne.max(0)
tsne_norm = (tsne - x_min) / (x_max - x_min)

根据label，把正常层和异常层分开

normal_idxs = (brats_label_array == 0)
abnorm_idxs = (brats_label_array == 1)
tsne_normal = tsne_norm[normal_idxs]
tsne_abnormal = tsne_norm[abnorm_idxs]

使用matplotlib画出t-SNE

plt.figure(figsize=(8, 8))
plt.scatter(tsne_normal[:, 0], tsne_normal[:, 1], 1, color='red', label='Healthy slices')
# tsne_normal[i, 0]为横坐标，X_norm[i, 1]为纵坐标，1为散点图的面积， color给每个类别设定颜色
plt.scatter(tsne_abnormal[:, 0], tsne_abnormal[:, 1], 1, color='green', label='Anomalous slices')
plt.legend(loc='upper left')
plt.show()

结果展示：

由于进行了归一化，横纵坐标值都在[0,1] 从这个图可以看出，正常层分布在左边，异常在右边，当然也有很多分界不清的区域。

总结：使用 sklearn.manifold.TSNE 很简单，就一句话搞定了，其余的代码都是为了创建需要降维的数组，以及使用 matplotlib进行展示，真正核心代码就一行。

想了解更多理论知识，请阅读以下链接
TSNE理论知识

文章持续更新，可以关注微信公众号【医学图像人工智能实战营】获取最新动态，一个关注于医学图像处理领域前沿科技的公众号。坚持已实践为主，手把手带你做项目，打比赛，写论文。凡原创文章皆提供理论讲解，实验代码，实验数据。只有实践才能成长的更快，关注我们，一起学习进步~

我是Tina, 我们下篇博客见~

白天工作晚上写文，呕心沥血

觉得写的不错的话最后，求点赞，评论，收藏。或者一键三连

以上是关于T-SNE可视化高维数据，亮瞎审稿人的主要内容，如果未能解决你的问题，请参考以下文章