傻傻分不清的:归一化(normalization)和标准化(standardization)

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了傻傻分不清的:归一化(normalization)和标准化(standardization)相关的知识,希望对你有一定的参考价值。

参考技术A 归一化(normalization) 和 标准化(standardization)

归一化是利用特征(可理解为某个数据集合)的最大值,最小值,将特征的值缩放到[0,1]区间,对于每一列的特征使用min - max函数进行缩放。

消除纲量,加快收敛:

不同特征往往具有不同的量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据归一化处理,以解决数据指标之间的可比性。原始数据经过数据归一化处理后,各指标处于[0,1]之间的小数,适合进行综合对比评价。

提高精度。

1)、线性归一化:

利用数据集每个特征的最大值,最小值,将特征的值缩放到[0,1]区间:

公式:新数据=(原数据-极小值)/(极大值-极小值)

2)、非线性归一化:

经常用在数据分化比较大的场景,有些数值很大,有些很小。通过一些数学函数,将原始值进行映射。该方法包括 log、指数,正切等。需要根据数据分布的情况,决定非线性函数的曲线,比如是log(V,2)还是log(V, 10)等。 (这部分还需要理解)

标准化是 通过特征的平均值和标准差,将特征缩放成一个标准的正态分布,缩放后均值为0,方差为1 。但即使数据不服从正态分布,也可以用此法。特别适用于数据的最大值和最小值未知,或存在孤立点。

1)、标准化是为了方便数据的下一步处理,而进行的数据缩放等变换,不同于归一化, 并不是为了方便与其他数据一同处理或比较 。

2)、标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

Z-score (标准化):

公式:新数据=(原数据-均值)/(标准差)

(z-score标准化方法适用于属性A的最大值和最小值未知的情况)

为了消除样本自身或者测样的技术差异,使样本间可以比较, 可以理解为组间数据的处理 。例如

1)、转录组不同样本如果测序深度不同,就会导致基因的read数不同,不做归一化就会影响结果

2)、代谢组不同样本,例如尿液样本可能浓度不同就会影响结果

标准化是为了使不同变量之间可以比较,消除极大值和极小值带来的影响, 可以理解为组内数据的处理 ,例如

1)、转录组中有些基因本身表达量就大,有些表达量小,不做标准化的话,直接做PCA之类的模型,会默认表达量大的对模型贡献就大,影响正确结果

2)、代谢组中有些代谢物含量天然高,有些天然低,同理

转录组数据分析:

转录组分析流程中标准化和归一化被统一叫成了标准化,或者有些资料里称为组内标准化和组间标准化。

转录组的标准化有多种方法,但是很多是兼顾了组内和组间两方面

寻找差异基因的时候,只涉及单个变量组间对比,不涉及样本内不同变量的比较,因此不需要做组内标准化,这也是为什么DESeq2等软件要求用原始counts数据的原因,这些软件设计了只针对组间的标准化。而目前常见的标准化方法则包含了组内标准化

做PCA的时候,需要衡量一个样本内不同变量的权重,因此需要做组内标准化。R自带的scale可以进行组内标准化,但是用原始counts数据做PCA可能还需要组间标准化,因此可以考虑用DESeq2标准化之后的数据

谈一谈让人傻傻分不清的1G,2G,3G,4G……

浅谈让人傻傻分不清的1G2G3G4G……

虽然大学里学过计算机网络,平时也总是看网上不停的喷着1G,2G,3G,4G到底是啥,但总觉得隔靴搔痒,看不出其本质区别,我不想详解其中的又臭又长的关键技术,就从大家能看明白的概念上说一说这些不同代网络技术的区别。

先从概念和区别说起

1G:没啥好说的,估计是有了后来的2、3G,才想起称呼原来的为1G。1G采用FDMA(模拟和频分多址技术),可实现区域的移动性服务,代表是第一代模拟制式手机,大哥大,通话锁定在一定频率,使用可调频电台就可以窃听电话,保密性差、容量有限,互不兼容,不能提供数据业务和自动漫游。


2G:代表是GSMGlobal System for Mobile Communication)全球移动通信系统,CDMA,是开启数字通信,GSM 较之以前最大的不同是它的信令和语音信道是数字式的通话质量稳定,保密性强,频谱利用率高,支持彩信的GPRS和上网的WAP服务等业务


2.5GGPRS通用分组无线业务,是在GSM系统上发展出来的一种新的承载业务,它通过利用GSM网络中未使用的TDMA信道传说中的2.5G

GPRS采用与GSM同样的无线调制标准、频带、突发结构、跳频规则以及同样的TDMA帧结构。

GSM最根本的区别是,GSM是一种电路交换系统,而GPRS是一种分组交换系统

GPRS允许用户在端到端分组模式下发送和接收数据,而不需要利用电路交换模式的网络资源,从而提供了一种高效、低成本的无线分组数据业务。 

GSM通信网络相比,技术特点如资源利用率高传输速率高(64-128Kbps)接入时间短、永远在线、支持IP协议和X.25 协议低成本,以通信的数据量为依据进行计费


3G:无线蜂窝电话通信协议,W-CDMACDMA2000TD-SCDMA三个主流3G标准。重点在网速上,3G技术的主要优点是能极大地增加系统容量、提高通信质量和数据传输速率。此外利用在不同网络间的无缝漫游技术,可将无线通信系统和Internet连接起来,可处理图像音乐视频等多媒体形式

因采用以拓频通信为基础的一种调制和多址通信方式,其容量比模拟技术高10倍,超过GSM网络约4倍;基于宽带技术的CDMA(码分多址)使得移动通信中视频应用成为可能,从而使手机从只能打电话和发送短信息等狭窄的服务中走向宽带多媒体应用。


4G:包括TD-LTE,FDD-LTE两种制式,集3GWLAN于一体,采用OFDM(正交频分多址)技术,4G改变了从2G3G时的运营商网络的建设方式和运营成本,4G不再保留无线通讯资源来专门跑语音了,而是所有资源全部用来跑数据——就是全部用来上网;速率更快,可达上行20Mbps,下行100Mbps。网络信道更宽

4G技术支持100Mbps~150Mbps的下行网络带宽,也就是意味着4G手机用户可以体验到最大12.5MB/s~18.75MB/s的下行速度。是目前中国移动3G(TD-SCDMA)2.8Mbps35倍,中国联通3G(WCDMA)7.2Mbps14倍。

4G实测网速真的有那么快么?

技术分享

20144月实测图

目前运营商都在加紧部署4G网络,也天天在吆喝4G网速能达到100Mbps,但用过4G的亲们都知道,目前的4G的速度根本就没有宣传的快,据2014年的实际网络测试,电信的下载速率可达43Mbps移动38.18Mbps而联通则只有25Mbps,这与联通的4g覆盖率低有关,4G再快,如果没有覆盖,等于享受不到。

在大众还在纠结要不要买个4G手机,把卡换一换,享受下啥事4G时,4G的时代又要来临了,具体什么事4G+,5G又长啥模样,下一篇详述。

4G手机还要换4G卡?4G卡和2G卡有啥区别?

其实在3G时代,电信和联通就对SIM卡进行了更换,电信手机卡叫UIM,联通3G手机卡叫USIM。它们都是一个意思,即用户识别卡,是全球数字移动电话用户的一张个人资料卡。

4G手机需要使用4G SIM卡,其名称为USIM

如果你已经是4g手机,对于移动用户来说,需要将原来的sim卡换成usim,不换号,需要换卡完成升级。对联通3g用户来说,如果已经是usim卡,可以不换号不换卡,但需要去营业厅升级为4g服务,才能使用4g功能。

USIM和SIM的区别

USIMUniversal Subscriber Identity Module(全球用户识别卡)的缩写。全球用户身份模块(USIM),也叫做升级 SIM ,是在 UMTS 3G 网络的一个构件。

除能够支持多应用之外,USIM卡还在安全性方面对算法进行了升级,并增加了卡对网络的认证功能,这种双向认证可以有效防止黑客对卡片的攻击。 SIM卡叫“用户识别卡”,它实际上是一张内含大规模集成电路的智能卡片,用来登记用户的重要数据和信息。SIM也指社会影响营销。
  更换后的USIM芯片部分的面积更大一方面是因为存储容量增加,例如从64KB增加到128KB,另一方面则源于加密技术的升级。在2G功能机时代,我们还使用SIM卡来存储联系人信息,不过到了3G时代,随着大容量智能手机的流行,这些信息早就存在手机内存当中了,因此更换USIM卡更大的意义在于更高等级的加密功能,也就是说安全性更强,更不易被破解。


以上是关于傻傻分不清的:归一化(normalization)和标准化(standardization)的主要内容,如果未能解决你的问题,请参考以下文章

谈一谈让人傻傻分不清的1G,2G,3G,4G……

cacao与cocoa 傻傻分不清的“可可”

[CTF pwn]傻傻分不清的execveint80syscallsystem及shellcode

CAPL脚本中关于相对路径/绝对路径操作的几个傻傻分不清的内置函数

归一化和标准化的一些理解

鉴权和授权,傻傻分不清