GEO数据挖掘小尝试:(三)利用clusterProfiler进行富集分析

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GEO数据挖掘小尝试:(三)利用clusterProfiler进行富集分析相关的知识,希望对你有一定的参考价值。

参考技术A 安装clusterProfiler:

对于没有转换的gene ID,clusterProfiler也提供了 bitr 方法进行转换ID:

可以看到,这里转换ID的对应文件来源于"org.Hs.eg.db"这个包。

在开始富集分析之前先看看GO和KEGG富集分析的方法以及参数:

导入数据,这是一个整合数据,在这里我们要用到的只是entrez ID列和最后一列(logFC):

由于clusterProfiler富集分析推荐的输入文件是Entrez ID,因此这里提取的是Entrez ID,接下来就可以进行富集分析了:

KEGG通路富集函数用法与GO富集分析方法类似:

我们继续使用上面的数据进行KEGG富集分析:

这里使用clusterProfiler里面的 GSEA 函数进行GSEA富集分析,并与使用超几何分布富集( enricher 函数)的结果进行简单比较, enricher 函数与 GSEA 函数用法基本相同,因此这里只给出 GSEA 的用法及参数。

在进行富集分析之前需要对数据做一个预处理——排序。

这里使用的是broad GSEA提供的gene sets 来提供TERM2GENE:

万事俱备,只欠东风。现在可以开始分析了,先进行超几何分布的富集分析:

再做GSEA富集分析,在此之前需要对输入gene list做一下处理,包括三步:

输入文件准备好了尽可以进行GSEA富集分析了:

不要问我为什么要pvalueCutoff设置0.8,因为一直调大到0.8才富集到结果。。。可见数据应该是有问题的,但这里作为一个实践就不管那么多了。
而且,clusterProfiler还支持GSEA的GO、KEGG富集。

顺便再利用上面处理好的glist进行一下KEGG富集到的某一条通路的可视化:

上面的命令会在当前目录生成3个文件:一个原始KEGG通路图片,一个标注了上下调基因的,最后一个文本文件则是一些KEGG通路信息。

参考:
clusProfiler命令参考手册
GSEA的分析汇总
Statistical analysis and visualization of functional profiles for genes and gene clusters
GSEA分析是个什么鬼?(上)
GSEA是个什么鬼?(下)

nginx利用geo模块做限速白名单以及geo实现全局负载均衡的操作记录

 

Nginx的geo模块不仅可以有限速白名单的作用,还可以做全局负载均衡,可以要根据客户端ip访问到不同的server。比如,可以将电信的用户访问定向到电信服务器,网通的用户重 定向到网通服务器”,从而实现智能DNS的作用。前面介绍过nginx域名访问的白名单配置梳理,下面对nginx的geo模块使用做一梳理(参考Geo模块-Nginx中文文档

geo指令是通过ngx_http_geo_module模块提供的。默认情况下,nginx安装时是会自动加载这个模块,除非安装时人为的手动添加--without-http_geo_module。

ngx_http_geo_module模块可以用来创建变量,其值依赖于客户端IP地址。

geo指令
语法: geo [$address] $variable { ... }
默认值: —
配置段: http
定义从指定的变量获取客户端的IP地址。默认情况下,nginx从$remote_addr变量取得客户端IP地址,但也可以从其他变量获得。

例如:
geo $remote_addr $geo {
default 0;
127.0.0.1 1;
}
geo $arg_ttlsa_com $geo {
default 0;
127.0.0.1 1;
}

如果该变量的值不能代表一个合法的IP地址,那么nginx将使用地址"255.255.255.255"。
nginx通过CIDR或者地址段来描述地址,支持下面几个参数:
1)delete:删除指定的网络
2)default:如果客户端地址不能匹配任意一个定义的地址,nginx将使用此值。 如果使用CIDR,可以用"0.0.0.0/0"代替default。
3)include: 包含一个定义地址和值的文件,可以包含多个。
4)proxy:定义可信地址。 如果请求来自可信地址,nginx将使用其“X-Forwarded-For”头来获得地址。 相对于普通地址,可信地址是顺序检测的。
5)proxy_recursive:开启递归查找地址。 如果关闭递归查找,在客户端地址与某个可信地址匹配时,nginx将使用"X-Forwarded-For"中的最后一个地址来代替原始客户端地址。如果开启递归查找,在客户端地址与某个可信地址匹配时,nginx将使用"X-Forwarded-For"中最后一个与所有可信地址都不匹配的地址来代替原始客户端地址。
6)ranges:使用以地址段的形式定义地址,这个参数必须放在首位。为了加速装载地址库,地址应按升序定义。

geo $country {
default ZZ;
include conf/geo.conf;
delete 127.0.0.0/16;
proxy 192.168.100.0/24;
proxy 2001:0db8::/32;

127.0.0.0/24 US;
127.0.0.1/32 RU;
10.1.0.0/16 RU;
192.168.1.0/24 UK;
}

# vim conf/geo.conf  //编辑conf/geo.cong文件
10.2.0.0/16 RU;
192.168.2.0/24 RU;

地址段例子:
geo $country {
ranges;
default ZZ;
127.0.0.0-127.0.0.0 US;
127.0.0.1-127.0.0.1 RU;
127.0.0.1-127.0.0.255 US;
10.1.0.0-10.1.255.255 RU;
192.168.1.0-192.168.1.255 UK;
}

geo指令主要是根据IP来对变量进行赋值的。因此geo块下只能定义IP或网络段,否则会报错。

====================nginx利用geo模块做限速白名单操作======================

nginx的限速白名单需要结合geo和map指令来实现,map指令使用ngx_http_map_module模块提供的。默认情况下,nginx安装时是会自动加载这个模块,除非安装时人为手动添加--without-http_map_module。
ngx_http_map_module模块可以创建变量,这些变量的值与另外的变量值相关联。允许分类或者同时映射多个值到多个不同值并储存到一个变量中,map指令用来创建变量,但是仅在变量被接受的时候执行视
图映射操作,对于处理没有引用变量的请求时,这个模块并没有性能上的缺失。

配置如下:
http {
 geo $whiteiplist  {
 default 1;
 127.0.0.1 0;
 192.0.0.0/8 0;
 103.20.102.0/24 0;
 }
  
 map $whiteiplist  $limit {
 1 $binary_remote_addr;
 0 "";
 }
  
 limit_conn_zone $limit zone=limit:10m;
  
 server {
        listen       80;
        server_name  test.huanqiu.com;
  
        location ^~ /download/ {
                limit_conn limit 4;
                limit_rate 200k;
                alias /data/www.huanqiu.com/data/download/;
        }
 }
}


------------------------如下是一个nginx中geo限速白名单的配置实例--------------------------
[root@localhost ~]# cat /usr/local/nginx/conf/vhosts/wangshibo.conf
geo $whiteiplist  {
 default 1;
 127.0.0.1 0;
 192.168.0.0/16 0;
 58.68.230.0/24 0;
 }
  
 map $whiteiplist  $limit {
 1 $binary_remote_addr;
 0 "";
 }
  
 limit_conn_zone $limit zone=limit:10m;

 server {
    listen 80;
    server_name dev.wangshibo.com wangshibo.com *.wangshibo.com;
   
    access_log  /usr/local/nginx/logs/8080-access.log main;
    error_log  /usr/local/nginx/logs/8080-error.log;
     
  
    location ~ / {
    root /var/www/html/8080;         
    index index.html index.php index.htm;
    }

    location ^~ /download/ {
          limit_conn limit 4;        //最大的并发连接数
          limit_rate 200k;           //每个连接的带宽
          alias /data/wangshibo/download/;
        }
  }


配置要点解释:
1)geo指令定义一个白名单$whiteiplist, 默认值为1, 所有都受限制。 如果客户端IP与白名单列出的IP相匹配,则$whiteiplist值为0也就是不受限制。
2)map指令是将$whiteiplist值为1的,也就是受限制的IP,映射为客户端IP。将$whiteiplist值为0的,也就是白名单IP,映射为空的字符串。
3)limit_conn_zone和limit_req_zone指令对于键为空值的将会被忽略,从而实现对于列出来的IP不做限制。

测试方法
[root@localhost vhosts]# ab -c 100 -n 300  http://dev.wangshibo.com/download/docs/pdf/kevingarce.pdf

==============Nginx利用geo模块做负载均衡的操作记录===============

本次测试的机器ip信息如下:

server1: 113.110.86.28
server2: 113.110.86.25
server3: 188.84.155.239

客户端1:113.110.86.23
客户端2:113.110.86.51
客户端3:113.110.86.19

三台server机器上都部署了nginx环境,为了测试效果,特意配置了server1和server2的9090端口的首页,如下:
[root@localhost ~]# curl http://113.110.86.28:9090
this is server1:113.110.86.28

[root@localhost ~]# curl http://113.110.86.25:9090
this is server2:113.110.86.25

配置server3,在server3上实现利用geo模块做负载均衡的目的,server3的nginx配置如下:
[root@localhost vhosts]# cat test.conf
geo $geo {
    default default;
    113.110.86.19/32   uk;
    113.110.86.51/32   us;
    }

#这里我是单网测试,所以掩码是32位;如果是vlan,可以是24位掩码,比如:
# 113.110.86.0/24   tw;

    upstream  uk.server {
      server 113.110.86.28:9090;
    } 

    upstream  us.server {
      server 113.110.86.25:9090;
    }

    upstream  default.server {
      server 188.84.155.239:9090;
    }

    server {
      listen    80;
      server_name 188.84.155.239;
      index index.html index.htm;
      root /var/www/html/80;
   
      location / {
      proxy_redirect off;
      proxy_set_header Host $host;
      proxy_set_header X-Real-IP $remote_addr;
      proxy_set_header X-Forwarded-For $proxy_add_x_forwarded_for;
      proxy_pass http://$geo.server$request_uri;
      }
    } 
  
    server {
      listen    9090;
      server_name 188.84.155.239;

      location / {
      root  /var/www/html/9090;
      index index.html index.htm;
      }
    }


访问server3的9090端口
[root@localhost vhosts]# curl http://188.84.155.239:9090
this is server3:188.84.155.239

------------------------接下来就开始测试-------------------------
1)在客户端1上访问http://188.84.155.239,如下:
[root@localhost ~]# curl http://188.84.155.239
this is server3:188.84.155.239

因为客户端1的IP地址为113.110.86.23,按照上面server3中nginx的配置,它访问的很明显是server3的9090端口!

2)在客户端2上访问http://188.84.155.239,如下:
[root@localhost ~]# curl http://188.84.155.239
this is server2:113.110.86.25

按照server3的nginx配置,客户端2访问server3的80端口就会被负载到server2的9090端口上!

3)在客户端3上访问http://188.84.155.239,如下:
[root@jenkins-server ~]# curl http://188.84.155.239
this is server1:113.110.86.28

按照server3的nginx配置,客户端3访问server3的80端口就会被负载到server1的9090端口上!

------------------------------------------------------------
通过上面的测试,很明显能看到geo模块起到了负载均衡的作用。这样就可以把三台服务器分别放到不同的IDC机房。然后在数据同步就可以了。
这样做的好处就是省去了在DNS上做手脚,因为智能DNS有时候按照来访IP解析的时候会解析对方的DNS地址,把它匹配到一台服务器,如果对方是
网通用户,它用的电信DNS,会直接把它匹配到电信的服务器。而nginx的geo模块就是根据来访问IP来匹配服务器的,这样只要我们把各地区的IP段收集起来就可以了~~

以上是关于GEO数据挖掘小尝试:(三)利用clusterProfiler进行富集分析的主要内容,如果未能解决你的问题,请参考以下文章

R语言GEO数据挖掘:步骤三:进行基因差异分析

kegg数据库和geo数据库区别

nginx利用geo模块做限速白名单以及geo实现全局负载均衡的操作记录

GEO/TCGA 数据挖掘到底什么套路?

手把手教你不用编程挖掘GEO

微服务 SpringBoot 整合 Redis GEO 实现附近商户功能