如何在GEO数据库中比较两个子集 我想在两组芯片数据之间比较存在表达差异4倍以上的基因 应该怎么操作

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了如何在GEO数据库中比较两个子集 我想在两组芯片数据之间比较存在表达差异4倍以上的基因 应该怎么操作相关的知识,希望对你有一定的参考价值。

参考技术A 你好,本公司是专门做生物信息数据处理的。
差异表达基因的筛选(阀值)以及后面的生物信息分析都可以做的。

差异表达基因筛选步骤:选择GEO数据——下载芯片数据——差异分析(方法有很多:SAM法,R包处理,T-test检验等)——选择想要的阈值(Fold change >4)本回答被提问者采纳

r语言中如何进行两组独立样本秩和检验

原文链接:http://tecdat.cn/?p=2723

 

所述配对双样品的Wilcoxon检验一种的非参数检验,其可以被用于比较样品的两个独立数据。

 

本文介绍如何在ř中计算两个样本的秩检验。


可视化数据并在ř中计算的Wilcoxon测试

函数用于计算的秩检验

为了执行两个样本的Wilcoxon检验,比较两个独立样本(x&y)的均值,R函数wilcox.test()可以如下使用:

 
wilcox.test(x, y, alternative = "two.sided")
 
  • x,y:数字向量

  • 替代方案:替代假设允许值是“two.sided”(默认值),“更大”或“更少”之一。

 

将数据导入R.

  1. 准备数据

  2. 将数据保存在外部的.TXT选项卡或的的.csv文件中

  3. 将您的数据导入ř如下:



my_data <- read.delim(file.choose())

my_data <- read.csv(file.choose())

在这里,我们将使用一个示例数据集,其中包含18个人(9名女性和9名男性)的权重:


women_weight <- c(38.9, 61.2, 73.3, 21.8, 63.4, 64.6, 48.4, 48.8, 48.5)men_weight <- c(67.8, 60, 63.4, 76, 89.4, 73.3, 67.3, 61.3, 62.4)# 创建 data framemy_data <- data.frame(group = rep(c("Woman", "Man"), each = 9),weight = c(women_weight, men_weight))

我们想知道,如果女性体重的中位数与男性体重的中位数不同?

检查数据

print(my_data)group weight1 Woman 38.92 Woman 61.23 Woman 73.34 Woman 21.85 Woman 63.46 Woman 64.67 Woman 48.48 Woman 48.89 Woman 48.510 Man 67.811 Man 60.012 Man 63.413 Man 76.014 Man 89.415 Man 73.316 Man 67.317 Man 61.318 Man 62.4

可以按组计算汇总统计数据(中位数和四分位数间距(IQR))。可以使用dplyr包。

  • 要安装dplyr软件包,请键入以下内容:

 
install.packages("dplyr")
 
   
   
 
  • 按组计算摘要统计信息:

library(dplyr)group_by(my_data, group) %>%summarise(count = n(),median = median(weight, na.rm = TRUE),IQR = IQR(weight, na.rm = TRUE))Source: local data frame [2 x 4]group count median IQR(fctr) (int) (dbl) (dbl)1 Man 9 67.3 10.92 Woman 9 48.8 15.0


使用箱形图可视化数据

可以按照此链接中的描述绘制R基本图:R基本图。在这里,我们将使用ggpubr R包进行基于ggplot2的简单数据可视化

  • 从GitHub上的安装最新版本的ggpubr如下(推荐):

# 安装if(!require(devtools)) install.packages("devtools")devtools::install_github("kassambara/ggpubr")
  • 或者,从CRAN安装如下:

 
install.packages("ggpubr")
 
   
   
 
  • 可视化您的数据:

# 分组绘制体重library("ggpubr")ggboxplot(my_data, x = "group", y = "weight",color = "group", palette = c("#00AFBB", "#E7B800"),ylab = "Weight", xlab = "Groups")


计算不成对的双样本秩检验

问题:女性和男性体重有显着差异吗?

1)计算双样本Wilcoxon检验 - 方法1:数据保存在两个不同的数值向量中。

res <- wilcox.test(women_weight, men_weight)res

Wilcoxon rank sum test with continuity correctiondata: women_weight and men_weightW = 15, p-value = 0.02712alternative hypothesis: true location shift is not equal to 0

一条警告信息,称为“无法用平局计算精确的p值”。它可以通过添加另一个参数exact = FALSE来抑制此消息,但结果将是相同的。

2)计算双样本Wilcoxon检验 - 方法2:将数据保存在数据框中。

res <- wilcox.test(weight ~ group, data = my_data,exact = FALSE)res

Wilcoxon rank sum test with continuity correctiondata: weight by groupW = 66, p-value = 0.02712alternative hypothesis: true location shift is not equal to 0# Print the p-value onlyres$p.value[1] 0.02711657

这两种方法给出了相同的结果。

测试的p值为  0.02712,小于显着性水平α= 0.05。我们可以得出结论,男性的中位数体重与女性的中位数体重显着不同,p值  = 0.02712。

 

注意:

  • 如果你想测试男性体重的中位数是否小于女性体重的中位数,请输入:

wilcox.test(weight ~ group, data = my_data,exact = FALSE, alternative = "less")
  • 或者,如果您想测试男性体重的中位数是否大于女性体重的中位数,请输入此值

wilcox.test(weight ~ group, data = my_data,exact = FALSE, alternative = "greater")

还有问题吗?请在下面留言!


点击标题查阅往期内容






更多内容,请点击左下角“阅读原文”查看

r语言中如何进行两组独立样本秩和检验

r语言中如何进行两组独立样本秩和检验

r语言中如何进行两组独立样本秩和检验


案例精选、技术干货 第一时间与您分享

长按二维码加关注

更多内容,请点击左下角“阅读原文”查看


以上是关于如何在GEO数据库中比较两个子集 我想在两组芯片数据之间比较存在表达差异4倍以上的基因 应该怎么操作的主要内容,如果未能解决你的问题,请参考以下文章

R语言GEO数据挖掘:步骤三:进行基因差异分析

如何用python在两组数据中找相应匹配的数据?

急!!!C语言:输出两组数组中相同的数字

如何构造html以利用媒体查询[关闭]

在两组下划线之间提取字符串的Regex [重复] 。

使用大数据集Mysql在两组日期中查找最接近的较低日期