机器学习系列补充:数据集准备和更正YSX包

Posted 生信宝典

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了机器学习系列补充:数据集准备和更正YSX包相关的知识,希望对你有一定的参考价值。

之前的教程中提到了数据下载链接,但未提供整理好后的数据。后台总有朋友问起,提供数据网盘容易失效,就把整理方法放在这,可基于原始链接下载后转换为所需格式。

安装YSX包 (已改名为ImageGP包)

YSX包已改名为ImageGP包,这是为配合绘图网站ImageGP而构建的包,里面也包含了对常用绘图函数和数据整理命令的包装,在整个机器学习教程中也常有用到。

ImageGP包目前在Github码云上都有,推荐用码云,下载速度快。

devtools::install_git("https://gitee.com/ct586/ImageGP")

# 安装好之后,之前教程的library(YSX)都改为library(ImageGP)
library("ImageGP")

改名是因为之前一个误操作,在YSX仓库里面引入了不少示例数据,使得包变得很大。而Github又访问速度慢,常常安装不成功。

# 如果从Github上安装原有的`YSX`也可以:
# 不推荐
# devtools::install_github("Tong-Chen/YSX")

DLBCL 数据集

数据信息在页面https://file.biolab.si/biolab/supp/bi-cancer/projections/info/DLBCL.html

Diffuse large B-cell lymphoma (DLBCL): 58 examples (75.3%); Follicular lymphoma (FL): 19 examples (24.7%)。

可通过链接下载https://file.biolab.si/biolab/supp/bi-cancer/projections/_datasets/DLBCL.tab。

下载后,删除第2行和第3行。


再用下面的R代码读取和整理

dlbcl_tab <- "DLBCL.tab"
dlblc <- read.table(dlbcl_tab, row.names = NULL, header=T)
dim(dlblc)

class = dlblc$class
table(class)

生成Metadata信息

metadata = data.frame(sample=c(paste("DLBCL", 1:58, sep="_"), 
paste("FL", 1:19, sep="_")),
class=class)
head(metadata)

write.table(metadata, "dlbcl.metadata.txt", sep="\t", row.names=F, col.names = T, quote=F)

生成表达文件

rownames(dlblc) <- metadata$sample
dlblc <- dlblc[,1:7070]
dlblc <- t(dlblc)
dlblc[1:3,1:4]

library(ImageGP)
sp_writeTable(dlblc, file="dlblc.expr.txt", keep_rownames = T)

机器学习系列教程


从随机森林开始,一步步理解决策树、随机森林、ROC/AUC、数据集、交叉验证的概念和实践。


文字能说清的用文字、图片能展示的用、描述不清的用公式、公式还不清楚的写个简单代码,一步步理清各个环节和概念。


再到成熟代码应用、模型调参、模型比较、模型评估,学习整个机器学习需要用到的知识和技能。



以上是关于机器学习系列补充:数据集准备和更正YSX包的主要内容,如果未能解决你的问题,请参考以下文章

超级攻略!PandasNumPyMatrix用于金融数据准备

用python+sklearn(机器学习)实现天气预报数据 模型和使用

机器学习工作流程第一步:如何用Python做数据准备?

R中非常大的数据集处理和机器学习的推荐包[关闭]

机器学习系列(二十四)——交叉验证与偏方差权衡

ROS机器人程序设计(原书第2版)补充资料 (捌) 第八章 导航功能包集入门 navigation