lncRNA 全基因组鉴定番茄果实lncRNA,及与调节果实成熟相关mRNA的比较分析
Posted
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了lncRNA 全基因组鉴定番茄果实lncRNA,及与调节果实成熟相关mRNA的比较分析相关的知识,希望对你有一定的参考价值。
参考技术A (全基因组鉴定出番茄lncRNA,及与调节番茄果实成熟的mRNA进行比较分析)Journal : BMC Plant Biology
IF: 3.930
PS:该篇文章是我在2018你那6月读的,现在时隔一年多,再次拿出来进行回忆。文章摆放的时间太长,很多都活模糊。
Tomato is a major vegetable crop worldwide, and an important model species for studying the development and ripening of fleshy fruits.
非编码RNA(noncoding RNA, ncRNA)是不编码蛋白质,且不具有编码能力,根据不同的类别可以分为mimicroRNA(miRNA)、piwi-interacting RNA (piRNA), lncRNA等其他的RNA。随着研究的不断发展,ncRNA在植物中扮演的作用越来越重要。
lncRNA(long noncoding RNA)是长度大于200bp,不具有编码能力的RNA,根据分布的位置可以分为:基因间lncRNA(intergenic ncRNA)、内含子ncRNA(intron ncRNA)、反义ncRNA(antisense ncRNA)、正义ncRNA(sense ncRNA)。
该文章的材料是普通栽培番茄(S.lycopersicum)和野生番茄(S.pimpinellifolium)
本文使用的是鉴定lncRNA的流程是使用Tophat和cufflinks.使用Tophat2将得到的测序序列mapping到番茄基因组(ITAG 2.4)中,然后使用cufflinks进行注释。其次进行蛋白质编码能力的预测,以及使用CPC的预测。
A total of 134 high-throughput sequencing data sets derived from more than 10 different organs were used to identify lncRNA. Finally, identified 79322 expressed lncRNAs, of which 70635 lincRNA/, 8085 ancRNAs and 602 slncRNAs.
Fig.2a 鉴定出来的mRNA与lncRNA在染色体上分布均匀。(TE,橙色;mRNA,蓝色;lncRNA,绿色;ancRNA, 黄色)
Fig.2b 与TEs重叠的ancRNA,lincRNA,slncRNA和mRNA的数量; 绿松石重叠橙色,不重叠
Fig.2c 不同TE类型与lncRNA和mRNA重叠的比例
Fig.2d lncRNA和mRNA中的外显子数量
Fig.2e lncRNA和mRNA外显子长度
Fig.2f 对lncRNA和mRNA长度的比较
使用主成分分析(PCA)来研究基因表达变异的主要来源,基于来自18个番茄器官的数据。PCA的散点图显示,前2个主要成分占方差的80%(图 3a ),并且由于使用不同的测序平台,没有明显的主导作用。只有两个来自隔膜和果皮器官的数据集与其他器官相比显示出较大的变异,我们得出结论,这些差异主要与组织的特定特征有关。
lncRNA with an average FPKM > 10 wer considered to play a role in the riprning process, and 4079 wre indentified in the MG stage, 4135 in the BR stage and 4311 in the BR +7 days stage.
PS: different stage in the tomato.由于本文中没有番茄的各时期的颜色,因此,我在另外一篇中找一张图,来显示出不同时期番茄外观的变化情况。
图 4a中 的维恩图 显示了不同发育阶段之间共享和排他的差异表达(DE)lincRNA的数量。在所有三个发育阶段中仅表达了20个(3.3%)DE lincRNA,而在MG和BR阶段之间仅有108个(17.7%)为DE,在MG和BR + 7阶段之间为191个(31.4%),16个BR与BR + 7阶段之间(2.6%)。此外,97.4%发育调节的lincRNAs在MG和BR或MG与BR + 7阶段之间表达水平发生变化,并且BR和BR + 7与MG阶段之间共享42.1%的不同表达的lincRNA 。
在Fig.4b中发现变化主要发生在早期或晚期发育阶段,分析DE lincRNA与最近的DE mRNA基因的相对距离和相关性时,我们观察到大多数(71.3%)的lincRNA与距离小于30kb的mRNA更接近(Fig.4c)
为了确定表达的mRNA和lincRNA之间的启动子甲基化水平的差异(FPKM> 10),检查转录起始位点(TSS)周围2kb区域内的平均甲基化信号。lincRNA显示出比mRNA更高的CG和CHG甲基化密度(Fig.5a),与lincRNA相比,mRNA CHG和CHH谱在紧接TSS下游具有更显着的降低,而CG甲基化急剧上升。
进一步探索不同发育模式(开花后39天[dpa]与52 dpa)阶段的模式显示,来自晚期发育阶段(52 dpa)的mRNA在TSS上游的CG和CHG甲基化水平显着低于早期发育阶段。阶段(39 dpa)(Kolmogorov-Smirnov检验, CG和CHG的 P <2.2e-16)。对于lincRNAs,仅在CG甲基化水平上观察到显着差异(Kolmogorov-Smirnov检验, P = 1.986e-05)。这表明大多数lincRNA在果实发育过程中与宿主基因具有相同或稳定的CHG和CHH甲基化模式。接下来,从未成熟阶段到成熟阶段研究表达变化与CG甲基化水平之间的关系。我们假设表达减少(下调)表明高甲基化(沉默),并且表达增加与低甲基化(激活)有关。
该篇文章虽然分数不是很高,但是工作量是非常大的,时间周期较长。根据番茄不同的时间节点进行采样,需要前期样本的种植,后期的管理等工作量。对于研究不同时间节点的差异表达的人来说,该文有一定的参考价值。
其次,该文的分析流程使用的参数标注明确,清晰。可为后期的验证以及学习提供一定的参考。
原文: https://bmcplantbiol.biomedcentral.com/articles/10.1186/s12870-018-1300-y
lncRNA数据处理(get fasta>>>novel lncRNA)))
参考技术A 情况说明:我有两个实验,每个实验两个重复,我现在要鉴定到新的lncRNA之后进行差异分析。大体思路,我会先通过常规的鉴定novel lncRNA方法鉴定到新的转录本,将转录本与参考基因组的转录本合并,之后进行定量分析。因此,我之前处理好各个文件的接头序列之后比对基因组后,会将四个bam文件合并成一个,之后进行鉴定(通过length、fpkm、cov、编码能力预测)之后会将鉴定到的转录本合并(与基因组的转录本),使用RSEM定量使用到的软件有--fastQC、fastp、STAR、stringtie、cuffcompare、cpc(cpc2)、CNCI、CPAT、
1.常规的数据处理步骤
1)拿到数据后先进行质检(常用fastqc看测序质量、用fastp做处理去接头什么的)
fastqc -t 4 ` ls * `
fastp -i $file-r1.fastq.gz -o $file-f.r1.fastq.gz -I $file-r2.fastq.gz -O $file-f.r2.fastq.gz -Q --thread=5 -5 --detect_adapter_for_pe 2> $file.log
###$file是我用for循环做的变量(这里应该是你的测序文件,PE150双端150bp测序,所以会有两个文件,分别是r1和r2。fastp软件使用可以直接看manual ,比较杂,我主要用了其中的去接头处理,关闭质量过滤”Q” 2>log文件是使用该软件处理过程中生成的日志。
2)开始进行比对(根据物种来选择一个合适的比对软件,植物多倍体推荐bwa,STAR,我用的是STAR,大体参数有这些
STAR --runThreadN 20 \
# --outSAMmapqUnique 60 \
# --twopassMode Basic \
# --outSAMtype BAM SortedByCoordinate \
# --limitBAMsortRAM 200000000000 \
# --outFilterMultimapNmax 1 \
# --outSAMprimaryFlag AllBestScore \
# --outReadsUnmapped Fastx \
# --outFilterMatchNmin 50 \
# --alignMatesGapMax 10000 \
# --outSAMstrandField intronMotif \
# --outFilterMismatchNoverLmax 0.03 \
# --outFilterType BySJout \
# --readFilesCommand zcat \
# --alignSoftClipAtReferenceEnds No \
# --alignEndsType Local \
# --alignIntronMin 20 \
# --alignIntronMax 15000 \
# --outSAMattributes All \
# --outFilterMismatchNoverReadLmax 0.02 \
这个参数比较多,但实际应用的时候可以相应减少,其实很多时候默认参数就可以,发文章的时候默认参数比较有说服力。
--runThreadN 20 --genomeDir $index \
--readFilesIn $name_1P.fq.gz $name_2P.fq.gz \
--outReadsUnmapped Fastx \
--readFilesCommand zcat \
--outSAMtype BAM SortedByCoordinate \
--outFileNamePrefix ./$name_star/$name
###这是我用的参数,仅供参考,我是为了之后找lncRNA
3)比对完之后要进行组装,有cufflinks stringtie等,此处用的是stringtie
"""stringtie -p 4 -G ref-genome.gtf -o output.gtf input_file """
###有的是在这里会将多个组装好的gtf文件merge到一起,可以使用stringtie 的merge
4)使用cuffconpare进行分类
""" cuffcompare -r ref-genome.gtf -o output input_file """
###会从中得到好多文件,一般我们会从*.tmap文件中进行筛选
"""awk 'if($7>=0.5 && $10 > 1 && $11 >200) print $0' 自己命名的.tmap |awk 'if ($3=="u" || $3=="x" || $3=="i" || $3=="j" || $3=="o")print $0' > newfile.gtf
###其中$7是fpkm值、$10是cov值、$11是length ,使用管道直接筛选出$3是u、x、i、j、o的code,具体的分类值可以从cuffcompare的manual看到
5)到了写脚本的时候啦,要做的有,从上一步筛选到的转录本的到它的转录本序列(我是得到它的每个转录本有多少个exon,位置是多少,从已知基因组中得到序列后将其合并到一起,形成转录本序列,之后进行coding potential calculator(CPC)CNCI等软件来做,CPC我是安装到liunx 本地的,
以上是关于lncRNA 全基因组鉴定番茄果实lncRNA,及与调节果实成熟相关mRNA的比较分析的主要内容,如果未能解决你的问题,请参考以下文章
数据分析3.1-stringtie 注释新基因-鉴定lncRNA