CMP分析流程

Posted 2023-04-22

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了CMP分析流程相关的知识，希望对你有一定的参考价值。

参考技术A

**（1）在xx范围内含有至少2个CG；（2）reads1 barcode区域的质量值控制；（3）barcode一样的reads仅保留一个 **

（1）在xx范围内含有至少2个CG

（2）reads1 barcode区域的质量值控制

TTTCCCTACACGACGCTCTTCCGATCTHHHHHHHHCGCH
TTTCCCTACACGACGCTCTTCCGATCTHHHHHHHCGHCH
TTTCCCTACACGACGCTCTTCCGATCTHHHHHHCGHHCH
TTTCCCTACACGACGCTCTTCCGATCTHHHHHCGHHHCH

（3）、barcode一样的reads仅保留一个

重复1.5、noch_arra 过程，输入文件为$s.5bp.cgcgmat.gz

s07.Pcgibed:$s.5bp.cgcgmat.rmd.gz s07.Tcgibed:$s.5bp.cgcgmat.gz T- s07.Tcgibed/$s.cgcgmat P- s07.Pcgibed/$s.cgcgmat.qc uPnorm- s07.Pcgibed/$s.cgcgmat.qc*(qc-dCGI-$s/rmd-dCGI-$s)
uP-xxx:对于血浆样本，在MePM基础上乘以 qc-dCGI-$s/rmd-dCGI-$s

P和T的差别在于P算的UMI，T算的MePM

fmg9_m.clean：
clean reads 条数
fmg9_m.qc5.clean：
对clean reads再次做前5bp的qc后的reads
fmg9_m.filter： 去掉前6bp后12bp后剩余的reads数
fmg9_m.rmfilter： 去掉含有3个及以上nonCG的reads
fmg9_m.unique_mapping： bismark mapping到基因组
fmg9_m.cgcgmat： 在-3~+3bp（含3bp）（mapping位点为0）中至少有2个CG
fmg9_m.cgcgmat.qc： 在fmg9_m.cgcgmat的基础上，reads的前5bp做过qc
fmg9_m.cgcgmat.qc.rmd： 用UMI去掉PCR重复序列
P-CGI-fmg9_m： 用UMI去掉PCR重复后落在CGI中的序列
T-CGI-fmg9_m： 不用UMI去掉PCR重复后落在CGI中的序列
qc-dCGI-fmg9_m： qc前5bp，落在dCGI区域中的reads(dCGI有3024个，分别是什么
呢？)
qc-dCGI2-fmg9_m： qc前5bp，落在dCGI2区域中的reads(dCGI2有9513个，分别是
什么呢？)
rmd-dCGI-fmg9_m： qc前5bp，去掉UMI，落在dCGI中的reads
rmd-dCGI2-fmg9_m： qc前5bp，去掉UMI，落在dCGI2中的reads
filter2_nonCGfmg9_m： 1-（"total methylated C in CHG"+"total methylated
C in CHH" ）/("total methylated C in CHG"+"total methylated C in
CHH" +"total C to T conversions in CHG context"+"Total C to T
conversions in CHH context")）完成filter而未去掉含3个及以上nonCG的第二端序列然后bismark比对结果
filter1_nonCGfmg9_m ： 同上，第一端序列

不光用MePM衡量甲基化程度，还用测到reads含有的甲基化位点的C/C+T来衡量。

一个小问题：是否应该同时考虑reads1和reads2的信息，为了解决这个问题，
应该计算reads1和reads2重叠区域是否很多，如果基本上重复，那么reads1和
reads2的信息是一致的，仅需要考虑一条reads即可，如果reads1和reads2重叠
区域少，那么应该同时考虑两条reads的情况。这样计算有点麻烦，因为不能分别
把reads1和reads2的C加起来，C+T加起来，然后C/C+T，原因是这样会导致重叠
区域权重增大，应该是上述的C-重叠区域C，上述C+T-重叠区域C+T，然后C/C+T
才是真的甲基化程度。所以我觉得考虑一条reads足以。

正链序列（起始点）落在正链cgcgcgg上，负链序列（起始点）落在负链cgcgcgg上

问：为什么要对单碱基数据也做normalise？
答：文老师发现一个肝癌数据中C特别高，但是癌症程度并不算太高，而是由于测序深度太深造成的。那么如果只关注C的绝对值，测序越深，C的绝对值就会越高。如果测饱和了（每个阳性位点都测到了），C的绝对值不会因为测序而升高（去掉PCR duplicate后），没有测饱和的时候，用绝对值计算是要受到测序深度影响的。另外，两个病人释放不同量的ccfDNA，而其中癌症相关的都是一条，因为取血量一样，都是5ml，那么癌症相关DNA浓度一样，但是测序得到的结果（同样测序深度）就不一样了，解决办法：饱和程度。测饱和可以解决以上两个问题。

问：为什么不用CGI-qc/CGI-rmd作为duplication rate，既然T和upnor的方法本质上是一样的，upnor的优势是什么？
答：upnor的duplication rate是一样的，而去重的时候，不可能每个位点去掉重复的比例一致，只要是乘以一个固定的duplication rate，T带来的随机性就被去掉了，至于能否用CGI-qc/rmd-CGI作为duplication rate，也要筛选那些低拷贝的地方吧，不筛选得到的duplication rate，高拷贝的地方占权重会大。

1. read1_2_filter_adapter.pl

2.rm_firstx_leny.pl

3.ch3deleate.pl

4.s05.noch_arrange

5.extractCGx2.pl

6.qc5bp.pl

7.rmduppcrv2.pl

8、CGIcgcgcggv2.sh

8086汇编 cmp 指令

8086汇编 cmp 指令

cmp 是比较指令，功能相当于减法指令，只是不保存结果。
cmp 指令执行后，将对标志寄存器产生影响。

格式：cmp 操作对象1,操作对象2
功能：计算操作对象1–操作对象2

原理：通过做减法运算影响标志寄存器，标志寄存器的相关位的取值，体现比较的结果。

cmp 指令说明

一、应用使用

其他相关指令通过识别这些被影响的标志寄存器位来得知比较结果。

应用方法：用标志寄存器值，确定比较结果。

技术图片

二、无符号数比较与标志位取值

思路：通过cmp 指令执行后相关标志位的值，可以看出比较的结果

指令：cmp ax,bx

技术图片

三、有符号数比较与标志位取值

问题：用cmp来进行有符号数比较时，CPU用哪些标志位对比较结果进行记录

仅凭结果正负（SF）无法得出结论，需要配合是否溢出（OF）得到结论。

示例指令：cmp ah,bh

技术图片

条件转移指令

;或者其他影响标志寄存器的指令

cmp oper1, oper2

jxxx 标号

一、根据单个标志位转移的指令

技术图片

二、根据无符号数比较结果进行转移的指令

技术图片

三、根据有符号数比较结果进行转移的指令

技术图片

四、转移指令全写

j-Jump　e-Equal　n-Not　b-Below　a-Above　L-less　g-Greater s-Sign　C-carry　p-Parity o-Overflow 　z-Zero

条件准转移指令使用

jxxx系列指令和cmp指令配合，构造条件转移指令

不必再考虑cmp指令对相关标志位的影响和jxxx指令对相关标志位的检测
可以直接考虑cmp和jxxx指令配合使用时表现出来的逻辑含义。
jxxx系列指令和cmp指令配合实现高级语言中if语句的功能

例1：如果(ah)=(bh)，则(ah)=(ah)+(ah)，否则(ah)=(ah)+(bh)

技术图片

例2：如果(ax)=0，则(ax)=(ax)+1

技术图片

以上是关于CMP分析流程的主要内容，如果未能解决你的问题，请参考以下文章

流程分析方法与流程分级

SSH 登录流程分析

从七个方面全方位分析流程类需求

操作流程分析该怎么做？如何做好操作流程分析

源码分析篇 - Android绘制流程requestLayout()与invalidate()流程分析

Spark源码分析之SparkSubmit的流程