HiC数据分析之-HiC-Pro

Posted 2023-03-08

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了HiC数据分析之-HiC-Pro相关的知识，希望对你有一定的参考价值。

参考技术A 软件安装：

主要是编辑系统文件：

PREFIX =/gpfs02/home/jingjing/software/HiC-Pro-master

BOWTIE2_PATH =/gpfs01/software/bio/bowtie2-2.2.4

SAMTOOLS_PATH =/gpfs01/software/bio/samtools-1.7

R_PATH =/gpfs02/software/general/R-3.5.0/bin

PYTHON_PATH = ~/miniconda2/bin/

CLUSTER_SYS = LSF

安装：

make configure

make install

软件使用：

其实思路和以前类似：

比对，过滤，挑选，建立contract map，然后做normalization

优点：

1. 在处理比对结果的时候加入了并行化，其实是抄概念，就是分割比对结果，多核处理。

2. 在处理reads的时候，多处理了一部分junction reads的情况。

3. 在存储最终结果的时候采用了sparse 矩阵来降低存储需求。

4. 多了一个点就是处理SNP分成父母本的情况。

运行：

1. 准备index文件

bowtie2-build 1.fa,2.fa,...,MT.fahuman_GRCh37

2. 准备annotation文件

要有两个：

第一个是：HindIII_resfrag_hg19.bed 主要通过软件包里面script

生成

python/gpfs01/software/bio/HiC-Pro-2.11.0/HiC-Pro_2.11.1/bin/utils/digest_genome.py-r hindiii -o HindIII_resfrag_hg19.bed/gpfs02/home/jingjing/software/hicup_v0.7.1/test_dataset/genome/all.fa

第二个是基因组每个常染色体长度文件，chrom_hg19.sizes

这个主要通过：java compute_lenght_scaffold all.fachrom_hg19.sizes

3. 编辑配置文件

主要需要编辑的地方：

1）：index的位置

2）：index的名字

3）：genome

size文件

4）：genome

fragment文件

4. 运行HiC-pro

/gpfs01/software/bio/HiC-Pro-2.11.0/HiC-Pro_2.11.1/bin/HiC-Pro-i test_data/ -o HiC-Pro_testop_2.11.1_all -c config_test_latest.txt 其中参数i是原始数据位置，但是数据要分级存放

运行过程中的进度都会显示。

5. 结果解读

1) 原始比对率

trimmed read mapping: 是指把一些本来unaligned的reads去掉一些头和尾重新比对，这一部分主要面向junction reads

2）reads pair对之间比对结果

这个主要是看pair的比对信息。

3）过滤不合适的interaction pair比例

过滤掉的read pair有：dumpled， self-cycle pair，single end，dangling end....

4）用的read pair的分布情况

主要分成：cis和trans。cis包含短的和长的距离。以及距离的分布

5）关联矩阵

HiC-pro默认输出是sparse 矩阵的格式，首先需要一个bed文件定义chromosome的位置，以及bin的ID：

在matirx中，显示interaction的强度，前两个分别是bin的ID。

iced中存储normalization之后的结果。

以上是关于HiC数据分析之-HiC-Pro的主要内容，如果未能解决你的问题，请参考以下文章

活动 | Hadoop大数据峰会2017北京站即将召开！

大数据技术人年度盛事! BDTC 2016将于12月8-10日在京举行

Rails 有很多通过有一个多态

在 R 中导入 txt 文件，忽略前几行

GTK# tutorial