Hi-C pairs 文件格式

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Hi-C pairs 文件格式相关的知识,希望对你有一定的参考价值。

Hi-C pairs 文件格式

## pairs format v1.0
#sorted: chr1-chr2-pos1-pos2
#shape: upper triangle
#chromsize: chr1 248956422
#chromsize: chr2 242193529
#chromsize: chr3 198295559
#chromsize: chr4 190214555
#chromsize: chr5 181538259
#chromsize: chr6 170805979
#chromsize: chr7 159345973
#chromsize: chr8 145138636
#chromsize: chr9 138394717
#chromsize: chr10 133797422
#chromsize: chr11 135086622
#chromsize: chr12 133275309
#chromsize: chr13 114364328
#chromsize: chr14 107043718
#chromsize: chr15 101991189
#chromsize: chr16 90338345
#chromsize: chr17 83257441
#chromsize: chr18 80373285
#chromsize: chr19 58617616
#chromsize: chr20 64444167
#chromsize: chr21 46709983
#chromsize: chr22 50818468
#chromsize: chrX 156040895
#chromsize: chrY 57227415
#chromsize: chrM 16569
#columns: readID chr1 pos1 chr2 pos2 strand1 strand2 frag1 frag2
.    chr1    1    chr1    51659    -    -    1    98
.    chr1    1    chr1    73925    -    -    0    152
.    chr1    1    chr1    184432    -    -    1    437
.    chr1    1    chr1    443977    -    -    1    848
.    chr1    1    chr1    509430    -    +    1    992
.    chr1    1    chr1    631351    -    +    1    1194
.    chr1    1    chr1    632024    -    +    1    1195
.    chr1    1    chr1    632032    -    +    1    1195

 

 

Long format

The long format is used by Juicer and takes in directly the merged_nodups.txt file. A whitespace separated file that contains, on each line
<str1> <chr1> <pos1> <frag1> <str2> <chr2> <pos2> <frag2> <mapq1> <cigar1> <sequence1> <mapq2> <cigar2> <sequence2> <readname1> <readname2>

    • str = strand (0 for forward, anything else for reverse)
    • chr = chromosome (must be a chromosome in the genome)
    • pos = position
    • frag = restriction site fragment
    • mapq = mapping quality score
    • cigar = cigar string as reported by aligner
    • sequence = DNA sequence If not using the restriction site file option, frag will be ignored, but please see above note on dummy values. If not using mapping quality filter, mapq will be ignored. readname, strand, cigar, and sequence are also not currently stored within .hic files.

 

 

REF

https://github-wiki-see.page/m/jianlin-cheng/GenomeFlow/wiki/Data-Format

 

Pair类模板

>Pair的实现是一个结构体而不是一个类<

1、标准头文件 #include<utility> 似乎无需引入该文件,在std命名空间内也有pair类型

2、格式为:template <class T1, class T2> struct pair;

在现实情况中我们可以像类似于STL创建新容器一样创建pair也可以直接使用,如下:

1 pair<int,int> p;
2 pair<int,int> p(10,20);

或者是:

1 map<char,int> m;
2     m.insert(pair<char,int>(a,10));

3、访问方式

对与pair中的两个元素,我们可以使用first和second来进行访问,顾名思义first返回第一个元素,而second返回第二个元素,如:

1 pair<int,int> p(10,20);
2     cout<<p.first<<" "<<p.second<<endl;

4、make_pair:

函数原型template pair make_pair(T1 a, T2 b) { return pair(a, b); }

我们可以通过make_pair生成我们的所需要的pair,对于一般的pair而言,我们如果需要对其进行赋值,则需要:

1 pair<int,int> p;
2     p.first=10,p.second=20;

但如果我们使用make_pair方法,则可以变成如下内容:

1 pair<int,int> p;
2     p=make_pair(10,20);

make_pair本身是接受隐式类型转换的,比如定义的是一个int类型,使用make_pair传入一个float类型的参数,make_pair不会报错,而是回自动的进行一个类型转换,将float变为int,这样可以获得更高的灵活度,同时也会有一些小问题。

5、pair类型实现函数多个返回值

 1 #include<iostream>
 2 #include<string>
 3 #include<utility>
 4   
 5 using namespace std;
 6   
 7 pair<string,int> getClass(int id){
 8     return make_pair("DOTCPP!",id);
 9 }
10   
11 int main(int argc,char **argv){
12     pair<string,int> a;
13     a=getClass(10);
14     cout<<a.first<<" "<<a.second<<endl;
15     return 0;
16 }

输出为:DOTCPP! 10

以上是关于Hi-C pairs 文件格式的主要内容,如果未能解决你的问题,请参考以下文章

paired-end reads的拼接

Pair类模板

HiC

[20180811]模拟赛

R语言配对图(pair plot)可视化:pivot_longer函数将宽格式的数据重塑为长格式并进行数据全连接(full join)可视化基本的配对图(pair plot)

R语言配对图(pair plot)可视化:pivot_longer函数将宽格式的数据重塑为长格式并进行数据全连接(full join)可视化基本的配对图(pair plot)