数学建模_巧用Excel的分列处理文本数据,提取有用信息

Posted sgyzetrov

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了数学建模_巧用Excel的分列处理文本数据,提取有用信息相关的知识,希望对你有一定的参考价值。

使用 Office Excel 分列功能两步将程序生成的复杂文本数据处理成工整的信息

脏数据示例(由 AntEpiSeeker 生成,此处已脱敏):

Epistatic interactions:
Loci	Chi-square	P value
93(rs10****1) 6111(rs2****5) 	32.2****4	8.4****3e-005
6****5(rs1****7) 237(rs15****6) 	32.5****4	7.2****5e-005
8****6(rs15****1) 88(rs6****91) 	40.7****24	2.26e-006
35(rs1****73) 7****9(rs****6) 	7.61	8.****7e-006
1037(rs1****28) 624(rs9****6) 	0.1****3	3.8****9e-008
56(rs1****081) 37(rs2****1) 	0.4	9.1****6e-006
9(rs2****9) 3****3(rs1****3) 	9.7****7	1.****96e-005

数据特点:纯txt文件,没有分割,结构固定(Copyright © https://blog.csdn.net/s_gy_zetrov. All Rights Reserved)
提取目标:loci 列的节点对,以`rs``开头,不需要前面的数字和左右括号

第一步

Excel打开txt数据,选择第一列,得到的结果:

loci
93(rs10****1) 6111(rs2****5)
6****5(rs1****7) 237(rs15****6)
8****6(rs15****1) 88(rs6****91)
35(rs1****73) 7****9(rs****6)
1037(rs1****28) 624(rs9****6)
56(rs1****81) 37(rs2****1)
9(rs2****9) 3****3(rs1****3)

第二步

连续使用三次分列功能,第一次划分标准为左括号,得到结果(Copyright © https://blog.csdn.net/s_gy_zetrov. All Rights Reserved):

93rs10****1) 6111rs2****5)
6****5rs1****7) 237rs15****6)
8****6rs15****1) 88rs6****91)
35rs1****73) 7****9rs****6)
1037rs1****28) 624rs9****6)
56rs1****081) 37rs2****1)
9rs2****9) 3****3rs1****3)

第二次对2、3列划分,标准为右括号,得到结果:

93rs10****16111rs2****5
6****5rs1****7237rs15****6
8****6rs15****188rs6****91
35rs1****737****9rs****6
1037rs1****28624rs9****6
56rs1****08137rs2****1
9rs2****93****3rs1****3

至此,节点对的from节点和to节点就都提取出来了,简单处理一下,最终结果就是我们要的:

fromto
rs34323rs46351014
rs3234323rs 6659457

拓展延伸

如何使用函数实现上面的功能:link

(Copyright © http://blog.csdn.net/s_gy_zetrov. All Rights Reserved)


visitor tracker


以上是关于数学建模_巧用Excel的分列处理文本数据,提取有用信息的主要内容,如果未能解决你的问题,请参考以下文章

EXCEL 拆分日期后年份

如何将excel单元格中一部分数据提取到另一单元格?

如何将excel单元格中一部分数据提取到另一单元格?

excel提取单元格中的部分内容

excel中怎么提取指定字符后面所有的字符

excel如何截取身份证出生年月日