从某一列中截取字符信息——extract()的使用

Posted dearl

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从某一列中截取字符信息——extract()的使用相关的知识,希望对你有一定的参考价值。

爬虫获取某网站杭州到丽江的旅游信息,进行分析

(1)导入数据

  df = pd.read_csv("travel.csv")

技术分享图片

(2)从路线信息中提取旅游天数、酒店等级、酒店评分、旅游价格等信息

  df["天数"]=df.路线信息.str.extract(‘(d+)天d+晚‘).apply(lambda x: int(x))
  df["酒店评分"]=df.酒店信息.str.extract(‘(d.d)分‘).apply(lambda x: float(x))
  df["酒店等级"]=df.酒店信息.str.extract(‘ (.*)‘)
  df["价格"]=df.路线信息.str.extract(‘(d+)起/人‘).apply(lambda x: int(x))

技术分享图片

(3)将酒店等级(定类数据)修改为数值型数据,方便在此基础上建模

  class_map = {"其他":0,"经济型":1,"舒适型":2,"高档型":3,"豪华型":4}
  df["酒店等级"]=df["酒店等级"].map(class_map)

技术分享图片

(4)在此基础上可以使用线性回归等建模

重点知识(以前自己不知道的小知识点):

  从字符串中提取数据,只知道find()....今天终于学会了新的依照,extract(),新知识总是让人开心哈!!!!!

  使用extract方法提取数字:它的第一个参数是正则表达式,括号表示要提取的部分

 





以上是关于从某一列中截取字符信息——extract()的使用的主要内容,如果未能解决你的问题,请参考以下文章

SQL如何批量更新某列中一个字符为另一个字符

关于pandas处理数据,怎么提取某一列的部分数字

SQL如何将某一列中相同的数据合并

如何用awk命令提取文件中的某一列并统计该列中某个数字出现的次数?

小技巧-只删除某一列中含NA的行(R)

Excel技巧:判断某一列中的数据是不是在另一列中