从产品名称中 分离出产品类别 对长字符串的处理

Posted 走python的路

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了从产品名称中 分离出产品类别 对长字符串的处理相关的知识,希望对你有一定的参考价值。

下面一组数据在工作中很常见,数据清洗的 功能之一 就是将 复杂的长字符串 进行分离,提取有效信息。

 一、从title 中提取出 产品 主类别和次类别

 处理思路:

1.将title列,通过分词工具(jieba)将长字符串进行分离。jieba是普遍分词,对于专业领域,我们还有别的特殊分词工具

2.jieba.cut(str) 之后 用list()将结果包裹一下

3.百度一下 化妆品的常见分类,将其整理成{\'品名\':[一级分类,二级分类]}的字典格式备用

 

 4. 遍历表格subtitle的每一行,遍历subtitle中的每一个元素,如果元素是字典的key, 标记此行一级分类,二级分类到列表,如果元素不是字典的KEY,标记此行一级分类,二级分类为其它到列表。

 5. 将一级分类,二级分类列表作为表格的列 添加进表格。完成对长字符串 产品品类的提取

 

 二、从title中提取 产品试用性别(是否男性专用)

 

以上是关于从产品名称中 分离出产品类别 对长字符串的处理的主要内容,如果未能解决你的问题,请参考以下文章

ORACLE中查询各类产品信息,查询结果包括:类别名称、产品名称、单位数量、库存量

在 WooCommerce 中随处显示商品名称下的产品类别和“品牌”属性术语名称

使用 Prestashop 1.6 在模块中获取产品类别名称

如何根据产品类别拆分 woocommerce 购物车页面

Linq 按产品排序但显示类别

WooCommerce 产品类别计数