优达学城数据分析师纳米学位——P3项目知识点整理及代码分析

Posted AugusKong

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了优达学城数据分析师纳米学位——P3项目知识点整理及代码分析相关的知识,希望对你有一定的参考价值。

 P3 OpenStreetMap 项目思路整理

P3项目的核心在于数据的整理 data cleaning 数据清洗,数据来源于开源的OpenStreetMap平台,该平台上的很多数据都是开发者自行输入的,难免会造成数据的混乱和缺失,错误,也就是所说的dirty data 脏数据 human involved

data cleaning的关注点 validity completeness accuracy consistency uniformity 

validity 有效性 数据是否符合常理 人名不应该是数字

completeness 完整性 数据记录表格中的数据是否记录完整

accuracy 准确性  数据是否符合实际情况 一个国家的人口值,国土面积

consistency 一致性

uniformity 统一性  单位是否统一

项目评估准则 中的地图中遇到的问题:

举例 :使用蓝图的实例中  使用编写的audit()函数来统计道路名称的种类  代码使用了cElementTree 正则表达式(正则表达式是一个特殊的字符序列,它能帮助你方便的检查一个字符串是否与某种模式匹配)

图1. 统计所用的audit()函数代码

 

 

图2. 部分统计结果

 

XML (Extensible Markup Language)数据处理基础: 

1. XML 与 html 关系: XML用来存储和传输数据 HTML用来展示数据 (XML可以自定义标签,具备自我描述性)

             XML将数据从HTML文件中分离出来,简化数据的传输,共享,更新

 

一个XML文件的示例 简单的一个便签文本

标签是处理的核心,读懂标签就能够对数据进行整理分类

 

 

树形结构文档 根元素,子元素,元素的属性

shil

 

构建http请求:待完成

 OSM XML 文件基础:

1.迭代解析 创建一个tag标签,初步了解一个数据集的标签总数,通过逐一解析标签来完成数据分析工作总而避免将数据全部导入到内存中占据过大的内存空间。 使用解析器 parsing service.

以上是关于优达学城数据分析师纳米学位——P3项目知识点整理及代码分析的主要内容,如果未能解决你的问题,请参考以下文章

优达学城机器学习工程师纳米学位项目介绍

优达学城数据分析师纳米学位——第一课总结

优达学城数据分析师纳米学位——第二课 jupyter notebook的使用

Udacity(优达学城) 300块红包优惠券

为什么你不应该读大学

优达学城自动驾驶课程项目——车道检测