培训网络爬虫与文本挖掘核心技术案例实战

Posted 机器学习算法与Python学习

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了培训网络爬虫与文本挖掘核心技术案例实战相关的知识,希望对你有一定的参考价值。


关于举办网络爬虫与文本挖掘核心技术案例实战高级研修班的通知


各有关单位:

为了为加强数据科学的创新发展和技术应用,打造大数据专业技术人才队伍,满足行业对网络信息获取及文本挖掘等智能化应用相关高端人才的迫切需求,我单位将于近期举办“全国网络爬虫与文本挖掘核心技术案例实战高级研修班”,具体详情如下

              

               中国通信工业协会物联网应用分会     

 2017年3月18日                        


一、培训对象

对网络爬虫、文本挖掘技术研究和应用感兴趣的个人及从业者。

二、培训目标

掌握网络信息获取及文本挖掘的基本知识及深度应用,熟练运用使用Python获取网络数据并独立开发常见的爬虫项目,熟练的进行文本分析处理。

三、培训特点

1,课程体系完整科学,可以系统化学习;

2,培训采用理论知识+案例示范+练习的全案例驱动教学模式,通过典型应用案例入手讲解知识点,不仅仅适合零基础的初学者,同时也适合经验较为丰富的操作者;

3,注重实践实战,每个模块均设置动手实践环节以协助学员解决操作中的实际问题;

4,提供全部教学课件、源代码、编程操作步骤,后期将通过学员交流群建立与授课专家的长期的答疑联系,提供长期的在线技术咨询服务;

四、时间及地点

2017年4月21日~24日    上 海

五、课程大纲

第一天

第1讲:网络爬虫技术基础

  1. 1.网络通信基础

  2. 2.HTTP协议简介

  3. 3.Web开发知识介绍

  4. 4.网站分析知识介绍

第2讲:开发环境与Python基础

  1. 1.开发环境安装与使用(Anaconda套件与PyCharm)

  2. 2.Python基础数据结构(元组/列表/字符串/字典)

  3. 3.Python基础语法(条件/循环/函数/类/模块)

  4. 4.常用Python库使用案例分享

  5. 5.Python技巧与实践分享

第3讲:网络爬虫工具库

  1. 1.认识正则表达式

  2. 2.基础Python爬虫库(urllib/Requests)

  3. 3.“漂亮”的爬虫库-Beautiful Soup

  4. 4.静态网页爬取案例分享

  5. 5.Selenium与“幻影”浏览器-PhantomJS

  6. 6.Ajax和Dhtml网站爬取

  7. 7.动态网页爬取案例分享

  8. 8.利用API进行数据采集

第二天

第4讲:网络爬虫框架

  1. 1.Python网络爬虫框架介绍

  2. 2.Scrapy基本使用

  3. 3.Scrapy进阶使用

  4. 4.爬虫框架使用案例分享

第5讲:分布式爬虫

  1. 1.爬虫队列设计

  2. 2.多线程爬虫

  3. 3.多进程爬虫

  4. 4.集群化爬取

第6讲:网络爬虫存储

  1. 1.文件读取与保存

  2. 2.关系数据库存储-mysql

  3. 3.分布式存储-NoSQL数据库

  4. 4.HDFS简介

  5. 5.分布式存储案例分享

第三天

第7讲:网络爬虫常用技巧

  1. 1.表单处理

  2. 2.模拟登录

  3. 3.常见验证码突破

  4. 4.爬虫代理池

  5. 5.各类网页内容处理

  6. 6.设计隐蔽的网络爬虫

  7. 7.设计容错的网络爬虫

第8讲:文本挖掘技术基础

  1. 1.文本挖掘全流程概述

  2. 2.自然语言处理库(NLTK)

  3. 3.TextBlob文本处理库介绍

  4. 4.中文分词介绍(jieba)

  5. 5.词云介绍

第9讲:文本挖掘技术进阶

  1. 1.文本挖掘预处理技术

  2. 2.文本特征处理

  3. 3.文本聚类

  4. 4.主题模型

  5. 5.基于深度学习的文本挖掘

  6. 6.文本挖掘案例分享

六、颁发证书

学员培训后经考核合格可获得全国通信和信息技术创新人才培养工程《数据挖掘与分析应用高级工程师》职业技术水平证书。该证书表明持有者已通过相关培训和考核,具备相应的专业知识和专业技能,并作为聘用、任职、定级和晋升的重要参考依据,全国通用。

七、拟邀师资

尹老师,数据科学家,浙江大学物理学博士,某网络科技上市公司大数据总监,10+年软件开发数据产品经验,熟悉R\Python\javascript等多种编程语言,目前研究集中在推荐系统、文本挖掘等机器学习领域,具有丰富的统计建模、数据挖掘、大数据技术授课经验,擅长把艰涩难懂的技术问题进行浅显的分解,能兼顾来自不同行业不同领域学员的不同需求,具有丰富的教学技巧及实践经验。

八、费用标准

培训费用3980元/人(含培训费、教材费、考试费、证书申报、场地等相关费用),食宿统一安排,费用自理。

九、联系方式

QQ  2777641833

联 系 人: 孙老师              

邮  箱: gxb_sunchi@126.com

以上是关于培训网络爬虫与文本挖掘核心技术案例实战的主要内容,如果未能解决你的问题,请参考以下文章

全国高校python网络爬虫与文本挖掘技术培训(上海)

那些年,我们开始学Python网络爬虫与文本挖掘

数萃报道|网络爬虫与文本挖掘

高校Python数据挖掘与网络爬虫技术研修

精通Python网络爬虫 核心技术框架与项目实战

个人怎么利用爬虫技术赚钱-Java网络爬虫系统性学习与实战系列