宁波站网络爬虫与文本挖掘

Posted 数萃大数据

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了宁波站网络爬虫与文本挖掘相关的知识,希望对你有一定的参考价值。

        随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。网络爬虫,追求大的覆盖性与内容的精准性,按照一定的规则,自动地抓取万维网信息的程序或者脚本,能为用户提供大量的网络数据信息。同时,当今大数据的迅猛发展,数据并不仅仅以“数值”的方式存在,越来越多的文本信息等待人们去分析与利用,文本挖掘基于此背景孕育而生。它主要通过各种算法对文本进行数据挖掘,提取有用的信息,为使用者抓取价值与利润。

       网络爬虫与文本挖掘是数据从业人员掌握基于RPython的统计分析与机器学习知识与技能之后必须要掌握的更具有挑战性的技能,这类数据分析师深受网站与信息类公司的欢迎。鉴于对未来市场的评估与分析,上海数萃大数据科技有限公司决定于2017922-25日在浙江宁波举办为期三天的《网络爬虫与文本挖掘》培训班。本次培训主要基于Python语言通过具体的例子和代码由浅入深地介绍网络爬虫工具库、数据存储、网络爬虫的提升、分布式爬虫、爬虫框架、文本挖掘涉及的工具和分析方法等。培训具体内容如下:


培训课程

 模块一: 网络爬虫基础

1讲:技术准备

1. 网络通信基础

2. HTTP协议简介

3. Web开发知识介绍

4. 网站分析知识介绍

2讲:开发环境与语言

1. 开发环境安装与使用 (Anaconda套件与PyCharm)

2. Python基础数据结构(元组/列表/字符串/字典)

3. Python基础语法(条件/循环/函数//模块)

4. 常用Python库使用案例分享

5. Python技巧与实践分享

模块二: 数据爬取与存贮

3讲:网络爬虫工具库

1. 基础Python爬虫库(urllib/Requests

2. 认识正则表达式

3. “漂亮”的爬虫库-Beautiful Soup-静态网页爬取案例分享

4. Selenium与“幻影”浏览器- PhantomJS

5. AjaxDhtml网站爬取

6. 动态网页爬取案例分享

7. 利用API进行数据采集

4讲:网络爬虫存储 

1. 文件读取与保存

2. 关系数据库存储-mysql

3. 爬虫配合MySQL存储案例分享

4. 分布式存储-NoSQL数据库

5. 爬虫配合MongoDB存储案例分享

6. HDFS简介

模块三: 网络爬虫提升

5讲:分布式爬虫

1. 多线程爬虫

2. 多进程爬虫

3. 爬虫队列设计

4. 集群化爬取

6讲:网络爬虫框架

1. Python网络爬虫框架介绍

2. Scrapy基本使用

3. Scrapy进阶使用

4. 爬虫框架使用案例分享

7讲:网络爬虫突破

1. 模拟登录

2. 常见验证码突破

3. 爬虫代理池

4. 各类网页内容处理

5. 爬取移动端APP技巧

6. 设计健壮的网络爬虫

8讲:基于R的爬虫与比较

1. 再议爬取与解析

2. 经典组合:RCurlXML

3. 爬虫新贵:rvest

4. 基于PythonR的爬虫对比

模块四: 文本挖掘

9讲:文本挖掘技术基础

1. 文本挖掘全流程概述

2. 自然语言处理库(NLTK)

3. TextBlob文本处理库介绍

4. 中文分词介绍(jieba)

5. 词云介绍

10讲:文本挖掘技术进阶

1.文本挖掘预处理技术

2.文本特征处理

3. 文本聚类

4. 主题模型

5. 基于深度学习的文本挖掘

6. 文本挖掘案例分享

 

讲师介绍

尹志

       数据科学家,数萃大数据学院讲师,浙江大学物理学博士,青年学者,浙江宁波工程学院深度学习研究中心负责人;某网络科技上市公司大数据总监,10+年软件开发数据产品经验,熟悉R\Python\javascript等多种编程语言;目前研究集中在推荐系统、文本挖掘、神经网络等机器学习领域;具有丰富的统计建模、数据挖掘、大数据技术授课经验。

靳军

       数萃金牌讲师,未来科学家计划核心成员。精通python, 熟练掌握R,有3年 的Rpython语言编程经验。研究兴趣集中在机器学习、网络爬虫、文本数据分析、sparkR及分布式计算,专注于用python进行量化策略构建。


培训对象

•想使用Python爬取数据的工程师和网络爬虫爱好者

•想进行自然语言处理的数据从来人员

希望了解和学习使用Python进行网络爬虫、文本数据分析的编程爱好者

•高校数据挖掘与机器学习任课老师

培训安排

•培训地点:(宁波)维也纳国际酒店(机场店), 宁波石碶雅戈尔大道488号,鄞州大道地铁站B出口。

报到:2017922

授课:2017923-25

报名方式

报名请点击下方“阅读原文”

报名截止日期:2017921

联系方式

联系邮箱:info@shvad.com

培训费用

前三个模块2800/人,模块四1500 元,全部模块4200 元(含培训费、教材费、证书费、中餐费、场地费及增值税发票等相关费用),住宿统一安排,费用自理。

优惠: 老学员8折,学生7折,新学员(包括学生)5人以上9折。同时,报名学员前30名均有9.5折优惠

 

 

 

上海数萃大数据科技有限公司

2017718






数萃大数据:sh-vad
一个专注做大数据培训、资料分享的平台



以上是关于宁波站网络爬虫与文本挖掘的主要内容,如果未能解决你的问题,请参考以下文章

培训网络爬虫与文本挖掘核心技术案例实战

那些年,我们开始学Python网络爬虫与文本挖掘

推荐:网络爬虫与文本挖掘核心技术案例实战高级研修班

全国高校python网络爬虫与文本挖掘技术培训(上海)

腾讯课堂 | Python网络爬虫与文本分析

R语言文本处理中文分词并制作文字云