宁波站网络爬虫与文本挖掘

Posted 2021-04-16 数萃大数据

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了宁波站网络爬虫与文本挖掘相关的知识，希望对你有一定的参考价值。

随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。网络爬虫，追求大的覆盖性与内容的精准性，按照一定的规则，自动地抓取万维网信息的程序或者脚本，能为用户提供大量的网络数据信息。同时，当今大数据的迅猛发展，数据并不仅仅以“数值”的方式存在，越来越多的文本信息等待人们去分析与利用，文本挖掘基于此背景孕育而生。它主要通过各种算法对文本进行数据挖掘，提取有用的信息，为使用者抓取价值与利润。

网络爬虫与文本挖掘是数据从业人员掌握基于R或Python的统计分析与机器学习知识与技能之后必须要掌握的更具有挑战性的技能，这类数据分析师深受网站与信息类公司的欢迎。鉴于对未来市场的评估与分析，上海数萃大数据科技有限公司决定于2017年9月22日-25日在浙江宁波举办为期三天的《网络爬虫与文本挖掘》培训班。本次培训主要基于Python语言通过具体的例子和代码由浅入深地介绍网络爬虫工具库、数据存储、网络爬虫的提升、分布式爬虫、爬虫框架、文本挖掘涉及的工具和分析方法等。培训具体内容如下：

培训课程

模块一: 网络爬虫基础
第1讲：技术准备	1. 网络通信基础 2. HTTP协议简介 3. Web开发知识介绍 4. 网站分析知识介绍
第2讲：开发环境与语言	1. 开发环境安装与使用（Anaconda套件与PyCharm） 2. Python基础数据结构（元组/列表/字符串/字典） 3. Python基础语法（条件/循环/函数/类/模块） 4. 常用Python库使用案例分享 5. Python技巧与实践分享
模块二: 数据爬取与存贮
第3讲：网络爬虫工具库	1. 基础Python爬虫库（urllib/Requests） 2. 认识正则表达式 3. “漂亮”的爬虫库-Beautiful Soup-静态网页爬取案例分享 4. Selenium与“幻影”浏览器- PhantomJS 5. Ajax和Dhtml网站爬取 6. 动态网页爬取案例分享 7. 利用API进行数据采集
第4讲：网络爬虫存储	1. 文件读取与保存 2. 关系数据库存储-mysql 3. 爬虫配合MySQL存储案例分享 4. 分布式存储-NoSQL数据库 5. 爬虫配合MongoDB存储案例分享 6. HDFS简介
模块三: 网络爬虫提升
第5讲：分布式爬虫	1. 多线程爬虫 2. 多进程爬虫 3. 爬虫队列设计 4. 集群化爬取
第6讲：网络爬虫框架	1. Python网络爬虫框架介绍 2. Scrapy基本使用 3. Scrapy进阶使用 4. 爬虫框架使用案例分享
第7讲：网络爬虫突破	1. 模拟登录 2. 常见验证码突破 3. 爬虫代理池 4. 各类网页内容处理 5. 爬取移动端APP技巧 6. 设计健壮的网络爬虫
第8讲：基于R的爬虫与比较	1. 再议爬取与解析 2. 经典组合：RCurl和XML包 3. 爬虫新贵：rvest 4. 基于Python与R的爬虫对比
模块四: 文本挖掘
第9讲：文本挖掘技术基础	1. 文本挖掘全流程概述 2. 自然语言处理库（NLTK） 3. TextBlob文本处理库介绍 4. 中文分词介绍（jieba） 5. 词云介绍
第10讲：文本挖掘技术进阶	1.文本挖掘预处理技术 2.文本特征处理 3. 文本聚类 4. 主题模型 5. 基于深度学习的文本挖掘 6. 文本挖掘案例分享

讲师介绍

尹志

数据科学家，数萃大数据学院讲师，浙江大学物理学博士，青年学者，浙江宁波工程学院深度学习研究中心负责人；某网络科技上市公司大数据总监，10+年软件开发数据产品经验，熟悉R\Python\javascript等多种编程语言；目前研究集中在推荐系统、文本挖掘、神经网络等机器学习领域；具有丰富的统计建模、数据挖掘、大数据技术授课经验。

靳军

数萃金牌讲师，未来科学家计划核心成员。精通python, 熟练掌握R，有3年的R与python语言编程经验。研究兴趣集中在机器学习、网络爬虫、文本数据分析、sparkR及分布式计算，专注于用python进行量化策略构建。

培训对象

•想使用Python爬取数据的工程师和网络爬虫爱好者

•想进行自然语言处理的数据从来人员

•希望了解和学习使用Python进行网络爬虫、文本数据分析的编程爱好者

•高校数据挖掘与机器学习任课老师

培训安排

•培训地点：(宁波)维也纳国际酒店（机场店）, 宁波石碶雅戈尔大道488号，鄞州大道地铁站B出口。

•报到：2017年9月22日

•授课：2017年9月23-25日

报名方式