Java爬虫工程师技能列表

Posted EliteQing

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了Java爬虫工程师技能列表相关的知识,希望对你有一定的参考价值。

以下仅仅是自己一些粗浅认识、欢迎补充指正、欢迎进群交流!

掌握一半便能够熟练的开发爬虫玩了。自己正在努力中...

 

1、掌握java、尤其编程网络部分;李刚的java基础至少看了三遍以上;

2、熟悉html、js、 ajax、firedebug
3、网页去重、找到网站特点
4、分布式
5、多线程
6、一种关系型数据库mysql/oraclelserver/mybatis
7、正则表达式、css selector、 xpath
8、DNS cache
9、TCP/IP/Http协议技术分享tp2.010、web登录协议

10、 SSO、OAuth原理

11、反爬策略
12、熟悉httpClient、okhttp3...
13、 熟悉一些提取工具、jsoup、selenim WebDriver...
14、搜索技术。熟悉Lucene/Nutch/Heritrix/solr/elastic-search/
15、熟悉XML、JSON、SOAP协议;
16、mongodb、 redis、 hbase、 hadoop
17、文本分析、机器学习、数据挖掘、自然语言处理[NLP]
18、完成网页、微博、微信、贴吧、论坛等数据信息的精准抽取
19、RPC协议
20、netty、NIO
21、HTMLUnit、PhantomJS、SlimerJS 、CasperJS
22、代理部署方案:http/socks
23、nginx、 squid、jetty
24、破解ios
25、验证码、ocr、tess4j

 

爬虫相关工具整理

1、Phantomjs

2、berserkJS(基于Phantomjs的改进版本)

3、SlimerJS

4、CasperJS

5、selenium

 

以上是关于Java爬虫工程师技能列表的主要内容,如果未能解决你的问题,请参考以下文章

java爬虫技术整理

大专毕业半路学Python爬虫,学到什么程度可以去找工作了

大专毕业半路学Python爬虫,学到什么程度可以去找工作了

Python 爬虫工程师必学 App数据抓取实战

Python 爬虫工程师必学 App数据抓取实战

爬虫工程师分享:三步就搞定 Android 逆向