推荐如何系统的学习JAVA?

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了推荐如何系统的学习JAVA?相关的知识,希望对你有一定的参考价值。

  如何系统学习java体系  

  学java首先要学 J2SE,它是java体系的基础,也是重中之重。很多人往往不重视基础,其实这是舍本逐末的做法。说这么多就是希望大家能重视基础,能在这条路上走的更远。

  学j2se有下面几个目标:
  1、你要能真正理解面向对象的优势,理解为什么不是面向过程。
  2、掌握java语法基础。包括异常处理、多线程、网络编程、GUI编程等
  3、如果你对swing不感兴趣,可以跳过它。
  这一阶段结束后,你需要能独立写一个小游戏,比如坦克大战、俄罗斯方块、贪吃蛇等。
  当你完成J2SE的学习之后,你就要开始学习java web了。
  你需要掌握web基础知识:html、css、javascript、ajax、jQuery。
  别怕,这些技术看起来很多,其实也没要你精通它们,只是要你能在用到它们的时候,能通过快速查阅相关文档,能正确使用它们。如果这一阶段顺利的话,你可能还用不到一个月。
  学习servlet、jsp、jdbc。
  这些是javaweb的基础,如果你自学有难度,可以在网上下载一些相关视频,帮助理解,降低学习难度曲线。
  当你完成上一阶段的学习后,你就可以进入J2EE的阶段了。
  这一阶段,你可能会见到很多各种各样的框架,会让你眼花缭乱,头晕目眩。不过别担心,你只需要学习三个就足够了。它们是struts2、hibernate、spring。这些框架为搭建具有可伸缩性、灵活性、易维护性的商务系统提供了良好的机制。
  首先你需要学习三个框架的基本配置和使用,直到你能熟练搭建一个ssh项目。
  如果学有余力,你可以深入学习这些框架的设计模式。
  学习完三大框架之后,其实你学的已经足够多了。如果对移动应用的开发感兴趣,你可以接着学习安卓开发。安卓开发不需要其他知识,只要你j2se学的不错,学安卓开发对你就没太大难度了。

参考技术A

我看最新的回答都是16年了,三年过去了,市场对java技术的需求发生了很大的变化,在三年前到企业去面试,面试官不会问道企业级的框架,ssm这些都不会问道,但是现在要会分布式架构,微服务架构,CC服务这些,企业面试官才会愿意跟你聊,跟你探讨,IT行业的技术发展特别快,需要我们不断的更新新的技术,java包含了6大阶段,273个技能点,现将技能点列举如下:

第一阶段:java基本功修炼

1. 认识计算机硬件

2. 计算机组成原理

3. 计算机软件知识

4. 计算机网络知识

5. 常用网络应用操作

6. 认识计算机病毒

7. 逻辑训练

8. 初识Java

9. 变量和数据类型

10. 选择结构

11. 循环结构for

12. 循环结构do-while

13. 循环结构while

14. 多重循环及程序调试

15. 循环进阶

16. 一维数组及经典应用

17. 二维数组

18. 认识类与对象

19. 方法及方法重载

20. 封装与继承

21. 方法重写与多态

22. 项目实战-汽车租赁系统

23. 抽象类和接口

24. 异常

25. 项目实战-QuickHit

26. Java 中的集合类型

27. List 集合

28. Set 集合

29. HashMap 集合

30. Iterator

31. Collections 算法类及常用方法

32. enum

33. 包装类及装箱拆箱

34. String、StringBuffer 类常用方法操作字符串

35. Date、Calendar

36. Math 类常用方法

37. IO/NIO

38. 字节输入流(InputStream、FileInputStream、BufferedInputStream)

39. 字节输出流(OutputStream、FileOutputStream、BufferedOutputStream)

40. 字符输入流(Reader、InputStreamReader、FileReader BufferedReader)

41. 字节输出流(Writer、OutputStreamWriter、FileWriter、BufferedWriter)

42. 文件复制

43. Serialize、Deserialize

44. 职场晋升力:四象限时间管理与精力管理

45. 多线程(Thread、Runnable)

46. Thread LifeCycle

47. 线程的调度

48. 线程的同步和死锁

49. Thread Pool

50. 职场晋升力:团队合作

51. Socket(TCP、UDP)

52. XML 概念、优势、规范

53. XML 中特殊字符的处理

54. 使用DOM 读取、添加、删除、解析 XML 数据

第二阶段:javaweb开发

55. 搭建和配置mysql 数据库

56. 数据库增、删、查、改语句

57. 事务

58. 视图

59. 数据库备份与恢复

60. 数据库用户管理

61. 数据库设计

62. 项目实战-银行ATM 存取款机系统

63. 走进 HTML 和CSS

64. 列表表格及表单美化

65. CSS 高级操作

66. Bootstrap

67. CSS 组件

68. JavaScript 面向对象

69. JavaScript 判断、循环

70. JavaScript 闭包

71. JavaScript 语法

72. Bootstrap 综合案例

73. HTML5、CSS3

74. jQuery 基础

75. jQuery 基本操作

76. jQuery 事件与特效

77. jQuery Ajax

78. jQuery 插件

79. 搭建Web 环境初识JSP

80. JSP 九大内置对象

81. JSP 实现数据传递和保存

82. JDBC

83. 单例模式、工厂模式

84. MVC、三层模式

85. Commons-fileupload、CKEditor

86. 分页查询

87. EL 与 JSTL

88. Servlet 与Filter

89. Listener 与MVC

90. Ajax 与 jQuery

91. jQuery 的Ajax 交互扩展

92. 项目实战—使用Ajax 技术改进新闻发布系统

93. 反射

94. Linux 系统的安装

95. 在Linux 中管理目录和文件

96. 在Linux 中管理用户和权限

97. 在Linux 服务器环境下安装软件和部署项目

98. 职场晋升力:职场沟通

第三阶段: 企业级框架开发

99. MyBatis 环境搭建

100. SQL 映射文件

101. 动态SQL

102. MyBatis 框架原理

103. Spring IOC

104. 构造注入、依赖注入、注解

105. Spring 整合MyBatis(SqlSessionTemplate、MapperFactoryBean、事务  

处理)

106. Spring 数据源(属性文件、JNDI)、Bean 作用域

107. Spring 框架的运行原理

108. SpringMVC 体系概念

109. SpringMVC 之数据绑定、数据效验、

110. SpringMVC 之视图及视图解析

111. SpringMVC 之文件上传、本地化解析

112. SpringMVC 之静态资源处理、请求拦截器、异常处理

113. Oracle 数据库环境搭建、安装

114. Oracle 数据库 SQL、分页、备份、还原

115. Hibernate 概念、依赖

116. HQL 查询语言

117. Hibernate 中配置关联映射

118. HQL 连接查询与 Hibernate 注解

119. Struts 2 概念、依赖

120. Struts 2 配置

121. OGNL 表达式

122. Struts 2 拦截器

123. SSH 框架整合

124. 使用Maven 构建项目

125. 使用Struts 2 实现Ajax

126. Jsoup 网络爬虫

127. 多线程网络爬虫

128. 反爬及反反爬策略

129. 通用爬虫设计

130. Echart 图表分析

131. IKAnalyzer 分词

132. 企业框架项目实战-代理商管理系统

133. 企业框架项目实战-SL 会员商城

134. 企业框架项目实战-会员管理系统

135.企业框架项目实战-互联网招聘信息采集分析平台

第四阶段: 前后端分离开发

136. GitHub

137. Git 基础(checkout、pull、commit、push、merge 等)

138. Git 进阶(多分支协作)

139. GitLab

140. IDEA 的使用

141. Maven 介绍(概念、仓库、构建、命令)

142. 使用Maven 构建WEB 项目

143. 使用Maven 构建多模块项目

144. 使用Maven 搭建私服仓库

145. Scrum 框架介绍(三个角色、三个工件、四个会议)

146. Scrum Team 组建团队

147. 产品需求和用户故事

148. 每日立会

149. 使用敏捷-Scrum 方式开发管理实战

150. 前后端分离、分布式集群架构、垂直架构

151. SSM(SpringMVC+Spring+MyBatis)整合实战

152. Git、Maven 私服Nexus

153. 第三方接入技术(微信、阿里)

154. MySQL 电商实战

155. Redis(缓存服务)

156. 搜索引擎-Solr

157. 集成API Doc 工具-Swagger

158. 图片自动化处理:Tengine+LUA+GraphicsMagic

159. 手机、邮箱注册

160. 单点登录 Token

161. OAuth2.0 认证

162. Jsoup 网络爬虫(多线程爬虫/代理 IP 爬虫)

163. ExecutorService 线程池

164. IK 中文分词

165. Postman

166. ReactJS

167. webpack

168. 职场晋升力:简历撰写

169. 程序猿面试宝典之项目面试

170.大型互联网旅游电商项目实战-爱旅行

第五阶段: 分布式微服架构开发

171. Spring Boot 环境搭建

172. Spring Boot 常用技能

173. Spring Boot 整合Redis

174. Spring Boot 整合Mybatis

175. 微服务架构及架构设计

176. 消息队列

ActiveMQ\\RabbitMQ

177. 分布式事务

178. 分布式锁 Redis-setnx

179. Zookeeper 注册中心

180. 基于 ActiveMQ 实现高并发

181. Docker 环境搭建

182. Docker 镜像加速

183. Docker 容器管理

184. Docker 镜像管理

185. Docker 容器文件备份

186. Dockerfile

187. Docker 私服仓库

188. 真实互联网高并发电商项目实战-双十一抢购

189. 可视化监控 Portainer

190. Docker Compose 容器编排

191. Docker Compose 扩容、缩容

192. Docker Swarm 集群编排

193. Jenkins 安装、插件配置

194. Jenkins 配置普通任务

195. Jenkins 配置管道任务

196. Jenkins 自动发布服务

197. Spring Cloud Eureka

198. Spring Cloud Feign

199. Spring Cloud Ribbon

200. Spring Cloud Zuul

201. Spring Cloud Config

202. Spring Cloud Hystrix

203. Spring Cloud Sleuth

204. Spring Boot Admin

205.Eureka 注册原理探秘

206. Spring Cloud 大坑解读

207. Zipkin

208. Zipkin 整合RabbitMQ

209. Zipkin 整合MySQL

210. ELK 日志收集

211.Kafka

212. Elasticsearch 映射管理

213. Elasticsearch 查询/复合查询

214. Elasticsearch 集群/集群规划

215. Elasticsearch 聚合

216. Elasticsearch 集群监控

217. Elasticsearch 插件

(Head/BigDesk)

218. Mycat 读写分离

219. Mycat 一主多从

220. Mycat 多主多从

221. Mycat 数据分片

222. Redis

223. Redis-Redlock

224. Elasticsearch 环境搭建

225. Elasticsearch 客户端

226. Elasticsearch 索引管理

227. Elasticsearch 文档管理

228. Mycat 集群

229. Jmeter 并发测试

230. Jmeter 生成测试报告

231. 微信登录

232. 微信支付

233. 支付宝支付

234. 百度地图

235. Sonar 本地检测

236. Sonar +Jenkins 线上检测

237. CI/CD

238. Spring Boot 改造爱旅行项目实战

239. 大型互联网票务类电商项目实战-大觅网

240. ES6 概念(les、const)

241. ES6 对象和数组

242. ES6 函数扩展

243. VUE 环境搭建

244. VUE.JS 指令

245.VUE 交互

246. VUE 实例生命周期

247. VUE 组件

248. VUE 项目环境配置及单文件组件

249.VUE 路由

第六阶段:cc服务

250. Spring Cloud Gateway

251. Consul

252. Nacos

253. Eureka、Consu、lNacos、Zookeeper 对比分析

254. Prometheus + Grafana

255. ES 分布式存储原理

256. NoSQL 数据库解决方案(Redis、MongoDB)

257. OAuth2.0 认证( authorization code 模式)

258. OAuth2.0 认证( implicit 模式)

259. OAuth2.0 认证( resource owner password credentials 模式)

260. OAuth2.0 认证( client credentials 模式)

261. NAS/FastDFS 分布式文件存储

262. Python 基础

263. Python 爬虫

264. 大数据及 Hadoop 概述

265. 分布式文件系统 HDFS 

266. 分布式计算框架MapReduce

267. 分布式列式数据库 HBase

268. Hadoop 综合应用

269. 面试大局观

270. 职业规划  

271. 项目面试

272. 具体业务场景化解决方案

273. 更多技术专题持续增加中

参考技术B 学习java大体思路:
一:J2SE
面向对象-封装、继承、多态 内存的分析
递归
集合类、泛型、自动打包与解包、Annotation
IO 多线程、线程同步
TCP/UDP
AWT、事件模型、匿名类
正则表达式
反射机制
二:数据库(Oracle或者MySQL)
SQL语句
多表连接,内外连接, 子查询等
管理表、视图、索引、序列、约束等 树状结构存储
存储过程、触发器
数据库设计三范式、
三:JDBC
JDBC基础 连接池
树状结构存储与展现 DataSource
& RowSet 看有视频
JDBC连接Oracle及MySQL
四:HTML_CSS_JAVASCRIPT
html、css、javascript基础语法 JavaScript Form判断
Dom编程基础(事件处理等) JS常用效果如TreeView、下拉联动等
JS学习方法
JS调试方法
DreamWeaver初步(建立HTML、Table、Form、CSS)等
五:Servlet & JSP
tomcat基础 servlet基础
web.xml配置基础 web application的结构
servlet生命周期 request
response等常用方法
ServletContext类 HTTP协议基础(GET POST)
Cookie Session Application
JSP的几种语法(包括JSTL等)注意在项目中练习,不要拘泥于语法细节而裹步不前。
六:Struts
多层架构理论 Model
1 and Model 2
Struts基本概念 MVC
Action与业务逻辑类的关系 在Struts与JSP之间传递数据
Struts处理流程(控制流) Struts
TagLib(了解常用的)
JSTL ActionForm
字段收集 上传文件
类型转换 DTO
动态Action Form
验证框架
ActionForward
转发与重定向
动态生成ActionForward
全局与局部的ActionForward Action
Forward Scope
UnknownActionMapping
Action的线程安全
I18N 如何切换语言环境
Struts异常处理机制 程序处理 自动处理 自定义异常处理器
Struts的多模块配置
七:XML
(XML/XSL、XSLT/DTD、SCHEMA等基础的概念、关于Java的编程可以暂时扔在一边)
八:Hibernate
OR
Mapping原理
Hibernate基础开发步骤
Hibernate基本接口(重点Session)
普通属性映射
关联关系映射
Native
SQL
inverse
lazy cascade
继承关系映射
HQL
性能优化 一级缓存 二级缓存 查询缓存
事务与并发 悲观锁、乐观锁
OpenSessionInView
CurrentSession
(至于JTA、联合主键、自然主键、动态主键、Any类型 Creteria Queries
Intercepter and Event 自定义类型等,可以暂时扔在一边)
九:Spring
IOC/DI
Spring配置
Spring架构
AOP及Spring AOP
声明式事务(AOP)
Spring
+ Hibernate Spring支持Web
Scope
(其他的Spring模块对于自学来说可以暂时扔在一边)
十:EJB3.0
J2EE架构基础(JTA JMS等)
EJB基础(地位及基本理论、分类等)
Annotation
Ant编译与部署EJB
Session
Bean
EJB的依赖注入
Persistence
API
(可以用JBoss学习EJB3.0)
十一:至于SOA,对于自学的同学来说,暂时不用特别关注。
梳理一下,就会发现东西不是想象中的那么多!
参考技术C

零基础学习Java开发必须明确的几点:

1.明确你将来是做什么工作的,需要掌握哪些技能,很多人连这个就不知道就盲目的学,你首先清楚,现在公司需要什么人才,你应该奔着什么目标努力。

2.系统的学习规划,规划好你每天学习的新知识和每天做的作业和练习,很多人想自学Java开发,两个就看完了,这样的能找到工作算是出奇了,现在学习Java开发想找到工作,没有4-6个月的根本不行,所以规划是一定要有的,我建议半年时间。

3.注意学习方法,很多人在学习Java开发的时候,开始学那一刻起就选择了错误的学习方法,所以最后注定会放弃,回到原来的岗位继续做着自己不喜欢的事情,学习Java开发需要一定的技巧,在开始学之前多跟别人问问,不要自己盲目的自学,浪费时间。

关于培训:

富裕的,或者想少走弯路的,可以选择培训,但是培训不一定就能找到工作 
有的培训机构说包就业,这些本身就是骗人的,不要信 
但是我目前是不建议选择那种速成的培训,因为学习时间短,而且学费太高,成本太大,培训之后还不一定能找到工作,现在的选择我更加建议大家选择在线上进行培训,成本低,还方便

做Java开发开发十年时间,如果大家对于学习Java开发有任何问题(学习方法,学习效率,如何就业),可以随时来咨询我,这是我的Java开发交流学习qun:前面是四九四,中间是八零一,后面是九三一。 多多交流问题,互帮互助,qun里有不错的学习教程和开发工具。

开始学注意几点:

1.代码规范,这本身就是一个非常好的习惯,如果开始不养好好的代码规划,以后会很痛苦

2.多动手,少看书,很多人学Java开发就一味的看书,这不是学数学物理,你看例题可能就会了,学习Java开发主要是学习编程思想。

3.勤练习,学完新的知识点,一定要记得如何去应用,不然学完就会忘,学我们这行主要都是实际操作。

4.学习要有效率,如果自己都觉得效率非常低,那就停不停,找一下原因,去问问过来人这是为什么

这是我给大家提供的Java开发学习路线:

Java基础:Java基础语法、数组、类与对象、继承与多态、异常、范型、集合、流与文件、反射、枚举、自动装箱和注解。

数据库:mysql、oracle

Javaweb:HTML与CSS网页开发基础、JavaScript脚本语言、搭建开发环境、JSP基本语法、JSP内置对象、JavaBean技术、Servlet技术、Ajax技术

框架:Struts2、Hibernate、Spring、SpringMVC、mybatis学不好的几个原因,希望大家引以为戒:*

1.很多人虽然说想做Java开发开发,想要从另一个职业到互联网,但是他们的态度只能说他们不想,目前这个行业只有那些愿望非常强烈的人才能转行成功,所以对这件事情的态度就决定了你能不能转行成功。

2.不要说学,就对于行业的基本了解都不知道,就想去学,我见过很多这样的人,学的非常快,别人用30天学完的知识,他可能就用了一周,而且你跟他说专业是没用的,他就像按照他的方式,所以你对于这个行业的基本的常识都不懂,更不要开始学。

3.自己盲目的学,就连自己学的什么都不知道,还硬着头皮往下学,最后只能浪费时间。

4.在校的学生,其他专业的,大学四年什么本领没学,毕业之后着急了,在心里着急就想快点找一份工作,但是他从来没有想过找工作是靠的什么,不是靠嘴说,但是这样的人往往有一个共同点,他不会脚踏实地,他认为半年,四个月的时间太长了,永远在着急中,最后都要失败。

以上的总结,学Java开发的人很多,但是剩下的人都是通过自己的努力胜任属于他自己那份属于他的工作,这个行业永远不会存在饱和,只是会不断的淘汰一些能力不行的人,优胜劣汰。

参考技术D   
系统的学习JAVA的过程如下:
第一阶段
你需要学习JAVA语言的基础知识以及它的核心类库 (collections,serialization,streams,networking, multithreading,reflection,event,handling,NIO,localization,以及其他)。
你需要学习java数据库技术,如JDBCAPI并且会使用至少一种persistence/ORM构架,例如Hibernate,JDO, CocoBase,TopLink,InsideLiberator(国产JDO红工厂软件)或者iBatis。
你应该熟练掌握一种JAVAIDE例如sunOne,netBeans,IntelliJIDEA或者Eclipse。(有些人更喜欢VI或EMACS来编写文件。随便你用什么了:)
你需要熟悉一种单元测试体系(JNunit),并且学习不同的生成、部署工具(Ant,Maven)。
你需要熟悉一些在JAVA开发中经常用到的软件工程过程。例如RUP(RationalUnifiedProcess)andAgilemethodologies。
第二阶段
你需要精通面向对象分析与设计(OOA/OOD)、涉及模式(GOF,J2EEDP)以及综合模式。你应该十分了解UML,尤其是class,object,interaction以及statediagrams。
你应该了解JVM,classloaders,classreflect,以及垃圾回收的基本工作机制等。你应该有能力反编译一个类文件并且明白一些基本的汇编指令。
你还应该了解对象关系的阻抗失配的含义,以及它是如何影响业务对象的与关系型数据库的交互,和它的运行结果,还需要掌握不同的数据库产品运用,比如:oracle,mysql,mssqlserver。
你需要学习JAVA的沙盒安全模式(classloaders,bytecodeverification,managers,policyandpermissions,
codesigning, digitalsignatures,cryptography,certification,Kerberos,以及其他)还有不同的安全/认证 API,例如JAAS(JavaAuthenticationandAuthorizationService),JCE (JavaCryptographyExtension),JSSE(JavaSecureSocketExtension),以及JGSS (JavaGeneralSecurityService)。
第三阶段
你需要学习如何使用及管理WEB服务器,例如tomcat,resin,Jrun,并且知道如何在其基础上扩展和维护WEB程序。
你需要学习Servlets,JSP,以及JSTL(StandardTagLibraries)和可以选择的第三方TagLibraries。

  如果你将要 写客户端程序,你需要学习WEB的小应用程序(applet),必需掌握GUI设计的思想和方法,以及桌面程序的SWING,AWT, SWT。你还应该对UI部件的JAVABEAN组件模式有所了解。JAVABEANS也被应用在JSP中以把业务逻辑从表现层中分离出来。(这条可有可 无)

你需要熟悉主流的网页框架,例如JSF,Struts,Tapestry,Cocoon,WebWork,以及他们下面的涉及模式,如MVC/MODEL2。

你应该学习如何利用JAVAAPI和工具来构建WebService。例如JAX- RPC(JavaAPIforXML/RPC),SAAJ (SOAPwithAttachmentsAPIforJava),JAXB(JavaArchitectureforXMLBinding),JAXM(JavaAPIforXMLMessaging), JAXR(JavaAPIforXMLRegistries),或者JWSDP(JavaWebServicesDeveloperPack)。
15.你需要学习一门轻量级应用程序框架,例如Spring,PicoContainer,Avalon,以及它们的IoC/DI风格(setter,constructor,interfaceinjection)。
20.你需要熟悉对不同有用的API和frame work等来为你服务。例如Log4J(logging/tracing),Quartz (scheduling),JGroups(networkgroupcommunication),JCache(distributedcaching), Lucene(full-textsearch),JakartaCommons等等。
25.JAVA(精确的说是有些配置)是冗长的,它需要很多的人工代码(例如EJB),所以你需要熟悉代码生成工具,例如XDoclet
第四阶段
你需要熟悉不同的J2EE技术,例如JNDI(JavaNamingandDirectoryInterface),JMS (JavaMessageService),JTA/JTS(JavaTransactionAPI /JavaTransactionService),JMX (JavaManagementeXtensions),以及JavaMail。

你需要学习分布式对象以及远程API,例如RMI和RMI/IIOP。

你需要掌握各种流行中间件技术标准和与java结合实现,比如Tuxedo、CROBA,当然也包括javaEE本身。

你需要学习企业级JavaBeans(EJB)以及它们的不同组件模 式:Stateless/StatefulSessionBeans,EntityBeans(包含Bean- ManagedPersistence[BMP]或者Container-ManagedPersistence[CMP]和它的EJB-QL),或者 Message-DrivenBeans(MDB)。

你需要学习最少一种的XMLAPI,例如JAXP(JavaAPIforXMLProcessing),JDOM(JavaforXMLDocumentObjectModel),DOM4J,或JAXR(JavaAPIforXMLRegistries)。
你需要学习如何管理与配置一个J2EE应用程序服务器,如WebLogic,JBoss等,并且利用它的附加服务,例如簇类,连接池以及分布式处理支援。你还需要了解如何在它上面封装和配置应用程序并且能够监控、调整它的性能。
第五阶段(优先级低)
你需要熟悉面向方面的程序设计以及面向属性的程序设计(这两个都被很容易混淆的缩写为AOP),以及他们的主流JAVA规格和执行。例如AspectJ和AspectWerkz。
如果你将要对接或者正和旧的系统或者本地平台,你需要学习JNI (JavaNativeInterface) and JCA (JavaConnectorArchitecture)。
你需要熟悉JINI技术以及与它相关的分布式系统,比如掌握CROBA。
你需要JavaCommunityProcess(JCP)以及他的不同JavaSpecificationRequests(JSRs),例如Portlets(168),JOLAP(69),DataMiningAPI(73),等等。
你需要能够深入了解加熟练操作和配置不同的操作系统,比如GNU/linux,sunsolaris,macOS等,做为跨平台软件的开发者。
你还需要紧跟java发展的步伐,比如现在可以深入的学习javaME,以及各种java新规范,技术的运用,如新起的web富客户端技术。
你必需要对opensource有所了解,因为至少java的很多技术直接是靠开源来驱动发展的,如java3D技术。

====================================================================

附:

JAVA系统架构师应该看的几本书
Thinking in Java
Effective Java

UML基础、案例与应用
UML入门提高

软件工匠
设计模式——可复用面向对象软件的基础

重构-改善既有代码的设计
敏捷软件开发-原则、模式、实践

企业应用架构模式
Expert One-on-One J2EE Development without EJB

软件工程——实践者的研究方法
软件领导--成功开发软件的指导准则

后面的两本书,其实已经有点属于项目经理的范畴了,不过还不是很深入,看看对做成功的系统架构师是很有好处。

如何解决深度推荐系统中的Embedding冷启动问题?

关注 星标 ‘’python遇见NLP‘’ ,更多干货,第一时间送达

来源:王喆的机器学习笔记





如何解决深度推荐系统中的Embedding冷启动问题?



这里是「王喆的机器学习笔记」的第三十五篇文章。今天我们聊一聊Embedding的冷启动问题。


前段时间我在极客时间上开了门课程,叫「深度学习推荐系统实战」。开设这门课重要的目的之一就是增加一个正式的跟大家进行高质量讨论的地方。时至今日,深度学习的经典知识几乎已经是“显学”了,但是在实现深度学习推荐系统的过程中,还是充满了无数的细节和坑。所以接下来几篇文章会专门跟大家总结讨论课程中大家问题最多的,最感兴趣的话题


这第一篇内容,就是提问数量排名第一的问题,“如何解决Embedding的冷启动问题”。我在课程中花了四五节的时间跟大家讨论word2vec,deepwalk,node2vec,GNN等等Embedding知识,但大家最感兴趣的却是Embedding的冷启动。可见,这个问题在实践中处于一种什么样的地位。


如何解决深度推荐系统中的Embedding冷启动问题?


Embedding冷启动问题出现的根源


在着手解决它之前,必须要搞清楚这个问题出现的根源在哪,为什么Embedding冷启动问题那么不好解决。我们以最简单的Word2vec为例(其他所有Embedding方法,不管多复杂,都遵循同样的原则),训练它的最终目的是要得到与onehot输入对应的向量,用这个Embedding向量来表示一个用户,或者一个物品,或者一个特定的特征。


如何解决深度推荐系统中的Embedding冷启动问题?

Word2vec的模型结构图


为了生成这样一个Embedding向量,我们就必须完成整个神经网络的训练,拿上面的Word2vec的结构图来说,你必须在Embedding matrix W训练完毕、收敛之后,才能够提取对应的Embedding。


这个时候冷启动的问题就来了,如果在模型训练完毕之后,又来了一个新的user或者item。怎么办?


要想得到新的Embedding,就必须把这个新的user/item加到网络中去,这就意味着你要更改输入向量的维度,这进一步意味着你要重新训练整个神经网络,但是,由于Embedding层的训练往往是整个网络中参数最大,速度最慢的,整个训练过程持续几个小时是非常常见的。这个期间,肯定又有新的item产生,难道整个过程就成一个死局了吗?这个所谓的“死局”就是棘手的Embedding的冷启动问题


如何解决深度推荐系统中的Embedding冷启动问题?


入手解决问题


清楚了问题的根源,我们开始入手分析和解决问题。从整个深度学习推荐系统的框架角度解决这个问题,我觉得可以从四个角度考虑:


1.信息和模型 

2.补充机制 

3.工程框架 

4.跳出固有思维



1、补充Side Information


第一个解决问题的思路我称为“大事化小”。对经典Embedding方法熟悉的同学一定知道,大多数Embedding方法是建立在用户的行为序列数据基础上的,用户的历史行为越多,训练出的Embedding越准确。但是,用户的历史行为并不是非常容易产生的,特别是购买、完成观看这类高质量的正向行为。也正因如此,如果仅基于历史行为来生成Embedding,必然会造成其覆盖率低下。


为了尽可能为更多的item和user生成Embedding,把Embedding冷启动这件事情“大事化小”。我们必须加入一些其他类型的特征,典型的用户侧特征是人口属性特征,典型的物品侧特征是一些内容型特征,我们一般统称side information



如何解决深度推荐系统中的Embedding冷启动问题?

阿里的EGES模型


可以看到图中彩色的部分的Dense Embedding就是不同的特征域对应的Embedding层,每一个Embedding对应着一类特征,SI0就是Item id本身,SI1-SIn就是n个所谓的Side Information,比如Item的类别,价格,标签等等。这些Embedding经过一个加权平均的过程生成这个Item最终的Embedding。所以当一个Item没有历史行为信息的时候,也就是说没有SI0时,还可以通过其他特征生成其Embedding,这就大大提高了Embedding的覆盖率。(这里留一个问题给大家讨论,你觉得EGES生成Embedding的方式和Word2vec一样吗?我们应该从哪里拿到每个Item的Embedding?


而且我们要清楚的是,当不同特征的Embedding生成好之后,完全可以把组装生成Item Embedding的过程转移到线上,这样就能够彻底解决冷启动的问题,因为只要新的item生成,我们能够拿到它的特征,就能够组装出它的Embedding。


当然,解决冷启动问题也没必要总是执着于从Embedding的角度解决,因为Embedding也是作为一类特征输入到主推荐模型,或者主CTR预估模型之中的。既然这样,我们也完全可以直接把物品或者用户特征输入到主模型之中,只要这个主模型能够进行online inference,照样可以解决冷启动问题。


如何解决深度推荐系统中的Embedding冷启动问题?

Amazon Video团队的推荐模型结构



所以从“信息和模型”这个角度来解决这个问题,大致思路就是“聊胜于无”,整理好冷启动过程中你能获取到的可用的用户或者物品特征,把他们整合进模型,虽然刚开始可能不甚准确,但他们已经是你做出的最好的“菜”了,好过在一张白纸上预测。



2、灵活的冷启动机制往往事半功倍


第二个解决问题的角度是“补充机制”。我们做模型的同学都有一个终极的梦想,“打造一个完美的End2End的模型,一个模型干净利索的解决所有问题”。这个想法当然是值得追求的,但是我们也不必落入“完美主义”的怪圈,自己给自己套上枷锁,在工业界的工作中,我们首要追求的还是整个推荐系统的效果。在主模型之上,适当的融入一些灵活的推荐机制,往往会取得事半功倍的效果。



他们是怎么做的呢?首先肯定是要为大多数已有短租屋生成Embedding,那么在新的短租屋上架之后,会按照新的短租屋和已有短租屋的属性(房屋类型,价格,房间数等等)和地理位置距离,找到三个相似的有Embedding的短租屋,然后取其Embedding的平均。多么简单使用的冷启动策略。


如何解决深度推荐系统中的Embedding冷启动问题?

AirBnb生成的出租屋聚类结果


当然,在冷启动机制的选取过程中,我们不应该忘记传统的机器学习模型,传统手艺不能丢啊。比如利用聚类快速定位新物品所在的cluster,找到相似物品。


再比如根据用户/物品的特征训练一颗决策树,再把冷启动的用户/物品根据有限的信息分配到决策树的某个分支中去,再根据分支对应的默认列表进行推荐等等。


我们在解决问题的时候还是遵循工程师工作的基本原则“在客观条件的制约下寻求最佳方案”,尽量利用好所有可用的信息和技术手段,寻求客观制约下的最优解


3、推荐系统工程框架的改进


下面一个角度我想谈一谈通过“推荐系统工程架构上的改进”来解决冷启动问题。或者从更高的层面来说,冷启动的问题其实有一半是系统实时性的问题。


我们试想一个新闻APP新用户的交互过程,最开始用户的第一次登陆,这个新用户确实是“白板”一个,我们不得不使用我们刚才介绍的几种方法去做一些“聊胜于无”的推荐。但是一旦这个用户点击过了第一条新闻,剩下的事情就是“速度”的比拼了。你的系统能不能实时的捕捉到这最新的珍贵的信号,决定了你能不能快速的让这个用户渡过冷启动的阶段。


有的同学说了,我们的系统是建立在批处理架构上的,每天训练一次,生成一次User Embedding,那么好,你的系统延迟是一天,这个用户明天才能看到新的推荐内容。


如何解决深度推荐系统中的Embedding冷启动问题?

数据批处理架构


有的同学说了,我们的系统是基于流处理的,流处理的窗口大小5分钟。只要流处理平台看到了用户产生了正样本行为,就马上更新用户的embedding。很好,你的系统延迟是5-10分钟,用户大概率会在下次打开你的APP时看到更新。


如何解决深度推荐系统中的Embedding冷启动问题?

数据流处理架构


有的同学还说了,我们的系统是实时的!用户产生新的行为之后,我们会在下次请求中发送这个行为记录到推荐服务器端,推荐模型直接把这个行为当新的特征输入,做实时推断,推荐结果实时更新,非常好,你的系统几乎就是实时的。


有的同学更牛,说我们的系统把推荐系统模型/策略做到了APP里面,就在客户端,就根据用户的新行为在设备内部做推荐,做结果的reranking,特别好!可以把“几乎”这两个字扔掉了,你的系统就是真正的实时推荐系统。


如何解决深度推荐系统中的Embedding冷启动问题?

EdgeRec 边缘计算推荐系统



上面每一种做法,都有大量公司在使用,毫无疑问,最后一种的实时性最强,Taobao的推荐团队也已经在EdgeRec论文中披露了这一做法。那么这样基于“边缘计算”的推荐系统,无论在解决用户冷启动,还是物品冷启动,都可以实时处理新的信号,帮助用户或者物品以最快的速度渡过冷启动阶段。



4、跳出固有思维


有的同学可能还会说,我们团队实在是没有任何冷启动的数据可以用,难道就只能瞎猜吗?


你别说,瞎猜确实也是一种冷启动的手段,在探索与利用的诸多方法之中,epsilon greedy就是把一部分流量用于瞎猜,让冷启动的物品得到更多的展示,并快速收集数据。除此之外类似的机制还有主动学习,在线学习,强化学习等等,这里我就不展开讲了,但这些机制的原理是一致的,就是做到快速学习,主动探索,快速收集冷启动物品或者用户的数据,并且快速反馈到模型和特征中去。


如何解决深度推荐系统中的Embedding冷启动问题?

强化学习中的反馈实时学习,实时调整推荐模型


但我这里主要想说的还不是这个。我想说的是,我们做推荐系统,有时候要跳出技术的固有思维,到更广阔空间去寻求团队合作。作为很多公司的核心产品,我们的意见其实是可以影响很多产品和运营的决策的。


冷启动问题就是一个非常好的点去做跨团队的合作。


比如说跟产品团队的合作可以加入一些用户注册的冷启动信息页面。

跟数据团队合作看看能否从公司的DMP中获得更多可用于冷启动的用户、物品信息。

跟运营团队合作看看能不能推动更多跟第三方数据公司的合作,获得更多更全面的数据,等等。


如何解决深度推荐系统中的Embedding冷启动问题?


最后总结


最后,解决Embedding冷启动问题,重要的思路再说一遍。


补充side information

利用EGES的类似方案,在Embedding模型中加入更多非行为历史类特征,让Embedding能够覆盖更多物品和用户

利用Amazon Video方案,直接在主模型中加入更多物品、用户特征,即使没有Embedding也可以做出靠谱的预测


灵活的冷启动机制

不要陷入“完美主义”的怪圈

采用Airbnb方案,利用物品之间的相似性,对冷启动物品根据相似物品,快速生成初始化Embedding

聚类,决策树等经典模型


工程框架的改进

批处理->流处理->实时推断->边缘计算,让新信号的消费变得越来越实时


跳出固有思维

使用探索与利用、主动学习等思路解决问题

寻求更广阔的合作,与产品、运营、数据团队做团队间的合作



如何解决深度推荐系统中的Embedding冷启动问题?