苏大自然语言组内学习探讨记录
Posted 关于算法的那些事
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了苏大自然语言组内学习探讨记录相关的知识,希望对你有一定的参考价值。
今天中午和褚师姐孙老师聊天,聊到了专业基础问题。大家都有同感,专业基础太差了。
11年至今,先后呆过四个组(硕士期间,计算所实习期间,博士期间和诺亚实习期间)。纵览各方豪杰,深感自己基础还是稍显薄弱。基础知识包括:机器学习/数学,专业知识,编程能力和英语读写。对于研究生做科研,自己的感觉就是前两项严重制约个人的发展。其实,目前看来,自己的基础应付毕业是没有大问题的(运气好,水了论文够毕业)。但是,想要做出最前沿最拉风的研究,自己的实践看来,远远不够。
其实,自己不是没有尝试过。对机器学习和专业知识(后期侧重前沿论文的阅读)也时断时续的加强过,但是缺少的是全方位立体化的补充。往往都是头痛医头,脚痛医脚:今天LDA火了,跑个工具,找几个博客了解下。明天deep learning火了,玩个工具,找个博客逛逛。这种短平快的学习方式好处是即插即用,短期能够出成绩给自己给老板交差,但是长远看,缺少对整个框架的掌握真心成不了气候。基础不牢固,后期做什么都是瞎掰,最好的例子就是我国的男足了...
一直尝试弄学习班,两次都失败了。总结失败原因:1)基础都不是那么牢固,遇到硬骨头都啃不动,比如尝试一起学习PRML,看过的都懂其中的痛苦。2)大家都忙,各人的科研时间科研任务都不同,遇到硬骨头都缺时间,哪里能凑足时间一起学习一起讨论。3)自己的原因:期初热情高,后期自己忙了遇到困难了也没有及时组织大家。
虽然失败了,但还是不甘心。同样是几年前硕士期间,硕士那个组缺能够坚持一起学习讨论(虽然有的东西也搞得不是那么清楚,但至少概念不陌生),现在还能想起以前一起学习SVM,决策树时候讨论的场景。为什么会有这个差别呢?细想下来,两点最重要:一是有人愿意花时间组织带着大家,二是大家都很有学习热情。
回到中午的聊天,师姐和老师都感叹入门时候缺少一个师兄师姐带带。回想这么几年下来,真心需要感谢帮助过我的师兄师姐和其他同学,把一个门外汉小弟带进门(11年刚开始学编程还写了篇超级幼稚超级搞笑的学习博客http://blog.csdn.net/wangxinginnlp/article/details/6601006,这也是自然语言处理大菜鸟名字的由来)。同时,也激发了内心再次组队学习班的热情。这一次,想找几个有专业兴趣的师弟师妹一起研究一起探讨。
目前是准备以DL4NLP(毕竟大家都有毕业论文压力,学了马上能用)为切入点开始学习,以neural network,word embedding,GRU/LSTM,phrase/sentence embedding,encoder-decoder到multi-task learning这条线带师弟师妹把深度学习的门入下,组织2-3次学习班。如果能够顺利开展,后面会把机器学习和自然语言处理的方方面面也给组内师弟师妹普及下。
讨论版主页:http://hlt.suda.edu.cn/~xwang/seminar.html
第一次讨论班:
相关资料:
1. 基于机器学习的文本分类技术研究进展 点击打开链接
2. Deep Learning in NLP (一)词向量和语言模型 点击打开链接
3. How to generate a good word embedding 点击打开链接
4. word2vec 工具 点击打开链接
5. word2vec 使用指导 点击打开链接
6. word2vec 简单讲解 点击打开链接
7. 自然语言处理中的经验主义与理性主义 点击打开链接
8. word2vec 中的数学原理详解 点击打开链接
9. 文本分类语料 https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
10. How to use Word2vec word embeddings as features for a classifier? https://groups.google.com/forum/#!topic/word2vec-toolkit/c_yn_B5U5DU
第二次讨论班:
相关资料:
1. 神经网络 http://ufldl.stanford.edu/wiki/index.php/%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C
2. Representations for Language: From Word Embeddings to Sentence Meanings 点击打开链接
3. Deep Learning(深度学习)学习笔记整理系列之(七) 点击打开链接
4. An Intuitive Explanation of Convolutional Neural Networks 点击打开链接
5. Why do we use shared weights in the convolutional layers of CNN? 点击打开链接
6. Understanding LSTM Networks 点击打开链接
第二次讨论班:
相关资料:
1. Learning Long-Term Dependencies with RNN 点击打开链接
2. BACKPROPAGATION THROUGH TIME AND VANISHING GRADIENTS 点击打开链接
3. How does LSTM help prevent the vanishing (and exploding) gradient problem in a recurrent neural network? 点击打开链接
本文转自苏大NLP博士王星的blog。
以上是关于苏大自然语言组内学习探讨记录的主要内容,如果未能解决你的问题,请参考以下文章