[读书笔记]数学之美里的机器学习

Posted 2020-06-26 尾巴AR

tags:

篇首语：本文由小常识网(cha138.com)小编为大家整理，主要介绍了[读书笔记]数学之美里的机器学习相关的知识，希望对你有一定的参考价值。

这几天陆陆续续把吴军博士的《数学之美》看完了。

整体来说，《数学之美》是一本非常适合于数学不好的人入门机器学习和理解计算机算法原理的科普书。作者结合他多年搞研究和在GOOGLE的经验，把他所理解的机器学习/自然语言处理的发展史一一得梳理了出来，颇有提纲挈领的功效。

在看完这本书后，可以按着里面的线索再去搜相关资料来看，比以前直接上手就看数据挖掘、算法啥的靠谱多了。作者在书里多次推崇[简单的数学模型可以做大事]，[换个思路]，[做搜索的人要经常研究一下不好的结果/异常值分析]，[道]的思想，这些都是挺有启发意义的。

因为内容比较多，在这里把《数据之美》各章概括一下，作为以后学习的线索。这书大部分内容是2012年写的，学习的时候也要对照着看看机器学习这几年的发展，以及是否有差错。

章节	概述	关键字
第1章　文字和语言 vs 数字和信息	人们在自然语言处理里曾经走过弯路——过于关注句法和文本分析。但这种方法复杂度过大且无法很好适配新句法，1970s后人们提出基于[通信系统]和[隐含马尔科夫模型]的自然语言处理方法。而随着计算机技术的发展，[统计]方法更为人所知，在工业界广泛应用[数据挖掘/网页搜索/语音识别/机器翻译]	机器智能图灵测试隐含马尔科夫模型 FrederickJelinek IBM华生实验室 PeterBrown
第2章　自然语言处理——从规则到统计		机器智能图灵测试隐含马尔科夫模型 FrederickJelinek IBM华生实验室 PeterBrown
第3章　统计语言模型	用统计的方法做自然语言处理，不再深究句法是否合理，而是统计哪一种句法在语料库里最常出现。依据[马尔代夫假设]/条件概率，统计语言模型的计算变得更加简单有效，逐渐在分词、语音识别、机器学习里大展头角。	达特茅斯会议马尔科夫假设马尔科夫链隐含马尔科夫模型二元模型 BigramModel 语料库大数定理 Rosetta
第4章　谈谈中文分词	[统计语言模型]虽然有效，但在实际工作中需要更高效的算法。 [通信模型]的引入，把自然语言处理等价于通信模型的解码问题。结合[隐含马尔科夫模型]。让分词问题/多义词问题，成为[更小范围]内的条件概率，提高了运算效率	查字典最少次数的分词理论分词二义性郭进动态规划孙茂松吴德凯
第5章　隐含马尔可夫模型		通信模型 LenoardBaum 随机变量随机过程独立输出假设维特比算法语音识别
第6章　信息的度量和作用	引入[信息熵]概念，把[信息]与[不确定性]结合起来。减少信息[不确定性]，其实是一个条件概率(已知Y，若X/Y相关，则能更了解X)，为[互信息]	香农信息熵比特信息量冗余度通信的数学原理消除不确定性联合概率分布条件概率分布互信息语料 DavidYarowsky
第7章　贾里尼克和现代语言处理	人物传记	信息六要素 RomanJakobson 最大熵迭代算法 BCJR算法维特比算法 ICASSP CLSP
第8章　简单之美-布尔代数和搜索引擎的索引	搜索的核心：按[图]下载尽可能多的网页，用[TRUE/FALSE]建立网页关键词的索引，利用[PageRank]决定排序，再通过[TF-IDF]衡量关键词权重，提高查询与网页之间的[相关性]	二进制布尔代数 GottfriedLeibniz 二进制计算机香农量子力学离散数学索引分布式存储
第9章　图论和网络爬虫		离散数学数理逻辑/布尔运算图遍历Traverse 广度优先搜索深度优先搜索弧网络爬虫散列表HashTable
第10章　PageRank -Google的民主表决式网名		网页质量信息 PageRank 民主表决链接权重稀疏矩阵计算系统论信息检索课程
第11章　如何确定网页和查询的相关性		概率模型 TF-IDF 关键词权重词频停止词 KarenSparckJones 文献学学报交叉熵 Kullback-LeiblerDivergence
第12章　有限状态机和动态规划——地图和本地搜索的最基本技术	利用[有限状态机]进行地址分析(省/市/县定位识别)，又因为有些地址不标准，要用到[基于概率的马尔科夫链]进行分析。而在两个地址之间规划路线，采用[图]里的[动态规划]进行快速检索	有限状态机有向图有向弧开始状态终止状态模糊匹配基于概率的有限状态机离散的马尔科夫链 AT&T 加权图最短路径动态规划DynamicProgramming
第13章　Google AK-47 的设计者 — 阿米特·士	人物传记：寻找简单有效的解决方法	AmitSinghal Ascorer 网络搜索中的作弊问题模型压缩简单方法的有效性 UdiManber 文本的句法分析机器学习分析不好的结果
第14章　余弦定理和新闻的分类	对于新闻分类，利用TF-IDF描绘新闻文本（特征向量），认为向量夹角(余弦定理)可以描述两者间的相关性。但当向量过大时，需要引用[矩阵]中的[奇异值分解]，以缩减计算过程。另外，由于数据量过大，工业界在研究如MapReduce等并行算法。	新闻自动分类 TF-IDF 特征向量特征向量之间的相似性向量代数余弦定理余弦相似性自底向上不断合并 RaduFlorian 自动分类论文评审
第15章　矩阵运算和文本处理中的两个分类问题		数值分析线性代数矩阵奇异值分解 SVD 加权词频矩阵特征值数值分析奇异值分解的并行算法
第16章　信息指纹及其应用	在[网络爬虫]时，要在[散列表]中记录曾经访问过的网址。当长文本不利于数据匹配，为了效率，利用[伪随机数产生器]，将信息变为二进制随机数。这个可用于[加密]、[文章相似度匹配]等领域	信息熵无损压缩编码散列表随机映射 128位二进制信息指纹伪随机数产生器算法 PRNG 梅森旋转算法Mersenne Twister 加密的伪随机数产生器CSPRNG 判断集合基本相同想死哈希关键帧的提取视频特征提取
第17章　由电视剧《暗算》所想到的 — 谈谈原理		凯撒大帝信息论跳舞的小人反函数自变量亚德利HerbertOsborneYardley 中国黑室公开秘钥 RSA算法 Rabin算法互素公约数
第18章　闪光的不一定是金子	除了排序和看相关性以外，要排除噪音[搜索引擎作弊]和判断搜索结果的[权威性]。对噪音消除做[解卷积]，对全文进行[句法分析]，找到[提及]信息，判断信息源的权威性	网页排名作弊反作弊重复关键词买买链接通信模型抗噪声振幅相反汽车噪声解卷积卷积相关性高斯白噪声抗干扰出链余弦距离图论 Clique 去噪音搜索结果权威性提及句法分析信息源描述互信息聚合收敛
第19章　谈谈数学模型的重要性	通过天文学的例子再次强调数学模型的重要性	椭圆模型
第20章　不要把鸡蛋放到一个篮子里 — 谈谈型	最大熵模型，即保留却不得不确定性，这是[指数模型]。在很多地方都用到	最大熵椭圆模型 AT&T 不确定性指数模型 I.Csiszar 归一化因子 AdwaitRatnaparkhi 词性标识系统句法分析器对冲基金文艺复兴技术公司
第21章　拼音输入法的数学原理	输入法的效率，利用词和上下文相关性提高效率。涉及[动态规划]及[语料库]	平均击键次数消除歧义香浓第一定理信息熵词库语言模型概率论动态规划通信问题有向图
第22章　自然语言处理的教父马库斯和他的学生	介绍一些科学家的研究思路	MitchMarcus LDC语料库句子分析分析器柯林斯基于变换规则的机器学习方法词性标注
第23章　布隆过滤器	用于判断一个元素是否在一个集合里	散列表布隆过滤器二进制向量随机映射信息指纹垃圾邮件过滤
第24章　马尔可夫链的扩展 — 贝叶斯网络	介绍[马尔科夫]系列推广。如[贝叶斯网络]是马尔科夫链的推广，解决多个节点的概率计算，在[分词]上有卓越成就。而[条件随机场]类似于[贝叶斯网络]，只不过它属于[无向图]，与[最大熵]联系起来。另外，[括括号]把[文法分析]与数学模型关联起来，更有效进行文本分析。	贝叶斯网路可信度贝叶斯公式联合概率分布结构训练参数训练 NP完备问题词分类文本分类 Rephil局部最优蒙特卡罗方法 EM过程
第25章　条件随机场和句法分析		联合概率分布文法分析语义分析拉纳帕提括括号最大熵模型对数函数浅层分析条件随机场无向图隐含马尔科夫模型边缘分布大数定理指数函数 Gparser 犯罪预测模式识别机器学习生物统计预防犯罪率
第26章　维特比和他的维特比算法	[维特比算法]属于[动态规划算法]，针对[篱笆网络]这种特殊的图，可解决大多[隐含马尔科夫链]的模型。	AndrewViterbi 高通动态规划篱笆网络有向图最短路径隐含马尔科夫模型状态跳跃状态自环输入法解码扩频传输噪音时分多址频分多址 FDMA TDMA CDMA 高通公司
第27章　再谈文本自动分类问题 — 期望最大化算法	介绍了如Kmeans聚类，逻辑回归，分布式运算、人工神经网络的基础内容。	期望最大化文本自动分类自底向上文本中心收敛迭代
第28章　逻辑回归和搜索广告		逻辑回归一层的人工神经网络训练最大熵模型 IIS
第29章　各个击破算法和Google 云计算的基础		分治算法各个击破 MapReduce 归并排序
第30章　Google大脑和人工神经网络		深度学习 Google大脑有向元贝叶斯网络人工神经网络
第31章　大数据		切比雪夫不等式

以上是关于[读书笔记]数学之美里的机器学习的主要内容，如果未能解决你的问题，请参考以下文章