[读书笔记]数学之美里的机器学习
Posted 尾巴AR
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了[读书笔记]数学之美里的机器学习相关的知识,希望对你有一定的参考价值。
这几天陆陆续续把吴军博士的《数学之美》看完了。
整体来说,《数学之美》是一本非常适合于数学不好的人入门机器学习和理解计算机算法原理的科普书。作者结合他多年搞研究和在GOOGLE的经验,把他所理解的机器学习/自然语言处理的发展史一一得梳理了出来,颇有提纲挈领的功效。
在看完这本书后,可以按着里面的线索再去搜相关资料来看,比以前直接上手就看数据挖掘、算法啥的靠谱多了。作者在书里多次推崇[简单的数学模型可以做大事],[换个思路],[做搜索的人要经常研究一下不好的结果/异常值分析],[道]的思想,这些都是挺有启发意义的。
因为内容比较多,在这里把《数据之美》各章概括一下,作为以后学习的线索。这书大部分内容是2012年写的,学习的时候也要对照着看看机器学习这几年的发展,以及是否有差错。
章节 | 概述 | 关键字 |
第1章 文字和语言 vs 数字和信息 | 人们在自然语言处理里曾经走过弯路——过于关注句法和文本分析。但这种方法复杂度过大且无法很好适配新句法,1970s后人们提出基于[通信系统]和[隐含马尔科夫模型]的自然语言处理方法。而随着计算机技术的发展,[统计]方法更为人所知,在工业界广泛应用[数据挖掘/网页搜索/语音识别/机器翻译] | 机器智能 图灵测试 隐含马尔科夫模型 FrederickJelinek IBM华生实验室 PeterBrown |
第2章 自然语言处理——从规则到统计 | ||
第3章 统计语言模型 | 用统计的方法做自然语言处理,不再深究句法是否合理,而是统计哪一种句法在语料库里最常出现。 依据[马尔代夫假设]/条件概率,统计语言模型的计算变得更加简单有效,逐渐在分词、语音识别、机器学习里大展头角。 |
达特茅斯会议
马尔科夫假设 马尔科夫链 隐含马尔科夫模型 二元模型 BigramModel 语料库 大数定理 Rosetta |
第4章 谈谈中文分词 | [统计语言模型]虽然有效,但在实际工作中需要更高效的算法。 [通信模型]的引入,把自然语言处理等价于通信模型的解码问题。结合[隐含马尔科夫模型]。让分词问题/多义词问题,成为[更小范围]内的条件概率,提高了运算效率 |
查字典 最少次数的分词理论 分词二义性 郭进 动态规划 孙茂松 吴德凯 |
第5章 隐含马尔可夫模型 | 通信模型 LenoardBaum 随机变量 随机过程 独立输出假设 维特比算法 语音识别 | |
第6章 信息的度量和作用 | 引入[信息熵]概念,把[信息]与[不确定性]结合起来。减少信息[不确定性],其实是一个条件概率(已知Y,若X/Y相关,则能更了解X),为[互信息] | 香农 信息熵 比特 信息量 冗余度 通信的数学原理 消除不确定性 联合概率分布 条件概率分布 互信息 语料 DavidYarowsky |
第7章 贾里尼克和现代语言处理 | 人物传记 | 信息六要素 RomanJakobson 最大熵迭代算法 BCJR算法 维特比算法 ICASSP CLSP |
第8章 简单之美-布尔代数和搜索引擎的索引 | 搜索的核心:按[图]下载尽可能多的网页,用[TRUE/FALSE]建立网页关键词的索引,利用[PageRank]决定排序,再通过[TF-IDF]衡量关键词权重,提高查询与网页之间的[相关性] | 二进制 布尔代数 GottfriedLeibniz 二进制计算机 香农 量子力学 离散数学 索引 分布式存储 |
第9章 图论和网络爬虫 | 离散数学 数理逻辑/布尔运算 图 遍历Traverse 广度优先搜索 深度优先搜索 弧 网络爬虫 散列表HashTable | |
第10章 PageRank -Google的民主表决式网名 | 网页质量信息 PageRank 民主表决 链接权重 稀疏矩阵计算 系统论 信息检索课程 | |
第11章 如何确定网页和查询的相关性 | 概率模型 TF-IDF 关键词权重 词频 停止词 KarenSparckJones 文献学学报 交叉熵 Kullback-LeiblerDivergence | |
第12章 有限状态机和动态规划——地图和本地搜索的最基本技术 | 利用[有限状态机]进行地址分析(省/市/县定位识别),又因为有些地址不标准,要用到[基于概率的马尔科夫链]进行分析。而在两个地址之间规划路线,采用[图]里的[动态规划]进行快速检索 | 有限状态机 有向图 有向弧 开始状态 终止状态 模糊匹配 基于概率的有限状态机 离散的马尔科夫链 AT&T 加权图 最短路径 动态规划DynamicProgramming |
第13章 Google AK-47 的设计者 — 阿米特·士 | 人物传记:寻找简单有效的解决方法 | AmitSinghal Ascorer 网络搜索中的作弊问题 模型压缩 简单方法的有效性 UdiManber 文本的句法分析 机器学习 分析不好的结果 |
第14章 余弦定理和新闻的分类 | 对于新闻分类,利用TF-IDF描绘新闻文本(特征向量),认为向量夹角(余弦定理)可以描述两者间的相关性。但当向量过大时,需要引用[矩阵]中的[奇异值分解],以缩减计算过程。另外,由于数据量过大,工业界在研究如MapReduce等并行算法。 | 新闻自动分类 TF-IDF 特征向量 特征向量之间的相似性 向量代数 余弦定理 余弦相似性 自底向上不断合并 RaduFlorian 自动分类 论文评审 |
第15章 矩阵运算和文本处理中的两个分类问题 | 数值分析 线性代数 矩阵 奇异值分解 SVD 加权词频 矩阵特征值 数值分析 奇异值分解的并行算法 | |
第16章 信息指纹及其应用 | 在[网络爬虫]时,要在[散列表]中记录曾经访问过的网址。当长文本不利于数据匹配,为了效率,利用[伪随机数产生器],将信息变为二进制随机数。这个可用于[加密]、[文章相似度匹配]等领域 | 信息熵 无损压缩编码 散列表 随机映射 128位二进制 信息指纹 伪随机数产生器算法 PRNG 梅森旋转算法Mersenne Twister 加密的伪随机数产生器CSPRNG 判断集合基本相同 想死哈希 关键帧的提取 视频特征提取 |
第17章 由电视剧《暗算》所想到的 — 谈谈原理 | 凯撒大帝 信息论 跳舞的小人 反函数 自变量 亚德利HerbertOsborneYardley 中国黑室 公开秘钥 RSA算法 Rabin算法 互素 公约数 | |
第18章 闪光的不一定是金子 | 除了排序和看相关性以外,要排除噪音[搜索引擎作弊]和判断搜索结果的[权威性]。对噪音消除做[解卷积],对全文进行[句法分析],找到[提及]信息,判断信息源的权威性 | 网页排名作弊 反作弊 重复关键词 买买链接 通信模型 抗噪声 振幅相反 汽车噪声 解卷积 卷积 相关性 高斯白噪声 抗干扰 出链 余弦距离 图论 Clique 去噪音 搜索结果权威性 提及 句法分析 信息源描述 互信息 聚合 收敛 |
第19章 谈谈数学模型的重要性 | 通过天文学的例子再次强调数学模型的重要性 | 椭圆模型 |
第20章 不要把鸡蛋放到一个篮子里 — 谈谈型 | 最大熵模型,即保留却不得不确定性,这是[指数模型]。在很多地方都用到 | 最大熵 椭圆模型 AT&T 不确定性 指数模型 I.Csiszar 归一化因子 AdwaitRatnaparkhi 词性标识系统 句法分析器 对冲基金 文艺复兴技术公司 |
第21章 拼音输入法的数学原理 | 输入法的效率,利用词和上下文相关性提高效率。涉及[动态规划]及[语料库] | 平均击键次数 消除歧义香浓第一定理 信息熵 词库 语言模型 概率论 动态规划 通信问题 有向图 |
第22章 自然语言处理的教父马库斯和他的学生 | 介绍一些科学家的研究思路 | MitchMarcus LDC语料库句子分析 分析器 柯林斯 基于变换规则的机器学习方法 词性标注 |
第23章 布隆过滤器 | 用于判断一个元素是否在一个集合里 | 散列表 布隆过滤器 二进制向量 随机映射 信息指纹 垃圾邮件过滤 |
第24章 马尔可夫链的扩展 — 贝叶斯网络 | 介绍[马尔科夫]系列推广。如[贝叶斯网络]是马尔科夫链的推广,解决多个节点的概率计算,在[分词]上有卓越成就。而[条件随机场]类似于[贝叶斯网络],只不过它属于[无向图],与[最大熵]联系起来。另外,[括括号]把[文法分析]与数学模型关联起来,更有效进行文本分析。 | 贝叶斯网路 可信度 贝叶斯公式 联合概率分布 结构训练 参数训练 NP完备问题 词分类 文本分类 Rephil局部最优 蒙特卡罗方法 EM过程 |
第25章 条件随机场和句法分析 | 联合概率分布 文法分析 语义分析 拉纳帕提 括括号 最大熵模型 对数函数 浅层分析 条件随机场 无向图 隐含马尔科夫模型 边缘分布 大数定理 指数函数 Gparser 犯罪预测 模式识别 机器学习 生物统计 预防犯罪率 | |
第26章 维特比和他的维特比算法 | [维特比算法]属于[动态规划算法],针对[篱笆网络]这种特殊的图,可解决大多[隐含马尔科夫链]的模型。 | AndrewViterbi 高通 动态规划 篱笆网络 有向图最短路径 隐含马尔科夫模型 状态跳跃 状态自环 输入法解码 扩频传输 噪音 时分多址 频分多址 FDMA TDMA CDMA 高通公司 |
第27章 再谈文本自动分类问题 — 期望最大化算法 | 介绍了如Kmeans聚类,逻辑回归,分布式运算、人工神经网络的基础内容。 | 期望最大化 文本自动分类 自底向上 文本中心 收敛 迭代 |
第28章 逻辑回归和搜索广告 | 逻辑回归 一层的人工神经网络 训练最大熵模型 IIS | |
第29章 各个击破算法和Google 云计算的基础 | 分治算法 各个击破 MapReduce 归并排序 | |
第30章 Google大脑和人工神经网络 | 深度学习 Google大脑 有向元 贝叶斯网络 人工神经网络 | |
第31章 大数据 | 切比雪夫不等式 |
以上是关于[读书笔记]数学之美里的机器学习的主要内容,如果未能解决你的问题,请参考以下文章