一本书带你入门商业数据科学

Posted turingbooks

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了一本书带你入门商业数据科学相关的知识,希望对你有一定的参考价值。

老马(Matt Taddy)是 Central Economics Team 的 VP,亚马逊北美首席经济学家。相当于大型智囊团里的二当家的。

在来亚马逊之前,老马是芝加哥大学布斯商学院的明星教授,他是学数理统计出身的,一开始教授的是统计学、机器学习等课程,后来他一手组建了芝加哥大学布斯商学院的大数据课程体系。

今天介绍的这本书就来自他在芝加哥大学布斯商学院的 Big Data 课程以及在工业界的实践——老马担任大学教授期间,还担任微软商务人工智能首席研究员、eBay 研究员,这种学界和工业界两栖的商业背景是相当难得的。因此他的书也很特别,兼具学术的严谨性和工业的应用性。

以下是老马讲解的阅读本书之前的关键问题:了解商业数据科学这个领域的现状,以及我们为什么要通过这本书来学习商业数据科学。

过去十年中,商业分析被一种新方法搅得天翻地覆。电子表格模型和数据透视表正在被用 R、 Scala、Python 等语言编写的代码脚本取代。从前需要大量商业分析师才能完成的任务,已经被应用科学家和软件开发工程师自动化了。这种现代化的商业分析有望让公司领导者深入了解公司经营和客户行为的所有细节。借助机器学习提供的工具,我们不但可以跟踪商业活动,而且可以预测活动的结果。

大数据的兴起推动了这场革命,具体地说,就是互联网时代可追踪数字化信息的海量增长, 以及适合存储和分析这种数据的工程系统的蓬勃发展。跨领域的知识融合——机器学习与计算机科学、现代计算理论与贝叶斯统计、数据驱动的社会科学与经济学——提升了所有领域中应用分析的质量和广度。机器学习专家研究如何对流程进行自动化和扩展规模,经济学家开发了工具来建立因果关系和结构化模型,统计学家则谆谆告诫所有人要跟踪不确定性。

数据科学这个名词已被广泛采用,用于描述这个不断变化、定义模糊的跨学科领域。和很多新兴领域一样,数据科学也经历了一个大肆炒作的阶段,一堆人把自己重新包装成数据科学家。只要与数据稍稍沾边的事情,都可以使用“数据科学”这个名词。实际上,对于在本书中是否使用这个名词,我踌躇良久,因为它被滥用了,含义难以统一。但是,在专门的商业分析领域,作为一种现代、科学、可伸缩的数据分析方法,数据科学的应用范围非常明确。在世界一流的企业和商学院中,商业数据科学已经成为数据分析的新标准。

本书是一本入门书,面向的是那些想在高端企业中担任数据科学家的读者。他们可以通过本书获得必要的技能,包括识别商业政策中的重要变量、通过实验测量这些变量,以及挖掘社交媒体以了解公众对于政策修改的反应。他们可以通过推荐系统中的微小变动感知客户体验的变化, 并利用这些信息估计需求曲线。他们需要完成以上所有工作,并将其扩展到公司级别的数据中, 还要精确地解释结论的不确定性程度。

这些超级分析师要使用来自统计学、经济学和机器学习领域的多种工具来实现目标。他们需要接收来自数据工程师的工作流,然后组织端到端的分析任务来提取和聚合所需数据,并编写能在新数据到达时自动重复执行的例程。在做这些工作时,他们应该对要测量的内容以及这些内容与企业决策制定的关系了然于胸。本书不专门讲述机器学习、经济学或统计学中的某一领域,也不会对数据科学进行整体概述,而是从这些领域中提取知识,为商业数据科学建立一个工具集。

这种数据科学紧密地集成在商业决策的制定过程中。先前的“预测性分析”(商业数据科学的前身)往往过于注重机器学习中花哨的演示功能,这些功能已经从制定商业决策所需的输入中移除了。以往数据中的模式检测非常有用,本书将介绍模式识别方面的多个主题;但对于更深层次的商业问题,必要的分析不是研究发生了什么,而是事情为何发生。因此,本书不仅会讨论相关性,还会讨论因果关系分析。相对于主流数据科学,本书更贴近经济学,旨在帮助你在工作中取得更加实际的效果。

本书不会面面俱到,这不是一本关于数据分析的百科全书。实际上,在当代机器学习和数据科学的不同领域中,都有很多非常优秀的图书。本书介绍的是我认为的商业数据科学中的关键因素,并且精心组织了内容。希望你能从本书中获得一些最佳实践,能够确定该信任什么,如何使用它,并为继续学习打下基础。

在商业数据科学领域,我已浸淫十余年之久。我曾是一名教授,向 MBA 学生教授回归课程(后来是数据挖掘,再后来是大数据);我也曾是一名研究人员,致力于将机器学习应用于社会科学;我还曾受雇于一些著名的大型高科技公司,在其中担任顾问。通过这些经历,我发现了一批跨领域通才,他们既能理解商业问题,也能深入数据,进行自己的分析。这些人就是时代精英,所有公司都需要这样的人才。通过本书,我希望能帮助更多这样的人脱颖而出。

本书的目标读者是那些想提高数据科学技能的科学、商业和工程领域的专业人员。因为这是一个全新的领域,所以几乎没有什么人拥有数据科学学位。他们基本来自其他领域,比如数学、 程序设计和商务管理等,但需要一条进入数据科学领域的途径。

我最初的数据科学教学经验来自芝加哥大学布斯商学院的 MBA 课程。我们成功地找到了一些方法,可以让商学院学生掌握深入研究大数据所必需的技术工具。但是我发现,在众多需要使用专业技能来解决商业问题的技术工作者中,面向未来的商业数据科学家的数量更大。其中很多是科学家,不仅是计算机科学家,还可能是生物学家、物理学家、气象学家和经济学家。随着机器学习技术在工程领域的成熟应用, 还需要更多软件开发工程师。

我曾向有以上背景的众多人士做过介绍,只要他们有良好的数学基础以及一点点编程经验, 就能够理解我讲授的知识。我在芝加哥大学教授 MBA 和转行者的经验表明,只要提供恰当的教学资料,非专业人士完全可以成为称职的数据科学家。首先,要明确和统一基本概念。在学术论文、会议期刊、技术手册和博客文章中,重要的数据科学名词常常混乱不清。新手经常完全摸不着头脑,尤其在文章作者想独辟蹊径、自己搞出一个“全新体系”的时候。好的工具不起作用的原因非常简单——只有少数几种稳健的方法可以成功地进行数据分析。例如,要确保模型在新数据上做出很好的预测,而不是用在拟合模型的数据上。本书会尽力找出这些方面的最佳实践,用明确的术语进行描述,并在所有新方法或应用中对其进行增强。     

另一个关键因素是内容要非常具体,要通过应用程序或模拟方法呈现一切,要尽可能将理论和思想以实际经验的方式直观地表达出来。例如,“正则化”的关键思想是建立偏向简单模型的算法,并且只在对强数据信号做出回应时才增加复杂性。在介绍这种思想时,我们会类比电话的降噪功能(或 VHF 收音机中的静噪功能),并在根据 Web 浏览器历史预测在线支出时说明它的效果。对于一些更抽象的内容,如主成分分析,本书会使用多个例子从多个角度解释同一理论。要点就是,尽管本书使用了一些数学知识(你必须尽可能理解它们),但并不会使用数学公式代替适当的解释。         

最后一个关键因素是商业数据科学只能通过实践来学习,这也是阅读本书时必须做到的。这意味着你需要编写代码,对真实、混乱的数据运行分析程序。本书的大多数示例脚本是用 R 语言编写的,并穿插在论述中。如果看不懂这些代码片段,就不能有效地阅读本书。在学习时,你必须自己编写代码和进行分析,而最简单的方法是改写书中的示例。     

要强调的是,这不是一本学习 R 语言的书。要学习 R 语言,有很多优质资源。在芝加哥大学讲授这门课程时,我发现最好将 R 语言的基础知识从核心分析课程中抽离,本书也遵循该模式。要阅读本书,你需要通过一些教程和阅读材料达到 R 语言的初级水平,然后可以通过复制、修改和扩展书中的示例继续提高。要学习本书,你不必是 R 语言专家,但需要能够阅读代码。  

以上就是关于本书我想说的。这是一本关于如何开展数据科学研究的书,它汇集了使用数据帮助现代企业运行的所有激动人心的内容。本书将阐述来自统计学、机器学习和经济学的多个核心原理和最佳实践,你可以通过大量真实的数据分析示例边做边学。本书旨在帮助科学、工程和商业领域中的专业人士成为真正的商业数据科学家。   

| 图书信息

作者:马特·塔迪(Matt Taddy)

译者:陈光欣 

这是一本关于如何开展商业数据科学研究的书,它汇集了使用数据帮助现代企业运行的所有激动人心的内容。

书中详细介绍了商业数据科学中的关键元素,汇集了机器学习、经济学以及统计学领域的核心原则和最佳实践,内容涵盖识别商业政策中的重要变量、通过实验测量这些变量,以及挖掘社交媒体以了解公众对于政策修改的反应,为从事商业数据科学的数据分析师、数据科学家和商业人士提供了必备工具。

商业数据科学的本质优势在于与实际应用走得最近,你可以通过大量真实的数据分析示例边做边学。科学、工程和商业领域中的专业人士都可以通过透彻学习本书成为真正的商业数据科学家。本书的示例采用的是数据科学和数据分析领域最常使用的语言之一 R 语言。

关于本书标题中的“数据分析与数据科学圈潜在标杆级作品”是否夸张呢?斯坦福大学商学院经济学教授 Guido Imbens 这样评价这本书:

“马特·塔迪是芝加哥大学布斯商学院的明星教师,并在微软和亚马逊带领数据科学团队。基于丰富的教学和工作经验……他将现代统计学、机器学习算法和社会科学因果模型中的重要概念巧妙地综合在一起,写出了一本通俗易懂的书。这本书有望成为该领域的标杆级著作。

市面上主题为「商业数据科学」的外版书本来就很稀有,上一本是大名鼎鼎的 Data Science for Business(由图灵引进,翻译为《商战数据挖掘》):

作者:汤姆·福西特等 

译者:郭鹏程  管晨 

这本书虽然写于 2013 年,但目前仍然广受读者喜爱。

而老马这本是 2019 年的新作。2013 到 2019 数据科学领域飞速发展,相信这本书可以成为新的标杆级作品,我们拭目以待。本书目前在 Amazon 获得了 4.4 星的好评,译者为清华大学老师陈光欣,清华在国内数据科学的学科建设中一直领先。

有不少学术界与工业界大佬推荐了这本书,其中包括大名鼎鼎的谷歌杰出科学家 Preston McAfee。

你肯定有很多疑问,这本书是讲什么的?是否适合你阅读?跟其他图书相比,这本书有什么特色?那我们先来上几张图,图里的信息可以回答你的疑问。

1-谁适合阅读这本书

2-这本书解决了什么问题?

3-这本书有什么特别之处?

赠送一枚运筹帷幄数据签

祝一切都在你的运筹帷幄之中

京东传送门

以上是关于一本书带你入门商业数据科学的主要内容,如果未能解决你的问题,请参考以下文章

Python数据科学-技术详解与商业实践视频教程

学习《数据科学入门》中文PDF+英文PDF+源代码

零售业中的数据挖掘问题 Ⅰ

学习Python 用哪本书好

数据科学家访谈录 摘录

数据科学家访谈录 摘录