机器学习如何与大数据融合?
Posted
技术标签:
【中文标题】机器学习如何与大数据融合?【英文标题】:How Machine Learning intgreate with Big Data? 【发布时间】:2020-03-11 01:49:26 【问题描述】:-
机器学习如何与大数据集成
机器学习和 MapReduce 有什么区别
我应该考虑的主要概念是什么
三者中的哪一个(监督学习、无监督学习、强化学习)是决策的主要内容
在医疗保健和智慧城市中,使用大数据进行决策有何不同
大数据与作为机器学习技术之一的深度学习之间的关系是什么
【问题讨论】:
【参考方案1】:这是我的快速和中肯的意见:
机器学习方法通过一种称为梯度下降的方法“学习”,这种方法通常对数据非常低效,但非常通用,易于实现,并且不需要太多的数据先验知识。为了让这种方法真正发挥作用,您需要大量数据来获得准确的模型;因此,很多机器学习方法都需要大数据。
机器学习是人工智能的一个领域,旨在赋予机器学习概念的能力,而无需显式编程。 MapReduce 是一种分布式计算方法,可用于加速机器学习训练或任何计算繁重的任务。
机器学习的主要概念是哪些机器学习算法应该用于特定任务。例如,监督学习用于回归和分类,并应用于标记的数据集。回归算法用于预测连续变量,分类算法用于分类变量。连续任务的一个例子是预测特定房屋的房地产价格。分类任务的一个例子是预测图片是狗还是猫。 在无监督学习中,两个主要的家庭是主成分和聚类,它们主要用于未标记数据集。在这里,机器必须找到数据的最佳隔离。
强化学习肯定是决策算法;毕竟,RL 是为最优控制和最优决策而设计的,因为它的基本算法是贝尔曼方程。
决策基本上是基于您要解决的问题。例如,如果我正在尝试制作饼干,我可以让我的饼干尝起来该死很好,但要花更多的钱,或者我可以制作味道不错但花费少得多的饼干。根据我要服务的市场,我的决定会大不相同。 由于这里没有正确定义任何一个的任务,我将做一些假设。在医疗保健领域,一项重要的任务是治疗肾衰竭患者。在这里,患者需要每 2 天去医院 2-3 小时,通过一种称为透析的方法对血液进行医学清洁。在这里,我们可以构建一个强化学习控制器来控制透析过程的流速、药物等,以缩短血液清洁过程并让患者减少疼痛。我亲自参与过这个项目。此处 ML 算法的决策是流速和药物量等。 在智慧城市中,代理可能希望优化交通流量或用电量。对于交通流,代理的决策将是何时使哪些灯变成红色,以最大限度地减少交通浪费的总时间。对于电力使用,代理希望电力以最短的距离传输,从而最大限度地减少电力浪费。
大数据和深度学习的关系同#1,只是把我最后一句中的“很多”换成了all。深度学习模型是高度参数化的,需要大量数据才能完全准确和可用(假设您的网络足够深)。然而,如果有足够的数据,它的准确性和能力是不可否认的。来自 SumoLogic 的下图显示了模型准确性变化与输入不同机器学习算法的数据量之间的有用可视化。
【讨论】:
很好解释,谢谢当机器学习的概念在大数据中显示出来时,比如 MapReduce 与机器学习算法有什么关系,如果是的话,什么时候?假设我们在大数据中实现了一个类似于医疗保健的应用程序,关于机器学习与它的关系以及时间?它是否显示大数据过程(摄取、处理和存储)何时结束?还是帮助大数据处理(摄取、处理和存储)完成工作?在申请中,我提到了在使用大数据进行机器学习时应该考虑什么? 关于深度学习的第 6 点是关于数据如何影响性能还是有其他原因? MapReduce 与 ML 算法无关。我不明白你关于医疗保健的第二点,但医疗保健中有很多应用。例如,您可以使用 ML 来识别 X 射线图像中的癌症。 ML 应用程序在您需要构建数据管道的所有行业中都是相同的。对于深度学习,这意味着您向模型添加更多参数以提高其预测能力,但您需要更多数据来训练额外参数。如果您缺少数据,则无法训练参数并会降低准确性。 你的意思是机器学习发生在HDFS中存储的数据(X射线图像)上,与MapReduce无关?那么像 PCA 这样的归约算法在机器学习中有什么用途呢? (虽然我们在 MapReduce 中使用它们) MapReduce 是一种并行计算算法,与减少数据的维度无关。 PCA 是一种基于协方差线性提取数据集主成分的机器学习算法。 PCA 的思想是将原始数据线性投影到具有较低维度的子空间上,同时保留所有有用的特征。大型数据集上的 PCA 可能需要大量时间,因此您可以使用 MapReduce 来减少计算时间,但 MapReduce 与减少数据集维度无关,PCA 可以。以上是关于机器学习如何与大数据融合?的主要内容,如果未能解决你的问题,请参考以下文章
数据挖掘机器学习[五]---汽车交易价格预测详细版本{模型融合(StackingBlendingBagging和Boosting)}