用于数据分析和学习的Python包推荐
Posted
技术标签:
【中文标题】用于数据分析和学习的Python包推荐【英文标题】:Python package recommendation for data analysis and learning 【发布时间】:2012-09-14 13:29:30 【问题描述】:我想在文章发布平台之上构建一个分析引擎。更具体地说,我想跟踪用户的阅读行为(例如文章的查看次数、打开文章所花费的时间、评分等),以及文章本身的统计信息(例如段落数、作者等) )。
这将有两个目的:
-
提供有关用户和文章的见解
向用户提供建议
对于数据分析部分,我一直在查看 cubes、pandas 和 pytables。数据很多,存储在 mysql 表中;我不确定这些软件包中的哪一个能更好地处理这样的后端。
对于推荐部分,我只是考虑将数据从数据分析引擎提供给聚类模型。
关于如何将所有这些放在一起的任何建议,以及可以帮助我的很酷的 python 项目? 如果我应该提供更多信息,请告诉我。
谢谢
【问题讨论】:
文章发布系统是用什么写的?它是在 Python 还是任何 Pythonic 框架上? 是python;但我希望这部分有点分开;即发布平台转储到数据库,分析从中读取。 嗯,神经网络并不是你想要的,但pybrain.org 你可能也会感兴趣。 【参考方案1】:Scikit-learn 应该会让您对数据处理(聚类)部分感到满意。
【讨论】:
谢谢,我去看看。关于一个好的数据分析层有什么想法吗? 您要跟踪的第一个方面(查看次数、段落、作者、阅读时间)可以计算为汇总统计数据,例如均值和标准差。 numpy 可以帮助您在 n 维数据数组上计算这些。 对于聚类或更一般的数据挖掘,您首先需要一些相关的问题来询问数据,例如“我们如何将文章特征与读者的描述符联系起来”,您可以使用关联规则学习。如果您的问题更多关于数据分析层的设计,我建议您将核心分析功能和报告内容分开。在核心分析模块中,尝试仅使用 numpy 数组(可以处理字符串)来表示您的数据。其余的,这取决于您要回答的问题,这将定义您的规范。 所以您建议我将数据保存在 MySQL 数据库中;每当我需要做一些统计分析和报告时,我都会把我需要的东西从 db 变成 numpy 数据结构;使用这些结构来训练我的机器学习模型。对吗? 将数据保存在何处取决于您的信息的生命周期及其数量。仅将它们保存在一个地方更简单且易于实施。但是,如果您有大量数据,那么考虑一个更复杂的数据模型可能会很有趣。通常最好从符合您的规范的简单事物开始,然后在实际使用需要时优化和审查设计。【参考方案2】:对于分析和可视化方面,您有Cubes,正如您所提到的,对于我来说,我使用我写的CubesViewer。
【讨论】:
以上是关于用于数据分析和学习的Python包推荐的主要内容,如果未能解决你的问题,请参考以下文章
这年头不会Python看来是不行了,推荐一份Python书单!
数据分析从入门到“入坑“系列利用Python学习数据分析-环境配置和软件安装