用于数据分析和学习的Python包推荐

Posted 2023-03-25

技术标签:

【中文标题】用于数据分析和学习的Python包推荐【英文标题】：Python package recommendation for data analysis and learning 【发布时间】：2012-09-14 13:29:30 【问题描述】：

我想在文章发布平台之上构建一个分析引擎。更具体地说，我想跟踪用户的阅读行为（例如文章的查看次数、打开文章所花费的时间、评分等），以及文章本身的统计信息（例如段落数、作者等） )。

这将有两个目的：

提供有关用户和文章的见解向用户提供建议

对于数据分析部分，我一直在查看 cubes、pandas 和 pytables。数据很多，存储在 mysql 表中；我不确定这些软件包中的哪一个能更好地处理这样的后端。

对于推荐部分，我只是考虑将数据从数据分析引擎提供给聚类模型。

关于如何将所有这些放在一起的任何建议，以及可以帮助我的很酷的 python 项目？如果我应该提供更多信息，请告诉我。

谢谢

【问题讨论】：

文章发布系统是用什么写的？它是在 Python 还是任何 Pythonic 框架上？是python；但我希望这部分有点分开；即发布平台转储到数据库，分析从中读取。嗯，神经网络并不是你想要的，但pybrain.org 你可能也会感兴趣。 【参考方案1】：

Scikit-learn 应该会让您对数据处理（聚类）部分感到满意。

【讨论】：

谢谢，我去看看。关于一个好的数据分析层有什么想法吗？您要跟踪的第一个方面（查看次数、段落、作者、阅读时间）可以计算为汇总统计数据，例如均值和标准差。 numpy 可以帮助您在 n 维数据数组上计算这些。对于聚类或更一般的数据挖掘，您首先需要一些相关的问题来询问数据，例如“我们如何将文章特征与读者的描述符联系起来”，您可以使用关联规则学习。如果您的问题更多关于数据分析层的设计，我建议您将核心分析功能和报告内容分开。在核心分析模块中，尝试仅使用 numpy 数组（可以处理字符串）来表示您的数据。其余的，这取决于您要回答的问题，这将定义您的规范。所以您建议我将数据保存在 MySQL 数据库中；每当我需要做一些统计分析和报告时，我都会把我需要的东西从 db 变成 numpy 数据结构；使用这些结构来训练我的机器学习模型。对吗？将数据保存在何处取决于您的信息的生命周期及其数量。仅将它们保存在一个地方更简单且易于实施。但是，如果您有大量数据，那么考虑一个更复杂的数据模型可能会很有趣。通常最好从符合您的规范的简单事物开始，然后在实际使用需要时优化和审查设计。【参考方案2】：

对于分析和可视化方面，您有Cubes，正如您所提到的，对于我来说，我使用我写的CubesViewer。

【讨论】：

以上是关于用于数据分析和学习的Python包推荐的主要内容，如果未能解决你的问题，请参考以下文章

Python机器学习包

学习用于数据可视化的 d3.js [关闭]

这年头不会Python看来是不行了，推荐一份Python书单！

数据分析从入门到“入坑“系列利用Python学习数据分析-环境配置和软件安装

机器学习_5Anaconda：初学Python入门机器学习的首选

人生苦短，我推荐你学python