GitHub Python数据科学聚焦:推荐5个开源数据科学项目!
Posted chuangye95
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了GitHub Python数据科学聚焦:推荐5个开源数据科学项目!相关的知识,希望对你有一定的参考价值。
这篇文章重点介绍了5个数据科学项目,这些项目都是开源的,并且存在于GitHub存储库中,侧重于高级机器学习库和低级支持工具。
本文将通过GitHub repos重点介绍一组精选的开源Python数据科学项目。
之前的文章包括一些涵盖AutoML、自然语言处理、数据可视化、机器学习工作流程的库。这一次,我们将看看另一个选择的数据科学项目及其GitHub回购,重点关注那些在一端提供有用的抽象层的项目,以及那些在较低层次上支持活动的项目。
该列表显然是主观的,由我遇到的代码组成,并且由于某种原因而发现这些代码有趣或有用。对于每个条目,我都包含指向各自的回购、文档、入门指南或类似内容的链接,以及文档中的描述性摘录。
坐下来享受一下您可能熟悉或不熟悉的项目,希望您能找到可以在自己的工作中使用的东西。
1. fastai
存储库:https://github.com/fastai/fastai/
文档:http://docs.fast.ai/
入门:http://course.fast.ai/
该库位于PyTorch v1(今天发布的预览版)之上,为最重要的深度学习应用程序和数据类型提供了一致的API。fast.ai最近的研究突破嵌入在软件中,与其他深度学习库相比,其准确性和速度显著提高,同时需要的代码大大减少。您可以立即从conda、pip或GitHub上下载它,或在Google Cloud Platform上使用它。AWS支持即将推出。
2.textacy
存储库:https://github.com/chartbeat-labs/textacy
文档:https://chartbeat-labs.github.io/textacy/
入门:https://chartbeat-labs.github.io/textacy/getting_started/quickstart.html
textacy是一个Python库,用于执行基于高性能spacy库的各种自然语言处理(NLP)任务。通过基本原理- 标记化、词性标注、依赖性解析等- 委托给另一个库,textacy专注于之前和之后的任务。
3. pycobra
存储库:https://github.com/bhargavvader/pycobra
文档:https://modal.lille.inria.fr/pycobra/
入门:https://github.com/bhargavvader/pycobra/tree/master/docs/notebooks
pycobra是一个用于集成学习的python库。它可以作为使用这些集成机器进行回归和分类的工具包,也可以用于可视化新机器和组成机器的性能。在这里,当我们说机器时,我们指的是任何预测器或机器学习对象- 它可以是LASSO回归器,甚至是神经网络。它与scikit-learn兼容,适合现有的scikit-learn生态系统。
4. Termgraph
存储库,文档和入门:https://github.com/mkaz/termgraph
一个python命令行工具,它在终端中绘制基本图形。
支持的图表类型:
- 条形图
- 彩色图表
- 多变量
- 堆积图表
- 水平或垂直
- 表情符号!
大多数结果可以在任何地方复制和粘贴,因为它们使用标准块字符。但是颜色图表不会显示,因为它们使用终端转义码来表示颜色。
5.repo2docker
存储库:https://github.com/jupyter/repo2docker
文档:https://repo2docker.readthedocs.io/en/latest/
入门:https://repo2docker.readthedocs.io/en/latest/usage.html
jupyter-repo2docker是一个工具,用于从通过Jupyter服务器运行的源代码存储库构建,运行和推送Docker镜像。
repo2docker获取存储库(例如,从GitHub或其他位置)并基于存储库中找到配置文件构建容器映像。它可以用于通过构建和执行存储库的构建映像来本地浏览存储库,或者作为构建推送到Docker注册表的映像的方法。
以上是关于GitHub Python数据科学聚焦:推荐5个开源数据科学项目!的主要内容,如果未能解决你的问题,请参考以下文章
这是我最想推荐给程序员们看的基于Python3实现的数据科学书