刚入人工智能行业小白所需要的开源数据以及语言

Posted

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了刚入人工智能行业小白所需要的开源数据以及语言相关的知识,希望对你有一定的参考价值。

掌握一门新的技术其实并不难,要对所学习的东西有系统化的认识,学习起来要有规划

第一要具备Java、Python、Linux相关的语言知识,这是当下非常热门较为受到追捧的预言,如果你从来没有写过上面3种代码也没有关系,只要你从事过开发工作,具有其他语言知识便能较快掌握上述3种语言的基础。其中Python是AI最好的开发语言,常常用于智能电话机器人开发以及CRM系统管理的建设。

第二要了解并能搭建企业业务场景下的大数据架构,比如最常用的Hadoop、Spark、Flume等基础组件,要熟练的通过编程把一个个组件搭建成一个能灵活运行的架构集群。

第三要熟悉并能熟练运用机器学习相关的算法,根据要解决的业务问题选择算法,比如解决电话机器人好不好用或者是怎么用时候,就需要通过数据与结果的反馈不断对其进行调整优化,在面对信息流时就要考虑到推荐和去重两个业务场景,针对这两个场景选择相关算法,并通过数据和结果对他们不断优化,来的达到最优。

很多大数据、机器学习、人工智能的初学者都需要大量的数据去进行练习,因为之前从未深度接触过相关领域,很难找到合适的练习数据,给大家推荐几个开源的数据集网站。

一、比较简单的数据集网站

Data.gov,这个是美国政府的公开数据网站,包含了来自气候、教育、能源、金融等领域的19万多的数据集。

data.WorldBank.org,这个是世界银行的开放数据网站,提供了世界发展指数、教育指数等几大类数据集。

二、大型数据集网站

Amazon WebServices(AWS)datasets,亚马逊提供完整的安然电子邮件、Google Booksn-gram,NASA NEX,百万歌曲等数据集,你可以在亚马逊平台使用也可以在本地计算机上使用。

Googledatasets

谷歌为广大开发者提供了一些数据集作为其Big Query工具的一部分,包括GiHub公共资料库和Hacker News的所有故事和评论。

三、预测建模与机器学习数据集

UCI MachineLearning Repository

UCI机器学习库是当下最受欢迎的数据库,其包括了各种各样的数据集。比如空气质量、GPS轨迹等大型数据集。

Kaggle

Kaggle推出了一个数据收集平台,人们可以自发贡献数据,现在总共有350多个数据集,其中有超过200个是特征数据集。

四、图像分类数据集

The MNISTDatabbse

当下国内外最热门的图像识别数据库,主要为手写数字。包括6万个示例和1万个示例的测试集。

Chars74K

该数据集包括自然图像中的字符识别,包含74,000个图像。

Frontal FaceImages

这个数据集主要是是由CMU & MIT收集的正面人脸图像。

五、文本分类数据集

Movie ReviewData

这个数据集网站提供了一席勒电影评论文件,其中标注了用户的总体情绪极性(正面或负面)或主观评价和对其主观性地位(主观或客观)或极性的标签

ps:本文来自欧能智能转载请注明

以上是关于刚入人工智能行业小白所需要的开源数据以及语言的主要内容,如果未能解决你的问题,请参考以下文章

算法应用的三大阶段,对数据标注行业的差异化需求丨曼孚科技

关于智算之道——2020人工智能应用挑战赛的通知

清华178页深度报告:一文看懂AI数据挖掘 | 智东西内参

平安亮相2020全球智博会,AIOps助力高效运维

自然语言处理华人专家最多的前十所机构有哪些?

进化智能+,腾讯云要做AI技术赋能者