大数据课堂测试日总结

Posted aduorisk

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了大数据课堂测试日总结相关的知识,希望对你有一定的参考价值。

  到目前为止,主要完成了地域维度标准化和关键值的提取。

  地域维度标准化主要是根据表中联系单位地址一栏给出的详细地区数据,进行字符串分割得到想要的地域维度。

  联系单位地址栏原始数据:

技术图片

 

 

   我们要把这些地域信息规范到县区一级,就可以用java中的split函数进行分割,就可以得到标准地域维度。

   接下来就是行政编码,我们需要从网络上寻找一个国家标准的行政编码表,然后对应标准维度进行匹配。

  技术图片

 

   2.关键字的提取:

  题目要求在每个表的项目简介字段中提取相应的关键字。经过观察,这些字段的描述内容都是中文,所以关键字的提取需要机器学习和自然语言学习相结合,通过

分析语法和结构,才可以得出关键字。

  在这里给大家推荐一个提取关键字非常简单的库。

技术图片

 

   库函数提供两种提取关键字的办法,经过测试,我觉得TextRank的提取结果更接近我自己认为的关键字。但是对于数量不是很多的信息,提取结果大同小异,都很方便。

  技术图片

 

 

 

  

以上是关于大数据课堂测试日总结的主要内容,如果未能解决你的问题,请参考以下文章

中软实训 0726课堂笔记

29日免费直播:大数据/python人工智能/软件测试,3大热门技术选哪个前景更好?

大数据应用测试经验总结

关于课堂测试ATM系统的总结

数据定义未来——2016数据库技术大会总结

大数据生态课堂纪要