“互联网+”大学生创新创业大赛产业命题赛道命题方向分析
Posted shenyinwudi
tags:
篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了“互联网+”大学生创新创业大赛产业命题赛道命题方向分析相关的知识,希望对你有一定的参考价值。
图1 大赛产业命题赛道部分命题
如图1所示,产业命题赛道就好比命题作文,选题都是一些真实企业(如华为)提前定好的,参赛选手必须在命题要求的范围内按照要求进行准备。
这些命题直观上令人感觉到十分前沿,大部分都要求应用新技术,如区块链等,颇具难度。
作者对命题方向的分布十分感兴趣,于是爬取了所有命题题目,并对其进行分词,然后计算词频,并进行可视化呈现,直观准确地获得了命题方向的大概分布情况。
1 整体思路
图2 整体思路流程图
2 项目实施
2.1 爬取题目
import requests
from lxml import etree
import pandas as pd
import jieba
import matplotlib.pyplot as plt
word_list = [] # 用来储存分好的词
stopword_list = [] # 停用词列表,用来排除分好的词中虚词等无意义的词
for i in range(8):
url = 'https://cy.ncss.cn/mtcontest/mingtilist?pageIndex='+str(i)+'&pageSize=30&companyName=&name='
headers={
'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/80.0.3987.100 Safari/537.36',
'Host':'cy.ncss.cn'
}
text = requests.get(url = url, headers = headers).text
html = etree.HTML(text)
title = html.xpath('//div[@class="cyyq-title"]//text()')
需要注意的是,目标网页通过ajax加载数据,需要通过chrome浏览器分析出发送ajax请求后的新url进行请求,不然无法获得目标数据。
2.2 分词操作
for item in title: # 接上面的代码段
for word in jieba.lcut(item,cut_all = False, HMM=True):
word_list.append(word)
with open('stopword.txt', encoding='utf-8') as f:
for line in f.readlines():
stopword_list.append(line.strip('\\n'))
word_list = [w for w in word_list if w not in stopword_list]
利用jieba库进行中文分词,分词后导入停用词表删除无效的虚词、标点符号等无意义词。
2.3 词频统计
df = pd.DataFrame(word_list)
table = pd.DataFrame(df.iloc[:,0].value_counts())
转化为DataFrame格式,利用其自带的方法进行词频统计。
2.4 画条形图
plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.bar(range(50),table.iloc[0:50,0].values.tolist(), align='center', color='b')
plt.xticks(range(50),table.iloc[0:50,0].index, rotation=45,fontsize=13)
plt.xlabel('关键词',labelpad=10)
plt.ylabel('频次',labelpad=20)
plt.title('产业赛道命题关键词频次',pad=30)
plt.show()
最后进行可视化操作,以条形图展现词频最高的前五十个词。
3 结果展示
3.1 词频最高的前五十个词条形图
图3 词频最高的前五十个词条形图
如图所示,词频超过20频次的词分别是智能、智慧、技术、AI。由此可见产业命题赛道非常重视技术,尤其是人工智能方向的新技术,现阶段具体而言包括但不限于自然语言处理,知识表现,智能搜索,推理,规划,机器学习,知识获取,组合调度问题,感知问题,模式识别,逻辑程序设计软计算,不精确和不确定的管理,人工生命,神经网络,复杂系统,遗传算法等。
词频在10到20之间的词分别是系统、平台、创新、新、设计、解决方案、方案、工业、开发、识别、材料。首先,系统、平台、解决方案、方案是结果形式,这说明产业命题赛道大多要求参赛选手最终结果以这些方式呈现。创新、新是原则要求,说明参赛选手最终结果应该要有创新点。设计、开发是方法,指设计程序,开发系统、平台等,对应结果形式。工业、识别、材料是方向,其中识别属于人工智能技术中的深度学习领域,工业主要指工业4.0,主要内容一是“智能工厂”,重点研究智能化生产系统及过程,以及网络化分布式生产设施的实现;二是“智能生产”,主要涉及整个企业的生产物流管理、人机互动以及3D技术在工业生产过程中的应用等。该计划将特别注重吸引中小企业参与,力图使中小企业成为新一代智能化生产技术的使用者和受益者,同时也成为先进工业生产技术的创造者和供应者;三是“智能物流”,主要通过互联网、物联网、物流网,整合物流资源,充分发挥现有物流资源供应方的效率,而需求方,则能够快速获得服务匹配,得到物流支持。也指向新技术,重点在于技术的迁移和应用。材料是材料科学与工程方向,主要研究一是粉末冶金新理论、新技术;二是相图研究与材料设计;三是粉末冶金特种新材料;四是有色、稀有金属材料的合金化理论及新材料开发;五是现代高性能符合材料;六是有色金属功能材料。 六个研究方向的共同特色是:研究内容隶属学科前沿课题和国际热点研究课题,具有创新性;紧密结合国民经济建设主战场,实用性强;每个研究方向都有国家级或省部委级重点项目的支撑,实施过程可靠性高;有一支结构合理的高水平学术队伍和良好的研究条件,可实现预期研究目标,并具有可持续发展的良好前景
10以下词频较高的词中,数据、云、互联网等均体现大赛对信息技术的要求。区块链作为近年来比较火的领域也榜上有名,此外乡村振兴作为关键词也占据一席之地,可以体现国家政策的作用。而振兴乡村的最有利武器仍然是新技术,因为新技术具有高效率,往往成本低。
3.2 词频最高的前三十个词表格
表1
词频 | |
智能 | 26 |
智慧 | 24 |
技术 | 23 |
AI | 20 |
系统 | 19 |
平台 | 19 |
创新 | 18 |
新 | 16 |
设计 | 16 |
解决方案 | 16 |
方案 | 14 |
工业 | 11 |
开发 | 11 |
识别 | 10 |
材料 | 10 |
检测 | 9 |
数据 | 9 |
场景 | 8 |
云 | 7 |
研发 | 7 |
互联网 | 7 |
管理 | 7 |
乡村 | 6 |
区块 | 6 |
产业化 | 6 |
链 | 6 |
能力 | 6 |
方向 | 6 |
自动 | 6 |
以上是关于“互联网+”大学生创新创业大赛产业命题赛道命题方向分析的主要内容,如果未能解决你的问题,请参考以下文章