“互联网+”大学生创新创业大赛产业命题赛道命题方向分析

Posted shenyinwudi

tags:

篇首语:本文由小常识网(cha138.com)小编为大家整理,主要介绍了“互联网+”大学生创新创业大赛产业命题赛道命题方向分析相关的知识,希望对你有一定的参考价值。

图1 大赛产业命题赛道部分命题

         如图1所示,产业命题赛道就好比命题作文,选题都是一些真实企业(如华为)提前定好的,参赛选手必须在命题要求的范围内按照要求进行准备。

        这些命题直观上令人感觉到十分前沿,大部分都要求应用新技术,如区块链等,颇具难度。

        作者对命题方向的分布十分感兴趣,于是爬取了所有命题题目,并对其进行分词,然后计算词频,并进行可视化呈现,直观准确地获得了命题方向的大概分布情况。

1 整体思路

 

 图2 整体思路流程图

 2 项目实施

2.1 爬取题目

import requests
from lxml import etree
import pandas as pd
import jieba
import matplotlib.pyplot as plt

word_list = [] # 用来储存分好的词
stopword_list = [] # 停用词列表,用来排除分好的词中虚词等无意义的词

for i in range(8):
    url = 'https://cy.ncss.cn/mtcontest/mingtilist?pageIndex='+str(i)+'&pageSize=30&companyName=&name='
    headers={
        'User-Agent':'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (Khtml, like Gecko) Chrome/80.0.3987.100 Safari/537.36',
        'Host':'cy.ncss.cn'
    }
    text = requests.get(url = url, headers = headers).text
    html = etree.HTML(text)
    title = html.xpath('//div[@class="cyyq-title"]//text()')

        需要注意的是,目标网页通过ajax加载数据,需要通过chrome浏览器分析出发送ajax请求后的新url进行请求,不然无法获得目标数据。

2.2 分词操作

    for item in title: # 接上面的代码段
        for word in jieba.lcut(item,cut_all = False, HMM=True):
            word_list.append(word)
with open('stopword.txt', encoding='utf-8') as f:
    for line in f.readlines():
        stopword_list.append(line.strip('\\n'))
word_list = [w for w in word_list if w not in stopword_list]

        利用jieba库进行中文分词,分词后导入停用词表删除无效的虚词、标点符号等无意义词。

2.3 词频统计

df = pd.DataFrame(word_list)
table = pd.DataFrame(df.iloc[:,0].value_counts())

        转化为DataFrame格式,利用其自带的方法进行词频统计。

2.4 画条形图

plt.rcParams['font.sans-serif'] = ['SimHei']
plt.rcParams['axes.unicode_minus'] = False
plt.bar(range(50),table.iloc[0:50,0].values.tolist(), align='center', color='b')
plt.xticks(range(50),table.iloc[0:50,0].index, rotation=45,fontsize=13)
plt.xlabel('关键词',labelpad=10)
plt.ylabel('频次',labelpad=20)
plt.title('产业赛道命题关键词频次',pad=30)
plt.show()

        最后进行可视化操作,以条形图展现词频最高的前五十个词。

3 结果展示

3.1 词频最高的前五十个词条形图

图3  词频最高的前五十个词条形图

        如图所示,词频超过20频次的词分别是智能、智慧、技术、AI。由此可见产业命题赛道非常重视技术,尤其是人工智能方向的新技术,现阶段具体而言包括但不限于自然语言处理,知识表现,智能搜索,推理,规划,机器学习,知识获取,组合调度问题,感知问题,模式识别,逻辑程序设计软计算,不精确和不确定的管理,人工生命,神经网络,复杂系统,遗传算法等。

        词频在10到20之间的词分别是系统、平台、创新、新、设计、解决方案、方案、工业、开发、识别、材料。首先,系统、平台、解决方案、方案是结果形式,这说明产业命题赛道大多要求参赛选手最终结果以这些方式呈现。创新、新是原则要求,说明参赛选手最终结果应该要有创新点。设计、开发是方法,指设计程序,开发系统、平台等,对应结果形式。工业、识别、材料是方向,其中识别属于人工智能技术中的深度学习领域,工业主要指工业4.0,主要内容一是“智能工厂”,重点研究智能化生产系统及过程,以及网络化分布式生产设施的实现;二是“智能生产”,主要涉及整个企业的生产物流管理、人机互动以及3D技术在工业生产过程中的应用等。该计划将特别注重吸引中小企业参与,力图使中小企业成为新一代智能化生产技术的使用者和受益者,同时也成为先进工业生产技术的创造者和供应者;三是“智能物流”,主要通过互联网、物联网、物流网,整合物流资源,充分发挥现有物流资源供应方的效率,而需求方,则能够快速获得服务匹配,得到物流支持。也指向新技术,重点在于技术的迁移和应用。材料是材料科学与工程方向,主要研究一是粉末冶金新理论、新技术;二是相图研究与材料设计;三是粉末冶金特种新材料;四是有色、稀有金属材料的合金化理论及新材料开发;五是现代高性能符合材料;六是有色金属功能材料。 六个研究方向的共同特色是:研究内容隶属学科前沿课题和国际热点研究课题,具有创新性;紧密结合国民经济建设主战场,实用性强;每个研究方向都有国家级或省部委级重点项目的支撑,实施过程可靠性高;有一支结构合理的高水平学术队伍和良好的研究条件,可实现预期研究目标,并具有可持续发展的良好前景

        10以下词频较高的词中,数据、云、互联网等均体现大赛对信息技术的要求。区块链作为近年来比较火的领域也榜上有名,此外乡村振兴作为关键词也占据一席之地,可以体现国家政策的作用。而振兴乡村的最有利武器仍然是新技术,因为新技术具有高效率,往往成本低。

3.2 词频最高的前三十个词表格

表1

词频
智能26
智慧24
技术23
AI20
系统19
平台19
创新18
16
设计16
解决方案16
方案14
工业11
开发11
识别10
材料10
检测9
数据9
场景8
7
研发7
互联网7
管理7
乡村6
区块6
产业化6
6
能力6
方向6
自动6

 

 

以上是关于“互联网+”大学生创新创业大赛产业命题赛道命题方向分析的主要内容,如果未能解决你的问题,请参考以下文章

“互联网+”大赛华为云赛道GaussDB命题攻略:支持三种开发语言,轻松完成数据库缓冲池

第八届中国国际“互联网+”大学生创新创业大赛介绍

集结号吹响!一份飞桨国赛3月培训日历快查收

千余项国奖如何练成?飞桨国赛寒假入门清单

千余项国奖如何练成?飞桨国赛寒假入门清单

千余项国奖如何练成?飞桨国赛寒假入门清单