各有关高等院校:
为深入贯彻中央《提升全民数字素养与技能行动纲要》及《2024年提升全民数字素养与技能工作要点》等一系列文件精神,积极响应国家经济社会数字化转型的迫切需求,加速培养具备高水平数据素养的复合型人才,由全国数据工程教学联盟发起举办“2024年大学生数据要素素质大赛”。
一、竞赛目的和意义
1.竞赛目的:通过数据技术实际领域应用操作,加快培养提升非数字数据技术专业的各领域大学生数据素质。数据素质通常理解为通过学习达到的,能够完成数据(要素)相关活动的基本能力。其中,数据活动一般指获取数据,并从中发现解决问题信息的活动,包括技术开发及其各领域应用两个方面。技术开发需要具备系统化训练的专业素质;技术的领域应用则强调非数字数据技术专业的各领域人员需要具备能够参加数据技术应用活动的基本能力。目前一般将各领域人员的数据技术应用素质简称为数据素质。
2.竞赛意义:构建与实际部门相结合的,数据技术应用于领域问题解决的实际操作竞技平台。提供创造性理解数据的实践环境。通过以赛促学,以赛促教,研学相长,学以致用的方式,推动全民数字素养与技能提升的落实。
二、举办单位
主办单位:全国数据工程教学联盟
承办单位:江西财经大学
协办单位(陆续公布):重庆芝诺大数据有限公司、北京聚源锐思数据科技有限公司、上海萌泰数据科技股份有限公司、成都睿真数据科技有限公司、赛瑞驰(重庆)第三方评估咨询有限公司、重庆市大渡口区糖酒实业有限公司、武汉览山科技有限公司、红麦聚信(武汉)软件技术有限公司、武汉楚珈科技有限公司、四川西部民生研究院有限责任公司、成都云策数据科技有限公司、北京东方艾学信息技术有限责任公司、格力电器(郑州)有限公司、武汉中科云数科技有限公司
三、竞赛组委会
大赛组委会:全国数据工程教学联盟成员单位,以及有数据工程、数据科学、数据技术相关学科专业的高校、科研院所,数据要素产业相关的上市公司,市级以上数据局、大数据中心等组成。
组委会秘书处:江西财经大学、天津财经大学、成都信息工程大学、河南大学、湖北经济学院、内蒙古财经大学、猛龙333计划网、中南财经政法大学、浙江工商大学、浙江财经大学、郑州大学、重庆工商大学
四、参赛对象
大赛面向国内高等院校全日制在校学生,以非数字数据技术专业学生为主体,具体说明如下:
1.自由组队,每支参赛队伍人数3-5人,允许跨年级、跨专业、跨学历层次组队。每名参赛者限报一支队,每队指导老师不超过2人,指导教师须为队员所在高校在职教师。
2.报名时应具有在校学籍,已毕业的学生不具备参赛资格。
3.参赛选手应保证报名信息真实准确有效,报名时应在大赛网站上提供学生证等相关证明材料。
五、报名方式
以参赛院校为单位,各院校需安排专人负责竞赛报名工作。不接受参赛队直接报名。
1.各参赛院校负责人通过组委会指定网站进行报名,网址为:https://www.datawhat.cn;
2.参赛者必须同意大赛组委会设立的竞赛规则,报名时须填写参赛队伍的真实信息,以便核对身份并颁发证书。大赛组委会保证所收集到的参赛者个人信息资料仅用于大赛相关工作,不会公开和泄露;
3.本次大赛暂不收取报名费。
六、竞赛选题
1.竞赛分为自选题目赛道和命题赛道,两个赛道的选题均应来源于企业生产、运营中或为政府提供的解决方案中遇到的实际问题,有明确的应用场景和推广使用价值;
2.原则上竞赛题目数据是未经清洗的原始数据(敏感信息可脱敏或转码加密),题目设置要能考察出参赛者数据采集、数据清洗、代码实现、数据分析、数据建模、可视化以及报告撰写的数据要素素质;
3.鼓励各参赛队以已有的为企业或政府提供的数据要素应用场景研究为基。创笕筇崃段匝√饽坎稳
4.自选题目赛道又分为数据生成、数据标注、数据分析、数据可视化、综合应用5个子赛道,各参赛队应以自选题目对应的侧重点合理选择子赛道参赛。
七、成果评价
1.成果形式
参赛队伍提交的材料应至少包含一份项目报告,包括但不限于:
(1)项目概述:项目背景、应用行业、算法或模型优势等;
(2)解决方案:方案设计、方案功能、关键技术、算法实现过程、结果分析等;
(3)应用价值:经济效益、社会效益分析等。
参赛队伍还要提交算法、系统实现的源代码、可用于验证的原始数据集以及必要的算法、系统运行说明文档等附件。
2.成果效果
(1)落地见效。解决企业或政府部门在实际业务场景中的痛点、难点,问题解决后比解决前成效显著;
(2)使用方认可。企业或政府部门认可参赛成果所提供的算法或系统软件,与优秀参赛队伍达成持续合作意愿;
(3)综合效益。参赛队伍开发的算法或系统软件能实现企业、社会效益的直接或间接转化。
3.评价准则
评委主要由企业管理人员、技术主管,高校教师以及政府部门工作人员等专家组成,参考以下准则进行评审:
(1)参赛成果应充分体现以上落地见效、使用方认可和综合效益效果,能够切实可行的解决实际问题,具有可复制、可推广的价值以及为企业、社会创造效益的价值。各参赛队伍应在提交的设计报告里阐明所开发的算法或系统软件所具有的应用价值,并列举可能的推广方式和方案;
(2)鼓励参赛队以源于企业和政府部门实际问题的解决方案为自选题目参赛,自选题目赛道的5个子赛道参考以下标准进行评价:
数据生成子赛道:数据采集类项目鼓励参赛者运用各种技术手段和工具,如传感器、网络爬虫、社会调查等,合法、合规的收集各类允许采集的可公开数据。数据源可以包括但不限于传感器数据、网络数据、社交媒体数据、生物医学数据、社会经济数据等。项目要求参赛者设计有效的数据采集方案,确保数据的准确性、完整性和及时性。此外,参赛者还需考虑数据采集过程中可能遇到的难题,并提出相应的解决方案;
数据标注子赛道:数据标注项目旨在解决数据标注的问题,即为原始数据添加正确的标签或注释,以便后续的数据分析和应用。参赛者可以选择不同类型的数据进?标注。项目要求参赛者利用机器学习、深度学习、强化学习、自然语言处理等技术,设计高效准确的数据标注算法或工具,提高数据标注的效率和质量;
数据分析子赛道:数据分析项目要求参赛者运用统计学、机器学习、深度学习等技术,对已有的数据进行分析和挖掘,发现数据中的模式、规律和趋势,为解决实际问题提供数据支持和决策依据。参赛者需要选择合适的数据分析方法和算法,进行数据预处理、特征工程、模型训练等步骤,并对分析结果进行解释和可视化展示。参赛的数据可以是由主办方提供的数据集,也可以是参赛者自己提供的数据集;如果参赛者自己提供数据集,需要确保数据集不侵犯第三方版权和个人隐私权,或者数据集需要获得数据持有方的授权;
数据可视化子赛道:数据可视化类项目强调利用图形化、可交互的方式展示数据分析结果,使复杂的数据信息变得直观易懂,从面帮助用户快速理解数据,发现隐藏在数据背后的信息和见解。参赛者需要选择合适的数据可视化技术和工具,设计美观、有效的可视化界面,实现数据的直观展示和交互式探索;
综合应用子赛道:综合应用项目要求参赛者结合多种数据科学技术和方法,针对特定领域或问题,开发综合应用算法、系统或解决方案,实现数据的收集、标注、分析和可视化等功能,并最终解决实际问题。参赛者需要综合运用数据科学、计算机及各专业领域知识和技能,设计创新的应用方案,体现跨学科、跨领域合作的价值和意义;
(3)命题赛道的题目根据具体题目由组委会拟定具体评价标准,随赛题一同发布。
4.特别说明:
(1) 组委会提倡、鼓励参赛队以自选题目参赛,自选题目赛道的参赛队根据自身作品的突出特点合理选择对应子赛道;
(2) 参赛者提交的作品不得侵犯第三方的任何著作权、商标权或其他权利,凡涉及抄袭、剽窃等行为的,均由参赛者本人承担一切后果;
(3) 所有作品的知识产权归参赛者所有,参赛者同意无偿提供并授予大赛组委会包括但不限于以下权利:参赛成果的复制、发行(纸质及数字)、展览、教学培训、放映、网络信息传播等权利,不再另付费用。
八、比赛日程
公布赛题和数据时间:2024年7月5日上午9点
报名起讫时间:2024年7月5日—7月20日
提交作品截止时间:2024年8月31日上午9点前
初评时间:2024年9月10日前
复评时间:2024年9月20日前
成绩公布时间:2024年10月1日前
颁奖时间:2024年10月15日前
九、奖项设置
大赛奖项按照各命题和子赛道分设奖项,奖项分为优秀奖、参与奖,各类奖项的比例为对应赛题或子赛道报名人数的40%、60%;大赛根据参赛队伍表现,设特色奖若干;面向各参赛单位设优秀组织奖若干。
获奖队伍颁发纸质证书,获奖单位颁发证书和奖杯。
十、作品提交要求
各参赛院校负责老师,以猛龙333计划网为单位,在规定时间前将电子版材料通过组委会指定网站上传。上传前,需由学生签署承诺书(与参赛作品同时提交),学生所在学院应对作品进行资格和政治审查,对审查通过的作品加盖学院公章。
通过初评的参赛作品进入复审前,还需提供说明视频、PPT等必要的支撑材料。
十一、违规处理
参赛者应本着诚实、公平的态度参加比赛,如在以下情况出现违规,大赛组委员会有权取消参赛者所在队伍的参赛资格,情节严重者将通报参赛者所在高校并追究其违法责任。
1.作品名称、内容及相关材料必须严格遵循社会主义核心价值观,不能违反国家法律法规;
2.严禁参赛队伍之间相互抄袭。如不同参赛队伍提交结果高度相似,经判定存在抄袭行为的,组委会将取消相关参赛队伍的参赛资格,相关参赛成绩无效;
3.参赛队伍保证竞赛作品完全自主完成,除指导老师和参赛队成员外,不得以任何形式获取其他人员的帮助;
4.参赛者应保证其在比赛过程中所产出的所有成果未侵犯任何第三方的知识产权、商业秘密及其他合法权益。如第三方因为参赛者侵权行为提出索赔、诉讼等,参赛者应承担由此产生的全部责任及损失;
5.对于大赛提供的数据(数据集),参赛者须仅在比赛场景下使用,并应妥善保存已下载的数据(数据集),避免泄露;在完成比赛使用后应及时销毁已下载数据(数据集);如参赛者泄露已下载的数据(数据集),或未及时销毁已下载的数据(数据集)导致已下载的数据(数据集)泄露,参赛者应承担由此产生的全部责任及损失;
6.在大赛举办期间,未经组委会同意,参赛者禁止公开分享与赛事相关的数据、模型和代码;大赛结束之后,参赛者可以在拥有模型和代码的知识产权的情况下自行选择公开分享,但需要确保此类公开共享不会侵犯任何第三方的知识产权、商业秘密及其他合法权益。
7.参赛者若在参赛过程中发现相关规则漏洞或技术漏洞,有义务及时告知组委会相关漏洞的信息,组委会将对提供相关信息的参赛者表示相关感谢;若参赛者利用相关漏洞进行参赛,经判断查证后,成绩将会被判断为无效成绩。
十二、申诉与仲裁
1.比赛过程中若出现有失公正或有关人员违规现象,团队或个人可在比赛结束后3日之内向组委员会提出书面申诉。申诉报告中应如实叙述申诉事件的现象、发生的时间、涉及到的人员、申诉依据与理由等。申诉报告须有申诉的参赛选手、指导教师的签名。组委员会的仲裁结果为最终结果;
2.申诉应指定一名成员作为联系人,将申诉材料发到组委会邮箱(sjysszds@163.com),否则申诉将不予以受理;
3.组委员会将在收到申诉之日起5个工作日之内受理,并认真核查和处理。
十三、大赛联络咨询
1.组委会提供以下方式供参赛者交流:
QQ群:735554868
邮箱:sjysszds@163.com
2.组委会提供以下方式供指导教师交流:
QQ群:953395497
3.猛龙333计划网参赛学生交流群
QQ群:644263729
全国数据工程教学联盟
2024年7月2日