0602 公告 - 答辩入选通知:
经过命题方国泰君安对复核内容和线上成绩的审查,国泰君安最后确定进入答辩的10支队伍如下:
1 Echoch
2 挖矿的小孩
3 Z Lab
4 Colt
5 chatgpt is all your need
6 Lukan
7 WeLearnNLP
8 Out of Memory
9 初淅沥以萧飒
10 CZUR_play
特此公告,也感谢其他选手对此次比赛的贡献!
我们稍后将会给入选答辩的队伍发送邮件通知,告知下一步的准备。
各位选手:
经过我们的相关复核、排查,公布如下获得复核资格的名单,并对名单做相应说明:
(我们将预期在今天13点左右邮件通知各获得资格、待进一步复查团队提交资料)
编号 |
排位 |
分数 |
性质 |
名称 |
1 |
1 |
0.974 (1) |
团队 |
Echoch |
2 |
2 |
0.973 (2) |
团队 |
挖矿的小孩 |
3 |
4 |
0.970 (4) |
团队 |
Z Lab |
4 |
6 |
0.970 (6) |
团队 |
Colt |
5 |
7 |
0.968 (7) |
团队 |
chatgpt is all your need |
6 |
8 |
0.968 (8) |
个人 |
Lukan |
7 |
9 |
0.968 (9) |
团队 |
WeLearnNLP |
8 |
10 |
0.968 (10) |
团队 |
Out of Memory |
9 |
15 |
0.964 (15) |
团队 |
初淅沥以萧飒 |
10 |
17 |
0.962 (17) |
团队 |
CZUR_play |
11 |
18 |
0.961 (18) |
个人 |
Leo_Lu |
12 |
31 |
0.957 (31) |
团队 |
Da Capo |
13 |
34 |
0.957 (34) |
个人 |
zhouyuanzhe |
14 |
37 |
0.956 (37) |
团队 |
zutnlp |
15 |
43 |
0.953 (43) |
个人 |
grealth |
16 |
45 |
0.953 (45) |
团队 |
金融科技 |
17 |
50 |
0.951 (49) |
团队 |
Unsual Data |
18 |
51 |
0.951 (50) |
个人 |
Aloha |
19 |
55 |
0.950 (54) |
个人 |
NONE |
20 |
57 |
0.949 (55) |
个人 |
GODWITHKING |
编号 |
排位 |
分数 |
性质 |
名称 |
附加审核理由 |
1 |
20 |
0.960 (20) |
个人 |
ZYQ |
仅有21号当天有2条提交记录,但未发现明确主号、小号关联,进一步审核代码 |
2 |
47 |
0.952 (47) |
|
Ustinian_Aphasia |
47、48、49、52四组所有成员均实名,但均来自同一机构,且分数高度雷同,有分成四组故意占榜嫌疑;作为附加审核对象纳入代码审核范畴,视代码和解决方案的提交情况和内容质量,以及最终命题方的反馈,确定下一步操作。 |
3 |
48 |
0.952 (48) |
|
牛顿和莱布尼茨一起撸薛定谔的猫 |
|
4 |
49 |
0.952 (48) |
|
zhuying |
|
5 |
52 |
0.951 (51) |
|
AddSpicy |
No |
排位 |
分数 |
性质 |
名称 |
未获资格理由 |
1 |
3 |
0.972 (3) |
团队 |
工程馆四季卷 |
1)有成员未完成实名 2)经排查有小号hiboys、Hello2023、jerry_sjtu等刷榜 |
2 |
5 |
0.970 (5) |
团队 |
燃烧吧GPU |
经排查创建批量小号bilibili、zhihu等系列账号刷榜 |
3 |
29 |
0.958 (29) |
团队 |
海淀彭于晏 |
经排查有同IP小号wudongdong、biubiu刷榜 |
注:未在上述名单,但相应排位在排行榜57名前的成绩,均因未实名、团队已合并、小号等原因丧失资格。此处不再一一标记说明。
注2:我们已尽可能就手头掌握的信息对相应分数和提交情况做了排查和复核,但难免因时间、技术手段等原因不能完全保证发现并确定所有可能得违规情况。如有对上述结论有所质疑或要提出申诉的,请在5月23日17点前邮件至 aiwin@aispacesh.com,过时不再处理。
|
练习榜单 |
正式榜单 |
训练集 |
|
|
测试集 |
|
|
开发与模型输出 |
可线下开发和模型输出,AIWIN 平台提交结果 |
可线下开发和模型输出,AIWIN 平台提交结果 |
关键节点(拟) |
练习榜单 开启时间4月18日 长期开放 |
正式榜单开启:5月4日00:00 榜单关闭:5月21日24:00 有效前20复核及PPT提交:5月22日 - 5月26日 晋级10强名单确定:6月5日前(拟) (一般建议榜单前30,默认准备好ppt,请提交至aiwin@aispacesh.com,邮件标题为 T2-个人 ID 或团队名,PPT 和代码请同样按此方式命名) |
提交限制 |
每日最多3次提交; |
每日最多 3 次提交 |
奖励 |
无奖励 |
依据: 以正式榜单为准计算技术得分,并综合解决方案的原创性和创意性,最终选拔 10 名晋级决赛答辩。 决赛答辩将通过现场评审得分结合技术得分做综合考量。 奖励:
|
国泰君安
随着经济发展,中国居民财富持续增长。资产管理需求日益增多,资产管理业务迎来新的发展机遇。市场对机构的投资管理能力提出了更高的要求。近年来,国泰君安积极建设数字化投资研究平台以助力投资管理业务。公司希望借鉴国内外投研的先进经验,通过数字化与智能化技术为投研业务赋能,实现多源异构研究数据融合、产业投资逻辑的知识沉淀和投研过程的提质增效,从而提升研究效率,增强公司在资产管理领域的核心竞争力。在投资管理业务的研究过程中,研究人员需要阅读和分析各个券商机构制作的研究分析报告。他们需要从这些报告中提取出有价值的关键信息,包括研报分析的个股、当前评级、目标价和盈利预测数据等。这部分研究工作较为繁琐,会耗费研究人员大量的时间和精力。
随着人工智能技术的发展,许多金融机构开始将自然语言处理技术引入到金融文本分析领域,如情感分析、舆情预警和实体识别等。这些工作通常是针对金融纯文本任务,实际上金融领域还有大量的富文本语料有待挖掘和分析,例如上市公司公告、研究机构研究分析报告等。这些报告大多都是PDF格式,其中包含文本、图表和表格等元素,这些元素语义丰富,具有很高的研究价值。基于上述分析,我们希望利用人工智能技术从研报PDF中自动抽取出关键信息并组织成结构化的数据进行分析。具体地,我们结合自然语言处理与计算机视觉相关技术,设计了一套研究报告(以下简称研报)关键信息要素抽取解决方案。该方案包含研报文件解析、研报类型分析和研报要素抽取等功能。
本赛题任务是利用机器学习、深度学习等方法训练一个预测模型,该模型主要针对各种各样的研报进行类型分析。赛题的难点在于不同机构、券商研报形式多样以及需要借助PDF的解析或者多模态的应用。
请注意:
1. 本赛题可以使用外部预训练模型(包括GPT类的LLM都能够)用于数据处理和建模过程。但不得使用ChatGPT等类型的应用作为产出最终分类结果的直接手段
2. 本赛题的数据训练和处理仅允许采用赛事提供的数据,不得采用额外外部数据。
本赛题将10中类型的研报数据会划分为训练集、测试集。训练集用于模型架构设计、模型训练,在测试集上验证效果。以macro precision/recall/f1三个指标为验证标准(f1分数为排名依据)。练习榜单提供研报首页的结果结果,包括header 和title。正式榜单将只提供研报原文,并期望选手能充分解析和利用研报中文本、图形等多模态的信息用于优化模型。
练习榜单提供的数据集如下:
研报数据首页解析结果
研报数据对应类型标签
正式榜单提供的数据集如下:
完整研报原文
研报数据对应类型标签
labels = ['晨会早报', '宏观研报','策略研报','行业研报','公司研报','基金研报','债券研报','金融工程','其他研报','个股研报']
label2id = {
'晨会早报': 0,
'宏观研报': 1,
'策略研报': 2,
'行业研报': 3,
'公司研报': 4,
'基金研报': 5,
'债券研报': 6,
'金融工程': 7,
'其他研报': 8,
'个股研报': 9
}
注:练习榜单中无 label=7 的情况
1、数据样例 (数据提供在npy格式)
{
'label':'',
'header':'',
'title':'',
'paragraph:'',
'footer':'',
'uid':''
}
2、数据文件
训练集:train_dataset.npy
测试集:eval_dataset.npy
3、提交文件
submission.csv
columns = ['uid', 'label']
1、数据样例
以pdf 文件方式提供
2、数据文件
train_dataset/*.pdf (各子项目录名为研报对应类型名,文件名为UID)
eval_dataset/*.pdf (各文件名为UID)
3、提交文件
submission.csv
columns = ['uid', 'label']
本赛题共分成三个大阶段:
练习榜单——正式榜单——终选答辩
本竞赛线上开展,正式榜单获得前20的有效队伍将提交PPT和代码,经命题方复核及根据解决方案综合维度选拔后,选取10强队伍获得资格进入终选答辩,决出比赛名次。
该阶段内接受个人报名、团队登记(报名登记规则请详细阅读比赛规则)。
练习榜单将为选手提供赛题数据集,所有数据均可下载。报名时个人选手需同意比赛规则和相应条款,并予以遵守。
选手可通过 AIWIN 平台「参赛提交」——「下载」 的路径,查看并下载练习榜单提供的数据集以及提交结果样例文件。
选手完成模型训练后,可参照提供的结果样例文件submission_sample输出预测结果,并按 B 小节的提交要求提交后,获得排名。
请注意本次竞赛要求所有选手完成实名认证方能核算成绩,请未做过实名认证的点击页面右上角进入个人中心,点击“完成实名认证”。实名认证采用三要素:姓名、手机号和身份证,请确保手机号为您本人名下实名认证的号码。
本平台要求所有提交内容统一打包为 zip 文件上传,其内容为submission.csv:ZIP包请统一命名为 用户 ID_YYMMDD.zip,用户 ID 为你注册时的用户名。
提交结果样例:
uid,label
xxxyyy,2
zzzzkkkk,3
…
提交规则: 设定每日最多 3 次提交。
排名规则:排行榜以选手历史最佳分数为依据从高到低排序。
正式榜单将提供以PDF文档为形式的训练集和测试集。选手同样可通过 AIWIN 平台「参赛提交」——「下载」 的路径查看并下载(由于文件过大,平台下载的压缩包中仅含有,获取数据集后,各选手线下自行输出测试结果,然后提交到AIWIN平台获取实时分数和排名。
正式榜单于2023年5月21日24点截止并关闭排行榜
排名前30的选手建议都准备PPT和代码文件。运营方将会尽快完成核验后通知符合规则有效的前20队伍提交ppt和代码文件。所有材料应在 2023年5月26日 24 点前(拟),通过aiwin@aispacesh.com发送,邮件名称请以T2-选手名/团队名 命名,附件如过大可通过网盘方式上传后,邮件发送链接。具体PPT的建议内容如下:
a) 个人简介:在职者填写当前职业和在职机构(如方便透露),在校者请填写当前年级、专业、高校团队简介:团队整体介绍,以及每个成员的介绍、成员分工
b) 赛题理解与问题建模:清楚描述对赛题任务的理解,抽象为模型建立的策略
c) 数据探索与特征工程:针对赛题提供的数据描述必要的数据特征、数据清洗、特征工程的关键思路和方法
d) 模型训练和融合:描述模型的训练、实验对比和融合过程与方法
e) 代码依赖环境:详细列出包括整体建模采用的基础框架(含版本号)以及依赖的包等
f) 代码运行说明:对如何运行代码予以充分说明
结果提交的内容和要求:同练习榜单
提交规则:每日最多 3 次提交
排名规则:排行榜以选手历史最佳分数为依据从高到低排序。
晋级规则:组委会将结合正式榜单线上分数、解决方案的原创性和创新性等综合批评定最后的 10 强进入终选答辩。
线上排名
评价指标: macro avg precision / recall / f1
终选方式
综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。
类型 |
奖项 |
名次 |
奖励(税前) |
竞赛奖励 (依据综合排名 = B 榜排名 + 复审结果 + 终选答辩排名) |
一等奖 |
第1名 |
60000 元 |
二等奖 |
第2名 |
20000 元 |
|
三等奖 |
第 3 名 |
10000 元 |
|
四等奖 |
第 4-6 名 |
6000 元 |
|
五等奖 |
第 7-10 名 |
3000 元 |
注:
所有获奖选手(含学习奖励奖项与竞赛奖励奖项)将颁发盖有“世界人工智能创新大赛组委会”的赛事证书,对应赛题的证书上将同时印刻有赛事命题方的官方 logo
对于赛事排名靠前的选手将给予实习生绿色直通车的机会,将在实习招聘过程中给予一定优惠(如免笔试等,具体待进一步确定)
线上排名
评价指标: macro avg precision / recall / f1
终选方式
综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。
请注意,2022 赛季起实名认证都将作为晋级或切榜后成绩有效的前提。
实名认证需通过点击系统右上角用户名处,进入「设定」界面操作。
在此界面请先确认姓名是否为真实姓名,若不是请修改,并点击页面最下方的保存按钮。之后点击「前往实名认证」
在实名认证页面,你需要填入自己的身份证号和手机号(请使用登记在你身份证名下的手机号)
若三者信息匹配即可完成实名认证。
如果你的手机未实名认证在你个人名下,或,你信息都正确却始终无法成功实名认证
请将以下信息完整发送至 it@aispacesh.com:
你的用户名
你的姓名
你的身份证号码
你的身份证正面照片或扫描件
邮件标题可写为:「实名认证申请人工审核」
1. 20强名单复核公布时间
各位选手,榜单已于今日凌晨0点正式关闭。接下来我们将对榜单做一轮复核,主要排查未完成实名认证因而成绩无效、因系统等原因导致队伍组成前后差异而重复占用排名的、存在明显异常多小号刷榜的情况等。我们预期在5月23日公布复核后的名单,并通知前20进一步提交解决方案ppt和代码文件。
2. 补做实名认证的截至日期延长至22日15点
请各团队特别注意,实名认证需所在团队内所有成员均完成实名认证才能使团队成绩生效!
未免部分第一次参与AIWIN赛事的同学不熟悉上述规则,我们延长至5月22日15点,作为最后实名认证的截点。请务必在此之前督促团队成员复核是否完成实名认证,未完成的请赶快完成(遇到手机号实名和身份证信息不符的,请邮件 it@aispacesh.com具体的账号信息和身份证件信息,我们会尽快处理,凡15点前提交的有效邮件工单,无论我们几点处理,我们会认为已通过实名认证)
3. 关于20强需提交的PPT解决方案文档和代码
一般建议排名前30的都做好相应资料准备(不排除名单复核后,会顺延至30名之后),部分排名靠前的可以开始动手准备了。PPT内容准备可参考如下框架:
a) 个人简介:在职者填写当前职业和在职机构(如方便透露),在校者请填写当前年级、专业、高校团队简介:团队整体介绍,以及每个成员的介绍、成员分工
b) 赛题理解与问题建模:清楚描述对赛题任务的理解,抽象为模型建立的策略
c) 数据探索与特征工程:针对赛题提供的数据描述必要的数据特征、数据清洗、特征工程的关键思路和方法
d) 模型训练和融合:描述模型的训练、实验对比和融合过程与方法
e) 代码依赖环境:详细列出包括整体建模采用的基础框架(含版本号)以及依赖的包等
f) 代码运行说明:对如何运行代码予以充分说明
请注意正式榜单数据集中,有部分破损PDF,目前根据命题方反馈,将去除这些PDF。
如已下载数据,则请参考如下列表自行去除,特别注意测试集中需去除4项(不去除当前评审会报错,总测试集量目前为1948)
如未下载数据,则当前在数据获取中获取的文件链接已指向新版本数据,请放心下载。
测试集需去除的:
['968e595d06cc599e8603ac213a7bdfdb',
'5e9804e922f654a7b4eb37222649d3d4',
'9c7ce415fa9955d491209bbe5951d553',
'495f28b2c97f5281adfb9680dd65a19d']
训练集需去除的:
个股研报-new:
6038686-new.pdf
6036182-new.pdf
6045132-new.pdf
6038657-new.pdf
6038698-new.pdf
6048795-new.pdf
其他研报-new:
08934d08226948e4a3399cec153b0227-new.pdf
各位选手:
经过我们的相关复核、排查,公布如下获得复核资格的名单,并对名单做相应说明:
(我们将预期在今天13点左右邮件通知各获得资格、待进一步复查团队提交资料)
编号 |
排位 |
分数 |
性质 |
名称 |
1 |
1 |
0.974 (1) |
团队 |
Echoch |
2 |
2 |
0.973 (2) |
团队 |
挖矿的小孩 |
3 |
4 |
0.970 (4) |
团队 |
Z Lab |
4 |
6 |
0.970 (6) |
团队 |
Colt |
5 |
7 |
0.968 (7) |
团队 |
chatgpt is all your need |
6 |
8 |
0.968 (8) |
个人 |
Lukan |
7 |
9 |
0.968 (9) |
团队 |
WeLearnNLP |
8 |
10 |
0.968 (10) |
团队 |
Out of Memory |
9 |
15 |
0.964 (15) |
团队 |
初淅沥以萧飒 |
10 |
17 |
0.962 (17) |
团队 |
CZUR_play |
11 |
18 |
0.961 (18) |
个人 |
Leo_Lu |
12 |
31 |
0.957 (31) |
团队 |
Da Capo |
13 |
34 |
0.957 (34) |
个人 |
zhouyuanzhe |
14 |
37 |
0.956 (37) |
团队 |
zutnlp |
15 |
43 |
0.953 (43) |
个人 |
grealth |
16 |
45 |
0.953 (45) |
团队 |
金融科技 |
17 |
50 |
0.951 (49) |
团队 |
Unsual Data |
18 |
51 |
0.951 (50) |
个人 |
Aloha |
19 |
55 |
0.950 (54) |
个人 |
NONE |
20 |
57 |
0.949 (55) |
个人 |
GODWITHKING |
编号 |
排位 |
分数 |
性质 |
名称 |
附加审核理由 |
1 |
20 |
0.960 (20) |
个人 |
ZYQ |
仅有21号当天有2条提交记录,但未发现明确主号、小号关联,进一步审核代码 |
2 |
47 |
0.952 (47) |
|
Ustinian_Aphasia |
47、48、49、52四组所有成员均实名,但均来自同一机构,且分数高度雷同,有分成四组故意占榜嫌疑;作为附加审核对象纳入代码审核范畴,视代码和解决方案的提交情况和内容质量,以及最终命题方的反馈,确定下一步操作。 |
3 |
48 |
0.952 (48) |
|
牛顿和莱布尼茨一起撸薛定谔的猫 |
|
4 |
49 |
0.952 (48) |
|
zhuying |
|
5 |
52 |
0.951 (51) |
|
AddSpicy |
No |
排位 |
分数 |
性质 |
名称 |
未获资格理由 |
1 |
3 |
0.972 (3) |
团队 |
工程馆四季卷 |
1)有成员未完成实名 2)经排查有小号hiboys、Hello2023、jerry_sjtu等刷榜 |
2 |
5 |
0.970 (5) |
团队 |
燃烧吧GPU |
经排查创建批量小号bilibili、zhihu等系列账号刷榜 |
3 |
29 |
0.958 (29) |
团队 |
海淀彭于晏 |
经排查有同IP小号wudongdong、biubiu刷榜 |
注:未在上述名单,但相应排位在排行榜57名前的成绩,均因未实名、团队已合并、小号等原因丧失资格。此处不再一一标记说明。
注2:我们已尽可能就手头掌握的信息对相应分数和提交情况做了排查和复核,但难免因时间、技术手段等原因不能完全保证发现并确定所有可能得违规情况。如有对上述结论有所质疑或要提出申诉的,请在5月23日17点前邮件至 aiwin@aispacesh.com,过时不再处理。
Start: 四月 18, 2023, 8 a.m.
概述: 练习榜单;平台正确地址为 ailab.aiwin.org.cn
Start: 五月 4, 2023, 午夜
概述: 正式榜单 (5.4-5.21),此期间提供正式榜单数据,接受榜单提交
Start: 五月 22, 2023, 午夜
概述: 正式榜单结束,进入复核阶段及ppt和代码提交阶段,最终选取10强进入答辩
七月 31, 2023, 8 a.m.
请登陆来参加比赛
登入# | 用户名 | 分数 |
---|---|---|
1 | Chaos | 1.000 |
2 | shannon | 1.000 |
3 | red | 0.994 |