2023AIWIN——研报类型识别挑战赛

主办方：国泰君安 - 当前服务器时间七月 15, 2025, 6:24 a.m. UTC+8
奖励 ￥120000

参赛提交

上一阶段

终选答辩阶段

五月 22, 2023, 午夜 UTC+8

当前阶段

练习榜单

四月 18, 2023, 8 a.m. UTC+8

终止阶段

Competition Ends

七月 31, 2023, 8 a.m. UTC+8

竞赛详情
线上判分
竞赛规则
群聊二维码
[必做]实名认证指南
历史公告
复核资格公示

AIWIN——研报类型识别

答辩入选公告

0602 公告 - 答辩入选通知：

经过命题方国泰君安对复核内容和线上成绩的审查，国泰君安最后确定进入答辩的10支队伍如下：

1 Echoch
2 挖矿的小孩
3 Z Lab
4 Colt
5 chatgpt is all your need
6 Lukan
7 WeLearnNLP
8 Out of Memory
9 初淅沥以萧飒
10 CZUR_play

特此公告，也感谢其他选手对此次比赛的贡献！

我们稍后将会给入选答辩的队伍发送邮件通知，告知下一步的准备。

复核资格公告

各位选手：

经过我们的相关复核、排查，公布如下获得复核资格的名单，并对名单做相应说明：

（我们将预期在今天13点左右邮件通知各获得资格、待进一步复查团队提交资料）

1. 获得资格的名单

编号	排位	分数	性质	名称
1	1	0.974 (1)	团队	Echoch
2	2	0.973 (2)	团队	挖矿的小孩
3	4	0.970 (4)	团队	Z Lab
4	6	0.970 (6)	团队	Colt
5	7	0.968 (7)	团队	chatgpt is all your need
6	8	0.968 (8)	个人	Lukan
7	9	0.968 (9)	团队	WeLearnNLP
8	10	0.968 (10)	团队	Out of Memory
9	15	0.964 (15)	团队	初淅沥以萧飒
10	17	0.962 (17)	团队	CZUR_play
11	18	0.961 (18)	个人	Leo_Lu
12	31	0.957 (31)	团队	Da Capo
13	34	0.957 (34)	个人	zhouyuanzhe
14	37	0.956 (37)	团队	zutnlp
15	43	0.953 (43)	个人	grealth
16	45	0.953 (45)	团队	金融科技
17	50	0.951 (49)	团队	Unsual Data
18	51	0.951 (50)	个人	Aloha
19	55	0.950 (54)	个人	NONE
20	57	0.949 (55)	个人	GODWITHKING

2. 待进一步检查确定操作的名单

编号	排位	分数	性质	名称	附加审核理由
1	20	0.960 (20)	个人	ZYQ	仅有21号当天有2条提交记录，但未发现明确主号、小号关联，进一步审核代码
2	47	0.952 (47)		Ustinian_Aphasia	47、48、49、52四组所有成员均实名，但均来自同一机构，且分数高度雷同，有分成四组故意占榜嫌疑；作为附加审核对象纳入代码审核范畴，视代码和解决方案的提交情况和内容质量，以及最终命题方的反馈，确定下一步操作。
3	48	0.952 (48)		牛顿和莱布尼茨一起撸薛定谔的猫
4	49	0.952 (48)		zhuying
5	52	0.951 (51)		AddSpicy

3. 违规名单

No	排位	分数	性质	名称	未获资格理由
1	3	0.972 (3)	团队	工程馆四季卷	1）有成员未完成实名 2）经排查有小号hiboys、Hello2023、jerry_sjtu等刷榜
2	5	0.970 (5)	团队	燃烧吧GPU	经排查创建批量小号bilibili、zhihu等系列账号刷榜
3	29	0.958 (29)	团队	海淀彭于晏	经排查有同IP小号wudongdong、biubiu刷榜

注：未在上述名单，但相应排位在排行榜57名前的成绩，均因未实名、团队已合并、小号等原因丧失资格。此处不再一一标记说明。

注2：我们已尽可能就手头掌握的信息对相应分数和提交情况做了排查和复核，但难免因时间、技术手段等原因不能完全保证发现并确定所有可能得违规情况。如有对上述结论有所质疑或要提出申诉的，请在5月23日17点前邮件至 aiwin@aispacesh.com，过时不再处理。

竞赛综述

	练习榜单	正式榜单
训练集	研报首页解析结果header/title 研报对应类型标签	研报原文pdf格式研报对应类型标签
测试集	研报首页解析结果header/title 研报对应类型标签	研报原文pdf格式研报对应类型标签
开发与模型输出	可线下开发和模型输出，AIWIN 平台提交结果	可线下开发和模型输出，AIWIN 平台提交结果
关键节点（拟）	练习榜单开启时间4月18日长期开放	正式榜单开启：5月4日00:00 榜单关闭：5月21日24:00 有效前20复核及PPT提交：5月22日 - 5月26日晋级10强名单确定：6月5日前（拟）（一般建议榜单前30，默认准备好ppt，请提交至aiwin@aispacesh.com，邮件标题为 T2-个人 ID 或团队名，PPT 和代码请同样按此方式命名）
提交限制	每日最多3次提交；	每日最多 3 次提交
奖励	无奖励	依据：以正式榜单为准计算技术得分，并综合解决方案的原创性和创意性，最终选拔 10 名晋级决赛答辩。决赛答辩将通过现场评审得分结合技术得分做综合考量。奖励： 12 万元奖金池 AI 人才特训营直通或优先机会 AIWIN 证书

一、赛题考官

国泰君安

二、赛题背景

随着经济发展，中国居民财富持续增长。资产管理需求日益增多，资产管理业务迎来新的发展机遇。市场对机构的投资管理能力提出了更高的要求。近年来，国泰君安积极建设数字化投资研究平台以助力投资管理业务。公司希望借鉴国内外投研的先进经验，通过数字化与智能化技术为投研业务赋能，实现多源异构研究数据融合、产业投资逻辑的知识沉淀和投研过程的提质增效，从而提升研究效率，增强公司在资产管理领域的核心竞争力。在投资管理业务的研究过程中，研究人员需要阅读和分析各个券商机构制作的研究分析报告。他们需要从这些报告中提取出有价值的关键信息，包括研报分析的个股、当前评级、目标价和盈利预测数据等。这部分研究工作较为繁琐，会耗费研究人员大量的时间和精力。

随着人工智能技术的发展，许多金融机构开始将自然语言处理技术引入到金融文本分析领域，如情感分析、舆情预警和实体识别等。这些工作通常是针对金融纯文本任务，实际上金融领域还有大量的富文本语料有待挖掘和分析，例如上市公司公告、研究机构研究分析报告等。这些报告大多都是PDF格式，其中包含文本、图表和表格等元素，这些元素语义丰富，具有很高的研究价值。基于上述分析，我们希望利用人工智能技术从研报PDF中自动抽取出关键信息并组织成结构化的数据进行分析。具体地，我们结合自然语言处理与计算机视觉相关技术，设计了一套研究报告（以下简称研报）关键信息要素抽取解决方案。该方案包含研报文件解析、研报类型分析和研报要素抽取等功能。

三、赛题任务

本赛题任务是利用机器学习、深度学习等方法训练一个预测模型，该模型主要针对各种各样的研报进行类型分析。赛题的难点在于不同机构、券商研报形式多样以及需要借助PDF的解析或者多模态的应用。

请注意：

1. 本赛题可以使用外部预训练模型（包括GPT类的LLM都能够）用于数据处理和建模过程。但不得使用ChatGPT等类型的应用作为产出最终分类结果的直接手段

2. 本赛题的数据训练和处理仅允许采用赛事提供的数据，不得采用额外外部数据。

四、赛题数据

A. 数据规模和内容覆盖

本赛题将10中类型的研报数据会划分为训练集、测试集。训练集用于模型架构设计、模型训练，在测试集上验证效果。以macro precision/recall/f1三个指标为验证标准（f1分数为排名依据）。练习榜单提供研报首页的结果结果，包括header 和title。正式榜单将只提供研报原文，并期望选手能充分解析和利用研报中文本、图形等多模态的信息用于优化模型。

练习榜单提供的数据集如下：

研报数据首页解析结果
研报数据对应类型标签

正式榜单提供的数据集如下：

完整研报原文
研报数据对应类型标签

B. 数据内容示例：

（1）类型标签：

labels = ['晨会早报', '宏观研报','策略研报','行业研报','公司研报','基金研报','债券研报','金融工程','其他研报','个股研报']

label2id = {

'晨会早报': 0,

'宏观研报': 1,

'策略研报': 2,

'行业研报': 3,

'公司研报': 4,

'基金研报': 5,

'债券研报': 6,

'金融工程': 7,

'其他研报': 8,

'个股研报': 9

}

注：练习榜单中无 label=7 的情况

（2）练习榜单数据：

1、数据样例（数据提供在npy格式）

{

'label':'',

'header':'',

'title':'',

'paragraph:'',

'footer':'',

'uid':''

}

2、数据文件

训练集：train_dataset.npy

测试集：eval_dataset.npy

3、提交文件

submission.csv

columns = ['uid', 'label']

（3）正式榜单数据：

1、数据样例

以pdf 文件方式提供

2、数据文件

train_dataset/*.pdf （各子项目录名为研报对应类型名，文件名为UID）

eval_dataset/*.pdf （各文件名为UID）

3、提交文件

submission.csv

columns = ['uid', 'label']

五、赛题赛程和提交要求

本赛题共分成三个大阶段：

练习榜单——正式榜单——终选答辩

本竞赛线上开展，正式榜单获得前20的有效队伍将提交PPT和代码，经命题方复核及根据解决方案综合维度选拔后，选取10强队伍获得资格进入终选答辩，决出比赛名次。

练习榜单

该阶段内接受个人报名、团队登记（报名登记规则请详细阅读比赛规则）。

A. 赛程说明：

练习榜单将为选手提供赛题数据集，所有数据均可下载。报名时个人选手需同意比赛规则和相应条款，并予以遵守。
选手可通过 AIWIN 平台「参赛提交」——「下载」的路径，查看并下载练习榜单提供的数据集以及提交结果样例文件。
选手完成模型训练后，可参照提供的结果样例文件submission_sample输出预测结果，并按 B 小节的提交要求提交后，获得排名。
请注意本次竞赛要求所有选手完成实名认证方能核算成绩，请未做过实名认证的点击页面右上角进入个人中心，点击“完成实名认证”。实名认证采用三要素：姓名、手机号和身份证，请确保手机号为您本人名下实名认证的号码。

B. 结果提交的内容和要求

本平台要求所有提交内容统一打包为 zip 文件上传，其内容为submission.csv：ZIP包请统一命名为用户 ID_YYMMDD.zip，用户 ID 为你注册时的用户名。
提交结果文件，文件格式统一为csv，分隔符为’,’，名称统一为submission.csv。

提交结果样例：

uid,label

xxxyyy,2

zzzzkkkk,3

…

提交规则：设定每日最多 3 次提交。
排名规则：排行榜以选手历史最佳分数为依据从高到低排序。

正式榜单

A. 赛程说明：

正式榜单将提供以PDF文档为形式的训练集和测试集。选手同样可通过 AIWIN 平台「参赛提交」——「下载」的路径查看并下载（由于文件过大，平台下载的压缩包中仅含有，获取数据集后，各选手线下自行输出测试结果，然后提交到AIWIN平台获取实时分数和排名。
正式榜单于2023年5月21日24点截止并关闭排行榜
排名前30的选手建议都准备PPT和代码文件。运营方将会尽快完成核验后通知符合规则有效的前20队伍提交ppt和代码文件。所有材料应在 2023年5月26日 24 点前（拟），通过aiwin@aispacesh.com发送，邮件名称请以T2-选手名/团队名命名，附件如过大可通过网盘方式上传后，邮件发送链接。具体PPT的建议内容如下：

a) 个人简介：在职者填写当前职业和在职机构（如方便透露），在校者请填写当前年级、专业、高校团队简介：团队整体介绍，以及每个成员的介绍、成员分工

b) 赛题理解与问题建模：清楚描述对赛题任务的理解，抽象为模型建立的策略

c) 数据探索与特征工程：针对赛题提供的数据描述必要的数据特征、数据清洗、特征工程的关键思路和方法

d) 模型训练和融合：描述模型的训练、实验对比和融合过程与方法

e) 代码依赖环境：详细列出包括整体建模采用的基础框架（含版本号）以及依赖的包等

f) 代码运行说明：对如何运行代码予以充分说明
结果提交的内容和要求：同练习榜单
提交规则：每日最多 3 次提交
排名规则：排行榜以选手历史最佳分数为依据从高到低排序。
晋级规则：组委会将结合正式榜单线上分数、解决方案的原创性和创新性等综合批评定最后的 10 强进入终选答辩。

六、评价方式

线上排名

评价指标： macro avg precision / recall / f1

终选方式

综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度（如模型思路创新性都能够），确定最后的综合排名。

七. 赛事奖励

1. 赛事奖金与奖励

类型	奖项	名次	奖励（税前）
竞赛奖励（依据综合排名 = B 榜排名 + 复审结果 + 终选答辩排名）	一等奖	第1名	60000 元
	二等奖	第2名	20000 元
	三等奖	第 3 名	10000 元
	四等奖	第 4-6 名	6000 元
	五等奖	第 7-10 名	3000 元

注：

组委会对上述奖励方案享有最终解释权和调整权
以上奖金金额为税前金额，奖项获得者需承担个人所得税 20%

2. 证书

所有获奖选手（含学习奖励奖项与竞赛奖励奖项）将颁发盖有“世界人工智能创新大赛组委会”的赛事证书，对应赛题的证书上将同时印刻有赛事命题方的官方 logo

3.实习生绿色直通车

对于赛事排名靠前的选手将给予实习生绿色直通车的机会，将在实习招聘过程中给予一定优惠（如免笔试等，具体待进一步确定）

线上排名

评价指标： macro avg precision / recall / f1

终选方式

综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度（如模型思路创新性都能够），确定最后的综合排名。

赛事规则

参赛人群：大赛面向社会各界开放，不限年龄国籍，高校、科研院所、企业从业人员均可报名参赛。参与大赛组织工作有关单位员工及直系亲属可参赛但不可获奖；
账号体系：赛事平台的账号体系以个人为单位，注册平台需要提交个人的姓名、学校/单位、邮箱、手机等信息。上述信息仅用于赛事联络和运营。
赛事报名：赛题报名以单个账号为单位开展。选手根据自身情况，仅可二选一选择一种身份参赛：

个人参赛：选手以个人身份注册账号直接参赛
团队参赛：团队的每个成员均需在比赛平台注册，并通过系统在所参与的赛题上组建团队，并将各队员添加入团队作为成员。每个团队最多 5 人。团队成员在加入团队后，各自可代表团队提交项目，且团队成员个人成绩（无论成团前后）将被统一视为团队成绩，团队成绩最终成绩取团队各成员所取得的最好成绩。同一团队仅可占 1 席晋级名额和奖项名额，如遇同一团队多名成员占有 1 席以上晋级范围的排名，则名额顺延至下一团队或个人。

作品提交：作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性，不违反任何中华人民共和国的有关法律，不侵犯任何第三方知识产权或者其他权利；一经发现或经权利人提出并查证，组委会将取消其比赛成绩并进行严肃处理；
排行规则：排行榜以个人账号为单位，依据所提交的结果评分予以排名。如个人账号从属于某团队，则排行榜在该个人账号旁会显示其团队名称。团队的排名以团队中各团队成员的最高排名为准。
排名验证：赛题出题方、大赛主办方、平台运营方有权利进一步要求参赛者提交代码、解题思路等并基于此检视判断排行分数的合理性，从而对排名进行修正。各赛事赛题的最终排名应以各赛题所发布的公告或通知为准，线上排行榜仅为参考。参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证。
晋级规则：赛段晋级名额、方式由各赛题设定。若有参赛者主动弃赛，晋级名次顺延。晋级名额中以个人身份参赛的则个人选手个人晋级，如个人从属于某团队，则该团队整体晋级。
公平竞技：参赛者禁止在指定考核技术能力的范围外，利用规则漏洞或技术漏洞等不良途径提高成绩排名，禁止在比赛中抄袭他人作品、交换答案、使用多个小号，经发现将取消比赛成绩并严肃处理。
组织声明：组委会保留对比赛规则进行调整修改的权利、比赛作弊行为的判定权利和处置权利、收回或拒绝授予影响组织及公平性的参赛团队奖项的权利。
竞赛数据：组委会参赛人员使用提供的数据进行指定赛道的模型训练工作，参赛人员不得将数据用于任何商业用途。若做科研使用，请注明数据来源于相关赛题的出题方；参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分。
知识产权：参赛作品（包含但不限于结果文件、算法、模型、方案等）的相关权利由出题单位、参赛者、官方竞赛平台三方共享。
奖励分配：竞赛平台、赛题主办方等均不对物质奖励的分配方式予以负责，物质奖励将颁发给个人参赛者或团队指定的个人。证书等将根据个人参赛和团队参赛予以区分，授予个人或团队（列明个人姓名）

实名认证

请注意，2022 赛季起实名认证都将作为晋级或切榜后成绩有效的前提。

实名认证需通过点击系统右上角用户名处，进入「设定」界面操作。

在此界面请先确认姓名是否为真实姓名，若不是请修改，并点击页面最下方的保存按钮。之后点击「前往实名认证」

在实名认证页面，你需要填入自己的身份证号和手机号（请使用登记在你身份证名下的手机号）

若三者信息匹配即可完成实名认证。

实名认证失败的人工审核

如果你的手机未实名认证在你个人名下，或，你信息都正确却始终无法成功实名认证

请将以下信息完整发送至 it@aispacesh.com：

你的用户名
你的姓名
你的身份证号码
你的身份证正面照片或扫描件

邮件标题可写为：「实名认证申请人工审核」

0522 公告

1. 20强名单复核公布时间

各位选手，榜单已于今日凌晨0点正式关闭。接下来我们将对榜单做一轮复核，主要排查未完成实名认证因而成绩无效、因系统等原因导致队伍组成前后差异而重复占用排名的、存在明显异常多小号刷榜的情况等。我们预期在5月23日公布复核后的名单，并通知前20进一步提交解决方案ppt和代码文件。

2. 补做实名认证的截至日期延长至22日15点

请各团队特别注意，实名认证需所在团队内所有成员均完成实名认证才能使团队成绩生效！

未免部分第一次参与AIWIN赛事的同学不熟悉上述规则，我们延长至5月22日15点，作为最后实名认证的截点。请务必在此之前督促团队成员复核是否完成实名认证，未完成的请赶快完成（遇到手机号实名和身份证信息不符的，请邮件 it@aispacesh.com具体的账号信息和身份证件信息，我们会尽快处理，凡15点前提交的有效邮件工单，无论我们几点处理，我们会认为已通过实名认证）

3. 关于20强需提交的PPT解决方案文档和代码

一般建议排名前30的都做好相应资料准备（不排除名单复核后，会顺延至30名之后），部分排名靠前的可以开始动手准备了。PPT内容准备可参考如下框架：

a) 个人简介：在职者填写当前职业和在职机构（如方便透露），在校者请填写当前年级、专业、高校团队简介：团队整体介绍，以及每个成员的介绍、成员分工

b) 赛题理解与问题建模：清楚描述对赛题任务的理解，抽象为模型建立的策略

c) 数据探索与特征工程：针对赛题提供的数据描述必要的数据特征、数据清洗、特征工程的关键思路和方法

d) 模型训练和融合：描述模型的训练、实验对比和融合过程与方法

e) 代码依赖环境：详细列出包括整体建模采用的基础框架（含版本号）以及依赖的包等

f) 代码运行说明：对如何运行代码予以充分说明

0505 公告：

请注意正式榜单数据集中，有部分破损PDF，目前根据命题方反馈，将去除这些PDF。

如已下载数据，则请参考如下列表自行去除，特别注意测试集中需去除4项（不去除当前评审会报错，总测试集量目前为1948）

如未下载数据，则当前在数据获取中获取的文件链接已指向新版本数据，请放心下载。

测试集需去除的：

['968e595d06cc599e8603ac213a7bdfdb',
'5e9804e922f654a7b4eb37222649d3d4',
'9c7ce415fa9955d491209bbe5951d553',
'495f28b2c97f5281adfb9680dd65a19d']

训练集需去除的：

个股研报-new：
6038686-new.pdf
6036182-new.pdf
6045132-new.pdf
6038657-new.pdf
6038698-new.pdf
6048795-new.pdf

其他研报-new：
08934d08226948e4a3399cec153b0227-new.pdf

复核资格公告

各位选手：

经过我们的相关复核、排查，公布如下获得复核资格的名单，并对名单做相应说明：

（我们将预期在今天13点左右邮件通知各获得资格、待进一步复查团队提交资料）

1. 获得资格的名单

编号	排位	分数	性质	名称
1	1	0.974 (1)	团队	Echoch
2	2	0.973 (2)	团队	挖矿的小孩
3	4	0.970 (4)	团队	Z Lab
4	6	0.970 (6)	团队	Colt
5	7	0.968 (7)	团队	chatgpt is all your need
6	8	0.968 (8)	个人	Lukan
7	9	0.968 (9)	团队	WeLearnNLP
8	10	0.968 (10)	团队	Out of Memory
9	15	0.964 (15)	团队	初淅沥以萧飒
10	17	0.962 (17)	团队	CZUR_play
11	18	0.961 (18)	个人	Leo_Lu
12	31	0.957 (31)	团队	Da Capo
13	34	0.957 (34)	个人	zhouyuanzhe
14	37	0.956 (37)	团队	zutnlp
15	43	0.953 (43)	个人	grealth
16	45	0.953 (45)	团队	金融科技
17	50	0.951 (49)	团队	Unsual Data
18	51	0.951 (50)	个人	Aloha
19	55	0.950 (54)	个人	NONE
20	57	0.949 (55)	个人	GODWITHKING

2. 待进一步检查确定操作的名单

编号	排位	分数	性质	名称	附加审核理由
1	20	0.960 (20)	个人	ZYQ	仅有21号当天有2条提交记录，但未发现明确主号、小号关联，进一步审核代码
2	47	0.952 (47)		Ustinian_Aphasia	47、48、49、52四组所有成员均实名，但均来自同一机构，且分数高度雷同，有分成四组故意占榜嫌疑；作为附加审核对象纳入代码审核范畴，视代码和解决方案的提交情况和内容质量，以及最终命题方的反馈，确定下一步操作。
3	48	0.952 (48)		牛顿和莱布尼茨一起撸薛定谔的猫
4	49	0.952 (48)		zhuying
5	52	0.951 (51)		AddSpicy

3. 违规名单

No	排位	分数	性质	名称	未获资格理由
1	3	0.972 (3)	团队	工程馆四季卷	1）有成员未完成实名 2）经排查有小号hiboys、Hello2023、jerry_sjtu等刷榜
2	5	0.970 (5)	团队	燃烧吧GPU	经排查创建批量小号bilibili、zhihu等系列账号刷榜
3	29	0.958 (29)	团队	海淀彭于晏	经排查有同IP小号wudongdong、biubiu刷榜

注：未在上述名单，但相应排位在排行榜57名前的成绩，均因未实名、团队已合并、小号等原因丧失资格。此处不再一一标记说明。

练习榜单

Start: 四月 18, 2023, 8 a.m.

概述： 练习榜单；平台正确地址为 ailab.aiwin.org.cn

正式榜单 (5.4-5.21)

Start: 五月 4, 2023, 午夜

概述： 正式榜单 (5.4-5.21)，此期间提供正式榜单数据，接受榜单提交

终选答辩阶段

Start: 五月 22, 2023, 午夜

概述： 正式榜单结束，进入复核阶段及ppt和代码提交阶段，最终选取10强进入答辩

比赛结束

七月 31, 2023, 8 a.m.

请登陆来参加比赛

登入

#	用户名	分数
1	Chaos	1.000
2	shannon	1.000
3	red	0.994