2021AIWIN(秋)——心电图智能诊断竞赛

主办方: 数创医疗和复旦大学附属中山医院 - 当前服务器时间 十一月 30, 2021, 1:20 a.m. UTC+8
奖励 ¥120000
参赛提交

上一阶段

报名&任务一
十一月 8, 2021, 9 a.m. UTC+8

当前阶段

报名&任务二A榜
十一月 15, 2021, 午夜 UTC+8

下一阶段

任务二B榜
十二月 17, 2021, 午夜 UTC+8

竞赛重要公告

请务必使用训练平台前,阅读操作手册 官方训练平台说明手册

1126——关于训练平台训练环境算力的调整说明

当前已完成系统资源升级,容器当前提供 2CPU12G 的资源

请当前有容器环境在运行的,删除当前容器,重建容器后即能体验

1126——关于排行榜显示模式调整的通知:

1. 排行榜显示的系统设定: AIWIN 比赛平台,对于每一个阶段的排行榜显示,可控制的按钮规则为「如果新提交的得分高于旧提交,则将提交分数纳入排行榜」,如其关闭,则排行榜上的分数是「显示最近一次提交分数」的方式,如其开启,则排行榜上的分数将对比「当前提交分数」和「开关开启后」记录的「最高分数」,选择分高者显示。请注意,这里特别提到的是「开关开启后」记录的「最高分数」,即这里显示的是开关开启后记录下的所有分数的最高分(刚开启时,以开启那一刻的排行榜分数为最高分),而并非真正意义上的历史最高分,特别是当开关在赛中期变更开启的情况。

2. 当前排行版显示模式的设定说明:我们每个竞赛均会征求赛题方意见来设定显示模式,默认为按钮处关闭状态,即「显示最近一次提交分数」。这一默认设定主要是为了让不熟悉本平台操作的小伙伴,在提交后查看排行榜时,能够即刻看到分数的变动和对应本次提交的分数。

3. 更新后排行榜模式变化:基于当前选手们的反馈,我们决定做如下变更

(1)任务一已开启开关,但我们将根据选手们进一步的反馈,来确定是否需要调整会原有状态。主要影响点仍就在于是否这种显示模式有利于大家,特别是新手,查看「当前提交物」的分数。

(2)任务二已开启开关,当前显示的是「开关开启后」记录的「最高分数」

4. 排行榜模式变更后,大家查看排行榜时请记得,其显示的分数「不一定」是「当前提交的得分」。该分数请回到「参赛提交」-「Submit」页面下查看。

 

竞赛解读视频

竞赛关键要点

 

竞赛详细文案

一、赛题考官

本赛题由复旦大学附属中山医院和上海数创医疗科技有限公司联合命题。

 

二、赛题背景

心电图是临床最基础的一个检查项目,因为安全、便捷成为心脏病诊断的利器。每天都有大量的心电图诊断需求,但是全国范围内诊断心电图的专业医生数量不足,导致很多医院都面临专业心电图医生短缺的情况。

人工智能技术的出现,为改善医生人力资源不足的问题带来了全新的可能。由于心电图数据与诊断的标准化程度较高,相对较易于运用人工智能技术进行智能诊断算法的开发。

由于心电图可诊断的疾病类别特别丰富,目前,市面上出现较多的是针对某些特定类别的算法,尚没有看到能够按照临床诊断标准、在一定准确率标准下,提供类似医生的多标签多分类算法。本次赛事希望吸引更多优秀的算法人才,共同为心电图人工智能诊断算法的开发贡献力量。

 

三、赛题任务

针对临床标准12导联心电图数据的多标签多分类算法开展研发和竞技比拼。

选手需利用命题方提供的训练集数据,设计并实现模型和算法,能够对标准12导静息心电图进行智能诊断。需要识别的心电图包括12个类别:正常心电图、窦性心动过缓、窦性心动过速、窦性心律不齐、心房颤动、室性早搏、房性早搏、一度房室阻滞、完全性右束支阻滞、T波改变、ST改变、其它。

本赛题共分为两个关联任务:任务一为要求针对心电图输出二元(正常 v.s 异常)分类标签;任务二为针对给定的心电图输出上述12 项诊断分类的诊断结果标签。

 

其中任务一采用开放下载训练集和测试集模式,对新手友好,可自行线下建模或使用赛事提供的训练环境(notebook.aiwin.org.cn);任务二要求全程线上建模和测试,提供不可下载的训练集和“不可见”的测试集,适合有一定开发经验的选手,建议任务一能够达到F1>=0.88参与任务二。

 

四、赛题数据

心电数据的单位为mV,采样率为 500HZ,记录时长为 10 秒,存储格式为 MAT;文件中存储了 12 导联的电压信号(包含了I,II,III,aVR,aVL,aVF,V1,V2,V3,V4,V5 和 V6)

1.任务一的数据说明

数据将会分为参赛者可见标签的训练集,及不可见标签的测试集两大部分。数据均可下载。(请参见「参赛提交」——「下载」下的 2021A_T2_Task1_数据集,其包含了训练集和测试集)

其中训练数据提供 1600 条 MAT 格式心电数据及其对应诊断分类标签(“正常”或“异常”,csv 格式);测试数据提供 400 条 MAT格式心电数据。

(1)数据目录

   DATA |- trainreference.csv TRAIN目录下数据的LABEL

        |- TRAIN            训练用的数据

        |- VAL              测试数据

      

(2)数据格式

  12导联的数据,保存matlab格式文件中。数据格式是(12, 5000)。

  采样500HZ,10S长度有效数据。具体读取方式参考下面代码。

  0..12是I, II, III, aVR, aVL, aVF, V1, V2, V3, V4, V5和V6数据。单位是mV。

    import scipy.io as sio

    ecgdata = sio.loadmat("TEST0001.MAT")['ecgdata']

 

(3)trainreference.csv格式

   每行一个文件。 格式:文件名,LABEL (0正常心电图,1异常心电图)

 

2.任务二的数据说明

数据将会分为参赛者可见标签的训练集,及不可见标签的测试集两大部分。数据均不可下载,需访问大赛指定的训练平台(notebook.aiwin.org.cn)在线访问训练集做模型训练。

其中训练数据提供 24,000 条 MAT 格式心电数据及其对应诊断多分类标签(标签说明如下,csv 格式);测试数据提供 6,000 条 MAT格式心电数据,共提供3万条数据。

(1)数据目录

   DATA |- trainreference.csv TRAIN目录下数据的LABEL

        |- TRAIN            训练用的数据

        |- VAL              测试数据

      

(2)数据格式

  12导联的数据,保存matlab格式文件中。数据格式是(12, 5000)。

  采样500HZ,10S长度有效数据。具体读取方式参考下面代码。

  0..12是I, II, III, aVR, aVL, aVF, V1, V2, V3, V4, V5和V6数据。单位是mV。

 

    import scipy.io as sio

    ecgdata = sio.loadmat("TEST0001.MAT")['ecgdata']

 

(3)trainreference.csv格式

   每行包含一个文件。 格式:文件名,诊断结论数字(可能有多条不同的诊断结论,结论不重复,顺序不定)

    TEST00053,5,6,10

    结论是:心房颤动,室性早搏,T波改变

 

五、赛题赛程和提交要求

本赛题共分成三个大阶段:

线上比赛(分为任务一和任务二) —— 解决方案审核 —— 终选答辩

 

赛程总览示意如下:

1.线上比赛

本赛题下的线上比赛将设定为两个时间上并行、难度从低到高的任务。任务二为主任务,任务一作为开放任务先行提供选手了解数据基本情况、赛题基本情况和线上开发环境。

 

该阶段内接受个人报名、团队登记(报名登记规则请详细阅读比赛规则),团队创建需经管理员审核(若正式代表某机构或企业参赛,需机构或企业出具相应盖章函件证明方可建立)。

(1)任务一:二元诊断

  1. 任务说明:

主要目的是让参赛选手熟悉心电图数据格式,并实现对「正常」与「异常」心电图的二分类算法设计。通过这个过程,使选手了解基本的心电诊断过程和知识,并为任务二做好准备。

 

  1. 提交内容和要求:

AIWIN平台要求所有提交内容统一打包为 zip 文件上传(请参见「参赛提交」tab下「下载」板块提供的提交样例),其内包含:模型输入测试集后输出的结果文件,文件格式统一为csv,名称必须统一为answer.csv,请注意 answer.csv必须含有"name,tag"这一 csv 的 header 行,否则会出错 。具体请下载任务一的样例 sample 文件并按照其格式输出即可。

 

其格式请参照trainreference.csv

 

Name

Tag

对应相应的心电数据(MAT文件)名称

  1. 正常
  2. 异常

 

  • 请统一输出为utf-8编码的CSV文件
  • 文件请命名为answer.csv
  • 该 csv 文件请直接压缩为 ZIP 包,在 AIWIN 平台提交

 

  1. 评价方式:评价标准请参见第六节评价方式
  2. 提交规则:每日最多提交 3 次,12 月 16 日午夜冻结榜单作为学习奖励依据,17 日重新开放,可继续打榜练习。
  3. 排名规则:以选手最新一次提交的排行分数为准。

 

(2)任务二:12 类标签诊断

  1. 任务说明:

① 任务二参赛资格:可直接挑战,但一般建议任务一尝试达到 0.88 分。

 

② 任务二要求:任务二是多标签多分类算法问题(具体类别见下方说明),采用 AB 机制。选手经由官方指定的训练平台(notebook.aiwin.org.cn)可访问完整训练集,并开展建模。选手正式提交模型后(见下方 B 点的说明),训练平台后台每天正午 12 点及午夜 24 点将自动对所有「提交」状态的代码做运行,输入测试集,完成结果输出。输出结果可下载后在AIWIN平台提交,并获得分数和排名。

 

③ 本轮赛题任务为对下列正常与11种异常类别进行识别(其中第12类“其他”为不属于正常与另外10种异常的其他异常),并给出相应诊断结论。

 

序号

名称

英文

简称

1

正常心电图 

Normal

Normal

2

窦性心动过缓

Sinus bradycardia

SB

3

窦性心动过速

Nodal tachycardia

NT

4

窦性心律不齐

Sinus irregularity

SI

5

心房颤动

Atrial fibrillation

AF

6

室性早搏

Premature ventricular contraction

PVC

7

房性早搏

Premature atrial contraction

PAC

8

一度房室传导阻滞

First-degree atrioventricular block

I-AVB

9

完全性右束支传导阻滞

Complete right bundle branch block

RBBB

10

T波改变

T-wave alternans

TA

11

ST改变

ST-segment changes

STC

12

其他

others

others

 

 

④ 任务二的AB 榜设定:任务二采用 AB 榜模式,其中 A 榜采用测试集的 70%,B 榜采用完整测试集(完整测试集共包含 6000 条心电数据)。A 榜将在 12 月 16 日午夜冻结,17 日切换进入 B 榜,B 榜在 12 月 26 日冻结。

 

  1. 代码提交要求: 
在训练平台(notebook.aiwin.org.cn)上,拷贝入指定路径:A 轮提交请放置在/aiwin/heart-A/submit/下,B 轮提交请放置在/aiwin/heart-B/submit/下。(如在训练平台-文件管理的 UI 端创建或访问目录,则应是 /task2/heart-A/submit/或 /task2/heart-B/submit/)
 
选手除需将完整可独立离网执行的代码拷贝如上诉目录,另需准备一个 run.sh,其中应包含必要的脚本用于运行和执行代码,其文件路径应为: /heart-A(B)/submit/run.sh
 
训练平台将统一按照 “run.sh path_to_testdata_folder”的方式,执行各代码的 run.sh,path_to_testdata_folder由系统自动输入,其为绝对路径,且其下不嵌套文件夹,直接为所有被测的MAT文件
 
选手应在代码中含有创建并写入结果文件的代码,结果文件统一命名为 answer.csv,其路径应该为:A 轮是 /heart-A/submit/answer.csv,B 轮是/heart-B/submit/answer.csv。之后可通过训练平台的「文件管理->点击下载 answer 按钮」下载文件,用于在 AIWIN 平台提交。
 
代码的 stdout 和 stderr等信息由训练平台统一输出在 submit 根目录下的 log 日志中(通过运行时间的时间戳区分版本),可供代码运行后调试检视使用,可通过训练平台 Web Terminal 查看。 
  1. 提交内容和要求:

AIWIN平台要求所有提交内容统一打包为 zip 文件上传(请参见「参赛提交」tab下「下载」板块提供的提交样例),其内包含:模型输入测试集后输出的结果文件,文件格式统一为csv,名称必须统一为answer.csv。请注意任务二的文件内容任务一有差异,不含有‘name,tag’的 header 行,请查看任务二的样例以其为样板。 

 

其格式请参照trainreference.csv

 

Name

Tag

对应相应的心电数据(MAT文件)名称

1     正常心电图

2     窦性心动过缓

3     窦性心动过速

4     窦性心律不齐

5     心房颤动

6     室性早搏

7     房性早搏

8     一度房室阻滞

9     完全性右束支阻滞

10   T波改变

11   ST改变

12   其他

 

  • 请统一输出为utf-8编码的CSV文件
  • 文件请命名为answer.csv
  • 该 csv 文件请直接压缩为 ZIP 包,在 AIWIN 平台提交

 

  1. 评价方式:评价标准请参见第六节评价方式
  2. 提交规则:任务一每日最多提交 3 次;任务二A榜每日最多提交 3 次,任务二 B 榜全程做多提交 2 次。
  3. 排名规则:已最新一次提交的分数为准;

 

 

2.解决方案验证阶段

  1. 赛程说明:

第 2 轮 B 榜结束提交后,组委会将对B 榜前30 的 选手做资格核验,即核验其任务一得分是否满足条件(若发生资格失效递补超过前 30 的,则相应顺延扩大资格核验范围,直至产生足够的前 20 选手)。最终确定的前 20名的选手,将被要求提交一份解题思路 PPT。组委会将基于 PPT内容,对 20 强选手的代码进行形式审查(作弊审查)、代码复现,并针对解决方案的创新性等综合维度做评判(不排除针对全部或个别选手要求电话或当面沟通答辩),最终确定进入终选的10 名选手。

 

  1. 提交内容和要求:
  1. 选手需在 2021 年 12 月 31 日前,通过指定链接,上传解题思路 PPT
  2. 解题思路 PPT 命名应为选手名.ppt,对于个人参赛选手名即个人 ID,团队参赛选手名即为团队名。
  3. 解题思路 PPT 需包含以下内容:
  • 个人简介:在职者填写当前职业和在职机构(如方便透露),在校者请填写当前年级、专业、高校

团队简介:团队整体介绍,以及每个成员的介绍、成员分工

  • 赛题理解与问题建模:清楚描述对赛题任务的理解,抽象为模型建立的策略
  • 数据探索与特征工程:针对赛题提供的数据描述必要的数据特征、数据清洗、特征工程的关键思路和方法
  • 模型训练和融合:描述模型的训练、实验对比和融合过程与方法
  • 代码依赖环境:详细列出包括整体建模采用的基础框架(含版本号)以及依赖的包等
  • 提供代码审核所用的最终代码版本:即训练平台的 ID 和代码最终部署路径

 

3.终选答辩

拟于 2022 年 1 月举办终选答辩。入选终选的选手将通过线下或线上的方式参与最终的评审答辩,综合线上排名、终选答辩及命题方考量的其他维度综合确定最终的排名和奖项归属。

 

六、评价方式

1.任务一的二分类评价方法:

(1)结果统计

分类

人工智能分类

1阳性

0阴性

参考标准分类

1阳性

真阳性(TP)

假阴性(FN)

0阴性

假阳性(FP)

真阴性(TN)


(2)计算指标


      任务一的排名根据 F1 分数,学习奖励将参考 12 月 16 日午夜冻结后的任务一排名进行核算。只有报名心电数据挖掘方向学习的账号才有资格享受学习奖励,非学习者不享受学习奖励。

2.任务二的多分类采用下面的评分方法:

(1)结果统计

每一个类别,都可以转化为一个二分类的混淆矩阵:

 

分类

人工智能分类

1阳性

0阴性

参考标准分类

1阳性

真阳性(TP)

假阴性(FN)

0阴性

假阳性(FP)

真阴性(TN)

(2)计算指标

 算法针对第 i 类的Precision、Recall和F1分数为:

 


② 关于完全正确匹配率的计算

由于心电图在临床真实环境中,常常是一条数据含有多个诊断结论标签,则算法性能的评估,还需要了解对真实数据的结论的总体正确率。比如某个心电图结论为:1.窦性心动过速2.偶发室性早搏3.偶发房性早搏,那么是否该多分类算法对该条数据的诊断结论也同样为:1.窦性心动过速2.室性早搏3.房性早搏,可以评估该算法模型对真实数据的综合性能表现。

具体性能指标计算方法:

若分类模型识别n类结论标签,标签定义为:[C1,C2,C3,…,Cn]。

算法若能够预测出数据中出现的m类标签[C1,C2,C3,…,Cm](m≤n),则记为预测正确。

正确的标签

算法预测的标签

评判

缘由

R1=[C1,C2,C3]

R1=[C1,C2]

不正确

少了一个标签

R2=[C1,C2,C3]

R2=[C1,C2,C5]

不正确

错了一个标签

R3=[C1,C2,C3]

R3=[C1,C2,C3,C12]

不正确

多了一个标签

R4=[C1,C2,C3]

R4=[C1,C2,C3]

正确

标签顺序

可以不同

R5=[C1,C2,C3]

R5=[C1,C3,C2]

正确

 

则完全正确匹配率=正确的样本数量/总体样本数量×100%

 

最终评分 = 类别平均F1分数 * 80% + 完全正确匹配率 * 25%

(最终结果可能超过100%,因为完全正确匹配率较低)

    

     任务二的排行榜按照上述最终评分计算并排名,A 榜和 B 榜模式相同。请注意任务二的分数输出为 XXX%,%在排名榜中不显示,因此数据范围 一般为 0-100,也可能超过 100

 

3.终选评价方法:

任务二为本赛题的主任务,期望争夺最终 10 名及 11 万元奖金池的应在任务二的 A 榜和 B 榜提交,并以 B 榜的排名为依据,选拔出前 20 名做解决方案审核,审核后将选拔出 10 名进入终选答辩,答辩后产出最终的 10 名获奖者。

最终的综合结果 = 任务二的 B 榜排名 + 解决方案复审结果 + 终选答辩结果 

获奖名次按照上述最终的综合结果排定。

七、特别说明

(1)竞赛数据:赛事提供的数据仅能用于指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分;

(2)算法代码:各参赛者应按比赛设定要求提交完整的解决方案(包括代码、模型、文档等),并保证解决方案可独立自主由比赛组织方和出题单位在脱机环境下运行使用,复现结果;

(3)作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩、追回奖励(如已发放)并保留追究法律责任的权利;

(4)知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。

(5)上述约定已在比赛规则中载明,选手报名成功本赛事,即默认选手已阅读并同意比赛规则的所有条款。

 

八、赛事奖励

1.    赛事奖金与奖励

2.    证书

所有获奖选手将颁发盖有“世界人工智能创新大赛组委会”的赛事证书,对应赛题的证书上将同时印刻有赛事命题方的官方 logo

所有报名学习计划并通过考核的,将获得由组委会和 Datawhale 共同颁发的学习证明。

3.    直通 AI 菁英实训营

AI 菁英实训营是 AIWIN 的联动合作项目之一,将在每年暑期面向高年级本科生和研究生举办。通过 1 周的集中理论和技术培训,4 周的企业驻场项目实训,1 周的路演筹备和项目汇报,为同学们提供绝佳的掌握一线AI 技术应用和体验大厂的职场生涯的机会。往年参与企业有中国工商银行、太平洋保险、Artefact、卫宁健康、海通证券等,参与的高校学子来自上海纽约大学、清华大学、复旦大学、电力大学等。获奖选手将获得直通 2022 年实训营的资格。

4.    企业校招或实习直通车

本赛题命题方数创医疗将面向优秀的参赛学子,提供实习的绿色直通车或优先考虑。

5.    入选人才库

有意向进一步和 AIWIN 广大生态企业产生互动,无论是实习还是参与校招、社招的选手,可以投递简历至 AIWIN,并由 AIWIN 结合选手在不同赛季不同赛题的综合表现,向用人方出具相应证明和推荐。

 

1126 公告

关于训练平台训练环境算力的调整说明

当前已完成系统资源升级,容器当前提供 2CPU12G 的资源

请当前有容器环境在运行的,删除当前容器,重建容器后即能体验

关于排行榜显示模式调整的通知:

1. 排行榜显示的系统设定: AIWIN 比赛平台,对于每一个阶段的排行榜显示,可控制的按钮规则为「如果新提交的得分高于旧提交,则将提交分数纳入排行榜」,如其关闭,则排行榜上的分数是「显示最近一次提交分数」的方式,如其开启,则排行榜上的分数将对比「当前提交分数」和「开关开启后」记录的「最高分数」,选择分高者显示。请注意,这里特别提到的是「开关开启后」记录的「最高分数」,即这里显示的是开关开启后记录下的所有分数的最高分(刚开启时,以开启那一刻的排行榜分数为最高分),而并非真正意义上的历史最高分,特别是当开关在赛中期变更开启的情况。

2. 当前排行版显示模式的设定说明:我们每个竞赛均会征求赛题方意见来设定显示模式,默认为按钮处关闭状态,即「显示最近一次提交分数」。这一默认设定主要是为了让不熟悉本平台操作的小伙伴,在提交后查看排行榜时,能够即刻看到分数的变动和对应本次提交的分数。

3. 更新后排行榜模式变化:基于当前选手们的反馈,我们决定做如下变更

(1)任务一已开启开关,但我们将根据选手们进一步的反馈,来确定是否需要调整会原有状态。主要影响点仍就在于是否这种显示模式有利于大家,特别是新手,查看「当前提交物」的分数。

(2)任务二已开启开关,当前显示的是「开关开启后」记录的「最高分数」

4. 排行榜模式变更后,大家查看排行榜时请记得,其显示的分数「不一定」是「当前提交的得分」。该分数请回到「参赛提交」-「Submit」页面下查看。

1115 公告

1.11 月 15 日正式开启官方训练平台的访问,请大家注意平台账户系统暂未和本平台打通,请重新注册。请使用前阅读官方训练平台说明手册a

2.11 月 15 日同步启动任务二,大家可以在官方训练平台启动任务二的开发环境后访问到训练集

3. 由大赛联合 Datawhale 推出的赛事社群版 Baseline 已上线,具体请查看「Baseline」页面

 

1112公告

1. 对赛事规则做了补充,明确「机构参赛」这种特殊团队的创建流程需提交机构证明至aiwin@aispacesh.com

2. 修正了平台操作手册的部分错误文字

1110 公告

1. 今日我们正式上线学习计划(左侧菜单栏中有具体信息),并更新了相应的奖励办法(左侧添加了「竞赛奖励」)

2. 当前官方训练平台尚未启用,请大家可以先注册用户,具体上线启用时间待通知和公告

3. 今日是我们首场学习计划的 OCR 方向直播,请大家 20:00 准时收看哦

4. 我们更新了本竞赛任务一的常见错误情况,请点击左侧「常见错误FAQ」

 

1108公告

今天起赛事正式启动,大家可开始下载数据集,使用开放训练集进行模型开发,并采用测试集输出结果文件。

训练平台暂未开放,请等待进一步通知。

评价方式

1.任务一的二分类评价方法:

(1)结果统计

分类

人工智能分类

1阳性

0阴性

参考标准分类

1阳性

真阳性(TP)

假阴性(FN)

0阴性

假阳性(FP)

真阴性(TN)


(2)计算指标


      任务一的排名根据 F1 分数,学习奖励将参考 12 月 16 日午夜冻结后的任务一排名进行核算。只有报名心电数据挖掘方向学习的账号才有资格享受学习奖励,非学习者不享受学习奖励。

2.任务二的多分类采用下面的评分方法:

(1)结果统计

每一个类别,都可以转化为一个二分类的混淆矩阵:

 

分类

人工智能分类

1阳性

0阴性

参考标准分类

1阳性

真阳性(TP)

假阴性(FN)

0阴性

假阳性(FP)

真阴性(TN)

(2)计算指标

 算法针对第 i 类的Precision、Recall和F1分数为:

 


② 关于完全正确匹配率的计算

由于心电图在临床真实环境中,常常是一条数据含有多个诊断结论标签,则算法性能的评估,还需要了解对真实数据的结论的总体正确率。比如某个心电图结论为:1.窦性心动过速2.偶发室性早搏3.偶发房性早搏,那么是否该多分类算法对该条数据的诊断结论也同样为:1.窦性心动过速2.室性早搏3.房性早搏,可以评估该算法模型对真实数据的综合性能表现。

具体性能指标计算方法:

若分类模型识别n类结论标签,标签定义为:[C1,C2,C3,…,Cn]。

算法若能够预测出数据中出现的m类标签[C1,C2,C3,…,Cm](m≤n),则记为预测正确。

正确的标签

算法预测的标签

评判

缘由

R1=[C1,C2,C3]

R1=[C1,C2]

不正确

少了一个标签

R2=[C1,C2,C3]

R2=[C1,C2,C5]

不正确

错了一个标签

R3=[C1,C2,C3]

R3=[C1,C2,C3,C12]

不正确

多了一个标签

R4=[C1,C2,C3]

R4=[C1,C2,C3]

正确

标签顺序

可以不同

R5=[C1,C2,C3]

R5=[C1,C3,C2]

正确

 

则完全正确匹配率=正确的样本数量/总体样本数量×100%

 

最终评分 = 类别平均F1分数 * 80% + 完全正确匹配率 * 25%

(最终结果可能超过100%,因为完全正确匹配率较低)

    

     任务二的排行榜按照上述最终评分计算并排名,A 榜和 B 榜模式相同。请注意任务二的分数输出为 XXX%,%在排名榜中不显示,因此数据范围 一般为 0-100,也可能超过 100

 

3.终选评价方法:

任务二为本赛题的主任务,期望争夺最终 10 名及 11 万元奖金池的应在任务二的 A 榜和 B 榜提交,并以 B 榜的排名为依据,选拔出前 20 名做解决方案审核,审核后将选拔出 10 名进入终选答辩,答辩后产出最终的 10 名获奖者。

最终的综合结果 = 任务二的 B 榜排名 + 解决方案复审结果 + 终选答辩结果 

获奖名次按照上述最终的综合结果排定。

常见错误 FAQ 已更新任务一内容,可通过链接获取(需微信登录 qq 文档),或直接在下面阅读

赛事规则

  1. 参赛人群:大赛面向社会各界开放,不限年龄国籍,高校、科研院所、企业从业人员均可报名参赛。参与大赛组织工作有关单位员工及直系亲属可参赛但不可获奖;
  2. 账号体系:赛事平台的账号体系以个人为单位,注册平台需要提交个人的姓名、学校/单位、邮箱、手机等信息。上述信息仅用于赛事联络和运营。
  3. 赛事报名:赛题报名以单个账号为单位开展。选手根据自身情况,仅可三选一选择一种方式参赛:
  • 个人参赛:选手以个人身份注册账号直接参赛
  • 团队参赛:团队的每个成员均需在比赛平台注册,并通过系统在所参与的赛题上组建团队(团队组建将由平台审核通过),并将各队员添加入团队作为成员。每个团队最多 5 人。 团队成员在加入团队后,各自可代表团队提交项目,但同一团队之间的成绩将具有覆盖性(如排行榜按照最近提交显示,则覆盖;如排行榜取高分显示,则仅比当前高的分数会覆盖现有分数显示)。第二,请注意加入团队前的个人成绩将不再视为个人成绩,将和团队形成后的团队成绩统合考虑,取高分作为最终团队的成绩。同一团队仅可占 1 席晋级名额和奖项名额,如遇同一团队多名成员占有 1 席以上晋级范围的排名,则名额顺延至下一团队或个人。
  • 机构参赛:即一种特殊的团队参赛方式,但该团队正式代表某一机构组织或企业,此时团队名称应该直接为企业机构名称或缩写。此情况下,请团队队长出具由机构盖章的机构参赛证明(说明机构已同意由下列个人以机构名义参与具体的赛事)。
    •请创建团队后,邮件 aiwin@aispacesh.com,邮件主题为「团队申请」,内中请附上由机构盖章的信函,说明

     A)团队被授权使用带有机构名的团队名称,并正式代表机构参赛(请具体列明比赛名称)

     B)团队成员列表,包含真实姓名、职务、email、AIWIN 比赛平台的 ID

     C)请盖机构章

  1. 作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩、追回奖励(如已发放)并保留追究法律责任的权利。
  2. 排行规则:排行榜以个人账号为单位,依据所提交的结果评分予以排名。如个人账号从属于某团队,则排行榜在该个人账号旁会显示其团队名称。团队的排名以团队中各团队成员的最高排名为准。
  3. 排名验证:赛题出题方、大赛主办方、平台运营方有权利进一步要求参赛者提交代码、解题思路等并基于此检视判断排行分数的合理性,从而对排名进行修正。各赛事赛题的最终排名应以各赛题所发布的公告或通知为准,线上排行榜仅为参考。参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证。
  4. 晋级规则:赛段晋级名额、方式由各赛题设定。若有参赛者主动弃赛,晋级名次顺延。晋级名额中以个人身份参赛的则个人选手个人晋级,如个人从属于某团队,则该团队整体晋级。
  5. 公平竞技:参赛者禁止在指定考核技术能力的范围外,利用规则漏洞或技术漏洞等不良途径提高成绩排名,禁止在比赛中抄袭他人作品、交换答案、使用多个小号,经发现将取消比赛成绩并严肃处理。
  6. 组织声明:组委会保留对比赛规则进行调整修改的权利、比赛作弊行为的判定权利和处置权利、收回或拒绝授予影响组织及公平性的参赛团队奖项的权利。
  7. 竞赛数据:赛题提供的数据仅能用于指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分。
  8. 算法代码:各参赛者应按比赛设定要求提交完整的解决方案(包括代码、模型、文档等),并保证解决方案可独立自主由比赛组织方和出题单位在脱机环境下运行使用,复现结果。
  9. 知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。
  10. 奖励分配:竞赛平台、赛题主办方等均不对物质奖励的分配方式予以负责,物质奖励将颁发给个人参赛者或团队指定的个人。证书等将根据个人参赛和团队参赛予以区分,授予个人或团队(列明个人姓名)

11 月 15 日正式开启官方训练平台的访问,请大家注意平台账户系统暂未和本平台打通,请重新注册。请使用前阅读官方训练平台说明手册

平台操作指南手册可通过链接获取(需微信登录 qq 文档),或直接在下面阅读

任务一 Baseline

https://aistudio.baidu.com/aistudio/projectdetail/2653802

当前最低分数为:0.671,高于等于该分数则考核记为合格

任务二 Baseline

预计 11 月 20-28 日推出任务二的baseline

学习计划 1:OCR 方向

 

学习计划 2:数据挖掘方向

 

报名

 

如以下二维码失效,请添加 aispace-bot 微信号,告知参与的赛题,OCR 或者心电,由小助手手动拉你进群

 

1.    赛事奖金与奖励

2.    证书

所有获奖选手将颁发盖有“世界人工智能创新大赛组委会”的赛事证书,对应赛题的证书上将同时印刻有赛事命题方的官方 logo

所有报名学习计划并通过考核的,将获得由组委会和 Datawhale 共同颁发的学习证明。

3.    直通 AI 菁英实训营

AI 菁英实训营是 AIWIN 的联动合作项目之一,将在每年暑期面向高年级本科生和研究生举办。通过 1 周的集中理论和技术培训,4 周的企业驻场项目实训,1 周的路演筹备和项目汇报,为同学们提供绝佳的掌握一线AI 技术应用和体验大厂的职场生涯的机会。往年参与企业有中国工商银行、太平洋保险、Artefact、卫宁健康、海通证券等,参与的高校学子来自上海纽约大学、清华大学、复旦大学、电力大学等。获奖选手将获得直通 2022 年实训营的资格。

4.    企业校招或实习直通车

本赛题命题方数创医疗将面向优秀的参赛学子,提供实习的绿色直通车或优先考虑。

5.    入选人才库

有意向进一步和 AIWIN 广大生态企业产生互动,无论是实习还是参与校招、社招的选手,可以投递简历至 AIWIN,并由 AIWIN 结合选手在不同赛季不同赛题的综合表现,向用人方出具相应证明和推荐。

 

报名&任务一

Start: 十一月 8, 2021, 9 a.m.

概述: 赛事持续开放报名,任务一提供开放下载的训练集和测试集,并配套学习营,欢迎反复练习打榜。任务一榜单和提交将在12月16日午夜后关闭24小时做学习奖励核算,在18日9点(拟)重新恢复供学习使用。

报名&任务二A榜

Start: 十一月 15, 2021, 午夜

概述: 赛事持续开放报名,任务二正式启动,其采用不可下载的训练集和隐藏的测试集,提供线上容器训练环境(仅 Terminal,无网络)。任务二采用 AB 榜模式,此为 A 榜阶段。建议任务一取得 0.88 分以上尝试任务二。请注意此阶段分数显示为 100%的格式,%不显示。

任务二B榜

Start: 十二月 17, 2021, 午夜

概述: 此为任务二的 B 榜阶段,每个选手仅有2次提交机会。最终晋级名额以 B 榜的分数和排名为准。请注意此阶段分数显示为 100%的格式,%不显示。

解决方案复审

Start: 十二月 27, 2021, 午夜

概述: 基于任务二B榜的最终结果,要求20名选手提交解决方案简报,将复审解决方案和代码模型。

决赛阶段

Start: 一月 15, 2022, 8 a.m.

概述: 2022 年 1 月中旬,最终10名选手参与终选答辩,产出最终的排名。

比赛结束

三月 31, 2022, 8 a.m.

请登陆来参加比赛

登入
# 用户名 分数
1 guo_chengfeng 87.414
2 tangzhe0220 87.203
3 moqilin 86.908