1. 我们从今日起进入榜单复核,我们主要针对 B 榜的前 30 名邮件邀请提供队伍实名信息。在审核过程中发现因各种原因失去资格的团队,将会按排行榜名次自动顺延邀请顺位选手填写信息。预期于本周三前完成所有审核。关于各位提到的各类可能的作弊问题,我们将通过审核期间对应实名制、ID 关联、提交次数等做好相应复核检查。
2. 审核完成后,我们将邮件邀请前 20 名的团队提交 PPT 和代码。代码因为都在训练平台环境中,我们会在审核期间即要求各团队指定一个训练平台用户名称给到我们,我们将通过训练平台直接提取该用户名称下的代码做检视; PPT 的要求请见各赛题的「解决方案验证阶段」的要求。预期于本周末前完成材料收集。
3. 前 20 名的团队,会在经过 PPT 和代码审核后,选出 前 10 名,届时进一步联络参与最后的答辩路演(预期 1 月中,线上)。
一、赛题考官
交通银行
二、赛题背景
银行日常业务中涉及到各类凭证的识别录入,例如身份证录入、支票录入、对账单录入等。以往的录入方式主要是以人工录入为主,效率较低,人力成本较高。近几年来,OCR相关技术以其自动执行、人为干预较少等特点正逐步替代传统的人工录入方式。但OCR技术在实际应用中也存在一些问题,在各类凭证字段的识别中,手写体由于其字体差异性大、字数不固定、语义关联性较低、凭证背景干扰等原因,导致OCR识别率准确率不高,需要大量人工校正,对日常的银行录入业务造成了一定的影响。
三、赛题任务
本次赛题将提供手写体图像切片数据集,数据集从真实业务场景中,经过切片脱敏得到,参赛队伍通过识别技术,获得对应的识别结果。即:
输入:手写体图像切片数据集
输出:对应的识别结果
赛题在赛程中分设为两个独立任务,各自设定不同条件的训练集、测试集和建模环境,概述如下:
任务一:提供开放可下载的训练集及测试集,允许线下建模或线上提供 Notebook 环境及 Terminal 容器环境(脱网)建模,输出识别结果完成赛题。
任务二:提供不可下载的训练集,要求线上通过 Terminal 容器环境(脱网)建模后提交模型,由系统输入测试集(即对选手不可见),输出识别结果完成赛题。
上述两个任务的更具体情况请参见第五节赛题赛程的详细说明。
四、赛题数据
A. 数据规模和内容覆盖
|
任务一 |
任务二 |
训练集(含验证集,请自行划分) |
8 千张图像,包含年份、金额2种信息 |
3 万张图像,包含银行名称、年份、月份、日期、金额5 种信息。 |
测试集 |
2 千张图像 |
设定 AB榜: A 榜:5 千张图像 B 榜:5 千张图像 |
B.数据内容示例:
原始手写体图像共分为三类,分别涉及银行名称、年月日、金额三大类,分别示意如下:
相应图片切片中可能混杂有一定量的干扰信息,分别示例如下;
识别结果 JSON 在训练集中的格式如下(请注意选手提交的结果文件 JSON 和训练集中的 JSON 格式不同):
json 文件内容规范:
{
"image1": "陆万捌千零贰拾伍元整",
"image2": "付经管院工资",
"image3": "",
...
}
五、赛题赛程和提交要求
本赛题共分成三个大阶段:
线上比赛(包含任务一和任务二) ———— 解决方案复审 ———— 终选答辩
赛程总览示意如下:
1. 线上比赛
本赛题下的线上比赛将设定为两个时间上并行、难度从低到高的任务。任务二为主任务,任务一作为开放任务先行提供选手了解数据基本情况、赛题基本情况和线上开发环境,适合于新手入门和参与配套的学习营。
该阶段内接受个人报名、团队登记(报名登记规则请详细阅读比赛规则),团队创建需经管理员审核(若正式代表某机构或企业参赛,需机构或企业出具相应盖章函件证明方可建立)。
1. 任务一
任务一的目标是提供一个低门槛、易参与的、可选赛事任务。任务一将在 2021 年 12 月16 日冻结榜单,用于学习奖励核定(请参见AIWIN 另行发布的学习活动说明)。17 日将重新开放一个学习榜单并长期开放任务,用于长期学习打榜。
任务一将提供开放训练集,针对「年份」和「金额」两类信息做针对性的手写体识别训练和预测。
选手可通过 AIWIN 平台「参赛提交」——「下载」 的路径,查看并下载任务一数据集(其包含训练集和测试集)。
选手完成模型训练后,可尝试测试集,并产出识别结果,按 B 小节的提交要求提交后,获得排名。
任务一期间,将同步开放训练平台(notebook.aiwin.org.cn)供选手选择使用,其默认提供容器环境 Terminal(默认支持多类型的机器学习框架,但不支持外网链接,任务二仅提供此环境),以及标准的 Jupyter Notebook 环境(仅任务一过程可用)。建议主攻任务二的选手提前熟悉 Terminal 环境,并通过任务一熟悉评分机制和数据。
请注意赛题命题方希望选手尽量使用端到端的单个模型,而非使用多种预测模型然后对多个模型的预测值做处理再得到结果的方式(该要求非强制)。因为该赛题为面向实际应用的赛题,在实际场景中,硬件资源有限,堆叠多个模型会对资源造成压力。如果多个模型都比较轻量,占用资源和单个端到端模型差不多,也可以使用多个模型。建议特别有意向进一步打任务二的选手提前考虑命题方的这一诉求。
本平台要求所有提交内容统一打包为 zip 文件上传(请参见「参赛提交」tab下「下载」板块提供的提交样例),其内包含:
模型输入测试集后输出的结果文件,文件格式统一为json,名称必须统一为answer.json(请注意评审程序会议以'utf-8‘编码格式读取文件)
json 文件内容规范:
{
"image1": {
"result": "陆万捌千零贰拾伍元整",
"confidence": 0.94
},
"image2": {
"result": "付经管院工资",
"confidence": 0.96
},
"image3": {...},
...
}
其中,image对应每一张图片,result对应识别结果,confidence对应其置信度。
2. 任务二
任务二是本赛题的主任务,在 11 月 15 日正式开启,以其最终的 B 榜成绩排名为准考核进入路演答辩,任务二选手不一定必须参与任务一的提交,但建议通过任务一的数据熟悉任务和平台。
任务二采用不可下载的、覆盖信息种类更多的训练集,以及完全封闭的测试集(选手不可见不可得)开展赛事,并要求在指定的容器环境内(notebook.aiwin.org.cn)中完成模型的建模、训练。请注意容器环境支持多种类的机器学习框架,但不支持外网访问。
任务二的训练集为 3 万张图片,包括「金额」、「年份」、「月份」、「日期」以及「银行名称」这 5 类信息。数据仅能通过 Terminal 环境调用加载使用,不可下载。
请注意赛题命题方希望选手尽量使用端到端的单个模型,而非使用多种预测模型然后对多个模型的预测值做处理再得到结果的方式(该要求非强制)。因为该赛题为面向实际应用的赛题,在实际场景中,硬件资源有限,堆叠多个模型会对资源造成压力。如果多个模型都比较轻量,占用资源和单个端到端模型差不多,也可以使用多个模型。建议特别有意向进一步打任务二的选手提前考虑命题方的这一诉求。
选手完成模型训练后,应根据下文B 小节的要求,在指定目录下完成相应模型代码的部署。训练平台将在每天指定时间(预设为凌晨 4 点和下午 4 点,每天两次,具体确定时间待平台公告和文案修正)对部署在指定位置的代码输入测试集,自动运行产出对应的识别结果文件。
选手可在模型提交后 一般 2 小时左右,在训练平台下载输出的识别结果文件(通过点击训练平台前端页面->文件管理->点击下载 answer 按钮即可),并按 C 小节的要求准备好提交物在 AIWIN 平台提交得到评分。
任务二采用 AB 榜模式,其中 A 榜包含测试集5000 条,B 榜包含测试集 5000 条。A 榜将在 12 月 16 日午夜冻结,17 日切换进入 B 榜,B 榜在 12 月 26 日冻结。(时间如有变动将在公告中告知,并邮件等多渠道通知)
在训练平台(notebook.aiwin.org.cn)上,拷贝入指定路径:A 轮提交请放置在 /ocr-A/submit/下,B 轮提交请放置在/ocr-B/submit/下。
选手除需将完整可独立离网执行的代码拷贝如上诉目录,另需准备一个 run.sh,其中应包含必要的脚本用于运行和执行代码,其文件路径应为: /ocr-A(B)/submit/run.sh
训练平台将统一按照 “run.sh path_to_testdata_foler”的方式,执行各代码的 run.sh,path_to_testdata_foler由系统自动输入,该路径为绝对路径,且其下无嵌套文件夹,直接为所有被测的切片图片文件。(此处不同于训练集,训练集按照amoutn,year,day,month和bank又分别组织了 5 个文件夹,而此处不在含有这些分类文件夹,请注意!)
选手应在代码中含有创建并写入结果文件的代码,结果文件统一命名为 answer.json,其路径应该为:A 轮是 /ocr-A/submit/answer.json,B 轮是/ocr-B/submit/answer.json。之后可通过训练平台的「文件管理->点击下载 answer 按钮」下载文件,用于在 AIWIN 平台提交。
代码的 stdout 和 stderr等信息由训练平台统一输出在 submit 根目录下的 log 日志中(通过运行时间的时间戳区分版本),可供代码运行后调试检视使用,可通过训练平台 Web Terminal 查看。
AIWIN平台(ailab.aiwin.org.cn)要求所有提交内容统一打包为 zip 文件上传(请参见「参赛提交」tab下「FILES」板块提供的提交样例),其内包含:模型输入测试集后输出的结果文件,文件格式统一为json,名称必须统一为answer.json(请注意评审程序会议以'utf-8‘编码格式读取文件)
json 文件内容规范:
{
"image1": {
"result": "陆万捌千零贰拾伍元整",
"confidence": 0.94
},
"image2": {
"result": "付经管院工资",
"confidence": 0.96
},
"image3": {...},
...
}
其中,image对应每一张图片,result对应识别结果,confidence对应其置信度。
2.解决方案验证阶段
第 2 轮 B 榜结束提交后,组委会将对B 榜前30 的 选手做复核核验,排除掉可能重复获得资格、或者违反规则等情况的选手。选定最终确定的前 20名的选手,并予以公示。前 20 名选手将被要求提交一份解题思路 PPT。组委会将基于 PPT内容,对 20 强选手的代码进行形式审查(作弊审查)、代码复现,并针对解决方案的创新性等综合维度做评判(不排除针对全部或个别选手要求电话或当面沟通答辩),最终确定进入终选的10 名选手。
团队简介:团队整体介绍,以及每个成员的介绍、成员分工
3.终选答辩
拟于 2022 年 1 月中旬(拟)举办终选答辩。入选终选的选手将通过线下或线上的方式参与最终的评审答辩,综合线上排名、终选答辩及命题方考量的其他维度综合确定最终的排名和奖项归属。
六、评价方式
线上排名
线上任务一和任务二采用统一的评价指标,计算公式如下:
注:上述公示中 D(X,Y)的函数,表征的是字符间编辑距离(Levenshtein Distance)
终选方式
综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。
七、特别说明
(1)竞赛数据:赛事提供的数据仅能用于指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分;
(2)算法代码:各参赛者应按比赛设定要求提交完整的解决方案(包括代码、模型、文档等),并保证解决方案可独立自主由比赛组织方和出题单位在脱机环境下运行使用,复现结果;
(3)作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩、追回奖励(如已发放)并保留追究法律责任的权利;
(4)知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。
(5)上述约定已在比赛规则中载明,选手报名成功本赛事,即默认选手已阅读并同意比赛规则的所有条款。
八、赛事奖励
1. 赛事奖金与奖励
2. 证书
所有获奖选手(含学习奖励奖项与竞赛奖励奖项)将颁发盖有“世界人工智能创新大赛组委 会”的赛事证书,对应赛题的证书上将同时印刻有赛事命题方的官方 logo .
所有报名学习计划并通过考核的,将获得由组委会和 Datawhale 共同颁发的学习证明。
3. 直通 AI 菁英实训营
AI 菁英实训营是 AIWIN 的联动合作项目之一,将在每年暑期面向高年级本科生和研究生举办。通过 1 周的集中理论和技术培训,4 周的企业驻场项目实训,1 周的路演筹备和项目汇报,为同学们提供绝佳的掌握一线AI 技术应用和体验大厂的职场生涯的机会。往年参与企业有中国工商银行、太平洋保险、Artefact、卫宁健康、海通证券等,参与的高校学子来自上海纽约大学、清华大学、复旦大学、电力大学等。获奖选手将获得直通 2022 年实训营的资格。
4. 入选人才库
有意向进一步和 AIWIN 广大生态企业产生互动,无论是实习还是参与校招、社招的选手,可以投递简历至 AIWIN,并由 AIWIN 结合选手在不同赛季不同赛题的综合表现,向用人方出具相应证明和推荐。
评价方式
线上排名
线上任务一和任务二采用统一的评价指标,计算公式如下:
注:上述公式中 D(X,Y)的函数,表征的是字符间编辑距离(Levenshtein Distance)
终选方式
综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。
A)团队被授权使用带有机构名的团队名称,并正式代表机构参赛(请具体列明比赛名称)
B)团队成员列表,包含真实姓名、职务、email、AIWIN 比赛平台的 ID
C)请盖机构章
1. 请注意当前已进入 B 榜提交周期,在线训练平台上需按照ocr-B或者heart-B创建目录,才会开始跑 B 榜测试集,请勿忘记切换目录
2. B 榜评分仅限尝试 2 次,由于系统设定的限制,团队中每个人员视作独立提交个体,即实际将拥有 2*N 次机会。为了公平,我们最终将查看排行榜上显示的“提交”列,其显示的是账号或团体提交的次数,超过 2 次成功提交的视作违规(提交次数列由于计入 failed 状态,因此我们会人工检视,超过 2 次能够得分的提交视作违规)。请各以团队方式参赛的注意,请确保团队内协同所有成员累计成功提交次数不要超过 2 次。切记!
请务必使用训练平台前,阅读操作手册 官方训练平台说明手册
当前已完成系统资源升级,容器当前提供 2CPU12G 的资源
请当前有容器环境在运行的,删除当前容器,重建容器后即能体验
1. 排行榜显示的系统设定: AIWIN 比赛平台,对于每一个阶段的排行榜显示,可控制的按钮规则为「如果新提交的得分高于旧提交,则将提交分数纳入排行榜」,如其关闭,则排行榜上的分数是「显示最近一次提交分数」的方式,如其开启,则排行榜上的分数将对比「当前提交分数」和「开关开启后」记录的「最高分数」,选择分高者显示。请注意,这里特别提到的是「开关开启后」记录的「最高分数」,即这里显示的是开关开启后记录下的所有分数的最高分(刚开启时,以开启那一刻的排行榜分数为最高分),而并非真正意义上的历史最高分,特别是当开关在赛中期变更开启的情况。
2. 当前排行版显示模式的设定说明:我们每个竞赛均会征求赛题方意见来设定显示模式,默认为按钮处关闭状态,即「显示最近一次提交分数」。这一默认设定主要是为了让不熟悉本平台操作的小伙伴,在提交后查看排行榜时,能够即刻看到分数的变动和对应本次提交的分数。
3. 更新后排行榜模式变化:基于当前选手们的反馈,我们决定做如下变更
(1)任务一已开启开关,但我们将根据选手们进一步的反馈,来确定是否需要调整会原有状态。主要影响点仍就在于是否这种显示模式有利于大家,特别是新手,查看「当前提交物」的分数。
(2)任务二已开启开关,当前显示的是「开关开启后」记录的「最高分数」
4. 排行榜模式变更后,大家查看排行榜时请记得,其显示的分数「不一定」是「当前提交的得分」。该分数请回到「参赛提交」-「Submit」页面下查看。
1.11 月 15 日正式开启官方训练平台的访问,请大家注意平台账户系统暂未和本平台打通,请重新注册。请使用前阅读官方训练平台说明手册
2.11 月 15 日同步启动任务二,大家可以在官方训练平台启动任务二的开发环境后访问到训练集
3. 由大赛联合 Datawhale 推出的赛事社群版 Baseline 已上线,具体请查看「Baseline」页面
1. 对赛事规则做了补充,明确「机构参赛」这种特殊团队的创建流程需提交机构证明至aiwin@aispacesh.com
2. 修正了平台操作手册的部分错误文字
1.根据命题方的修正,我们今天上线更新了评审程序 2.0,并已对排行榜上所有 更新前的排名提交作重新运行判分(11 月 11 日截止下午 14:45)
1. 今日我们正式上线学习计划(左侧菜单栏中有具体信息),并更新了相应的奖励办法(左侧添加了「竞赛奖励」)
2. 当前官方训练平台尚未启用,请大家可以先注册用户,具体上线启用时间待通知和公告
3. 今日是我们首场学习计划的 OCR 方向直播,请大家 20:00 准时收看哦
今天起赛事正式启动,大家可开始下载数据集,使用开放训练集进行模型开发,并采用测试集输出结果文件。
训练平台暂未开放,请等待进一步通知。
11 月 15 日正式开启官方训练平台的访问,请大家注意平台账户系统暂未和本平台打通,请重新注册。请使用前阅读官方训练平台说明手册
https://aistudio.baidu.com/aistudio/projectdetail/2612313
当前最低分数为:0.78875,高于或等于该分数即算组通过考核。
预计 11 月 20-28 日推出任务二的baseline
1. 赛事奖金与奖励
2. 证书
所有获奖选手(含学习奖励奖项与竞赛奖励奖项)将颁发盖有“世界人工智能创新大赛组委 会”的赛事证书,对应赛题的证书上将同时印刻有赛事命题方的官方 logo .
所有报名学习计划并通过考核的,将获得由组委会和 Datawhale 共同颁发的学习证明。
3. 直通 AI 菁英实训营
AI 菁英实训营是 AIWIN 的联动合作项目之一,将在每年暑期面向高年级本科生和研究生举办。通过 1 周的集中理论和技术培训,4 周的企业驻场项目实训,1 周的路演筹备和项目汇报,为同学们提供绝佳的掌握一线AI 技术应用和体验大厂的职场生涯的机会。往年参与企业有中国工商银行、太平洋保险、Artefact、卫宁健康、海通证券等,参与的高校学子来自上海纽约大学、清华大学、复旦大学、电力大学等。获奖选手将获得直通 2022 年实训营的资格。
4. 入选人才库
有意向进一步和 AIWIN 广大生态企业产生互动,无论是实习还是参与校招、社招的选手,可以投递简历至 AIWIN,并由 AIWIN 结合选手在不同赛季不同赛题的综合表现,向用人方出具相应证明和推荐。
Start: 十一月 8, 2021, 9 a.m.
概述: 赛事持续开放报名,任务一提供开放下载的训练集和测试集,并配套学习营,欢迎反复练习打榜。任务一榜单和提交将在12月16日午夜后关闭24小时,在18日9点(拟)重新恢复供学习使用。
Start: 十一月 15, 2021, 午夜
概述: 赛事持续开放报名,任务二采用不可下载的训练集和隐藏的测试集,提供线上容器训练环境(仅 Terminal,无网络)。任务二采用 AB 榜模式,此为 A 榜阶段。
Start: 十二月 17, 2021, 午夜
概述: 赛事持续开放报名,任务二采用不可下载的训练集和隐藏的测试集,提供线上容器训练环境(仅 Terminal,无网络)。任务二采用 AB 榜模式,此为 B 榜阶段。
Start: 十二月 27, 2021, 午夜
概述: 基于任务二B榜的最终结果,要求20名选手提交解决方案简报,将复审解决方案和代码模型。
Start: 一月 15, 2022, 8 a.m.
概述: 2022 年 1 月中旬,最终10名选手参与终选答辩,产出最终的排名。
三月 31, 2022, 8 a.m.
请登陆来参加比赛
登入