保险文本视觉认知问答竞赛

主办方: 中国太平洋保险 - 当前服务器时间 三月 28, 2024, 9:37 p.m. UTC+8
奖励 ¥120000
参赛提交

初始阶段

报名训练阶段
四月 16, 2021, 4 p.m. UTC+8

终止阶段

Competition Ends
七月 9, 2021, 8 a.m. UTC+8

赛题10 强公示

公告排名 排行榜原始排名 提交 ID 团队名 Score 备注
1 1 mikezhang95 来也科技 0.608 (1)  
2 2 lizheng167 深度玄学 0.591 (2)  
3 3 Max SWHL 0.581 (3)  
4 4 nlper   0.578 (4)  
5 5 cccccczk DeepInno 0.576 (5)  
6 6 cookies   0.575 (6)  
  7 zytx121 MLP is all you need 0.573 (7) DeepInno 选择合并,自愿释放一个晋级名额,因此向下递补一个名额
7 8 sun188   0.573 (8)  
8 9 bushou 深度小白 0.572 (9)  
9 10 insteadzou   0.561 (10)  
10 11 fanyani   0.546 (11)  

我们将在今天晚些时候陆续给 10 强团队发送邮件,通知终选答辩的情况

20 强入围的团队我们也将在颁奖典礼(7月 10 日)后统一发放入围的证书

赛题20 强公示

公示排名 排行榜排名 晋级选手或团队(括号中为团队成员 ID)
1 1 SWHL(Max,Reese)
2 2 MLP is all you need(KangChenfei,zytx121)
3 3 DeepInno(cccccczk,sjtu_zb)
4 5 深度不学习(song)
5 7 mikezhang95
6 9 深度小白(bushou,ztfmars,szl)
7 11 深度玄学(lizheng167,DeePBluE)
8 12 sun188
9 13 ext1
10 14 cookies
11 15 cy16
12 16 我是废物(toscanago,toscana,wflrz123,tos)
13 17 insteadzou
14 18 extlight12
15 19 shift
16 20 nlper
17 21 fanyani
18 22 liangbaqiang
19 23 llc_Spring
20 24 light0016

说明:

1. 排行榜第 4 名为cccccczk、第6 名为 zytx121、第 8 名为 bushou、第 10 名为 KangChenfei,因这四位选手后期分别加入队伍切换为团队身份参赛,因此其个人身份参赛的排名和分数不再计算。

2. 原排行榜的第21-24 名的四位选手因此按顺序依次递补占有晋级的第17-20 席位 

3. 此公示在 5 月 23 日 中午 12 点前提出异议有效,我们将在该时间点后锁定 20 强,邮件正式通知 20 强晋级并进入下一阶段的赛事

 

赛题考官

中国太平洋保险,评审算力由优刻得 UCloud 支持

天平洋保险-保险文本视觉认知问答竞赛赛题解读

赛题背景

在寿险、产险、健康险等保险的理赔流程和客户服务环节中,存在大量扫描文档,例如医疗票据、费用清单、病例等。对这些扫描文档进行文字检测与识别,并且提取出结构化信息,可以用于极速理赔、个人健康管理等业务场景。

赛题任务

本次赛题将提供面向保险场景的扫描图片数据集,参赛队利用OCR技术自动识别影像资料后,再通过AI智能判断所识别文字的内在逻辑,回答关于图片的自然语言问题。问题的答案是可以从图片中提取的任何文本/标记。

输入:保险场景的扫描文档(例如:医疗票据)+ 自然语言提问(例如:病人服用的药品清单有什么?)

输出:对应自然语言提问的事实性答案

赛题数据

1. 训练集

赛题面向报名的选手提供原始图片和标注及问答汇编数据,数据在「参赛提交」面板上,「下载」栏目下可获取。

A. 数据规模和内容覆盖

有5000余张左右原始扫描文件及对应的4万余个自然语言问答标注。提供的数据均已做了标注及脱敏。

训练集数据包括:

  • image:包含所有原始票据图像(所下载的为 txt 文件,内含 image 的完整下载链接)
  • train.csv:问答训练库,包含序号(index)、问题 ID(quesiton_id)、图片名称(filename)、问题(question_text)、答案(answer_text),共 5 列
  • readme:数据说明文档

B. 数据内容示例:

本次大赛提供的数据集使用的文档类型包括票据、说明、报告等。混合了印刷、打字和手写的内容。下列仅提供其中两种文档类型:票据和说明书

模板一:

提问:西药费的金额是多少?

回答:140.16

提问:140.16元购买了什么药品?

回答:{甲}缘沙坦胶囊{基}

模板二:

提问:这是一份关于什么药品的说明?

回答:十三味疏肝胶囊

提问:药品的有效期是多久?

回答:1.5年

2. 第 1 轮测试集

测试集数据规模为1000张左右原始扫描文件及对应的7000个自然语言问题,数据内容样例同训练集。

测试集包含以下三个文件:

  • image:包含所有原始票据图像
  • test1.csv:问答测试库,包含序号(index)、问题 ID(quesiton_id)、图片路径(filename)、问题(question_text),共 4 列
  • readme:数据说明文档

3. 第 2 轮测试集

测试集数据规模为1000张左右原始扫描文件及对应的7000个自然语言问题,数据内容样例同训练集。

测试集包含以下三个文件:

  • image:包含所有原始票据图像
  • test2.csv:问答测试库,包含序号(index)、问题 ID(quesiton_id)、图片路径(filename)、问题(question_text),共 4 列
  • readme:数据说明文档

赛题赛程和提交要求

本赛题分为四个赛程阶段:

报名训练——第 1 轮线上排名——第 2 轮线上排名——终选答辩

1. 报名训练

该阶段内接受个人报名、团队登记,参赛者自行完成模型训练和测试

A. 时间段:4月16日 —— 5月11日

B. 对象:所有报名该赛题的选手

C. 提供的资料: 训练集

2.第 1 轮线上排名

A. 时间段:5月12日 —— 5月21日

B. 对象:所有报名该赛题的选手(此阶段仍旧可以继续报名)

C. 提供的资料: 公开的训练集,以及 12 日将上线第 1 轮测试集

D. 提交物:平台要求所有提交内容统一打包为 zip 文件上传(请参见「参赛提交」tab下「下载」板块提供的提交样例),需包含:

  • 模型输出的结果文件,文件格式统一为json,名称必须统一为answer.json
  • json 文件内容规范:

          json文件包括两个关键词“questionid”和“answer”,questionid表示问题的唯一ID,answer应与模型输出的答案相对应。示例如              下:

                 [

                      {"answer": "140.16", "questionId": "Q00001"},

                      {"answer": "{甲}缘沙坦胶囊{基}", "questionId": "Q00002"},

                      ...,

                ]

E. 提交规则:每个队伍每天至多提交 1 次

F. 排名规则:以队伍最佳提交更新排行

3.第 2 轮线上排名

A. 时间段:5月22日 —— 5月28日(午夜 24 点,即 29 日 0 点关闭)

B. 对象: 5 月 23 日公告(拟)前 20 的参赛者/团队参与第 2 轮线上排名

C. 提供的资料:第 2 轮测试集于 24 日提供至前 20 强选手

D. 提交物:选手除线上提交结果文件外,也需通过邮件方式提交解题思路的 PPT

  • 解题思路应为 ppt 文件,内容可包括数据预处理、思路分析、模型建模等要素。提交邮箱和细则请届时参见 20 强通知邮件。

E. 提交规则:每个队伍仅能提交 1 次

4.终选答辩

A. 时间段:6 月 3 日-6 月 11 日中某天待通知

B. 对象:6 月 2 日(拟)公告前 10 强队伍,邀请参与线下答辩

C. 提交物:线下答辩 PPT ,提交要求和规则届时邮件通知

D. 排名规则:以线下答辩排名 + 第 2 轮线上排名分数决定团队最终名次

评价方式

1.线上排名

任务的评价指标包含:字符级准确率(Normalized Levenshtein)、精确匹配准确率。

字符级准确率指标能够平滑地反映OCR识别错误,对准确提取信息但OCR识别有误的情况进行少量惩罚。为了区分信息被准确提取但识别错误或者完全错误,该指标设置了一个阈值τ=0.5,大于等于0.5就使用原始分数,否则用0代替。

字符级准确率具体计算公式如下,其中N为提问总数,M为每个提问提供的标准回答数量,aij表示第i个提问的第j个标准回答,oi表示对第i个提问的模型回答结果。

精确匹配准确率用来更严格地评价算法模型的性能,只有当算法输出结果与答案完全一致时,才认为该结果是正确的。

精确匹配准确率具体计算公式如下,其中N为提问总数,M为每个提问提供的标准回答数量,aij表示第i个提问的第j个标准回答,oi表示对第i个提问的模型回答结果。

另外,计算上述两项评价指标比较字符串时,会忽略英文大小写、空格字符、全半角字符的差异。

排行榜中,将输出各提交的字符集准确率(Char_Match)、精确匹配准确率(Exact_Match),以及基于上述两个分数产出的综合得分(Score),并以综合得分作为排名依据。

2.终选方式

终选将综合选手的第 2 轮线上排名,以及现场路演情况作出最终的排名决定。

赛事规则
 
  1. 参赛人群:大赛面向社会各界开放,不限年龄国籍,高校、科研院所、企业从业人员均可报名参赛。参与大赛组织工作有关单位员工及直系亲属可参赛但不可获奖;
  2. 账号体系:赛事平台的账号体系以个人为单位,注册平台需要提交个人的姓名、学校/单位、邮箱、手机等信息。上述信息仅用于赛事联络和运营。
  3. 赛事报名:赛题报名以单个账号为单位开展。选手根据自身情况,可选择:
  • 个人参赛:选手以个人身份注册账号直接参赛
  • 团队参赛:团队的每个成员均需在比赛平台注册,并通过系统在所参与的赛题上组建团队,并将各队员添加入团队作为成员。每个团队最多 5 人。 团队成员在加入团队后,各自可代表团队提交项目,且团队成员个人成绩(无论成团前后)将被统一视为团队成绩,团队成绩最终成绩取团队各成员所取得的最好成绩。同一团队仅可占 1 席晋级名额和奖项名额,如遇同一团队多名成员占有 1 席以上晋级范围的排名,则名额顺延至下一团队或个人。
  1. 团队变更:
  • 团队变更的允许时段:(1)团队任何成员代表团队完成第一次提交的时间 或 (2)赛事报名截止时间,以这两者中更早发生的时间点为团队变更的最后时机。一旦错过最后时机,团队不得再发生变更;比赛方仅认可团队变更前的团队设定。
  • 团队变更的类型:
    • 团队撤销/删除
  • 团队成员变更(增加、减少)
  1. 作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩并进行严肃处理;
  2. 排行规则:排行榜以个人账号为单位,依据所提交的结果评分予以排名。如个人账号从属于某团队,则排行榜在该个人账号旁会显示其团队名称。团队的排名以团队中各团队成员的最高排名为准。
  3. 排名验证:赛题出题方、大赛主办方、平台运营方有权利进一步要求参赛者提交代码、解题思路等并基于此检视判断排行分数的合理性,从而对排名进行修正。各赛事赛题的最终排名应以各赛题所发布的公告或通知为准,线上排行榜仅为参考。参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证。
  4. 晋级规则:赛段晋级名额、方式由各赛题设定。若有参赛者主动弃赛,晋级名次顺延。晋级名额中以个人身份参赛的则个人选手个人晋级,如个人从属于某团队,则该团队整体晋级。
  5. 公平竞技:参赛者禁止在指定考核技术能力的范围外,利用规则漏洞或技术漏洞等不良途径提高成绩排名,禁止在比赛中抄袭他人作品、交换答案、使用多个小号,经发现将取消比赛成绩并严肃处理。
  6. 组织声明:组委会保留对比赛规则进行调整修改的权利、比赛作弊行为的判定权利和处置权利、收回或拒绝授予影响组织及公平性的参赛团队奖项的权利。
  7. 竞赛数据:组委会参赛人员使用提供的数据进行指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关赛题的出题方;参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分。
  8. 知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。
  9. 奖励分配:竞赛平台、赛题主办方等均不对物质奖励的分配方式予以负责,物质奖励将颁发给个人参赛者或团队指定的个人。证书等将根据个人参赛和团队参赛予以区分,授予个人或团队(列明个人姓名)
 

1. 最终提交物请打包为 ZIP 包,并命名为 T2_ID.zip,其中 ID 为你的 username(登录名,显示在平台右上角的名字)
2. ZIP 包内容:
- 必要包含的是JSON格式的结果文件
- ZIP 包推荐采用 linux 下的 zip 命令打包(带-j 参数,如直接打包文件夹)
- 如提交阶段,提交面板提示提交的为非法 ZIP 包,请确保 ZIP 包命名无中文等非合法英文字符,且压缩包正确;可采用不同系统不同方式打包实验。
3. JSON 文件命名规范:
- 必须为 answer.json,如命名错误导致无法评分团队自行负责。
4. JSON 文件内容规范:
json文件包括两个关键词“questionid”和“answer”,questionid表示问题的唯一ID,answer应与模型输出的答案相对应。示例如下:
[
{"answer": "140.16", "questionId": "Q00001"},
{"answer": "{甲}缘沙坦胶囊{基}", "questionId": "Q00002"},
...,
]

AIWIN 百度飞桨AI Studio训练环境

本次太平洋保险命题的《保险文本视觉认知问答竞赛》有幸获得百度支持,为本赛题提供了支持飞桨PaddlePaddle框架的 AI Studio 在线训练场、Tesla V100 GPU算力和参赛基线方案,助您获得更好训练结果。

 

1 AI Studio简介

 AI Studio是基于百度深度学习平台飞桨的人工智能学习与实训社区,提供在线编程环境、免费GPU算力、海量开源算法和开放数据,帮助开发者快速创建和部署模型。

 

2 AI Studio赛题页

 “2021 AIWIN世界人工智能创新大赛:保险文本视觉认知问答”赛题页访问入口:https://aistudio.baidu.com/aistudio/competition/detail/81

 

算力申请

填写表单算力申请【“注册来源”处须填写暗号“AIWIN大赛文本视觉认知问答”才能申请成功】:https://aistudio.baidu.com/aistudio/questionnaire?activityid=1300 

 

算力码的使用和激活教程:https://ai.baidu.com/forum/topic/show/943419

 

4 Baseline说明

Baseline说明、相关在线课程、套件官方资料库等内容详见上述AI Studio赛题页【相关资料】版块,预祝取得好成绩!

 

 

 

常见问题Q&A

•        Notebook项目29问

•        脚本任务项目3问 

•        数据集1问

•        课程学习5问

 

平台功能

平台主要分为项目、数据集、课程、比赛、认证五大部分。

项目:78w+优质项目,覆盖CV、NLP、推荐算法等众多AI热门领域,完美支持Notebook、脚本及图形化任务。

数据集:近6.5w+开放数据集,种类多样,支持数据集预览、下载、上传,单次上传容量高达50GB。

课程:视频、项目、文档三位一体,打造沉浸式学习体验;联合名师,匠心打造体系化课程;免费优质课程,带你快速掌握AI技能。

比赛:成功举办AI大赛70余场,包括新手练习赛、常规赛、高级算法大赛等;比赛持续更新上线中,奖金礼品丰厚,更有招聘绿色通道等你来拿。

认证:深度学习工程师考试由飞桨和Linux Foundation开源软件大学共同创建,通过认证可以获取双重认证,认证人才可以获得百度飞桨人才认证标签、百度AI技术岗位免笔试、生态伙伴岗位联合人才招募“绿色通道”。

 

7 平台限制

AI Studio平台仅支持百度飞桨PaddlePaddle开源框架

推荐使用本次大赛官方算力支持单位UCloud(优刻得)提供的云资源。

UCloud优刻得(股票简称:优刻得,股票代码:688158)是中国第一家公有云科创板上市公司,公司自主研发IaaS、PaaS、大数据流通平台、AI服务平台等一系列云计算产品,提供公有云、混合云、私有云、专有云在内的综合性行业解决方案。

资源优惠:

  1. 每个参赛团队免费提供200元资源测试金。
  2. GPU云主机、文件存储、对象存储、云主机产品1万元以内享官网原价7折优惠。

以V100S(北京二B可用区)为例,7折优惠价:8.5元/小时。

PS:本优惠为大赛专项优惠,如使用云资源总额超过1万元,可向客户经理申请单独优惠。

优惠报名请通过此链接注册,UCloud工作人员会为您提供测试及服务支持。

#0602 更新

赛题10 强公示

公告排名 排行榜原始排名 提交 ID 团队名 Score 备注
1 1 mikezhang95 来也科技 0.608 (1)  
2 2 lizheng167 深度玄学 0.591 (2)  
3 3 Max SWHL 0.581 (3)  
4 4 nlper   0.578 (4)  
5 5 cccccczk DeepInno 0.576 (5)  
6 6 cookies   0.575 (6)  
  7 zytx121 MLP is all you need 0.573 (7) DeepInno 选择合并,自愿释放一个晋级名额,因此向下递补一个名额
7 8 sun188   0.573 (8)  
8 9 bushou 深度小白 0.572 (9)  
9 10 insteadzou   0.561 (10)  
10 11 fanyani   0.546 (11)  

我们将在今天晚些时候陆续给 10 强团队发送邮件,通知终选答辩的情况

20 强入围的团队我们也将在颁奖典礼(7月 10 日)后统一发放入围的证书

# 0522 20强公示

公示排名 排行榜排名 晋级选手或团队(括号中为团队成员 ID)
1 1 SWHL(Max,Reese)
2 2 MLP is all you need(KangChenfei,zytx121)
3 3 DeepInno(cccccczk,sjtu_zb)
4 5 深度不学习(song)
5 7 mikezhang95
6 9 深度小白(bushou,ztfmars,szl)
7 11 深度玄学(lizheng167,DeePBluE)
8 12 sun188
9 13 ext1
10 14 cookies
11 15 cy16
12 16 我是废物(toscanago,toscana,wflrz123,tos)
13 17 insteadzou
14 18 extlight12
15 19 shift
16 20 nlper
17 21 fanyani
18 22 liangbaqiang
19 23 llc_Spring
20 24 light0016

说明:

1. 排行榜第 4 名为cccccczk、第6 名为 zytx121、第 8 名为 bushou、第 10 名为 KangChenfei,因这四位选手后期分别加入队伍切换为团队身份参赛,因此其个人身份参赛的排名和分数不再计算。

2. 原排行榜的第21-24 名的四位选手因此按顺序依次递补占有晋级的第17-20 席位 

3. 此公示在 5 月 23 日 中午 12 点前提出异议有效,我们将在该时间点后锁定 20 强,邮件正式通知 20 强晋级并进入下一阶段的赛事

 

# 0416-赛事启动

此处为本赛题公告区域,赛事重要通知、各阶段最终排行公示将统一公告于此,并同步邮件公告给各位选手

 

#0421-参考资料

太保集团首席AI专家 徐国强 在赛事群内为大家提供了参考的基于中文layoutlm预训练模型的参考资料

【腾讯文档】LayoutLM系列
https://docs.qq.com/doc/DTkRrdXViZGRiZHJ3

【腾讯文档】Layout-Aware Multimodal PreTraining for Document Understanding
https://docs.qq.com/pdf/DTnBYRnJYQVFiSm1v

【腾讯文档】LayoutXLM
https://docs.qq.com/pdf/DTnNhbm14aFdDa2xu

 

本赛题由两个开源合作伙伴分别提供了 baseline:

 

一、Datawhale 的 baseline

感谢由大赛开源生态合作伙伴 Datawhale 组织的 Baseline 分享,代码当前在 github 分享。下面是该 baseline 的讲解

二、百度飞桨 的 baseline

百度飞桨也基于其框架提供了 baseline 大家也可按下面的引导申请 AI studio 的环境权限,直接基于 baseline做进一步开发:

填写表单算力申请【“注册来源”处须填写暗号“AIWIN大赛文本视觉认知问答”才能申请成功】:https://aistudio.baidu.com/aistudio/questionnaire?activityid=1300 

  1. 赛事奖金:12万(人民币)赛事奖金池,具体分配如下:         
奖项 数量 奖金(含税) 合计
第1名 1 60000 60000
第2名 1 20000 20000
第3名 1 10000 10000
第4名 1 6000 6000
第5名 1 6000 6000
第6名 1 6000 6000
第7名 1 3000 3000
第8名 1 3000 3000
第9名 1 3000 3000
第10名 1 3000 3000
合计 120000

2.荣誉证书:赛事将颁发盖有「世界人工智能创新大赛组委会」印章的荣誉证书;

3.2021年暑期AI菁英实训营项目与AIWIN大赛联动,面向大赛优秀参赛选手开放人工智能技术应用场景企业的实训岗位。

开放场景企业与实训方向(现阶段)如下列表,每家企业预计开放5-10个实训岗位。更多企业场景与岗位,将会陆续开放。

企业

实训场景方向

工商银行

金融行业中图像识别方向

国泰君安

金融行业中的自然语言处理方向

海通证券

金融行业NLP方向

中国太保

保险业务场景中图像识别方向

万达信息

OCR技术在医疗领域应用

卫宁健康

人工智能技术与医疗结合

药明生物

人工智能技术在医疗医药场景应用

SMT

人工智能技术与运动技术分析方向

银联智策

人工智能技术结合金融行业

 奖励机制

大赛排名前20%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金1200元”,用于实训营项目。

大赛排名前20%-30%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金600元”,用于实训营项目。

凡参与AIWIN大赛并提交比赛结果的参赛选手,符合实训营入营条件的,可获得优先进入所选择实训企业岗位的机会。

AIWIN论道——【保险文本视觉认知问答竞赛】拔尖提分攻略:2020年DocVQA冠军方案分享  

【分享嘉宾】: 太平洋保险数智研究院人工智能团队  

【分享内容】:  2020年DocVQA冠军方案分享

1、文本检测模型

2、文本识别模型

3、问题生成和机器阅读理解模型

4、启发式规则后处理提分策略

报名训练阶段

Start: 四月 16, 2021, 4 p.m.

概述: 此阶段公开接受报名,获取训练集,并自行线下完成模型测试

第 1 轮排名阶段

Start: 五月 12, 2021, 午夜

概述: 5月12日将提供测试集,接受提交,开展第1轮排名,勿忘提交打包为ZIP

第 2 轮排名阶段

Start: 五月 22, 2021, 午夜

概述: 5 月 22 日将公告前 20 名,提供第 2 轮测试集(仅 1 次提交机会),并接受提交至5月28日

终选答辩阶段

Start: 五月 29, 2021, 午夜

概述: 对 20 强内容检视后确定最终10强开展线下答辩,综合第2轮线上排名成绩,确定最终名次

比赛结束

七月 9, 2021, 8 a.m.

请登陆来参加比赛

登入