保险文本视觉认知问答竞赛

主办方: 中国太平洋保险 - 当前服务器时间 五月 12, 2021, 3:53 p.m. UTC+8
奖励 ¥120000
参赛提交

上一阶段

报名训练阶段
四月 16, 2021, 4 p.m. UTC+8

当前阶段

第 1 轮排名阶段
五月 12, 2021, 午夜 UTC+8

下一阶段

第 2 轮排名阶段
五月 22, 2021, 午夜 UTC+8

赛题考官

中国太平洋保险,评审算力由优刻得 UCloud 支持

天平洋保险-保险文本视觉认知问答竞赛赛题解读

赛题背景

在寿险、产险、健康险等保险的理赔流程和客户服务环节中,存在大量扫描文档,例如医疗票据、费用清单、病例等。对这些扫描文档进行文字检测与识别,并且提取出结构化信息,可以用于极速理赔、个人健康管理等业务场景。

赛题任务

本次赛题将提供面向保险场景的扫描图片数据集,参赛队利用OCR技术自动识别影像资料后,再通过AI智能判断所识别文字的内在逻辑,回答关于图片的自然语言问题。问题的答案是可以从图片中提取的任何文本/标记。

输入:保险场景的扫描文档(例如:医疗票据)+ 自然语言提问(例如:病人服用的药品清单有什么?)

输出:对应自然语言提问的事实性答案

赛题数据

1. 训练集

赛题面向报名的选手提供原始图片和标注及问答汇编数据,数据在「参赛提交」面板上,「下载」栏目下可获取。

A. 数据规模和内容覆盖

有5000余张左右原始扫描文件及对应的4万余个自然语言问答标注。提供的数据均已做了标注及脱敏。

训练集数据包括:

  • image:包含所有原始票据图像(所下载的为 txt 文件,内含 image 的完整下载链接)
  • train.csv:问答训练库,包含序号(index)、问题 ID(quesiton_id)、图片名称(filename)、问题(question_text)、答案(answer_text),共 5 列
  • readme:数据说明文档

B. 数据内容示例:

本次大赛提供的数据集使用的文档类型包括票据、说明、报告等。混合了印刷、打字和手写的内容。下列仅提供其中两种文档类型:票据和说明书

模板一:

提问:西药费的金额是多少?

回答:140.16

提问:140.16元购买了什么药品?

回答:{甲}缘沙坦胶囊{基}

模板二:

提问:这是一份关于什么药品的说明?

回答:十三味疏肝胶囊

提问:药品的有效期是多久?

回答:1.5年

2. 第 1 轮测试集

测试集数据规模为1000张左右原始扫描文件及对应的7000个自然语言问题,数据内容样例同训练集。

测试集包含以下三个文件:

  • image:包含所有原始票据图像
  • test1.csv:问答测试库,包含序号(index)、问题 ID(quesiton_id)、图片路径(filename)、问题(question_text),共 4 列
  • readme:数据说明文档

3. 第 2 轮测试集

测试集数据规模为1000张左右原始扫描文件及对应的7000个自然语言问题,数据内容样例同训练集。

测试集包含以下三个文件:

  • image:包含所有原始票据图像
  • test2.csv:问答测试库,包含序号(index)、问题 ID(quesiton_id)、图片路径(filename)、问题(question_text),共 4 列
  • readme:数据说明文档

赛题赛程和提交要求

本赛题分为四个赛程阶段:

报名训练——第 1 轮线上排名——第 2 轮线上排名——终选答辩

1. 报名训练

该阶段内接受个人报名、团队登记,参赛者自行完成模型训练和测试

A. 时间段:4月16日 —— 5月11日

B. 对象:所有报名该赛题的选手

C. 提供的资料: 训练集

2.第 1 轮线上排名

A. 时间段:5月12日 —— 5月21日

B. 对象:所有报名该赛题的选手(此阶段仍旧可以继续报名)

C. 提供的资料: 公开的训练集,以及 12 日将上线第 1 轮测试集

D. 提交物:平台要求所有提交内容统一打包为 zip 文件上传(请参见「参赛提交」tab下「下载」板块提供的提交样例),需包含:

  • 模型输出的结果文件,文件格式统一为json,名称必须统一为answer.json
  • json 文件内容规范:

          json文件包括两个关键词“questionid”和“answer”,questionid表示问题的唯一ID,answer应与模型输出的答案相对应。示例如              下:

                 [

                      {"answer": "140.16", "questionId": "Q00001"},

                      {"answer": "{甲}缘沙坦胶囊{基}", "questionId": "Q00002"},

                      ...,

                ]

E. 提交规则:每个队伍每天至多提交 1 次

F. 排名规则:以队伍最佳提交更新排行

3.第 2 轮线上排名

A. 时间段:5月22日 —— 5月27日B. 对象: 5 月 23 日公告(拟)前 20 的参赛者/团队参与第 2 轮线上排名

C. 提供的资料:第 2 轮测试集于 24 日提供至前 20 强选手

D. 提交物:选手除线上提交结果文件外,也需通过邮件方式提交解题思路的 PPT

  • 解题思路应为 ppt 文件,内容可包括数据预处理、思路分析、模型建模等要素。提交邮箱和细则请届时参见 20 强通知邮件。

E. 提交规则:每个队伍仅能提交 1 次

4.终选答辩

A. 时间段:6 月 3 日-6 月 11 日中某天待通知

B. 对象:6 月 2 日(拟)公告前 10 强队伍,邀请参与线下答辩

C. 提交物:线下答辩 PPT ,提交要求和规则届时邮件通知

D. 排名规则:以线下答辩排名 + 第 2 轮线上排名分数决定团队最终名次

评价方式

1.线上排名

任务的评价指标包含:字符级准确率(Normalized Levenshtein)、精确匹配准确率。

字符级准确率指标能够平滑地反映OCR识别错误,对准确提取信息但OCR识别有误的情况进行少量惩罚。为了区分信息被准确提取但识别错误或者完全错误,该指标设置了一个阈值τ=0.5,大于等于0.5就使用原始分数,否则用0代替。

字符级准确率具体计算公式如下,其中N为提问总数,M为每个提问提供的标准回答数量,aij表示第i个提问的第j个标准回答,oi表示对第i个提问的模型回答结果。

精确匹配准确率用来更严格地评价算法模型的性能,只有当算法输出结果与答案完全一致时,才认为该结果是正确的。

精确匹配准确率具体计算公式如下,其中N为提问总数,M为每个提问提供的标准回答数量,aij表示第i个提问的第j个标准回答,oi表示对第i个提问的模型回答结果。

另外,计算上述两项评价指标比较字符串时,会忽略英文大小写、空格字符、全半角字符的差异。

排行榜中,将输出各提交的字符集准确率(Char_Match)、精确匹配准确率(Exact_Match),以及基于上述两个分数产出的综合得分(Score),并以综合得分作为排名依据。

2.终选方式

终选将综合选手的第 2 轮线上排名,以及现场路演情况作出最终的排名决定。

赛事规则
 
  1. 参赛人群:大赛面向社会各界开放,不限年龄国籍,高校、科研院所、企业从业人员均可报名参赛。参与大赛组织工作有关单位员工及直系亲属可参赛但不可获奖;
  2. 账号体系:赛事平台的账号体系以个人为单位,注册平台需要提交个人的姓名、学校/单位、邮箱、手机等信息。上述信息仅用于赛事联络和运营。
  3. 赛事报名:赛题报名以单个账号为单位开展。选手根据自身情况,可选择:
  • 个人参赛:选手以个人身份注册账号直接参赛
  • 团队参赛:团队的每个成员均需在比赛平台注册,并通过系统在所参与的赛题上组建团队,并将各队员添加入团队作为成员。每个团队最多 5 人。 团队成员在加入团队后,各自可代表团队提交项目,且团队成员个人成绩(无论成团前后)将被统一视为团队成绩,团队成绩最终成绩取团队各成员所取得的最好成绩。同一团队仅可占 1 席晋级名额和奖项名额,如遇同一团队多名成员占有 1 席以上晋级范围的排名,则名额顺延至下一团队或个人。
  1. 团队变更:
  • 团队变更的允许时段:(1)团队任何成员代表团队完成第一次提交的时间 或 (2)赛事报名截止时间,以这两者中更早发生的时间点为团队变更的最后时机。一旦错过最后时机,团队不得再发生变更;比赛方仅认可团队变更前的团队设定。
  • 团队变更的类型:
    • 团队撤销/删除
  • 团队成员变更(增加、减少)
  1. 作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩并进行严肃处理;
  2. 排行规则:排行榜以个人账号为单位,依据所提交的结果评分予以排名。如个人账号从属于某团队,则排行榜在该个人账号旁会显示其团队名称。团队的排名以团队中各团队成员的最高排名为准。
  3. 排名验证:赛题出题方、大赛主办方、平台运营方有权利进一步要求参赛者提交代码、解题思路等并基于此检视判断排行分数的合理性,从而对排名进行修正。各赛事赛题的最终排名应以各赛题所发布的公告或通知为准,线上排行榜仅为参考。参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证。
  4. 晋级规则:赛段晋级名额、方式由各赛题设定。若有参赛者主动弃赛,晋级名次顺延。晋级名额中以个人身份参赛的则个人选手个人晋级,如个人从属于某团队,则该团队整体晋级。
  5. 公平竞技:参赛者禁止在指定考核技术能力的范围外,利用规则漏洞或技术漏洞等不良途径提高成绩排名,禁止在比赛中抄袭他人作品、交换答案、使用多个小号,经发现将取消比赛成绩并严肃处理。
  6. 组织声明:组委会保留对比赛规则进行调整修改的权利、比赛作弊行为的判定权利和处置权利、收回或拒绝授予影响组织及公平性的参赛团队奖项的权利。
  7. 竞赛数据:组委会参赛人员使用提供的数据进行指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关赛题的出题方;参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分。
  8. 知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。
  9. 奖励分配:竞赛平台、赛题主办方等均不对物质奖励的分配方式予以负责,物质奖励将颁发给个人参赛者或团队指定的个人。证书等将根据个人参赛和团队参赛予以区分,授予个人或团队(列明个人姓名)
 

1. 最终提交物请打包为 ZIP 包,并命名为 T2_ID.zip,其中 ID 为你的 username(登录名,显示在平台右上角的名字)
2. ZIP 包内容:
- 必要包含的是JSON格式的结果文件
- ZIP 包推荐采用 linux 下的 zip 命令打包(带-j 参数,如直接打包文件夹)
- 如提交阶段,提交面板提示提交的为非法 ZIP 包,请确保 ZIP 包命名无中文等非合法英文字符,且压缩包正确;可采用不同系统不同方式打包实验。
3. JSON 文件命名规范:
- 必须为 answer.json,如命名错误导致无法评分团队自行负责。
4. JSON 文件内容规范:
json文件包括两个关键词“questionid”和“answer”,questionid表示问题的唯一ID,answer应与模型输出的答案相对应。示例如下:
[
{"answer": "140.16", "questionId": "Q00001"},
{"answer": "{甲}缘沙坦胶囊{基}", "questionId": "Q00002"},
...,
]

AIWIN 百度飞桨AI Studio训练环境

本次太平洋保险命题的《保险文本视觉认知问答竞赛》有幸获得百度支持,为本赛题提供了支持飞桨PaddlePaddle框架的 AI Studio 在线训练场、Tesla V100 GPU算力和参赛基线方案,助您获得更好训练结果。

 

1 AI Studio简介

 AI Studio是基于百度深度学习平台飞桨的人工智能学习与实训社区,提供在线编程环境、免费GPU算力、海量开源算法和开放数据,帮助开发者快速创建和部署模型。

 

2 AI Studio赛题页

 “2021 AIWIN世界人工智能创新大赛:保险文本视觉认知问答”赛题页访问入口:https://aistudio.baidu.com/aistudio/competition/detail/81

 

算力申请

填写表单算力申请【“注册来源”处须填写暗号“AIWIN大赛文本视觉认知问答”才能申请成功】:https://aistudio.baidu.com/aistudio/questionnaire?activityid=1300 

 

算力码的使用和激活教程:https://ai.baidu.com/forum/topic/show/943419

 

4 Baseline说明

Baseline说明、相关在线课程、套件官方资料库等内容详见上述AI Studio赛题页【相关资料】版块,预祝取得好成绩!

 

 

 

常见问题Q&A

•        Notebook项目29问

•        脚本任务项目3问 

•        数据集1问

•        课程学习5问

 

平台功能

平台主要分为项目、数据集、课程、比赛、认证五大部分。

项目:78w+优质项目,覆盖CV、NLP、推荐算法等众多AI热门领域,完美支持Notebook、脚本及图形化任务。

数据集:近6.5w+开放数据集,种类多样,支持数据集预览、下载、上传,单次上传容量高达50GB。

课程:视频、项目、文档三位一体,打造沉浸式学习体验;联合名师,匠心打造体系化课程;免费优质课程,带你快速掌握AI技能。

比赛:成功举办AI大赛70余场,包括新手练习赛、常规赛、高级算法大赛等;比赛持续更新上线中,奖金礼品丰厚,更有招聘绿色通道等你来拿。

认证:深度学习工程师考试由飞桨和Linux Foundation开源软件大学共同创建,通过认证可以获取双重认证,认证人才可以获得百度飞桨人才认证标签、百度AI技术岗位免笔试、生态伙伴岗位联合人才招募“绿色通道”。

 

7 平台限制

AI Studio平台仅支持百度飞桨PaddlePaddle开源框架

推荐使用本次大赛官方算力支持单位UCloud(优刻得)提供的云资源。

UCloud优刻得(股票简称:优刻得,股票代码:688158)是中国第一家公有云科创板上市公司,公司自主研发IaaS、PaaS、大数据流通平台、AI服务平台等一系列云计算产品,提供公有云、混合云、私有云、专有云在内的综合性行业解决方案。

资源优惠:

  1. 每个参赛团队免费提供200元资源测试金。
  2. GPU云主机、文件存储、对象存储、云主机产品1万元以内享官网原价7折优惠。

以V100S(北京二B可用区)为例,7折优惠价:8.5元/小时。

PS:本优惠为大赛专项优惠,如使用云资源总额超过1万元,可向客户经理申请单独优惠。

优惠报名请通过此链接注册,UCloud工作人员会为您提供测试及服务支持。

# 0416-赛事启动

此处为本赛题公告区域,赛事重要通知、各阶段最终排行公示将统一公告于此,并同步邮件公告给各位选手

 

#0421-参考资料

太保集团首席AI专家 徐国强 在赛事群内为大家提供了参考的基于中文layoutlm预训练模型的参考资料

【腾讯文档】LayoutLM系列
https://docs.qq.com/doc/DTkRrdXViZGRiZHJ3

【腾讯文档】Layout-Aware Multimodal PreTraining for Document Understanding
https://docs.qq.com/pdf/DTnBYRnJYQVFiSm1v

【腾讯文档】LayoutXLM
https://docs.qq.com/pdf/DTnNhbm14aFdDa2xu

 

本赛题由两个开源合作伙伴分别提供了 baseline:

 

一、Datawhale 的 baseline

感谢由大赛开源生态合作伙伴 Datawhale 组织的 Baseline 分享,代码当前在 github 分享。下面是该 baseline 的讲解

二、百度飞桨 的 baseline

百度飞桨也基于其框架提供了 baseline 大家也可按下面的引导申请 AI studio 的环境权限,直接基于 baseline做进一步开发:

填写表单算力申请【“注册来源”处须填写暗号“AIWIN大赛文本视觉认知问答”才能申请成功】:https://aistudio.baidu.com/aistudio/questionnaire?activityid=1300 

  1. 赛事奖金:12万(人民币)赛事奖金池,具体分配如下:         
奖项 数量 奖金(含税) 合计
第1名 1 60000 60000
第2名 1 20000 20000
第3名 1 10000 10000
第4名 1 6000 6000
第5名 1 6000 6000
第6名 1 6000 6000
第7名 1 3000 3000
第8名 1 3000 3000
第9名 1 3000 3000
第10名 1 3000 3000
合计 120000

2.荣誉证书:赛事将颁发盖有「世界人工智能创新大赛组委会」印章的荣誉证书;

3.2021年暑期AI菁英实训营项目与AIWIN大赛联动,面向大赛优秀参赛选手开放人工智能技术应用场景企业的实训岗位。

开放场景企业与实训方向(现阶段)如下列表,每家企业预计开放5-10个实训岗位。更多企业场景与岗位,将会陆续开放。

企业

实训场景方向

工商银行

金融行业中图像识别方向

国泰君安

金融行业中的自然语言处理方向

海通证券

金融行业NLP方向

中国太保

保险业务场景中图像识别方向

万达信息

OCR技术在医疗领域应用

卫宁健康

人工智能技术与医疗结合

药明生物

人工智能技术在医疗医药场景应用

SMT

人工智能技术与运动技术分析方向

银联智策

人工智能技术结合金融行业

 奖励机制

大赛排名前20%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金1200元”,用于实训营项目。

大赛排名前20%-30%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金600元”,用于实训营项目。

凡参与AIWIN大赛并提交比赛结果的参赛选手,符合实训营入营条件的,可获得优先进入所选择实训企业岗位的机会。

报名训练阶段

Start: 四月 16, 2021, 4 p.m.

概述: 此阶段公开接受报名,获取训练集,并自行线下完成模型测试

第 1 轮排名阶段

Start: 五月 12, 2021, 午夜

概述: 5月12日将提供测试集,接受提交,开展第1轮排名,勿忘提交打包为ZIP

第 2 轮排名阶段

Start: 五月 22, 2021, 午夜

概述: 5 月 22 日将公告前 20 名,提供第 2 轮测试集(仅 1 次提交机会),并接受提交至5月28日

终选答辩阶段

Start: 五月 29, 2021, 午夜

概述: 对 20 强内容检视后确定最终10强开展线下答辩,综合第2轮线上排名成绩,确定最终名次

比赛结束

七月 9, 2021, 8 a.m.

请登陆来参加比赛

登入
# 用户名 分数
1 Reese 0.091