文化传媒数字资产的自动编目竞赛

主办方: 上海东方传媒技术有限公司 - 当前服务器时间 十一月 30, 2021, 1:22 a.m. UTC+8
奖励 ¥120000
参赛提交

初始阶段

报名训练阶段
四月 16, 2021, 4 p.m. UTC+8

终止阶段

Competition Ends
七月 9, 2021, 8 a.m. UTC+8

关于本赛题当前状态的说明和通知

1. 比赛当前仍可报名,且接受训练集、验证集访问的申请,请在本页面「参赛提交」报名后,点击「下载」栏目获取保密协议模板和填写指南,通过http://aimorrow.mikecrm.com/5p33IqN提交保密协议获取数据

2. 当前验证集已上线,且已邮件通知各获取到训练集的团队或个人

3. 赛事的线上测试提交环境将采用 docker 提交的方式,测试集不提供给选手线上直接输入模型产出结果进行评分。请选手们做好相应准备,测试正式开始预计为 5 月 20 日,将邮件另行通知。

赛题考官

SMG融媒体中心、上海东方传媒技术有限公司、SMG版权资产中心联合命题

评审算力由优刻得 UCloud 支持

[2021AIWIN文化传媒数字资产的自动编目赛题解读]

 

赛题背景

随着融合媒体的的发展,视频版权内容的价值日益凸显。为了更好的将视频内容转化为未来长期可用的数字资产,让用户可以方便快速的检索到所需要的视频内容,视频内容编目工作就尤为重要。而海量的融媒体内容,如仍使用人工编目的方式,在时效性和成本上都难以应对。


新闻类型的内容在入库之时:
① 需要人工对每条新闻进行拆条;
② 专业的内容编目人员添加语义标签;
③ 对新闻内容类别进行归类。

因此本次媒体赛道的赛题,我们希望基于计算机视觉、NLP和语音识别等多模态技术,以新闻视频为类型,通过AI算法自动将完整新闻节目进行时序解构、添加语义标签、并进行内容归类。

赛题任务

本次赛题将提供新闻节目视频集。参赛队对每期新闻节目,利用多模态技术,自动判断每条新闻开始、结束时间,智能添加每条新闻的4个语义标签,以及每条新闻的1个类别。

输入:整档新闻节目

输出:每条新闻起止帧序号 + 每条新闻4个语义标签 + 每条新闻1个类别

赛题数据

[0422更新:本比赛的赛题数据将通过签署保密协议方式提供,即日起开始接受保密协议签署的申请,请大家在下载栏目下获取保密协议及具体签署流程的要求,并在此表单处提交材料申请数据:http://aimorrow.mikecrm.com/5p33IqN]

1. 训练集

赛题面向报名的选手提供多档原始新闻视频节目,语义标签库,及新闻类别库。数据在「参赛提交」标签下「下载」栏目可获得(本赛题数据待公告上线,尽请期待)

A. 数据规模和内容覆盖

200+期多档新闻节目,3000词左右语义标签库,以及60个新闻类别库

  • videos:包含所有原始视频节目

  • tags.xls:语义标签库,共1列

  • categories.xls:新闻类别库,共1列

2.验证集

20+期多档节目,及验证集结果

验证集包含以下2个文件:

  • videos:20+期新闻节目

  • validation.xls:验证集结果包含节目序号Video_ ID,新闻片段序号News_ID,每条新闻的起始帧序号Start_FrameID、结束帧序号End_FrameID、 4个语义标签Tags、归类Label

3. 测试集

70期新闻节目

*验证集与训练集同档,但与测试集不完全同档

赛题赛程和提交要求

本赛题分为四个赛程阶段:

报名训练——线上排名——终选答辩

1.报名训练

该阶段内接受 报名,参赛者自行完成模型训练和验证

A. 时间段:4月16日 —— 5月31日

B. 对象:所有报名该赛题的选手

C. 提供的资料: 训练集、验证集(验证集提供待确定通知)

2. 线上排名

A. 时间段:5月15日(拟) —— 5月31日

B. 对象:所有报名该赛题的选手

C. 提供的资料: 训练集、验证集

D. 提交物:

  • 请在 5 月 31 日前向 bot@aiwin.org.cn 发送一封邮件,标题栏请按「AIWIN-赛题 3- ID」的格式,其中 ID 需对应平台提交预测结果的账号 ID(username),邮件请附上附件解题思路的PPT简报,内容包括但不限于建模方式、外部数据使用说明(附获取链接和获取方式)等

  • 提交模型压缩包文件,测试集在线将作为输入执行模型后输出结果,评分程序将自动在线评分。

    • 提交文件格式统一为.zip

  • 提交压缩包格式为

|-- Test/

|-- A.py

|-- _main_.py

........

|-- result.json

  • json 文件内容规范:

示例如下:

{

// for news_1 in video_1

{

“video_name" : str, // 文件名不含扩展名

“news_id" : int,

"category" : str,

“tags" : [str,str,str,str],

“start_frameID" : int,

“end_frameID” : int

},

// for news_2 in video_1

{

“video_name" : str,

“news_id" : int,

"category" : str,

“tags" : [str,str,str,str]

“start_frameID" : int,

“end_frameID” : int

},

.....

// for news_1 in video_2

.....

// for news_1 in video_3

.....

}

E. 提交规则:每个队伍至多提交 2 次

F. 排名规则:以队伍最新一次提交的排行分数为准

3.终选答辩

A. 时间段:6 月 3 日-6 月 11 日中某天待通知

B. 对象:6 月 2 日(拟)公告前 10 强队伍,邀请参与线下答辩

C. 提交物:线下答辩 PPT 与代码,提交要求和规则届时邮件通知

D. 排名规则:以线下答辩排名 + 线上排名分数决定团队最终名次

评价方式

1.线上排名

任务的评价指标包含:

1,起止时间任务:预测帧F与实际帧F_gt的R-squared

2,多标签分类任务:Jaccard系数

3,多分类任务:Micro F1

排名 = Ranking(任务1) + Ranking(任务2)+Ranking(任务3),*若排名相同,排名优先级参照 任务2>任务1>任务3

2.终选方式

终选将综合选手的线上排名,以及现场路演情况作出最终的排名决定。

赛事规则
 
  1. 参赛人群:大赛面向社会各界开放,不限年龄国籍,高校、科研院所、企业从业人员均可报名参赛。参与大赛组织工作有关单位员工及直系亲属可参赛但不可获奖;
  2. 账号体系:赛事平台的账号体系以个人为单位,注册平台需要提交个人的姓名、学校/单位、邮箱、手机等信息。上述信息仅用于赛事联络和运营。
  3. 赛事报名:赛题报名以单个账号为单位开展。选手根据自身情况,可选择:
  • 个人参赛:选手以个人身份注册账号直接参赛
  • 团队参赛:团队的每个成员均需在比赛平台注册,并通过系统在所参与的赛题上组建团队,并将各队员添加入团队作为成员。每个团队最多 5 人。 团队成员在加入团队后,各自可代表团队提交项目,且团队成员个人成绩(无论成团前后)将被统一视为团队成绩,团队成绩最终成绩取团队各成员所取得的最好成绩。同一团队仅可占 1 席晋级名额和奖项名额,如遇同一团队多名成员占有 1 席以上晋级范围的排名,则名额顺延至下一团队或个人。
  1. 团队变更:
  • 团队变更的允许时段:(1)团队任何成员代表团队完成第一次提交的时间 或 (2)赛事报名截止时间,以这两者中更早发生的时间点为团队变更的最后时机。一旦错过最后时机,团队不得再发生变更;比赛方仅认可团队变更前的团队设定。
  • 团队变更的类型:
    • 团队撤销/删除
  • 团队成员变更(增加、减少)
  1. 作品提交:作品提交的前提是对应的个人参赛者或团队参赛者必须已完成相应的保密协议签订,保密协议无记录的提交结果即使得分,最终也将判分无效。作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩并进行严肃处理;
  2. 排行规则:排行榜以个人账号为单位,依据所提交的结果评分予以排名。如个人账号从属于某团队,则排行榜在该个人账号旁会显示其团队名称。团队的排名以团队中各团队成员的最高排名为准。
  3. 排名验证:赛题出题方、大赛主办方、平台运营方有权利进一步要求参赛者提交代码、解题思路等并基于此检视判断排行分数的合理性,从而对排名进行修正。各赛事赛题的最终排名应以各赛题所发布的公告或通知为准,线上排行榜仅为参考。参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证。
  4. 晋级规则:赛段晋级名额、方式由各赛题设定。若有参赛者主动弃赛,晋级名次顺延。晋级名额中以个人身份参赛的则个人选手个人晋级,如个人从属于某团队,则该团队整体晋级。
  5. 公平竞技:参赛者禁止在指定考核技术能力的范围外,利用规则漏洞或技术漏洞等不良途径提高成绩排名,禁止在比赛中抄袭他人作品、交换答案、使用多个小号,经发现将取消比赛成绩并严肃处理。
  6. 组织声明:组委会保留对比赛规则进行调整修改的权利、比赛作弊行为的判定权利和处置权利、收回或拒绝授予影响组织及公平性的参赛团队奖项的权利。
  7. 竞赛数据:组委会参赛人员使用提供的数据进行指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关赛题的出题方;参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分。
  8. 知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。
  9. 奖励分配:竞赛平台、赛题主办方等均不对物质奖励的分配方式予以负责,物质奖励将颁发给个人参赛者或团队指定的个人。证书等将根据个人参赛和团队参赛予以区分,授予个人或团队(列明个人姓名)
 

该赛题总共两类提交物,按不同赛制阶段分别要求,具体参见赛题详述

一、赛题结果(在线评分)
1. 最终提交物请打包为 ZIP 包,并命名为 T3_ID.zip,其中 ID 为你的 username(登录名,显示在平台右上角的名字)
2. ZIP 包内容:
- 必要包含的是JSON格式的结果文件
- ZIP 包推荐采用 linux 下的 zip 命令打包(带-j 参数,如直接打包文件夹)
- 如提交阶段,提交面板提示提交的为非法 ZIP 包,请确保 ZIP 包命名无中文等非合法英文字符,且压缩包正确;可采用不同系统不同方式打包实验。
3. JSON 文件命名规范:
- 必须为 result.json,如命名错误导致无法评分团队自行负责。
4. JSON 文件内容规范:
json每个元素示例如下:
{
“video_name" : str,//不含扩展名
“news_id" : int,
"category" : str,
“tags" : [str,str,str,str],
“start_frameID" : int,
“end_frameID” : int
}

二、赛题解题思路
- 请在 5 月 31 日前向 bot@aiwin.org.cn 发送一封邮件,标题栏请按「AIWIN-赛题 3- ID」的格式,其中 ID 需对应平台提交预测结果的账号 ID(username),邮件请附上附件解题思路的PPT简报,内容包括但不限于建模方式、外部数据使用说明(附获取链接和获取方式)等

推荐使用本次大赛官方算力支持单位UCloud(优刻得)提供的云资源。

UCloud优刻得(股票简称:优刻得,股票代码:688158)是中国第一家公有云科创板上市公司,公司自主研发IaaS、PaaS、大数据流通平台、AI服务平台等一系列云计算产品,提供公有云、混合云、私有云、专有云在内的综合性行业解决方案。

资源优惠:

  1. 每个参赛团队免费提供200元资源测试金。
  2. GPU云主机、文件存储、对象存储、云主机产品1万元以内享官网原价7折优惠。

以V100S(北京二B可用区)为例,7折优惠价:8.5元/小时。

PS:本优惠为大赛专项优惠,如使用云资源总额超过1万元,可向客户经理申请单独优惠。

优惠报名请通过此链接注册,UCloud工作人员会为您提供测试及服务支持。

# 0515

请各位参赛选手知悉,我们当前已开放验证集,验证集获取方式同训练集。已申请训练集的参赛队伍,会受到我们发放的验证集下载通知和指示。

另 ,线上测试和提交时间请等待通知,拟 5 月 20 日开始。

 

# 0418

该赛题训练数据预期于下周提供各位选手,请各参赛队伍留意网站更新,届时也会给各位已报名的参赛者邮件通知数据上线的情况。

#0421

本比赛的赛题数据将通过签署保密协议方式提供,即日起开始接受保密协议签署的申请,请大家在下载栏目下获取保密协议及具体签署流程的要求,并在此表单处提交材料申请数据:http://aimorrow.mikecrm.com/5p33IqN

  1. 赛事奖金:12万(人民币)赛事奖金池,具体分配如下:         

奖项

数量

奖金(含税)

合计

1

1

60000

60000

2

1

20000

20000

3

1

10000

10000

4

1

6000

6000

5

1

6000

6000

6

1

6000

6000

7

1

3000

3000

8

1

3000

3000

9

1

3000

3000

10

1

3000

3000

合计

120000

2.荣誉证书:赛事将颁发盖有「世界人工智能创新大赛组委会」印章的荣誉证书;

3.2021年暑期AI菁英实训营项目与AIWIN大赛联动,面向大赛优秀参赛选手开放人工智能技术应用场景企业的实训岗位。

开放场景企业与实训方向(现阶段)如下列表,每家企业预计开放5-10个实训岗位。更多企业场景与岗位,将会陆续开放。

企业

实训场景方向

工商银行

金融行业中图像识别方向

国泰君安

金融行业中的自然语言处理方向

海通证券

金融行业NLP方向

中国太保

保险业务场景中图像识别方向

万达信息

OCR技术在医疗领域应用

卫宁健康

人工智能技术与医疗结合

药明生物

人工智能技术在医疗医药场景应用

SMT

人工智能技术与运动技术分析方向

银联智策

人工智能技术结合金融行业

 奖励机制

大赛排名前20%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金1200元”,用于实训营项目。

大赛排名前20%-30%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金600元”,用于实训营项目。

凡参与AIWIN大赛并提交比赛结果的参赛选手,符合实训营入营条件的,可获得优先进入所选择实训企业岗位的机会。

 

报名训练阶段

Start: 四月 16, 2021, 4 p.m.

概述: 此阶段公开接受报名,获取训练集,并自行线下完成模型测试

线上排名阶段

Start: 五月 15, 2021, 8 a.m.

概述: 5月15 日将提供验证集,线上评分测试时间 待通知

终选答辩阶段

Start: 六月 1, 2021, 8 a.m.

概述: 邀请 10 强选手线下答辩,并要求提交 PPT 与代码

比赛结束

七月 9, 2021, 8 a.m.

请登陆来参加比赛

登入