发债企业的违约风险预警

主办方: 国泰君安 - 当前服务器时间 十一月 22, 2024, 9:15 a.m. UTC+8
奖励 ¥120000
参赛提交

上一阶段

终选答辩阶段
五月 28, 2022, 午夜 UTC+8

当前阶段

初赛
四月 18, 2022, 8 a.m. UTC+8

终止阶段

Competition Ends
七月 31, 2022, 8 a.m. UTC+8

[置顶公告(0520更新)]

1. 20 号上午复赛预测范围进行微调,已重新发送给各位选手。

另请注意,上午邮件的版本中请移除下面两条或请在复赛群内下载 V3 版本

q7d0b9b150452dc920bf653831917656e,

q8d094628230df44fa6ae916ead0bcff3

2. 初赛排行榜自即日起重新开放,可供学习使用。请注意当前因为已默认切换到复赛提交,因此初赛提交者请记得按照下图,做切换进入初赛提交,以免提交错误!

 

 

竞赛关键要点

AIWIN2022春季赛季技术挑战赛之一,由国泰君安命题,提供来自一线真实业务的发债企业信息和违约历史信息等数据集,设立奖金池奖励。该竞赛过程配套学习内容涵盖基线程序、基线讲解、技术讲座等。该竞赛分数可作为 AI 人才特训营学习考核参照,达到基线分数以上即可有资格竞争暑期实训机会。

 

初赛

复赛

训练集

  • 企业的基本信息(只包含发债企业)
  • 2018-2020年的财务指标数据
  • 2018-2020年的舆情信息(只包含发债企业)
  • 019-2020年的违约记录
  • 企业的基本信息(包含发债企业及其股东企业和对外投资企业)
  • 发债企业的股东信息
  • 发债企业的对外投资信息
  • 2018-2020年的财务指标数据
  • 2018-2020年的舆情信息(包含发债企业及其股东企业和对外投资企业)
  • 2019-2020年的违约记录

 

测试集

请基于给定的提交示例(请在下载-提交样例中获取),并基于其内所列的企业进行预测

请基于给定的提交示例(请在下载-提交样例中获取),并基于其内所列的企业进行预测

开发与模型输出

可线下开发和模型输出,AIWIN 平台提交结果

结果文件命名为answer.csv,请注意分隔符为'|',而非传统','

可线下开发和模型输出,AIWIN 平台提交结果

结果文件命名为answer.csv,请注意分隔符为'|',而非传统','

关键节点(拟)

本竞赛采用初复赛模式开展:

初赛开启:4月18日

初赛截止:5月16日24:00

 

复赛开启:5月19日( 初赛晋级 20 强)

复赛截止:5月27日24:00

解决方案 PPT  和代码提交截止:5 月 27 日 24:00

(请提交至aiwin@aispacesh.com,邮件标题为 T3-个人 ID 或团队名,PPT 和代码请同样按此方式命名)

提交限制

每日最多3次提交;

 

每日最多 3 次提交

奖励

依据:

初赛实名认证成绩方生效,取前 20 名晋级复赛。

 

 

依据:

以复赛分数为准计算技术得分,并综合解决方案的原创性和创意性,最终选拔 10 名晋级决赛答辩。

 

决赛答辩将通过现场评审得分结合技术得分做综合考量。

 

奖励:

  1. 12 万元奖金池
  2. AI 人才特训营直通或优先机会
  3. AIWIN 证书

 

 

竞赛详细文案

一、赛题考官

国泰君安

二、赛题背景

自2014年我国债券市场“刚性兑付”神话被打破后,债券违约现象日益升温,2018年债券市场有160只债券发生违约,涉及44家发债企业,违约余额高达1505.25亿元,违约严重程度达历史之最。在债券市场信用风险加速暴露、违约事件发生趋于常态化的背景下,如何对发债企业违约风险进行有效评估与提前预测成为当前面临的重要监管难题。由于信息不完全,单纯依靠财务数据已难以充分解释违约风险溢价问题。如何有效利用财务以外的其他数据,例如发债企业的舆情数据、股权上下游数据,对发债企业违约风险进行预测具有重要意义。

三、赛题任务

本赛题任务是利用机器学习、深度学习等方法训练一个预测模型,该模型可以学习发债企业的相关信息,以预测发债企业未来一段时间内是否存在违约风险。赛题的难点在于数据集中包括大量的发债企业相关信息(股东信息、对外投资信息以及舆情信息等等),如何从中提取有效的特征并进行风险预测成为本赛题的关键问题。

四、赛题数据

A. 数据规模和内容覆盖

本赛题将提供发债企业2019-2020年之间的违约数据用于模型训练,以预测发债企业在2021年发生违约风险的概率,其中发债企业范围为2019-2021年发行过债券的企业。初复赛提供用于预测的发债企业范围不变,在初赛的基础上,复赛将增加发债企业的股东数据、对外投资数据以及相关企业的舆情数据。

初赛提供的数据集如下:

  • 企业的基本信息(只包含发债企业)
  • 2018-2020年的财务指标数据
  • 2018-2020年的舆情信息(只包含发债企业)
  • 2019-2020年的违约记录

复赛提供的数据集如下:

  • 企业的基本信息(包含发债企业及其股东企业和对外投资企业)
  • 发债企业的股东信息
  • 发债企业的对外投资信息
  • 2018-2020年的财务指标数据
  • 2018-2020年的舆情信息(包含发债企业及其股东企业和对外投资企业)
  • 2019-2020年的违约记录

B. 数据内容示例:

1. ent_info.csv(企业的基本信息)

 

列名

中文名

类型

说明

ent_id

企业ID

string

 

industryphy

国民经济行业门类

string

 

industryco

国民经济行业

string

 

opfrom

经营(驻在)期限自

string

 

opto

经营(驻在)期限至

string

 

esdate

成立日期

string

 

apprdate

核准日期

string

 

regcap

注册资本

double

万元

enttype

企业类型

string

 

entstatus

企业状态

string

 

prov

所属省

string

 

city

所属城市

string

 

country

所属县

string

 

is_bondissuer

是否发债企业

string

Y: 是,N: 否

 

2. ent_shareholder.csv(发债企业的股东信息)

 

 列名

 中文名

 类型

 说明

 ent_id

 企业ID

 string

 

 shid

 股东对应的企业ID

 string

  非企业股东的值为空

 shtype

 股东类型

 string

 

 subconam

认缴出资额

double

  万元

fundedratio

持股比例

double

  取值范围:[0,100]

 

3. ent_invest.csv(发债企业的对外投资信息)

 

列名

中文名

类型

说明

ent_id

企业ID

string

 

b_eid

被投企业的ID

string

 

subconam

投资金额

double

万元

fundedratio

投资比例

double

取值范围:[0,100]

 

 

 

4. ent_financial_indicator.csv(企业的财务指标数据)

 

列名

中文名

类型

说明

ent_id

公司ID

string

 

report_period

报告期

string

 

s_fa_extraordinary

非经常性损益

double

s_fa_deductedprofit

扣除非经常性损益后的净利润

double

s_fa_grossmargin

毛利

double

s_fa_operateincome

经营活动净收益

double

s_fa_investincome

价值变动净收益

double

s_stmnote_finexp

利息费用

double

s_stm_is

折旧与摊销

double

s_fa_ebit

息税前利润

double

s_fa_ebitda

息税折旧摊销前利润

double

s_fa_fcff

企业自由现金流量

double

s_fa_fcfe

股权自由现金流量

double

s_fa_exinterestdebt_current

无息流动负债

double

s_fa_exinterestdebt_noncurrent

无息非流动负债

double

s_fa_interestdebt

带息债务

double

s_fa_netdebt

净债务

double

s_fa_tangibleasset

有形资产

double

s_fa_workingcapital

营运资金

double

s_fa_networkingcapital

营运流动资本

double

s_fa_investcapital

全部投入资本

double

s_fa_retainedearnings

留存收益

double

s_fa_eps_basic

基本每股收益

double

s_fa_eps_diluted

稀释每股收益

double

s_fa_eps_diluted2

期末摊薄每股收益

double

s_fa_bps

每股净资产

double

s_fa_ocfps

每股经营活动产生的现金流量净额

double

s_fa_grps

每股营业总收入

double

s_fa_orps

每股营业收入

double

s_fa_surpluscapitalps

每股资本公积

double

s_fa_surplusreserveps

每股盈余公积

double

s_fa_undistributedps

每股未分配利润

double

s_fa_retainedps

每股留存收益

double

s_fa_cfps

每股现金流量净额

double

s_fa_ebitps

每股息税前利润

double

s_fa_fcffps

每股企业自由现金流量

double

s_fa_fcfeps

每股股东自由现金流量

double

s_fa_netprofitmargin

销售净利率

double

%

s_fa_grossprofitmargin

销售毛利率

double

%

s_fa_cogstosales

销售成本率

double

%

s_fa_expensetosales

销售期间费用率

double

%

s_fa_profittogr

净利润/营业总收入

double

%

s_fa_saleexpensetogr

销售费用/营业总收入

double

%

s_fa_adminexpensetogr

管理费用/营业总收入

double

%

s_fa_finaexpensetogr

财务费用/营业总收入

double

%

s_fa_impairtogr_ttm

资产减值损失/营业总收入

double

%

s_fa_gctogr

营业总成本/营业总收入

double

%

s_fa_optogr

营业利润/营业总收入

double

%

s_fa_ebittogr

息税前利润/营业总收入

double

%

s_fa_roe

净资产收益率

double

%

s_fa_roe_deducted

净资产收益率(扣除非经常损益)

double

%

s_fa_roa2

总资产报酬率

double

%

s_fa_roa

总资产净利润

double

%

s_fa_roic

投入资本回报率

double

%

s_fa_roe_yearly

年化净资产收益率

double

%

s_fa_roa2_yearly

年化总资产报酬率

double

%

s_fa_roe_avg

平均净资产收益率(增发条件)

double

%

s_fa_operateincometoebt

经营活动净收益/利润总额

double

%

s_fa_investincometoebt

价值变动净收益/利润总额

double

%

s_fa_nonoperateprofittoebt

营业外收支净额/利润总额

double

%

s_fa_taxtoebt

所得税/利润总额

double

%

s_fa_deductedprofittoprofit

扣除非经常损益后的净利润/净利润

double

%

s_fa_salescashintoor

销售商品提供劳务收到的现金/营业收入

double

%

s_fa_ocftoor

经营活动产生的现金流量净额/营业收入

double

%

s_fa_ocftooperateincome

经营活动产生的现金流量净额/经营活动净收益

double

 

s_fa_capitalizedtoda

资本支出/折旧和摊销

double

 

s_fa_debttoassets

资产负债率

double

%

s_fa_assetstoequity

权益乘数

double

 

s_fa_dupont_assetstoequity

权益乘数(用于杜邦分析)

double

 

s_fa_catoassets

流动资产/总资产

double

%

s_fa_ncatoassets

非流动资产/总资产

double

%

s_fa_tangibleassetstoassets

有形资产/总资产

double

%

s_fa_intdebttototalcap

带息债务/全部投入资本

double

%

s_fa_equitytototalcapital

归属于母公司的股东权益/全部投入资本

double

%

s_fa_currentdebttodebt

流动负债/负债合计

double

%

s_fa_longdebtodebt

非流动负债/负债合计

double

%

s_fa_current

流动比率

double

 

s_fa_quick

速动比率

double

 

s_fa_cashratio

保守速动比率

double

 

s_fa_ocftoshortdebt

经营活动产生的现金流量净额/流动负债

double

 

s_fa_debttoequity

产权比率

double

%

s_fa_equitytodebt

归属于母公司的股东权益/负债合计

double

%

s_fa_equitytointerestdebt

归属于母公司的股东权益/带息债务

double

%

s_fa_tangibleassettodebt

有形资产/负债合计

double

%

s_fa_tangassettointdebt

有形资产/带息债务

double

%

s_fa_tangibleassettonetdebt

有形资产/净债务

double

%

s_fa_ocftodebt

经营活动产生的现金流量净额/负债合计

double

%

s_fa_ocftointerestdebt

经营活动产生的现金流量净额/带息债务

double

%

s_fa_ocftonetdebt

经营活动产生的现金流量净额/净债务

double

%

s_fa_ebittointerest

已获利息倍数(EBIT/利息费用)

double

%

s_fa_longdebttoworkingcapital

长期债务与营运资金比率

double

%

s_fa_ebitdatodebt

息税折旧摊销前利润/负债合计

double

%

s_fa_turndays

营业周期

double

s_fa_invturndays

存货周转天数

double

s_fa_arturndays

应收账款周转天数

double

s_fa_invturn

存货周转率

double

s_fa_arturn

应收账款周转率

double

s_fa_caturn

流动资产周转率

double

s_fa_faturn

固定资产周转率

double

s_fa_assetsturn

总资产周转率

double

s_fa_roa_yearly

年化总资产净利率

double

%

s_fa_dupont_roa

总资产净利率(杜邦分析)

double

%

s_stm_bs

固定资产合计

double

s_fa_prefinexpense_opprofit

扣除财务费用前营业利润

double

s_fa_nonopprofit

非营业利润

double

s_fa_optoebt

营业利润/利润总额

double

%

s_fa_noptoebt

非营业利润/利润总额

double

%

s_fa_ocftoprofit

经营活动产生的现金流量净额/营业利润

double

%

s_fa_cashtoliqdebt

货币资金/流动负债

double

 

s_fa_cashtoliqdebtwithinterest

货币资金/带息流动负债

double

 

s_fa_optoliqdebt

营业利润/流动负债

double

 

s_fa_optodebt

营业利润/负债合计

double

 

s_fa_roic_yearly

年化投入资本回报率

double

%

s_fa_tot_faturn

固定资产合计周转率

double

s_fa_profittoop

利润总额/营业收入

double

%

s_qfa_operateincome

单季度.经营活动净收益

double

s_qfa_investincome

单季度.价值变动净收益

double

s_qfa_deductedprofit

单季度.扣除非经常损益后的净利润

double

s_qfa_eps

单季度.每股收益

double

s_qfa_netprofitmargin

单季度.销售净利率

double

%

s_qfa_grossprofitmargin

单季度.销售毛利率

double

%

s_qfa_expensetosales

单季度.销售期间费用率

double

%

s_qfa_profittogr

单季度.净利润/营业总收入

double

%

s_qfa_saleexpensetogr

单季度.销售费用/营业总收入

double

%

s_qfa_adminexpensetogr

单季度.管理费用/营业总收入

double

%

s_qfa_finaexpensetogr

单季度.财务费用/营业总收入

double

%

s_qfa_impairtogr_ttm

单季度.资产减值损失/营业总收入

double

%

s_qfa_gctogr

单季度.营业总成本/营业总收入

double

%

s_qfa_optogr

单季度.营业利润/营业总收入

double

%

s_qfa_roe

单季度.净资产收益率

double

%

s_qfa_roe_deducted

单季度.净资产收益率(扣除非经常损益)

double

%

s_qfa_roa

单季度.总资产净利润

double

%

s_qfa_operateincometoebt

单季度.经营活动净收益/利润总额

double

%

s_qfa_investincometoebt

单季度.价值变动净收益/利润总额

double

%

s_qfa_deductedprofittoprofit

单季度.扣除非经常损益后的净利润/净利润

double

%

s_qfa_salescashintoor

单季度.销售商品提供劳务收到的现金/营业收入

double

%

s_qfa_ocftosales

单季度.经营活动产生的现金流量净额/营业收入

double

%

s_qfa_ocftoor

单季度.经营活动产生的现金流量净额/经营活动净收益

double

 

s_fa_yoyeps_basic

同比增长率-基本每股收益(%)

double

%

s_fa_yoyeps_diluted

同比增长率-稀释每股收益(%)

double

%

s_fa_yoyocfps

同比增长率-每股经营活动产生的现金流量净额(%)

double

%

s_fa_yoyop

同比增长率-营业利润(%)

double

%

s_fa_yoyebt

同比增长率-利润总额(%)

double

%

s_fa_yoynetprofit

同比增长率-归属母公司股东的净利润(%)

double

%

s_fa_yoynetprofit_deducted

同比增长率-归属母公司股东的净利润-扣除非经常损益(%)

double

%

s_fa_yoyocf

同比增长率-经营活动产生的现金流量净额(%)

double

%

s_fa_yoyroe

同比增长率-净资产收益率(摊薄)(%)

double

%

s_fa_yoybps

相对年初增长率-每股净资产(%)

double

%

s_fa_yoyassets

相对年初增长率-资产总计(%)

double

%

s_fa_yoyequity

相对年初增长率-归属母公司的股东权益(%)

double

%

s_fa_yoy_tr

营业总收入同比增长率(%)

double

%

s_fa_yoy_or

营业收入同比增长率(%)

double

%

s_qfa_yoygr

单季度.营业总收入同比增长率(%)

double

%

s_qfa_cgrgr

单季度.营业总收入环比增长率(%)

double

%

s_qfa_yoysales

单季度.营业收入同比增长率(%)

double

%

s_qfa_cgrsales

单季度.营业收入环比增长率(%)

double

%

s_qfa_yoyop

单季度.营业利润同比增长率(%)

double

%

s_qfa_cgrop

单季度.营业利润环比增长率(%)

double

%

s_qfa_yoyprofit

单季度.净利润同比增长率(%)

double

%

s_qfa_cgrprofit

单季度.净利润环比增长率(%)

double

%

s_qfa_yoynetprofit

单季度.归属母公司股东的净利润同比增长率(%)

double

%

s_qfa_cgrnetprofit

单季度.归属母公司股东的净利润环比增长率(%)

double

%

s_fa_yoy_equity

净资产(同比增长率)

double

%

rd_expense

研发费用

double

 

5. ent_news.csv(企业的舆情信息)

列名

中文名

类型

说明

ent_id

公司ID

string

 

news_code

新闻编码

string

 

index_type

风险标签类别

string

 

index

风险标签

string

 

imp_score

重要性

int

 

publish_date

发布日期

string

 

publish_time

发布时间

string

 

news_source

新闻来源

string

 

newsc_title

新闻标题

string

 

 

6. ent_default.csv(发债企业违约记录)

列名

中文名

类型

说明

ent_id

公司ID

string

 

default_date

违约日期

string

 

 

7. answer.csv(提交结果样例文件)

列名

中文名

类型

说明

ent_id

公司ID

string

 

default_score

违约风险值

double

取值范围:[0,1]

五、赛题赛程和提交要求

本赛题共分成三个大阶段:

初赛——复赛——终选答辩

本竞赛线上开展初赛和复赛,初赛前20名获得资格进入复赛。

1.初赛

该阶段内接受个人报名、团队登记(报名登记规则请详细阅读比赛规则)。

团队创建需经管理员审核(若正式代表某机构或企业参赛,需机构或企业出具相应盖章函件证明方可建立)。

A 赛程说明:

  1. 初赛将为选手提供赛题数据集,所有数据均可下载。个人选手或个人选手组成的团队,默认在参赛报名时,已勾选了阅读并遵守比赛规则暨保密协议。若团队正式代表某机构或企业,则应当在提请团队审核时,一并递交由企业或机构正式盖章的保密协议。
  2. 选手可通过 AIWIN 平台「参赛提交」——「下载」 的路径,查看并下载初赛提供的数据集以及提交结果样例文件。
  3. 选手完成模型训练后,对提交结果样例文件(请从参赛提交-下载-提交样例获取)中覆盖的企业进行违约风险预测,按 B 小节的提交要求提交后,获得排名。
  4. 请注意本次竞赛要求所有选手完成实名认证方能核算成绩,请未做过实名认证的点击页面右上角进入个人中心,点击“完成实名认证”。实名认证采用三要素:姓名、手机号和身份证,请确保手机号为您本人名下实名认证的号码

B. 结果提交的内容和要求:

  1. 本平台要求所有提交内容统一打包为 zip 文件上传,其内仅包含单一文件 answer.csv

ZIP包请统一命名为 用户 ID_YYMMDD.zip,用户 ID 为你注册时的用户名。

  1. 结果文件,文件格式统一为csv,分隔符为’|’,名称统一为answer.csv。

提交结果样例:

ent_id|default_score

12345|0.89

67890| 0.52

 

C.提交规则: 设定每日最多 3 次提交。

请注意,团队中不同成员的独立提交将会互相覆盖。具体保留在排行榜上的成绩按照 D 小节「排名规则」的设定。

提交截止日期为 2022 年 5 月 16 日午夜 24 点。

 

D. 排名规则

 排行榜以选手历史最佳分数为依据从高到低排序。

E. 晋级规则

排行榜截止排名后,工作人员将对排行榜做复核,确认所有榜上个人和团队都已完成实名认证,并剔除相关小号记录等。拟在 17-18 号内完成最终排名公示,并通知晋级的 20 强队伍。

2. 复赛

A. 赛程说明:

  1. 初赛前20名,获得资格进入复赛。
  2. 复赛将提供新的数据集,和包含预测企业的提交样例(测试范围),选手同样可通过 AIWIN 平台「参赛提交」——「下载」 的路径查看并下载,获取数据集后,各选手线下自行输出测试结果,然后提交到AIWIN平台获取实时分数和排名。
  3. 选手需在 2022527 24 点前(拟),通过aiwin@aispacesh.com,发送解题思路 PPT和相关代码(代码如需请附上 readme,说明运行方式等),具体要求如下:
  1. 邮件标题、解题思路 PPT 命名、代码包请按照「T3-选手名」的方式命名,选手明对于个人参赛选手名即个人 ID,团队参赛选手名即为团队名。
  2. 解题思路 PPT 需包含以下内容:
    1. 如是个人参赛则为个人简介:在职者填写当前职业和在职机构(如方便透露),在校者请填写当前年级、专业、高校;
    2. 或团队简介:团队整体介绍,以及每个成员的介绍、成员分工(请明确每个人的贡献内容)
    1. 赛题理解与问题建模:清楚描述对赛题任务的理解,抽象为模型建立的策略
    2. 数据探索与特征工程:针对赛题提供的数据描述必要的数据特征、数据清洗、特征工程的关键思路和方法;请着重说明复赛阶段如何利用企业上下游相关信息,可用于预测企业违约。
    3. 模型训练和融合:描述模型的训练、实验对比和融合过程与方法;如使用外部数据等,请在此说明数据来源等情况
    4. 代码说明:详细列出包括整体建模采用的基础框架(含版本号)以及依赖的包等必要的帮助运行和复现代码的信息

        3. 如内容较大,邮件不方便传输的,请使用网盘等方式托管内容,并在邮件中提供相应链接和密码。

B. 结果提交的内容和要求:

请注意复赛阶段提交的结果,每个企业必须给定是否违约的判断,0-不违约,1-违约。

C. 提交规则:

每日最多 3 次提交

D. 排名规则

排行榜以选手历史最佳分数为依据从高到低排序。

E. 晋级规则

组委会将结合初赛、复赛线上分数、解决方案的原创性和创新性等综合批评定最后的 10 强进入终选答辩。

六、评价方式

线上排名

初赛评价指标:AUC

复赛评价指标:本次任务采用精确率F1值(F1-measure, F1)、(Precision, P)、召回率(Recall, R)来评估发债企业违约预测的效果。精确率为在被所有预测为正的样本中实际为正样本的概率。召回率为在实际为正的样本中被预测为正样本的概率。

F1值计算如下:f1 = 2*P*R / (P + R)

终选方式

综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。

七、特别说明

(1)竞赛数据:赛事提供的数据仅能用于指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分;

(2)算法代码:各参赛者应按比赛设定要求提交完整的解决方案(包括代码、模型、文档等),并保证解决方案可独立自主由比赛组织方和出题单位在脱机环境下运行使用,复现结果;

(3)作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩、追回奖励(如已发放)并保留追究法律责任的权利;

(4)知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。

(5)上述约定已在比赛规则中载明,选手报名成功本赛事,即默认选手已阅读并同意比赛规则的所有条款。

八、赛事奖励

1. 赛事奖金与奖励

类型

奖项

名次

奖励(税前)

竞赛奖励

(依据综合排名 = B 榜排名 + 复审结果 + 终选答辩排名)

一等奖

1

60000

二等奖

2

20000

三等奖

3

10000

四等奖

4-6

6000

五等奖

7-10

3000

注:

  1. 组委会对上述奖励方案享有最终解释权和调整权
  2. 以上奖金金额为税前金额,奖项获得者需承担个人所得税 20%

2.    证书

所有获奖选手(含学习奖励奖项与竞赛奖励奖项)将颁发盖有“世界人工智能创新大赛组委会”的赛事证书,对应赛题的证书上将同时印刻有赛事命题方的官方 logo

3.    获得 AI 人才特训营实训资格

 AI 人才特训营是春季赛事同步过程中,为各层级 AI 学习者、求职者所涉及的集「学习、考核、竞赛、实习实训」为一体的人才培育项目。我们第一批联动了中国工商银行、中国太平洋保险、药明生物、卫宁健康、万达信息、Arefact、SMT(SMG 技术中心)开放暑期实训岗位(6 周培训+驻厂导师带教项目制实训,有实训项目证明和实训补贴[视企业情况])。竞赛达到基线分数以上即可获得面试机会,达到前 100 名获得优先推荐,获得前10直接获得直通邀请。请注意,为参与最终实训资格的获取请在AI 人才特训营页面单独做一次报名

线上排名

初赛评价指标:AUC

复赛评价指标:本次任务采用精确率F1值(F1-measure, F1)、(Precision, P)、召回率(Recall, R)来评估发债企业违约预测的效果。精确率为在被所有预测为正的样本中实际为正样本的概率。召回率为在实际为正的样本中被预测为正样本的概率。

F1值计算如下:f1 = 2*P*R / (P + R)

终选方式

综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。

赛事规则

  1. 参赛人群:大赛面向社会各界开放,不限年龄国籍,高校、科研院所、企业从业人员均可报名参赛。参与大赛组织工作有关单位员工及直系亲属可参赛但不可获奖;
  2. 账号体系:赛事平台的账号体系以个人为单位,注册平台需要提交个人的姓名、学校/单位、邮箱、手机等信息。上述信息仅用于赛事联络和运营。
  3. 赛事报名:赛题报名以单个账号为单位开展。选手根据自身情况,仅可二选一选择一种身份参赛:
  • 个人参赛:选手以个人身份注册账号直接参赛
  • 团队参赛:团队的每个成员均需在比赛平台注册,并通过系统在所参与的赛题上组建团队,并将各队员添加入团队作为成员。每个团队最多 5 人。 团队成员在加入团队后,各自可代表团队提交项目,且团队成员个人成绩(无论成团前后)将被统一视为团队成绩,团队成绩最终成绩取团队各成员所取得的最好成绩。同一团队仅可占 1 席晋级名额和奖项名额,如遇同一团队多名成员占有 1 席以上晋级范围的排名,则名额顺延至下一团队或个人。
  1. 作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩并进行严肃处理;
  2. 排行规则:排行榜以个人账号为单位,依据所提交的结果评分予以排名。如个人账号从属于某团队,则排行榜在该个人账号旁会显示其团队名称。团队的排名以团队中各团队成员的最高排名为准。
  3. 排名验证:赛题出题方、大赛主办方、平台运营方有权利进一步要求参赛者提交代码、解题思路等并基于此检视判断排行分数的合理性,从而对排名进行修正。各赛事赛题的最终排名应以各赛题所发布的公告或通知为准,线上排行榜仅为参考。参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证。
  4. 晋级规则:赛段晋级名额、方式由各赛题设定。若有参赛者主动弃赛,晋级名次顺延。晋级名额中以个人身份参赛的则个人选手个人晋级,如个人从属于某团队,则该团队整体晋级。
  5. 公平竞技:参赛者禁止在指定考核技术能力的范围外,利用规则漏洞或技术漏洞等不良途径提高成绩排名,禁止在比赛中抄袭他人作品、交换答案、使用多个小号,经发现将取消比赛成绩并严肃处理。
  6. 组织声明:组委会保留对比赛规则进行调整修改的权利、比赛作弊行为的判定权利和处置权利、收回或拒绝授予影响组织及公平性的参赛团队奖项的权利。
  7. 竞赛数据:组委会参赛人员使用提供的数据进行指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关赛题的出题方;参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分。
  8. 知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。
  9. 奖励分配:竞赛平台、赛题主办方等均不对物质奖励的分配方式予以负责,物质奖励将颁发给个人参赛者或团队指定的个人。证书等将根据个人参赛和团队参赛予以区分,授予个人或团队(列明个人姓名)

关于 AI 人才特训营

「AI人才特训营」是一个为在校学生提供AI理论与技能认证学习、考核竞赛并在暑期深入一线企业开展“项目制”实训实践的人才培育项目。自 2020 年起,我们已合作了 12家一线大厂,开放了近 120 个实践岗位,所培育的AI人才涵盖应届与非应届本科和研究生,他们来自复旦大学、同济大学、上海财大、上海理工、清华大学、东南大学、燕山大学、华南理工大学、纽约大学、伦敦大学等海内外院校。

2022 年我们首批合作了 7 家企业,提供包括 AI 工程师、数据分析师、产品经理在内的实训实践岗位:

AIWIN组委会 是2022 年「AI 人才特训营」的联合主办单位,并将 2022 春季赛季作为「AI 人才特训营」的考核方式之一,用于考核选拔学员,取得相应的实践机会。具体AI 人才特训营的过程如下:

更多详情请大家前往官网专题页面了解或直接访问 ailab.aiwin.org.cn

请加aispace-bot 小助手,告知暗号「发债违约」,会拉你入群

我们推荐你通过 Intel DevCloud 平台利用其线上环境和算力完成本竞赛的建模

DevCloud:http://devcloud.intel.com/

 

AIWIN 百度飞桨AI Studio训练环境

【飞桨练习场】

百度飞桨AI Studio平台作为本次比赛的练习场,在A榜阶段为参赛选手提供每天额外1次的成绩测试提交机会,助力大家在大赛官网主赛场中取得优异成绩。

若参与主赛场比赛,选手需登录大赛官网主赛场完成注册报名,并务必在大赛官网主赛场提交初赛及复赛预测结果。


该赛题最终排名榜单以大赛官网主赛场发布的结果为准,百度飞桨AI Studio平台仅作为本次比赛的练习场,欢迎大家参加!

【练习场专属福利】

额外提交机会:百度飞桨AI Studio练习场为参赛选手提供每天1次的成绩测试提交机会,助力大家在大赛官网主赛场中取得优异成绩;
免费GPU算力:百度飞桨AI Studio练习场为参赛选手免费提供GPU算力,报名后即可在「数据集介绍」页面获得算力申请地址

点击访问:https://aistudio.baidu.com/aistudio/competition/detail/222/0/introduction

 

常见问题Q&A

•        Notebook项目29问

•        脚本任务项目3问 

•        数据集1问

•        课程学习5问

 

平台功能

平台主要分为项目、数据集、课程、比赛、认证五大部分。

项目:78w+优质项目,覆盖CV、NLP、推荐算法等众多AI热门领域,完美支持Notebook、脚本及图形化任务。

数据集:近6.5w+开放数据集,种类多样,支持数据集预览、下载、上传,单次上传容量高达50GB。

课程:视频、项目、文档三位一体,打造沉浸式学习体验;联合名师,匠心打造体系化课程;免费优质课程,带你快速掌握AI技能。

比赛:成功举办AI大赛70余场,包括新手练习赛、常规赛、高级算法大赛等;比赛持续更新上线中,奖金礼品丰厚,更有招聘绿色通道等你来拿。

认证:深度学习工程师考试由飞桨和Linux Foundation开源软件大学共同创建,通过认证可以获取双重认证,认证人才可以获得百度飞桨人才认证标签、百度AI技术岗位免笔试、生态伙伴岗位联合人才招募“绿色通道”。

 

平台限制】

AI Studio平台仅支持百度飞桨PaddlePaddle开源框架

如希望提升成绩,达到 baseline 分数,且收获学习证书,可同时报名「AI 人才特训营」,参与本竞赛课程学习和考核(达到 baseline 分数)

直通链接:http://ailab.aiwin.org.cn/courses/activities/1/

请注意,2022 赛季起实名认证都将作为晋级或切榜后成绩有效的前提。

实名认证需通过点击系统右上角用户名处,进入「设定」界面操作。

在此界面请先确认姓名是否为真实姓名,若不是请修改,并点击页面最下方的保存按钮。之后点击「前往实名认证」

在实名认证页面,你需要填入自己的身份证号和手机号(请使用登记在你身份证名下的手机号

若三者信息匹配即可完成实名认证。如有技术问题,请按页面提示联络我们。

结合2022AIWIN春季赛季赛题,机械出版社华章分社推荐以下书籍,希望能够帮助各位参赛选手取得好的成绩!同时对于优秀的参赛选手也将提供部分书籍奖励。感兴趣的同学也可到 AIWIN 专题书单页面购买(京东专题页传送门当当专题页传送门

1.  基于深度学习的自然语言处理

推荐语:将深度学习方法应用于各种自然语言处理任务,可以让你的算法在速度和准确性方面提升到一个全新的水平。本书首先介绍自然语言处理领域的基本构件,接着介绍使用*的神经网络模型可以解决的问题。深入研究各种神经网络架构及其特定的应用领域将有助于你理解如何选择*模型来满足你的需求。随着学习的深入,你将学到卷积神经网络、循环神经网络、递归神经网络以及长短期记忆网络。在后面的章节中,你将能够使用自然语言处理技术(如注意力机制模型和集束搜索)开发应用程序。

 

2.会话式AI:自然语言处理与人机交互

 

推荐语:这是一部讲解如何基于NLP技术和人机交互技术实现聊天机器人的著作。

两位作者聊天机器人领域均有多年大型项目的实战经验,这本书不仅讲解了NLP和人机交互的核心技术,而且从技术、算法、实战3个维度讲解聊天机器人的原理、实现与工程实践。

 

3.  从零构建知识图谱

推荐语:这是一本能让读者快速从零开始构建工业级知识图谱的著作。作者是知识图谱和自然语言处理领域的专家,本书得到了OpenKG联合创始人王昊奋、清华大学教授李涓子、东南大学教授漆桂林、美团知识图谱团队负责人张富峥、文因互联创始人鲍捷等学界和业界知识图谱扛旗人的一致好评和推荐。

本书不仅详细讲解了知识图谱的技术原理和构建工具,而且还循序渐进地讲解了知识图谱的构建方法、步骤和行业应用。配有大量实战案例,并且开放了源代码,确保读者能学会并落地。

 

4. 基于混合方法的自然语言处理:神经网络模型与知识图

推荐语:IBM研究员Ken Barker及谷歌知识图谱Denny Vrandecic作序推荐,介绍神经网络和知识图谱的结合在NLP中的应用。书中准确地演示了如何创建和使用上下文表示,对意义嵌入和知识图谱嵌入有着明确的处理方法,解释了使用它们的语言模型和Transformer体系结构。

 

5. 自然语言理解与行业知识图谱

推荐语:为互联网企业的智能平台构建提供了很好的案例参考,也为行业信息化从业者提供了从入门到进阶的技术指导,适合作为自然语言处理、知识图谱、计算机、人工智能等领域从业者的学习指导书,也非常适合对自然语言处理、知识图谱感兴趣的学生和创业团队阅读。

初赛

Start: 四月 18, 2022, 8 a.m.

概述: 初赛阶段,公开报名,数据开放下载,线上提交结果,初赛截止 5 月 16 日。请注意实名认证后成绩方生效。

复赛

Start: 五月 17, 2022, 午夜

概述: 截止 5 月 27 日,需同步提交解决方案 和代码。如提交报错说企业范围异常,请确认你手中是 V3 版数据,或参考首页公告

终选答辩阶段

Start: 五月 28, 2022, 午夜

概述: 复赛选手应在 27 日 24 点前完成解决方案和代码的提交,复核后将公布晋级的 10 名决赛名单,并组织线上答辩。

比赛结束

七月 31, 2022, 8 a.m.

请登陆来参加比赛

登入
# 用户名 分数
1 Koi 0.9996
2 zui0711 0.9995
3 qhyk 0.9983