互联网舆情企业风险事件的识别和预警

主办方: 海通证券和中国工商银行 - 当前服务器时间 五月 12, 2021, 5:03 p.m. UTC+8
奖励 ¥120000
参赛提交

上一阶段

报名训练阶段
四月 16, 2021, 4 p.m. UTC+8

当前阶段

线上提交阶段
五月 12, 2021, 午夜 UTC+8

下一阶段

统一评审阶段
五月 17, 2021, 午夜 UTC+8

赛题考官

本赛题由海通证券和中国工商银行联合命题,评审算力(线上阶段)由优刻得 UCloud 支持

海通证券-互联网舆情企业风险时间的识别和预警赛题解读

工商银行-互联网舆情企业风险时间的识别和预警赛题平台支持解读

赛题背景

近些年来,资本市场违约事件频发,财务造假、董事长被抓、股权质押爆仓、城投非标违约等负面事件屡屡出现。而在大数据和人工智能技术加持下,各种新兴的金融风险控制手段也正在高速发展,其中通过采集互联网上的企业舆情信息来挖掘潜在风险事件是一种较为有效的方式。但这些风险信息散落在互联网上的海量资讯中,若能从中及时识别出涉及企业的风险事件,并挖掘出潜在的风险特征,将使得银行、证券等金融机构在风险监控领域中更及时、全面和直观地掌握客户风险情况,大幅提升识别和揭示风险的能力。而风险事件以文本的形式存在,需要采用人工智能方法进行自然语言理解,实现风险事件的高精度智能识别。

赛题任务

从给定的互联网信息中提取、识别出企业主体名称,以及标记风险标签。选手预测标签对应格式为(新闻ID,主体全称,对应风险标签)。

注:

1)每篇互联网信息可能会涉及零到多个主体(公司),每篇互联网信息中对每个主体只预测一个风险标签;

2)赛事会提供一份主体(公司)的全称清单(其范围大于待预测名单),新闻中提及的主体可能为其简称或别名或主体相关的自然人(如其董事长、总经理等),选手提交答案时需要统一识别并将他们映射至主体全称输出在最终的结果文件中。主体全称的映射关系需选手自行处理。

3)请注意在训练集中存在一类「无」标签,其指的是对应的新闻内容中不包含需识别的金融风险事件。对于测试集中此类情况,选手模型在输出时只需准确打上「无」的标签,对应主体标记为「/」即可。即输出的为:"新闻 ID,/ ,无"。

4)测试集(需选手利用模型进行预测)的数据中会包含一些噪音数据,比如在主体(公司)的全称清单之外的舆情等,选手同样需要对其预测,不计入自动评分。

赛题数据

训练集

赛题面向报名的选手提供互联网新闻标题数据作为训练集,数据在「参赛提交」标签下「下载」栏目中获取:

1. 数据规模和内容覆盖

以 CSV 格式提供已标签数据约1万余条,内容包含新闻标题、正文、及对应标签等

2. 元数据:

列名 数据类型 能否为空   备注
NEWS_BASICINFO_SID NUMBER(22) NOT NULL 新闻ID  
NEWS_TITLE VARCHAR2(3000)   新闻标题  
ABSTRACT VARCHAR2(4000)   摘要  
CONTENT CLOB   正文  
AUTHOR VARCHAR2(1000)   作者  
SRC_URL VARCHAR2(1000)   下载源地址  
SOURCE_TYPE VARCHAR2(100)   文章类型 01-新闻;02-论坛;03-博客;04-微博;05-平媒;06-微信;07-视频;08-长微博;09-APP;10-评论;99-其他
PUBLISH_SITE VARCHAR2(100)   来源  
FIRST_WEB VARCHAR2(100)   首发网站名称  
CHANNEL VARCHAR2(100)   网站频道  
NOTICE_DT DATE   发布时间  
COMPANY_NM VARCHAR2(300)   企业名称  
LABEL VARCHAR2(60)   业务标签 主板/创业板/中小板/债券退市 债务逾期 实控人变更 破产重整 股票质押率过高 被政府职能部门处罚 被监管机构罚款或查处 被采取监管措施 重大诉讼仲裁 信息披露违规 等具体参见训练数据

测试集

测试集将在 5 月 12 日统一通过平台提供下载

赛题赛程和提交要求

本赛题分为五个赛程阶段:

报名训练阶段——线上提交阶段——统一评审阶段——代码验证阶段——线下答辩阶段

报名训练阶段

  1. 时间段:4月16日 —— 5月11日
  2. 对象:所有报名该赛题的选手
  3. 提供的资料: 训练集(4 月 16 日起注册团队可下载)
  4. 提交物:此阶段参赛选手自行使用训练集完成模型训练和测试
  5. 线上平台支持:工行-AIWIN 场景孵化平台将用于「代码验证阶段」,并从报名训练阶段即面向选手开放使用。需使用的选手请仔细阅读左侧「线上训练平台说明」,了解访问方式、平台限制等情况。

线上提交阶段(报名持续开放)

  1. 时间段:5月12日 —— 5月16日 24 点
  2. 对象:所有报名该赛题的选手
  3. 提供的资料: 测试集(5 月 12 日注册团队可下载)
  4. 提交物:平台要求所有提交内容统一打包为 zip 文件上传,需包含:
    1. 模型预测结果文件result.csv
    2. csv文件编码请统一为utf8
    3. csv文件内容格式为:ID,COMPANY,LABEL

                    示例:

                   以下是结果文件提交示例:(不加表头,严格按照顺序)

                   79409091,永城煤电控股集团有限公司,债务逾期

                   77786467,赛轮集团股份有限公司,实控人变更

  1. 请注意本阶段提交后不会开展评分,评分将统一在「统一评审阶段」完成,平台将自动迁移提交内容至下一阶段。

统一评审阶段

  1. 时间段: 5 月 17 日 - 5 月 22 日
  2. 对象:所有提交有效结果的参赛队伍
  3. 评审:将根据选手提交完成集中的线上自动评分,并一次性更新排行榜。

代码验证阶段

  1. 时间段:
    1. 5 月 23 日 - 5 月 25 日提交代码
    2. 5 月 26 日- 6 月 2 日评估代码
    3. 6 月 2 日公告入选的 10 强队伍
  2. 对象:公告发布的前 20 名团队,以实际公告和5 月 23日更新的排行榜排名为准
  3. 提供的资料:无
  4. 提交物:需在官方指定的工行-AIWIN 场景孵化平台上部署代码,在线完成新一轮测试集的输出,并得到新一轮分数。同步需提交解题思路 PPT,具体提交方式和操作指引具体待邮件通知。

线下答辩阶段

  1. 时间段:6 月 3 日-6 月 11 日中某天
  2. 对象:公告的前 10 强队伍,以赛事公告为准
  3. 方式:线下答辩方式完成最终的决选

评价方式

统一评审阶段

将选手预测结果和答案进行对比计算出F1值,F1越大约好

F1计算公式为:

P = 预测对的标签总数 / 预测出的标签数

R = 预测对的标签总数 / 需要预测的总标签数

F1 = 2 * P * R /(P+R)

代码验证阶段

  1. 前 20 强所提交代码将基于扩展的训练集产出结果,并按结果分数排名
  2. 赛题专家小组将对前 20 强提交的代码予以检验,判定结果的真实性,并综合结果排名、代码质量、结果真实性等综合因素,最终确定邀请线下答辩的前 10 强队伍。

线下答辩阶段

需要选手进行现场答辩,总评分从模型效果、模型设计及答辩表现三方面评判。具体规则待通知。

特别说明

  1. 本赛题不禁止使用外部数据,但外部数据需为公开数据,在代码验证阶段需在解题思路中具体声明来源与使用方式
  2. 本赛题设定的代码验证阶段的线上运行环境为 Python3.6.5

评价方式

统一评审阶段

将选手预测结果和答案进行对比计算出F1值,F1越大约好

F1计算公式为:

P = 预测对的标签总数 / 预测出的标签数

R = 预测对的标签总数 / 需要预测的总标签数

F1 = 2 * P * R /(P+R)

代码验证阶段

  1. 前 20 强所提交代码将基于扩展的训练集产出结果,并按结果分数排名
  2. 赛题专家小组将对前 20 强提交的代码予以检验,判定结果的真实性,并综合结果排名、代码质量、结果真实性等综合因素,最终确定邀请线下答辩的前 10 强队伍。

线下答辩阶段

需要选手进行现场答辩,总评分从模型效果、模型设计及答辩表现三方面评判。具体规则待通知。

赛事规则
 
  1. 参赛人群:大赛面向社会各界开放,不限年龄国籍,高校、科研院所、企业从业人员均可报名参赛。参与大赛组织工作有关单位员工及直系亲属可参赛但不可获奖;
  2. 账号体系:赛事平台的账号体系以个人为单位,注册平台需要提交个人的姓名、学校/单位、邮箱、手机等信息。上述信息仅用于赛事联络和运营。
  3. 赛事报名:赛题报名以单个账号为单位开展。选手根据自身情况,可选择:
  • 个人参赛:选手以个人身份注册账号直接参赛
  • 团队参赛:团队的每个成员均需在比赛平台注册,并通过系统在所参与的赛题上组建团队,并将各队员添加入团队作为成员。每个团队最多 5 人。 团队成员在加入团队后,各自可代表团队提交项目,且团队成员个人成绩(无论成团前后)将被统一视为团队成绩,团队成绩最终成绩取团队各成员所取得的最好成绩。同一团队仅可占 1 席晋级名额和奖项名额,如遇同一团队多名成员占有 1 席以上晋级范围的排名,则名额顺延至下一团队或个人。
  1. 团队变更:
  • 团队变更的允许时段:(1)团队任何成员代表团队完成第一次提交的时间 或 (2)赛事报名截止时间,以这两者中更早发生的时间点为团队变更的最后时机。一旦错过最后时机,团队不得再发生变更;比赛方仅认可团队变更前的团队设定。
  • 团队变更的类型:
    • 团队撤销/删除
  • 团队成员变更(增加、减少)
  1. 作品提交:作品提交规则按各赛道设定执行。作品提交由单个个人账号执行。参赛作品必须保证原创性,不违反任何中华人民共和国的有关法律,不侵犯任何第三方知识产权或者其他权利;一经发现或经权利人提出并查证,组委会将取消其比赛成绩并进行严肃处理;
  2. 排行规则:排行榜以个人账号为单位,依据所提交的结果评分予以排名。如个人账号从属于某团队,则排行榜在该个人账号旁会显示其团队名称。团队的排名以团队中各团队成员的最高排名为准。
  3. 排名验证:赛题出题方、大赛主办方、平台运营方有权利进一步要求参赛者提交代码、解题思路等并基于此检视判断排行分数的合理性,从而对排名进行修正。各赛事赛题的最终排名应以各赛题所发布的公告或通知为准,线上排行榜仅为参考。参赛选手需要配合组委会对比赛作品的有效性与真实性进行验证。
  4. 晋级规则:赛段晋级名额、方式由各赛题设定。若有参赛者主动弃赛,晋级名次顺延。晋级名额中以个人身份参赛的则个人选手个人晋级,如个人从属于某团队,则该团队整体晋级。
  5. 公平竞技:参赛者禁止在指定考核技术能力的范围外,利用规则漏洞或技术漏洞等不良途径提高成绩排名,禁止在比赛中抄袭他人作品、交换答案、使用多个小号,经发现将取消比赛成绩并严肃处理。
  6. 组织声明:组委会保留对比赛规则进行调整修改的权利、比赛作弊行为的判定权利和处置权利、收回或拒绝授予影响组织及公平性的参赛团队奖项的权利。
  7. 竞赛数据:组委会参赛人员使用提供的数据进行指定赛道的模型训练工作,参赛人员不得将数据用于任何商业用途。若做科研使用,请注明数据来源于相关赛题的出题方;参赛人员不得对外以任何形式转载、发布赛题的训练集、验证集的全部或任意部分。
  8. 知识产权:参赛作品(包含但不限于结果文件、算法、模型、方案等)的相关权利由出题单位、参赛者、官方竞赛平台三方共享。
  9. 奖励分配:竞赛平台、赛题主办方等均不对物质奖励的分配方式予以负责,物质奖励将颁发给个人参赛者或团队指定的个人。证书等将根据个人参赛和团队参赛予以区分,授予个人或团队(列明个人姓名)
 

1. 最终提交物请打包为 ZIP 包,并命名为 T1_ID.zip,其中 ID 为你的 username(登录名,显示在平台右上角的名字)
2. ZIP 包内容:
- 必要包含的是CSV格式的结果文件
- ZIP 包推荐采用 linux 下的 zip 命令打包(带-j 参数,如直接打包文件夹)
- 如提交阶段,提交面板提示提交的为非法 ZIP 包,请确保 ZIP 包命名无中文等非合法英文字符,且压缩包正确;可采用不同系统不同方式打包实验。
3. CSV 文件命名规范:
- 必须为 result.csv,如命名错误导致无法评分团队自行负责。
- 在提交阶段,如果提交错误的文件名,提交面板会提示错误,分数会显示为 0 分,请重新上传
4. CSV 文件内容规范:
- 不包含表头!不包含表头!不包含表头!直接开始输出识别和标签内容
- 三列内容依次顺序为:新闻 ID,主体名称,标签
- 主体名称需统一为主体的标准全称,请参考训练集提供的实体库
- 再次强调,新闻中识别的自然人、法人都统一映射为实体名称库中的实体全称

  1. 赛事奖金:12万(人民币)赛事奖金池,具体分配如下:         

奖项

数量

奖金(含税)

合计

1

1

60000

60000

2

1

20000

20000

3

1

10000

10000

4

1

6000

6000

5

1

6000

6000

6

1

6000

6000

7

1

3000

3000

8

1

3000

3000

9

1

3000

3000

10

1

3000

3000

合计

120000

2.荣誉证书:赛事将颁发盖有「世界人工智能创新大赛组委会」印章的荣誉证书;

3.2021年暑期AI菁英实训营项目与AIWIN大赛联动,面向大赛优秀参赛选手开放人工智能技术应用场景企业的实训岗位。

开放场景企业与实训方向(现阶段)如下列表,每家企业预计开放5-10个实训岗位。更多企业场景与岗位,将会陆续开放。

企业

实训场景方向

工商银行

金融行业中图像识别方向

国泰君安

金融行业中的自然语言处理方向

海通证券

金融行业NLP方向

中国太保

保险业务场景中图像识别方向

万达信息

OCR技术在医疗领域应用

卫宁健康

人工智能技术与医疗结合

药明生物

人工智能技术在医疗医药场景应用

SMT

人工智能技术与运动技术分析方向

银联智策

人工智能技术结合金融行业

 奖励机制

大赛排名前20%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金1200元”,用于实训营项目。

大赛排名前20%-30%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金600元”,用于实训营项目。

凡参与AIWIN大赛并提交比赛结果的参赛选手,符合实训营入营条件的,可获得优先进入所选择实训企业岗位的机会。

 

推荐使用本次大赛官方算力支持单位UCloud(优刻得)提供的云资源。

UCloud优刻得(股票简称:优刻得,股票代码:688158)是中国第一家公有云科创板上市公司,公司自主研发IaaS、PaaS、大数据流通平台、AI服务平台等一系列云计算产品,提供公有云、混合云、私有云、专有云在内的综合性行业解决方案。

资源优惠:

  1. 每个参赛团队免费提供200元资源测试金。
  2. GPU云主机、文件存储、对象存储、云主机产品1万元以内享官网原价7折优惠。

以V100S(北京二B可用区)为例,7折优惠价:8.5元/小时。

PS:本优惠为大赛专项优惠,如使用云资源总额超过1万元,可向客户经理申请单独优惠。

优惠报名请通过此链接注册,UCloud工作人员会为您提供测试及服务支持。

此次赛事有幸获得了中国工商银行-AIWIN 创新孵化平台对赛事训练过程的支持 (请注意代码验证阶段将全面要求选手采用该系统部署代码和线上模型评分),训练阶段使用规则和限制如下:

中国工商银行-AIWIN 创新孵化平台

1 平台简介

中国工商银行-AIWIN 创新孵化平台,集成工银Notebook人工智能环境,是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。

简而言之,是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。

中国工商银行-AIWIN 创新孵化平台适合做数据处理,其用途可以包括数据清理和探索、可视化、机器学习和⼤数据分析等。

中国工商银行-AIWIN 创新孵化平台将为大家提供完备的IDE及丰富的计算资源。

2 平台访问

AIWIN创新孵化平台入口:

http://icbclab.aiwin.org.cn/aiwin/loginPage

如需使用该平台,请点击此处申请(仅 54 套账号,先到先得;为确保资源分配到真正需要的同学手上,请申请时上传一个基本解题思路)

3 平台限制

平台计算资源限制:2C/4G内存/5G存储

可使用的库的限制:已默认安装anaconda 3.5.2和tensorflow1.6cpu版。若需使用其他库,需自行上传安装包进行安装。

网络访问限制:比赛环境内不可访问外部网络、调用外部服务。

4 平台功能

  • 登录

在登录页面输入账号、密码和验证码,点击登录,进入主面板。

 

  • 主面板

登录中国工商银行-AIWIN 创新孵化平台,首先进入主面板。在菜单栏中有Files、Running、Clusters三个选项。Running页面主要展示的是当前正在运行当中的终端和ipynb格式的notebook,我们可以选择结束正在运行的程序。Clusters类目现在已由IPython parallel对接。用到最多的是Files页面,我们可以在这里完成notebook的新建、重命名、复制等操作。

  1. 上传本地文件

点击主面板右上角的Upload,可以从本地上传文件。

1.1 点击upload

1.2 选择本地目录下的文件,点击打开,被选择的文件会显示在主面板中

1.3 选择Uplaod,等待一会儿时间,文件就上传成功了。

  1. 新建Notebook

点击右上角的New可以新建Notebook、文本文件、文件夹或终端。在Notebook下的列表中,可以看到使用的版本是Python3。

  1. 其他操作

对于现有的文件,可以通过勾选文件的方式,对选中文件进行复制、重命名、移动、下载、查看、编辑和删除的操作。

 

  • Notebook编辑界面

新建一个Notebook,进入编辑界面。

一个Notebook的编辑界面主要由四部分组成:名称、菜单栏、工具条以及单元(Cell)。如下图所示:

 

 

  1. 名称

在这里,我们可以修改Notebook的名字,直接点击当前名称,弹出对话框进行修改。 

  1. 菜单栏

菜单栏中有File、Edit、View、Insert、Cell、Kernel、Help等功能。

  1. 工具条

工具条中的功能基本上在菜单中都可以实现,这里是为了能更快捷的操作,将一些常用按钮放了出来。下图是对各按钮的解释。

  1. 单元区域

单元区域是Notebook编辑界面最重要的部分,一共有4种形式的单元:Code、Markdown、Raw NBConvert、Heading,这四种形式可以互相切换。Code用于写代码,Markdown用于文本编辑,Raw NBConvert中的文字或代码等都不会被运行,Heading是用于设置标题的,这个功能已经包含在Markdown中了。

默认的是代码格式,也就是下图中所示的Code。

选择“+”,可以新增单元格;

选择“↑”和“↓”,可以移动单元格,重新排序;

选择剪刀符号,可以删除单元格。

单元格绿⾊代表处于编辑模式,可以编辑文本和代码,蓝⾊代表处于命令模式,可用于执行键盘输入的快捷命令。两种模式可以通过 Esc 和 Enter 来切换

4.1 代码单元

Notebook中的⼤部分⼯作均在代码单元格中完成。编写和执⾏代码都在这⾥,就像我们平时在 IDE 软件⾥敲代码⼀样,给变量赋值、定义函数和类、导⼊包等。执⾏单元格代码可以通过点击Run按钮或者同时按住Shift + Enter来完成,其结果显示在本单元下方。代码单元左边有 In [1]: 这样的序列标记,方便人们查看代码的执行次序。

右上角Python 3的小圆圈在空闲状态下是空的,⽽当运⾏代码时,会被填满,所以可以通过观察它的状态观察程序是否运⾏完成

4.2 Markdown单元

在Markdown单元对文本进行编辑,采用markdown的语法规范,可以设置文本格式、插入链接、图片甚至数学公式。同样使用 Shift + Enter或Ctrl + Enter运行单元来显示格式化的文本。

4.3 快捷键

Notebook ⾃带⼀组快捷键,能让你快速使⽤键盘与单元格交互,⽽⽆需使⽤⿏标和⼯具栏。熟悉这些快捷键需要费⼀点时间,但如果能熟练掌握,将⼤⼤加快你在Notebook中的⼯作速度。所有的快捷键可以通过单元格蓝⾊状态下按“h”来查看:

 

 

 

# 0512

由海通证券和中国工商银行联合命题的「互联网舆情金融风控事件识别与预警」赛题,自 5 月 12 日零点起正式开放测试集下载,请大家登陆系统,在「参赛提交」面板下「下载」栏目获取数据。

请注意,该赛题设定的是「先统一提交、再统一评分」的评分模式,即提交时不评分,待截止提交后统一针对所有有效提交予以评分。此轮提交的截止时间是 5 月 16 日午夜 24 点,请大家抓紧时间。

针对该赛题的设定,有几处予以提醒:
1. 关于预测出风控标签为”无“的情况,其对应实体名称应标记为”/“,而非“ ”(空),即遵循当前训练集和测试集的标记方式予以输出,请勿输出错误。
2. 请遵循提交样例的提示,提交的结果文件不含表头,直接输出结果,并且结果输出请严格按照新闻 ID 的原顺序,依次输出。
3. 针对赛题的测试集,命题方做真值标注时采用了「人工标注」和「机器标注」混合的方式。命题方经过讨论后,决定仅会对「人工标注」的真值答案做对比计分 。测试集中「人工标注」和「机器标注」的比例和详细情况均不公布。

 

#0429 - Datawhale 练习区开放

开源合作伙伴 Datawhale 为了帮助参赛者们更好提升本赛题的成绩,特自行组织了一个模拟练习区,基于其提供的模拟测试集和模拟评审程序,为同学们提供第 1 轮正式提交前的练手环境。

 

请访问:http://ailab.aiwin.org.cn/competitions/54

 

# 0416-赛事启动

此处为本赛题公告区域,赛事重要通知、各阶段最终排行公示将统一公告于此,并同步邮件公告给各位选手

感谢由大赛开源生态合作伙伴 Datawhale 组织的 Baseline 分享,代码当前在 github 分享

报名训练阶段

Start: 四月 16, 2021, 4 p.m.

概述: 此阶段公开接受报名,获取训练集,并自行线下完成模型测试

线上提交阶段

Start: 五月 12, 2021, 午夜

概述: 报名继续,5月12日将提供测试集,5月16日24点前接受提交,提交文件为result.csv,勿忘封装为ZIP提交。此阶段提交后,如提交面板处显示 FAILED 或其他异常则请自检提交内容,如FINISEHD则一般情况下为正常

统一评审阶段

Start: 五月 17, 2021, 午夜

概述: 统一评审,此阶段选手无需操作,并计划于5月22日公告前20名

代码审核阶段

Start: 五月 23, 2021, 午夜

概述: 20强选手被邀请至统一平台上传部署代码,并对新一轮测试集做输出

终选答辩阶段

Start: 六月 3, 2021, 午夜

概述: 最终的10强队伍被邀请参与线下答辩

比赛结束

七月 9, 2021, 8 a.m.

请登陆来参加比赛

登入