经过第二轮线上测试,平台代码审核,最终公示成绩如下,恭喜进入 10 强的团队
第二轮排名 | 参赛者 | 团队 | 分数 | 备注 |
1 | Keras_Yu | 九乡河二队 | 0.61004 | |
2 | jy2211 | 0.59207 | ||
3 | koper | Language Model | 0.57914 | |
4 | newboy | 网络一线牵 | 0.57483 | |
5 | bfgf52 | 0.55246 | ||
6 | Songpeix | MX | 0.52867 | |
7 | bs_lqz | 0.51487 | ||
8 | qq644733859 | 学习交流 | 0.49522 | |
9 | xcj666 | 天才傅里叶 | 0.47442 | |
10 | ccx | 0.46966 | ||
11 | An | 0.46538 | ||
12 | wenkanw | 0.44624 | ||
13 | chaz | 0.39665 | ||
14 | finlay | 阿水 | 0.34736 | |
15 | zyl625 | 索隐科技 | 0.3111 | |
16 | dululu | 暗之队 | 0 | run.sh报错 |
17 | daoyuan | 上海犀语科技有限公司 | 0 | run.sh报错 |
18 | ChunguangPan | DeepBlueAI | 0 | 未提交run.sh |
19 | ash | 草木灰 | 0 | 未提交run.sh |
20 | yejiahao | 0 | 输出内容格式错误 |
20 强公告,恭喜以下团队和个人进入 20 强(表格为团队名 + 分数,按排名顺序展示)
九乡河二队(团队) | 0.327 (1) |
jy2211 | 0.316 (2) |
网络一线牵(团队) | 0.311 (3) |
阿水(团队) | 0.301 (4) |
bfgf52 | 0.299 (5) |
Language Model(团队) | 0.297 (6) |
MX(团队) | 0.293 (7) |
bs_lqz | 0.287 (8) |
索隐科技(团队) | 0.280 (9) |
暗之队(团队) | 0.280 (10) |
An | 0.267 (11) |
天才傅里叶(团队) | 0.267 (12) |
学习交流(团队) | 0.266 (13) |
ccx | 0.264 (14) |
上海犀语科技有限公司(团队) | 0.263 (15) |
chaz(团队) | 0.260 (16) |
DeepBlueAI(团队) | 0.259 (17) |
草木灰(团队) | 0.259 (18) |
wenkanw | 0.255 (19) |
yejiahao | 0.253 (20) |
关于接下来的时间点:
- 5 月 21 日 - 5 月 26 日(中午12 点前)提交代码,线上部署
- 5 月 26 日(12点后)- 6 月 2 日(拟)封锁线上平台登录,统一输入测试集线上评分,并人工评阅评估代码
- 6 月 2 日(拟)公告入选的 10 强队伍
关于线上部署要求:
1. 所有选手需在工行平台部署自身的代码
2. 要求在notebook默认目录(/nfsHome)下创建一个run.sh文件,作为入口程序,该入口程序(sh /nfsHome/run.sh)执行后应读取/nfsHome/in.xlsx作为模型输入,将模型预测结果输出到/nfsHome/result.csv
3. 当前 in.xlsx为模拟数据,用于线上调试
4. 请选手在线完成调试,5 月 26 日12点后工行平台将锁定所有的账号不可访问,并在线替换输入数据集为真实的测试集,完成模型运算和评分
本赛题由海通证券和中国工商银行联合命题,评审算力(线上阶段)由优刻得 UCloud 支持
海通证券-互联网舆情企业风险时间的识别和预警赛题解读
工商银行-互联网舆情企业风险时间的识别和预警赛题平台支持解读
近些年来,资本市场违约事件频发,财务造假、董事长被抓、股权质押爆仓、城投非标违约等负面事件屡屡出现。而在大数据和人工智能技术加持下,各种新兴的金融风险控制手段也正在高速发展,其中通过采集互联网上的企业舆情信息来挖掘潜在风险事件是一种较为有效的方式。但这些风险信息散落在互联网上的海量资讯中,若能从中及时识别出涉及企业的风险事件,并挖掘出潜在的风险特征,将使得银行、证券等金融机构在风险监控领域中更及时、全面和直观地掌握客户风险情况,大幅提升识别和揭示风险的能力。而风险事件以文本的形式存在,需要采用人工智能方法进行自然语言理解,实现风险事件的高精度智能识别。
从给定的互联网信息中提取、识别出企业主体名称,以及标记风险标签。选手预测标签对应格式为(新闻ID,主体全称,对应风险标签)。
注:
1)每篇互联网信息可能会涉及零到多个主体(公司),每篇互联网信息中对每个主体只预测一个风险标签;
2)赛事会提供一份主体(公司)的全称清单(其范围大于待预测名单),新闻中提及的主体可能为其简称或别名或主体相关的自然人(如其董事长、总经理等),选手提交答案时需要统一识别并将他们映射至主体全称输出在最终的结果文件中。主体全称的映射关系需选手自行处理。
3)请注意在训练集中存在一类「无」标签,其指的是对应的新闻内容中不包含需识别的金融风险事件。对于测试集中此类情况,选手模型在输出时只需准确打上「无」的标签,对应主体标记为「/」即可。即输出的为:"新闻 ID,/ ,无"。
4)测试集(需选手利用模型进行预测)的数据中会包含一些噪音数据,比如在主体(公司)的全称清单之外的舆情等,选手同样需要对其预测,不计入自动评分。
赛题面向报名的选手提供互联网新闻标题数据作为训练集,数据在「参赛提交」标签下「下载」栏目中获取:
以 CSV 格式提供已标签数据约1万余条,内容包含新闻标题、正文、及对应标签等
列名 | 数据类型 | 能否为空 | 备注 | |
NEWS_BASICINFO_SID | NUMBER(22) | NOT NULL | 新闻ID | |
NEWS_TITLE | VARCHAR2(3000) | 新闻标题 | ||
ABSTRACT | VARCHAR2(4000) | 摘要 | ||
CONTENT | CLOB | 正文 | ||
AUTHOR | VARCHAR2(1000) | 作者 | ||
SRC_URL | VARCHAR2(1000) | 下载源地址 | ||
SOURCE_TYPE | VARCHAR2(100) | 文章类型 | 01-新闻;02-论坛;03-博客;04-微博;05-平媒;06-微信;07-视频;08-长微博;09-APP;10-评论;99-其他 | |
PUBLISH_SITE | VARCHAR2(100) | 来源 | ||
FIRST_WEB | VARCHAR2(100) | 首发网站名称 | ||
CHANNEL | VARCHAR2(100) | 网站频道 | ||
NOTICE_DT | DATE | 发布时间 | ||
COMPANY_NM | VARCHAR2(300) | 企业名称 | ||
LABEL | VARCHAR2(60) | 业务标签 | 主板/创业板/中小板/债券退市 债务逾期 实控人变更 破产重整 股票质押率过高 被政府职能部门处罚 被监管机构罚款或查处 被采取监管措施 重大诉讼仲裁 信息披露违规 等具体参见训练数据 |
测试集将在 5 月 12 日统一通过平台提供下载
本赛题分为五个赛程阶段:
报名训练阶段——线上提交阶段——统一评审阶段——代码验证阶段——线下答辩阶段
示例:
以下是结果文件提交示例:(不加表头,严格按照顺序)
79409091,永城煤电控股集团有限公司,债务逾期
77786467,赛轮集团股份有限公司,实控人变更
将选手预测结果和答案进行对比计算出F1值,F1越大约好
F1计算公式为:
P = 预测对的标签总数 / 预测出的标签数
R = 预测对的标签总数 / 需要预测的总标签数
F1 = 2 * P * R /(P+R)
需要选手进行现场答辩,总评分从模型效果、模型设计及答辩表现三方面评判。具体规则待通知。
将选手预测结果和答案进行对比计算出F1值,F1越大约好
F1计算公式为:
P = 预测对的标签总数 / 预测出的标签数
R = 预测对的标签总数 / 需要预测的总标签数
F1 = 2 * P * R /(P+R)
需要选手进行现场答辩,总评分从模型效果、模型设计及答辩表现三方面评判。具体规则待通知。
奖项 |
数量 |
奖金(含税) |
合计 |
第1名 |
1 |
60000 |
60000 |
第2名 |
1 |
20000 |
20000 |
第3名 |
1 |
10000 |
10000 |
第4名 |
1 |
6000 |
6000 |
第5名 |
1 |
6000 |
6000 |
第6名 |
1 |
6000 |
6000 |
第7名 |
1 |
3000 |
3000 |
第8名 |
1 |
3000 |
3000 |
第9名 |
1 |
3000 |
3000 |
第10名 |
1 |
3000 |
3000 |
合计 |
120000 |
2.荣誉证书:赛事将颁发盖有「世界人工智能创新大赛组委会」印章的荣誉证书;
3.2021年暑期AI菁英实训营项目与AIWIN大赛联动,面向大赛优秀参赛选手开放人工智能技术应用场景企业的实训岗位。
开放场景企业与实训方向(现阶段)如下列表,每家企业预计开放5-10个实训岗位。更多企业场景与岗位,将会陆续开放。
企业 |
实训场景方向 |
工商银行 |
金融行业中图像识别方向 |
国泰君安 |
金融行业中的自然语言处理方向 |
海通证券 |
金融行业NLP方向 |
中国太保 |
保险业务场景中图像识别方向 |
万达信息 |
OCR技术在医疗领域应用 |
卫宁健康 |
人工智能技术与医疗结合 |
药明生物 |
人工智能技术在医疗医药场景应用 |
SMT |
人工智能技术与运动技术分析方向 |
银联智策 |
人工智能技术结合金融行业 |
奖励机制
l 大赛排名前20%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金1200元”,用于实训营项目。
l 大赛排名前20%-30%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金600元”,用于实训营项目。
凡参与AIWIN大赛并提交比赛结果的参赛选手,符合实训营入营条件的,可获得优先进入所选择实训企业岗位的机会。
# 代码评审阶段(工行平台部署)
1. 所有选手需在工行平台部署自身的代码
2. 要求在notebook默认目录(/nfsHome)下创建一个run.sh文件,作为入口程序,该入口程序(sh /nfsHome/run.sh)执行后应读取/nfsHome/in.xlsx作为模型输入,将模型预测结果输出到/nfsHome/result.csv
3. 当前 in.xlsx为模拟数据,用于线上调试
4. 请选手在线完成调试,5 月 26 日12点后工行平台将锁定所有的账号不可访问,并在线替换输入数据集为真实的测试集,完成模型运算和评分
# 线上提交
1. 最终提交物请打包为 ZIP 包,并命名为 T1_ID.zip,其中 ID 为你的 username(登录名,显示在平台右上角的名字)
2. ZIP 包内容:
- 必要包含的是CSV格式的结果文件
- ZIP 包推荐采用 linux 下的 zip 命令打包(带-j 参数,如直接打包文件夹)
- 如提交阶段,提交面板提示提交的为非法 ZIP 包,请确保 ZIP 包命名无中文等非合法英文字符,且压缩包正确;可采用不同系统不同方式打包实验。
3. CSV 文件命名规范:
- 必须为 result.csv,如命名错误导致无法评分团队自行负责。
- 在提交阶段,如果提交错误的文件名,提交面板会提示错误,分数会显示为 0 分,请重新上传
4. CSV 文件内容规范:
- 不包含表头!不包含表头!不包含表头!直接开始输出识别和标签内容
- 三列内容依次顺序为:新闻 ID,主体名称,标签
- 主体名称需统一为主体的标准全称,请参考训练集提供的实体库
- 再次强调,新闻中识别的自然人、法人都统一映射为实体名称库中的实体全称
推荐使用本次大赛官方算力支持单位UCloud(优刻得)提供的云资源。
UCloud优刻得(股票简称:优刻得,股票代码:688158)是中国第一家公有云科创板上市公司,公司自主研发IaaS、PaaS、大数据流通平台、AI服务平台等一系列云计算产品,提供公有云、混合云、私有云、专有云在内的综合性行业解决方案。
资源优惠:
以V100S(北京二B可用区)为例,7折优惠价:8.5元/小时。
PS:本优惠为大赛专项优惠,如使用云资源总额超过1万元,可向客户经理申请单独优惠。
优惠报名请通过此链接注册,UCloud工作人员会为您提供测试及服务支持。
此次赛事有幸获得了中国工商银行-AIWIN 创新孵化平台对赛事训练过程的支持 (请注意代码验证阶段将全面要求选手采用该系统部署代码和线上模型评分),训练阶段使用规则和限制如下:
中国工商银行-AIWIN 创新孵化平台
1 平台简介
中国工商银行-AIWIN 创新孵化平台,集成工银Notebook人工智能环境,是基于网页的用于交互计算的应用程序。其可被应用于全过程计算:开发、文档编写、运行代码和展示结果。
简而言之,是以网页的形式打开,可以在网页页面中直接编写代码和运行代码,代码的运行结果也会直接在代码块下显示。如在编程过程中需要编写说明文档,可在同一个页面中直接编写,便于作及时的说明和解释。
中国工商银行-AIWIN 创新孵化平台适合做数据处理,其用途可以包括数据清理和探索、可视化、机器学习和⼤数据分析等。
中国工商银行-AIWIN 创新孵化平台将为大家提供完备的IDE及丰富的计算资源。
2 平台访问
AIWIN创新孵化平台入口:
http://icbclab.aiwin.org.cn/aiwin/loginPage
如需使用该平台,请点击此处申请(仅 54 套账号,先到先得;为确保资源分配到真正需要的同学手上,请申请时上传一个基本解题思路)
3 平台限制
平台计算资源限制:2C/4G内存/5G存储
可使用的库的限制:已默认安装anaconda 3.5.2和tensorflow1.6cpu版。若需使用其他库,需自行上传安装包进行安装。
网络访问限制:比赛环境内不可访问外部网络、调用外部服务。
4 平台功能
在登录页面输入账号、密码和验证码,点击登录,进入主面板。
登录中国工商银行-AIWIN 创新孵化平台,首先进入主面板。在菜单栏中有Files、Running、Clusters三个选项。Running页面主要展示的是当前正在运行当中的终端和ipynb格式的notebook,我们可以选择结束正在运行的程序。Clusters类目现在已由IPython parallel对接。用到最多的是Files页面,我们可以在这里完成notebook的新建、重命名、复制等操作。
点击主面板右上角的Upload,可以从本地上传文件。
1.1 点击upload
1.2 选择本地目录下的文件,点击打开,被选择的文件会显示在主面板中
1.3 选择Uplaod,等待一会儿时间,文件就上传成功了。
点击右上角的New可以新建Notebook、文本文件、文件夹或终端。在Notebook下的列表中,可以看到使用的版本是Python3。
对于现有的文件,可以通过勾选文件的方式,对选中文件进行复制、重命名、移动、下载、查看、编辑和删除的操作。
新建一个Notebook,进入编辑界面。
一个Notebook的编辑界面主要由四部分组成:名称、菜单栏、工具条以及单元(Cell)。如下图所示:
在这里,我们可以修改Notebook的名字,直接点击当前名称,弹出对话框进行修改。
菜单栏中有File、Edit、View、Insert、Cell、Kernel、Help等功能。
工具条中的功能基本上在菜单中都可以实现,这里是为了能更快捷的操作,将一些常用按钮放了出来。下图是对各按钮的解释。
单元区域是Notebook编辑界面最重要的部分,一共有4种形式的单元:Code、Markdown、Raw NBConvert、Heading,这四种形式可以互相切换。Code用于写代码,Markdown用于文本编辑,Raw NBConvert中的文字或代码等都不会被运行,Heading是用于设置标题的,这个功能已经包含在Markdown中了。
默认的是代码格式,也就是下图中所示的Code。
选择“+”,可以新增单元格;
选择“↑”和“↓”,可以移动单元格,重新排序;
选择剪刀符号,可以删除单元格。
单元格绿⾊代表处于编辑模式,可以编辑文本和代码,蓝⾊代表处于命令模式,可用于执行键盘输入的快捷命令。两种模式可以通过 Esc 和 Enter 来切换
4.1 代码单元
Notebook中的⼤部分⼯作均在代码单元格中完成。编写和执⾏代码都在这⾥,就像我们平时在 IDE 软件⾥敲代码⼀样,给变量赋值、定义函数和类、导⼊包等。执⾏单元格代码可以通过点击Run按钮或者同时按住Shift + Enter来完成,其结果显示在本单元下方。代码单元左边有 In [1]: 这样的序列标记,方便人们查看代码的执行次序。
右上角Python 3的小圆圈在空闲状态下是空的,⽽当运⾏代码时,会被填满,所以可以通过观察它的状态观察程序是否运⾏完成
4.2 Markdown单元
在Markdown单元对文本进行编辑,采用markdown的语法规范,可以设置文本格式、插入链接、图片甚至数学公式。同样使用 Shift + Enter或Ctrl + Enter运行单元来显示格式化的文本。
4.3 快捷键
Notebook ⾃带⼀组快捷键,能让你快速使⽤键盘与单元格交互,⽽⽆需使⽤⿏标和⼯具栏。熟悉这些快捷键需要费⼀点时间,但如果能熟练掌握,将⼤⼤加快你在Notebook中的⼯作速度。所有的快捷键可以通过单元格蓝⾊状态下按“h”来查看:
# 0602
经过第二轮线上测试,平台代码审核,最终公示成绩如下,恭喜进入 10 强的团队
第二轮排名 | 参赛者 | 团队 | 分数 | 备注 |
1 | Keras_Yu | 九乡河二队 | 0.61004 | |
2 | jy2211 | 0.59207 | ||
3 | koper | Language Model | 0.57914 | |
4 | newboy | 网络一线牵 | 0.57483 | |
5 | bfgf52 | 0.55246 | ||
6 | Songpeix | MX | 0.52867 | |
7 | bs_lqz | 0.51487 | ||
8 | qq644733859 | 学习交流 | 0.49522 | |
9 | xcj666 | 天才傅里叶 | 0.47442 | |
10 | ccx | 0.46966 | ||
11 | An | 0.46538 | ||
12 | wenkanw | 0.44624 | ||
13 | chaz | 0.39665 | ||
14 | finlay | 阿水 | 0.34736 | |
15 | zyl625 | 索隐科技 | 0.3111 | |
16 | dululu | 暗之队 | 0 | run.sh报错 |
17 | daoyuan | 上海犀语科技有限公司 | 0 | run.sh报错 |
18 | ChunguangPan | DeepBlueAI | 0 | 未提交run.sh |
19 | ash | 草木灰 | 0 | 未提交run.sh |
20 | yejiahao | 0 | 输出内容格式错误 |
# 0521
20 强公告,恭喜以下团队和个人进入 20 强(表格为团队名 + 分数,按排名顺序展示)
九乡河二队(团队) | 0.327 (1) |
jy2211 | 0.316 (2) |
网络一线牵(团队) | 0.311 (3) |
阿水(团队) | 0.301 (4) |
bfgf52 | 0.299 (5) |
Language Model(团队) | 0.297 (6) |
MX(团队) | 0.293 (7) |
bs_lqz | 0.287 (8) |
索隐科技(团队) | 0.280 (9) |
暗之队(团队) | 0.280 (10) |
An | 0.267 (11) |
天才傅里叶(团队) | 0.267 (12) |
学习交流(团队) | 0.266 (13) |
ccx | 0.264 (14) |
上海犀语科技有限公司(团队) | 0.263 (15) |
chaz(团队) | 0.260 (16) |
DeepBlueAI(团队) | 0.259 (17) |
草木灰(团队) | 0.259 (18) |
wenkanw | 0.255 (19) |
yejiahao | 0.253 (20) |
# 0512
由海通证券和中国工商银行联合命题的「互联网舆情金融风控事件识别与预警」赛题,自 5 月 12 日零点起正式开放测试集下载,请大家登陆系统,在「参赛提交」面板下「下载」栏目获取数据。
请注意,该赛题设定的是「先统一提交、再统一评分」的评分模式,即提交时不评分,待截止提交后统一针对所有有效提交予以评分。此轮提交的截止时间是 5 月 16 日午夜 24 点,请大家抓紧时间。
针对该赛题的设定,有几处予以提醒:
1. 关于预测出风控标签为”无“的情况,其对应实体名称应标记为”/“,而非“ ”(空),即遵循当前训练集和测试集的标记方式予以输出,请勿输出错误。
2. 请遵循提交样例的提示,提交的结果文件不含表头,直接输出结果,并且结果输出请严格按照新闻 ID 的原顺序,依次输出。
3. 针对赛题的测试集,命题方做真值标注时采用了「人工标注」和「机器标注」混合的方式。命题方经过讨论后,决定仅会对「人工标注」的真值答案做对比计分 。测试集中「人工标注」和「机器标注」的比例和详细情况均不公布。
#0429 - Datawhale 练习区开放
开源合作伙伴 Datawhale 为了帮助参赛者们更好提升本赛题的成绩,特自行组织了一个模拟练习区,基于其提供的模拟测试集和模拟评审程序,为同学们提供第 1 轮正式提交前的练手环境。
请访问:http://ailab.aiwin.org.cn/competitions/54
# 0416-赛事启动
此处为本赛题公告区域,赛事重要通知、各阶段最终排行公示将统一公告于此,并同步邮件公告给各位选手
感谢由大赛开源生态合作伙伴 Datawhale 组织的 Baseline 分享,代码当前在 github 分享。
Start: 四月 16, 2021, 4 p.m.
概述: 此阶段公开接受报名,获取训练集,并自行线下完成模型测试
Start: 五月 12, 2021, 午夜
概述: 报名继续,5月12日将提供测试集,5月16日24点前接受提交,提交文件为result.csv,勿忘封装为ZIP提交。提交后如显示 FAILED 则应为封装 zip 有问题或提交物文件未命名为result.csv,如提交后为 FINISHED 状态,可查看排行榜分数:0 分则意味预测全错 或 可能文件编码异常导致未能正常评分,1 分表示内容无问题可正常评分,具体评分待下一阶段统一评审输出。
Start: 五月 17, 2021, 午夜
概述: 统一评审,此阶段选手无需操作,并计划于5月22日公告前20名
Start: 五月 23, 2021, 午夜
概述: 20强选手被邀请至统一平台上传部署代码,并对新一轮测试集做输出
Start: 六月 3, 2021, 午夜
概述: 最终的10强队伍被邀请参与线下答辩
七月 9, 2021, 8 a.m.
请登陆来参加比赛
登入