1 | oldwain |
2 | qhyk |
3 | lwb_xmu |
4 | Pims |
5 | jiaxinGu |
6 | slaine |
7 | shyjin |
8 | louis |
9 | mujian |
10 | hyan |
11 | linytsysu |
12 | Hayden234 |
13 | smile123 |
14 | beile |
15 | dududadudu |
增额入选 ( 思路创新) |
ymyyh |
fanke | |
liu845904963 |
国泰君安
国泰君安-机器学习在债权定价中的应用赛题解读
固定收益证券定价的驱动因素有五个层面,即基本面、政策面、供求面、资金面、情绪面。五个层面之间的相关性又很强,典型的是经济基本面与货币政策面之间的内生关系——央行依据经济基本面制定货币政策,货币政策的目的又是为了调节经济基本面。由于经济结构在变化、市场制度和参与者结构在变化、央行制定政策的依据和逻辑在变化、投资者的决策逻辑在变化、以及其他等等变化因素,固定收益的定价模型很明显也在变化中。影响债券价格的最重要因素是宏观因素,其最典型的数据频率是季度和月度,数据的相对低频导致定价逻辑中归纳的成分被缩小,演绎和博弈的成分被放大。以上因素导致目前市场中对于用量化方法研究固定收益证券并不看好。
计量方法在定价与预测中存在若干不足。第一由于经济与市场结构在变化,模型的结构也在发生变化,不同时期资产价格的驱动因素不同,在线性模型中这表现为模型系数的变化。举例说我国10年国债收益率,在2000年到08年间与CPI相关性很明显,之后这种相关性有所减弱。第二是解释变量之间相关性的问题,在计量模型中会导致有偏估计。想要尽可能多尝试一些新的数据构造解释变量,但不可避免地会陷入维度灾难。对于宏观因子,由于经济变量之间有千丝万缕的关系,相关性则会更高一些。滚动地使用Lasso或者使用动态系数模型或许有助于在计量经济方法范围内解决以上问题,但这已经削弱了模型可解释性。第三点是研究对象系统的非线性性质难以用计量模型挖掘。第四是难以确认计量模型的失效究竟是隐藏变量因素还是非线性关系因素。还有一些其他原因,但以上理由足以使得机器学习方法具有吸引力。
利用宏观数据、行情数据或者其它特色数据构建特征,进行机器学习建模,对中债10年期国债、中债10年期国开债、中债10年期AAA级地方政府债、中债10年期AAA级城投债以及中债10年期AAA级企业债到期收益率进行预测,预测给定的未来时间段(2021.5.6-2021.6.4期间,包含两端日期,共 23 个交易日)的系列十年期债券利率价格,并分析所用特征重要程度,给出相关逻辑解释。
建议采用的建模数据包括但不限于:
(1)技术指标,如用10年期国债在过去30天的平均收益率。
(2)股票市场指标,如沪深300指数及指数的收益率。
(3)经济增长指标,如经济增加值同比、实际消费同比和实际固定资产投资同比。
(4)房地产市场指标,如房地产开发投资、房屋施工面积、房屋新开工面积、房屋竣工面积、商品房销售面积以及商品房销售额的月度同比。
(5)价格指标,如CPI、食品价格指数、能源价格指数、服务业价格指数、PPI和PPIRM。
(6)商品价格指标,如IPE、WTI和Oman的石油现价,以及上海期货交易所的螺纹钢主力合约价格和COMEX的黄金主力合约价格。
(6)货币指标,如M2、社融和信贷总额的同比增长率。
(7)资金市场指标,如Shibor1W。
本赛题提供 2000年 至 2021年3月 来自 Wind 终端及其他公开渠道的经济数据。允许利用外部其他公开数据,但必须提供数据来源以及逻辑说明。
提供的数据包括:
A. 各类型债权收益率
列名 |
中文名 |
类型 |
说明 |
biz_date |
日期 |
string |
|
treasury_bond_rate_1m |
中债国债到期收益率:1个月 |
double |
|
treasury_bond_rate_3m |
中债国债到期收益率:3个月 |
double |
|
treasury_bond_rate_6m |
中债国债到期收益率:6个月 |
double |
|
treasury_bond_rate_1y |
中债国债到期收益率:1年 |
double |
|
treasury_bond_rate_3y |
中债国债到期收益率:3年 |
double |
|
treasury_bond_rate_10y |
中债国债到期收益率:10年 |
double |
|
cdb_rate_6m |
中债国开债到期收益率:6个月 |
double |
|
cdb_rate_1y |
中债国开债到期收益率:1年 |
double |
|
cdb_rate_3y |
中债国开债到期收益率:3年 |
double |
|
cdb_rate_10y |
中债国开债到期收益率:10年 |
double |
|
loc_rate_6m |
中债地方政府债到期收益率(AAA):6个月 |
double |
|
loc_rate_1y |
中债地方政府债到期收益率(AAA):1年 |
double |
|
loc_rate_3y |
中债地方政府债到期收益率(AAA):3年 |
double |
|
loc_rate_10y |
中债地方政府债到期收益率(AAA):10年 |
double |
|
cdi_rate_6m |
中债城投债到期收益率(AAA):6个月 |
double |
|
cdi_rate_1y |
中债城投债到期收益率(AAA):1年 |
double |
|
cdi_rate_3y |
中债城投债到期收益率(AAA):3年 |
double |
|
cdi_rate_10y |
中债城投债到期收益率(AAA):10年 |
double |
|
com_rate_1m |
中债企业债到期收益率(AAA):1个月 |
double |
|
com_rate_3m |
中债企业债到期收益率(AAA):3个月 |
double |
|
com_rate_6m |
中债企业债到期收益率(AAA):6个月 |
double |
|
com_rate_1y |
中债企业债到期收益率(AAA):1年 |
double |
|
com_rate_3y |
中债企业债到期收益率(AAA):3年 |
double |
|
com_rate_10y |
中债企业债到期收益率(AAA):10年 |
double |
|
B. 参考数据
经济数据.年 |
|||
列名 |
类型 |
含义 |
示例 |
biz_year |
int |
年 |
2003 |
fixedinvestment_used |
double |
全部工业增加值同比:单位% |
0.0157 |
fixedinvestment_used |
double |
社会消费品零售总额:实际同比:单位% |
0.0157 |
经济数据.季 |
|||
列名 |
类型 |
含义 |
示例 |
biz_season |
int |
季 |
2003-03 |
fixedinvestment_used |
double |
固定资产投资完成额实际累计同比:单位% |
0.0157 |
房地产数据.月 |
|||
列名 |
|
中文名 |
说明 |
biz_month |
string |
月 |
2000-02 |
investment_real_estate_ratio |
double |
房地产开发投资完成额累计同比:单位% |
|
new_area_ratio |
double |
房屋新开工面积累计同比:单位% |
|
working_area_ratio |
double |
房屋施工面积累计同比:单位% |
|
finish_area_ratio |
double |
房屋竣工面积累计同比:单位% |
|
saled_area_ratio |
double |
商品房销售面积累计同比::单位% |
|
saled_amount_ratio |
double |
商品房销售额累计同比::单位% |
|
经济数据.月 |
|||
biz_month |
string |
月 |
2000-02 |
cpi |
double |
CPI当月同比:单位% |
|
cpi_food |
double |
食品CPI当月同比::单位% |
|
ppi |
double |
PPI当月同比:单位% |
|
ppirm |
double |
PPIRM当月同比:单位% |
|
energy_price_index |
double |
能源类大宗商品价格指数 |
|
non-manufacturing_pmi |
double |
非制造业PMI销售价格指数 |
|
m2_ratio |
double |
M2同比:单位% |
|
credit_ratio |
double |
国内信贷同比:单位% |
|
social finance_ratio |
double |
社会融资规模存量同比:单位% |
|
市场数据.日 |
|||
biz_date |
string |
日期 |
43825 |
oil_dtd_spot |
double |
英国布伦特Dtd石油现货:单位(美元/桶) |
|
luowen_steel_future |
double |
螺纹钢加权主力合约平均价:单位(元/吨) |
|
gold_comex_future |
double |
COMEX黄金期货结算价活跃合约:单位(美元/盎司) |
|
csi 300_index |
double |
沪深300指数 |
|
A. 各类型债权收益率
列名 |
中文名 |
类型 |
说明 |
biz_date |
日期 |
string |
|
treasury_bond_rate_1m |
中债国债到期收益率:1个月 |
double |
|
treasury_bond_rate_3m |
中债国债到期收益率:3个月 |
double |
|
treasury_bond_rate_6m |
中债国债到期收益率:6个月 |
double |
|
treasury_bond_rate_1y |
中债国债到期收益率:1年 |
double |
|
treasury_bond_rate_3y |
中债国债到期收益率:3年 |
double |
|
treasury_bond_rate_10y |
中债国债到期收益率:10年 |
double |
|
cdb_rate_6m |
中债国开债到期收益率:6个月 |
double |
|
cdb_rate_1y |
中债国开债到期收益率:1年 |
double |
|
cdb_rate_3y |
中债国开债到期收益率:3年 |
double |
|
cdb_rate_10y |
中债国开债到期收益率:10年 |
double |
|
loc_rate_6m |
中债地方政府债到期收益率(AAA):6个月 |
double |
|
loc_rate_1y |
中债地方政府债到期收益率(AAA):1年 |
double |
|
loc_rate_3y |
中债地方政府债到期收益率(AAA):3年 |
double |
|
loc_rate_10y |
中债地方政府债到期收益率(AAA):10年 |
double |
|
cdi_rate_6m |
中债城投债到期收益率(AAA):6个月 |
double |
|
cdi_rate_1y |
中债城投债到期收益率(AAA):1年 |
double |
|
cdi_rate_3y |
中债城投债到期收益率(AAA):3年 |
double |
|
cdi_rate_10y |
中债城投债到期收益率(AAA):10年 |
double |
|
com_rate_1m |
中债企业债到期收益率(AAA):1个月 |
double |
|
com_rate_3m |
中债企业债到期收益率(AAA):3个月 |
double |
|
com_rate_6m |
中债企业债到期收益率(AAA):6个月 |
double |
|
com_rate_1y |
中债企业债到期收益率(AAA):1年 |
double |
|
com_rate_3y |
中债企业债到期收益率(AAA):3年 |
double |
|
com_rate_10y |
中债企业债到期收益率(AAA):10年 |
double |
|
B. 参考数据
经济数据.年 |
|||
列名 |
类型 |
含义 |
示例 |
biz_year |
int |
年 |
2003 |
fixedinvestment_used |
double |
全部工业增加值同比:单位% |
0.0157 |
fixedinvestment_used |
double |
社会消费品零售总额:实际同比:单位% |
0.0157 |
经济数据.季 |
|||
列名 |
类型 |
含义 |
示例 |
biz_season |
int |
季 |
2003-03 |
fixedinvestment_used |
double |
固定资产投资完成额实际累计同比:单位% |
0.0157 |
房地产数据.月 |
|||
列名 |
|
中文名 |
说明 |
biz_month |
string |
月 |
2000-02 |
investment_real_estate_ratio |
double |
房地产开发投资完成额累计同比:单位% |
|
new_area_ratio |
double |
房屋新开工面积累计同比:单位% |
|
working_area_ratio |
double |
房屋施工面积累计同比:单位% |
|
finish_area_ratio |
double |
房屋竣工面积累计同比:单位% |
|
saled_area_ratio |
double |
商品房销售面积累计同比::单位% |
|
saled_amount_ratio |
double |
商品房销售额累计同比::单位% |
|
经济数据.月 |
|||
biz_month |
string |
月 |
2000-02 |
cpi |
double |
CPI当月同比:单位% |
|
cpi_food |
double |
食品CPI当月同比::单位% |
|
ppi |
double |
PPI当月同比:单位% |
|
ppirm |
double |
PPIRM当月同比:单位% |
|
energy_price_index |
double |
能源类大宗商品价格指数 |
|
non-manufacturing_pmi |
double |
非制造业PMI销售价格指数 |
|
m2_ratio |
double |
M2同比:单位% |
|
credit_ratio |
double |
国内信贷同比:单位% |
|
social finance_ratio |
double |
社会融资规模存量同比:单位% |
|
市场数据.日 |
|||
biz_date |
string |
日期 |
43825 |
oil_dtd_spot |
double |
英国布伦特Dtd石油现货:单位(美元/桶) |
|
luowen_steel_future |
double |
螺纹钢加权主力合约平均价:单位(元/吨) |
|
gold_comex_future |
double |
COMEX黄金期货结算价活跃合约:单位(美元/盎司) |
|
csi 300_index |
double |
沪深300指数 |
|
本赛题分为四个赛程阶段:
报名训练阶段——线上提交阶段——线上评审阶段——线下答辩阶段
提交方式为在平台的提交处提交一个 ZIP 包(请参见「参赛提交」tab下「下载」板块提供的提交样例),包内包含:
计算预测到期收益率与实际到期收益率的均方误差,以每日相对误差平均值作为评价标准,均方误差越小,模型预测效果越好。
相对误差
x0 为真实值,x1为预测值
预测日期权重:
5 月 6 日-5月 11 日 预测权重 50%
5 月 12 日-5月 19 日 预测权重 25%
5 月 20 日-6月 4 日 预测权重 25%
即T+1 到T+5预测准确率权重最大占50%。
需要选手进行现场或线上的介绍和答辩,总评分从模型效果、模型设计及答辩表现三方面评判。下表供参考,最终评分组合标准以最终通知为准:
序号 | 评分项目 | 决赛评分标准 | 分值 |
1 | 模型效果 | 模型预测效果 | 占比50% |
2 | 模型设计 | 从模型创新、特征工程和模型设计三个角度衡量参赛人员的建模能力 | 占比30% |
3 | 答辩表现 | 现场路演表达,逻辑清晰等 | 占比20% |
计算预测到期收益率与实际到期收益率的均方误差,以每日相对误差平均值作为评价标准,均方误差越小,模型预测效果越好。
相对误差
x0 为真实值,x1为预测值
预测日期权重:
5 月 6 日-5月 11 日 预测权重 50%
5 月 12 日-5月 19 日 预测权重 25%
5 月 20 日-6月 4 日 预测权重 25%
即T+1 到T+5预测准确率权重最大占50%。
###########
########
需要选手进行现场或线上的介绍和答辩,总评分从模型效果、模型设计及答辩表现三方面评判。下表供参考,最终评分组合标准以最终通知为准:
序号 |
评分项目 |
决赛评分标准 |
分值 |
1 |
模型效果 |
模型预测效果 |
占比50% |
2 |
模型设计 |
从模型创新、特征工程和模型设计三个角度衡量参赛人员的建模能力 |
占比30% |
3 |
答辩表现 |
现场路演表达,逻辑清晰等 |
占比20% |
一、结果提交(在线评分)
1. 最终提交物请打包为 ZIP 包,命名建议为 "T4-ID 名称"
2. ZIP 包所需文件:
- 预测结果文件 CSV
3. CSV 文件命名规范:
- 必须为 prediction.csv,如命名错误导致无法评分选手自行负责。
4. CSV 文件内容规范:
- 必须包含表头(如因未包含表头导致评分失败,选手自行负责)
- 表头请参考「参考数据集」-「预测目标.训练集」的表头字段
- 请注意预测结果时请仅输出交易日结果,非交易日请勿纳入
- 目标时间段是 5 月 6 日——6 月 4 日,共计 23 个交易日(工作日)
二、解题思路
请在 5 月 10 日前向 bot@aiwin.org.cn 发送一封邮件,标题栏请按「AIWIN-赛题 4- ID」的格式,其中 ID 需对应平台提交预测结果的账号 ID(username),邮件请附上附件解题思路的PPT简报,内容包括但不限于建模方式、外部数据使用说明(附获取链接和获取方式)等
推荐使用本次大赛官方算力支持单位UCloud(优刻得)提供的云资源。
UCloud优刻得(股票简称:优刻得,股票代码:688158)是中国第一家公有云科创板上市公司,公司自主研发IaaS、PaaS、大数据流通平台、AI服务平台等一系列云计算产品,提供公有云、混合云、私有云、专有云在内的综合性行业解决方案。
资源优惠:
以V100S(北京二B可用区)为例,7折优惠价:8.5元/小时。
PS:本优惠为大赛专项优惠,如使用云资源总额超过1万元,可向客户经理申请单独优惠。
优惠报名请通过此链接注册,UCloud工作人员会为您提供测试及服务支持。
# 0426 - 公布评价方式脚本(注释精简版)
在国泰君安出题方的同意下,我们分享具体的评价方式脚本(注释精简版),请大家参考查看《评价方式》栏目下的新增的内容
# 0416-赛事启动
此处为本赛题公告区域,赛事重要通知、各阶段最终排行公示将统一公告于此,并同步邮件公告给各位选手
奖项 |
数量 |
奖金(含税) |
合计 |
第1名 |
1 |
60000 |
60000 |
第2名 |
1 |
20000 |
20000 |
第3名 |
1 |
10000 |
10000 |
第4名 |
1 |
6000 |
6000 |
第5名 |
1 |
6000 |
6000 |
第6名 |
1 |
6000 |
6000 |
第7名 |
1 |
3000 |
3000 |
第8名 |
1 |
3000 |
3000 |
第9名 |
1 |
3000 |
3000 |
第10名 |
1 |
3000 |
3000 |
合计 |
120000 |
2.荣誉证书:赛事将颁发盖有「世界人工智能创新大赛组委会」印章的荣誉证书;
3.2021年暑期AI菁英实训营项目与AIWIN大赛联动,面向大赛优秀参赛选手开放人工智能技术应用场景企业的实训岗位。
开放场景企业与实训方向(现阶段)如下列表,每家企业预计开放5-10个实训岗位。更多企业场景与岗位,将会陆续开放。
企业 |
实训场景方向 |
工商银行 |
金融行业中图像识别方向 |
国泰君安 |
金融行业中的自然语言处理方向 |
海通证券 |
金融行业NLP方向 |
中国太保 |
保险业务场景中图像识别方向 |
万达信息 |
OCR技术在医疗领域应用 |
卫宁健康 |
人工智能技术与医疗结合 |
药明生物 |
人工智能技术在医疗医药场景应用 |
SMT |
人工智能技术与运动技术分析方向 |
银联智策 |
人工智能技术结合金融行业 |
奖励机制
l 大赛排名前20%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金1200元”,用于实训营项目。
l 大赛排名前20%-30%的参赛队伍的选手,凡符合实训营入营条件的,将获得“实训奖学金600元”,用于实训营项目。
凡参与AIWIN大赛并提交比赛结果的参赛选手,符合实训营入营条件的,可获得优先进入所选择实训企业岗位的机会。
Start: 四月 16, 2021, 4 p.m.
概述: 此阶段公开接受报名,并在线提供「提交行为测试」,可测试对2021的2月19 日-3月19日结果预测的提交。
Start: 五月 5, 2021, 午夜
概述: 5 月 1 日将增补提供 2021 年 4 月的各类型债权收益率数据,5 月 5 日当天 24 小时内须提交 5 月 6 日-6 月 4 日时间段的预测结果,此阶段评分输出非结果评分仅检验输入文件的文件名及文件格式
Start: 五月 6, 2021, 午夜
概述: 5 月 6 日——6 月 4 日期间本比赛无须操作,等待 6 月 5 日得到真实市场数据后启动统一评审
Start: 六月 5, 2021, 中午
概述: 线上排名,并公告排行的前 10 强队伍,以赛事公告为准邀约参与线下答辩
七月 9, 2021, 8 a.m.
请登陆来参加比赛
登入