分享好友 最新动态首页 最新动态分类 切换频道
AIWIN——研报类型识别
2024-12-26 20:07

0602 公告 - 答辩入选通知:

AIWIN——研报类型识别

经过命题方国泰君安对复核内容和线上成绩的审查,国泰君安最后确定进入答辩的10支队伍如下:

1 Echoch
2 挖矿的小孩
3 Z Lab
4 Colt
5 chatgpt is all your need
6 Lukan
7 WeLearnNLP
8 Out of Memory
9 初淅沥以萧飒
10 CZUR_play

特此公告,也感谢其他选手对此次比赛的贡献!

我们稍后将会给入选答辩的队伍发送邮件通知,告知下一步的准备。

 

各位选手: 

经过我们的相关复核、排查,公布如下获得复核资格的名单,并对名单做相应说明:

 (我们将预期在今天13点左右邮件通知各获得资格、待进一步复查团队提交资料)

编号

排位

分数

性质

名称

1

1

0.974 (1)

团队

Echoch

2

2

0.973 (2)

团队

挖矿的小孩

3

4

0.970 (4)

团队

Z Lab

4

6

0.970 (6)

团队

Colt

5

7

0.968 (7)

团队

chatgpt is all your need

6

8

0.968 (8)

个人

Lukan

7

9

0.968 (9)

团队

WeLearnNLP

8

10

0.968 (10)

团队

Out of Memory

9

15

0.964 (15)

团队

初淅沥以萧飒

10

17

0.962 (17)

团队

CZUR_play

11

18

0.961 (18)

个人

Leo_Lu

12

31

0.957 (31)

团队

Da Capo

13

34

0.957 (34)

个人

zhouyuanzhe

14

37

0.956 (37)

团队

zutnlp

15

43

0.953 (43)

个人

grealth

16

45

0.953 (45)

团队

金融科技

17

50

0.951 (49)

团队

Unsual Data

18

51

0.951 (50)

个人

Aloha

19

55

0.950 (54)

个人

NONE

20

57

0.949 (55)

个人

GODWITHKING

  

编号

排位

分数

性质

名称

附加审核理由

1

20

0.960 (20)

个人

ZYQ

仅有21号当天有2条提交记录,但未发现明确主号、小号关联,进一步审核代码

2

47

0.952 (47)

 

Ustinian_Aphasia

47、48、49、52四组所有成员均实名,但均来自同一机构,且分数高度雷同,有分成四组故意占榜嫌疑;作为附加审核对象纳入代码审核范畴,视代码和解决方案的提交情况和内容质量,以及最终命题方的反馈,确定下一步操作。

3

48

0.952 (48)

 

牛顿和莱布尼茨一起撸薛定谔的猫

4

49

0.952 (48)

 

zhuying

5

52

0.951 (51)

 

AddSpicy

 

 

No

排位

分数

性质

名称

未获资格理由

1

3

0.972 (3)

团队

工程馆四季卷

1)有成员未完成实名 2)经排查有小号hiboys、Hello2023、jerry_sjtu等刷榜

2

5

0.970 (5)

团队

燃烧吧GPU

经排查创建批量小号bilibili、zhihu等系列账号刷榜

3

29

0.958 (29)

团队

海淀彭于晏

经排查有同IP小号wudongdong、biubiu刷榜

 

注:未在上述名单,但相应排位在排行榜57名前的成绩,均因未实名、团队已合并、小号等原因丧失资格。此处不再一一标记说明。

2:我们已尽可能就手头掌握的信息对相应分数和提交情况做了排查和复核,但难免因时间、技术手段等原因不能完全保证发现并确定所有可能得违规情况。如有对上述结论有所质疑或要提出申诉的,请在52317点前邮件至 aiwin@aispacesh.com,过时不再处理。

rame src="http://player.bilibili.com/player.html?aid=697681517&bvid=BV13m4y127HY&cid=1099729987&page=1" frameborder="no" scrolling="no" width="100%" height="450"> rame>

国泰君安

随着经济发展,中国居民财富持续增长。资产管理需求日益增多,资产管理业务迎来新的发展机遇。市场对机构的投资管理能力提出了更高的要求。近年来,国泰君安积极建设数字化投资研究平台以助力投资管理业务。公司希望借鉴国内外投研的先进经验,通过数字化与智能化技术为投研业务赋能,实现多源异构研究数据融合、产业投资逻辑的知识沉淀和投研过程的提质增效,从而提升研究效率,增强公司在资产管理领域的核心竞争力。在投资管理业务的研究过程中,研究人员需要阅读和分析各个券商机构制作的研究分析报告。他们需要从这些报告中提取出有价值的关键信息,包括研报分析的个股、当前评级、目标价和盈利预测数据等。这部分研究工作较为繁琐,会耗费研究人员大量的时间和精力。

随着人工智能技术的发展,许多金融机构开始将自然语言处理技术引入到金融文本分析领域,如情感分析、舆情预警和实体识别等。这些工作通常是针对金融纯文本任务,实际上金融领域还有大量的富文本语料有待挖掘和分析,例如上市公司公告、研究机构研究分析报告等。这些报告大多都是PDF格式,其中包含文本、图表和表格等元素,这些元素语义丰富,具有很高的研究价值。基于上述分析,我们希望利用人工智能技术从研报PDF中自动抽取出关键信息并组织成结构化的数据进行分析。具体地,我们结合自然语言处理与计算机视觉相关技术,设计了一套研究报告(以下简称研报)关键信息要素抽取解决方案。该方案包含研报文件解析、研报类型分析和研报要素抽取等功能。

本赛题任务是利用机器学习、深度学习等方法训练一个预测模型,该模型主要针对各种各样的研报进行类型分析。赛题的难点在于不同机构、券商研报形式多样以及需要借助PDF的解析或者多模态的应用。

 

请注意:

1. 本赛题可以使用外部预训练模型(包括GPT类的LLM都能够)用于数据处理和建模过程。但不得使用ChatGPT等类型的应用作为产出最终分类结果的直接手段

2. 本赛题的数据训练和处理仅允许采用赛事提供的数据,不得采用额外外部数据。

本赛题将10中类型的研报数据会划分为训练集、测试集。训练集用于模型架构设计、模型训练,在测试集上验证效果。以macro precision/recall/f1三个指标为验证标准(f1分数为排名依据)。练习榜单提供研报首页的结果结果,包括header 和title。正式榜单将只提供研报原文,并期望选手能充分解析和利用研报中文本、图形等多模态的信息用于优化模型。

练习榜单提供的数据集如下:

  • 研报数据首页解析结果

  • 研报数据对应类型标签

正式榜单提供的数据集如下:

  • 完整研报原文

  • 研报数据对应类型标签

labels = ['晨会早报', '宏观研报','策略研报','行业研报','公司研报','基金研报','债券研报','金融工程','其他研报','个股研报']

label2id = {

'晨会早报': 0,

'宏观研报': 1,

'策略研报': 2,

'行业研报': 3,

'公司研报': 4,

'基金研报': 5,

'债券研报': 6,

'金融工程': 7,

'其他研报': 8,

'个股研报': 9

}

注:练习榜单中无 label=7 的情况

1、数据样例 (数据提供在npy格式)

{

'label':'',

'header':'',

'title':'',

'paragraph:'',

'footer':'',

'uid':''

}

2、数据文件

训练集:train_dataset.npy

测试集:eval_dataset.npy

3、提交文件

submission.csv

columns = ['uid', 'label']

1、数据样例

以pdf 文件方式提供

2、数据文件

train_dataset/*.pdf (各子项目录名为研报对应类型名,文件名为UID)

eval_dataset/*.pdf (各文件名为UID)

3、提交文件

submission.csv

columns = ['uid', 'label']

本赛题共分成三个大阶段:

练习榜单——正式榜单——终选答辩

本竞赛线上开展,正式榜单获得前20的有效队伍将提交PPT和代码,经命题方复核及根据解决方案综合维度选拔后,选取10强队伍获得资格进入终选答辩,决出比赛名次。

该阶段内接受个人报名、团队登记(报名登记规则请详细阅读比赛规则)。

  1. 练习榜单将为选手提供赛题数据集,所有数据均可下载。报名时个人选手需同意比赛规则和相应条款,并予以遵守。

  2. 选手可通过 AIWIN 平台「参赛提交」——「下载」 的路径,查看并下载练习榜单提供的数据集以及提交结果样例文件。

  3. 选手完成模型训练后,可参照提供的结果样例文件submission_sample输出预测结果,并按 B 小节的提交要求提交后,获得排名。

  4. 请注意本次竞赛要求所有选手完成实名认证方能核算成绩,请未做过实名认证的点击页面右上角进入个人中心,点击“完成实名认证”。实名认证采用三要素:姓名、手机号和身份证,请确保手机号为您本人名下实名认证的号码。

     

  1. 本平台要求所有提交内容统一打包为 zip 文件上传,其内容为submission.csv:ZIP包请统一命名为 用户 ID_YYMMDD.zip,用户 ID 为你注册时的用户名。

提交结果样例:

uid,label

xxxyyy,2

zzzzkkkk,3

  1. 提交规则: 设定每日最多 3 次提交。

  2. 排名规则:排行榜以选手历史最佳分数为依据从高到低排序。

 

  1. 正式榜单将提供以PDF文档为形式的训练集和测试集。选手同样可通过 AIWIN 平台「参赛提交」——「下载」 的路径查看并下载(由于文件过大,平台下载的压缩包中仅含有,获取数据集后,各选手线下自行输出测试结果,然后提交到AIWIN平台获取实时分数和排名。

  2. 正式榜单于2023年5月21日24点截止并关闭排行榜

  3. 排名前30的选手建议都准备PPT和代码文件。运营方将会尽快完成核验后通知符合规则有效的前20队伍提交ppt和代码文件。所有材料应在 2023年5月26日 24 点前(拟),通过aiwin@aispacesh.com发送,邮件名称请以T2-选手名/团队名 命名,附件如过大可通过网盘方式上传后,邮件发送链接。具体PPT的建议内容如下:

    a) 个人简介:在职者填写当前职业和在职机构(如方便透露),在校者请填写当前年级、专业、高校团队简介:团队整体介绍,以及每个成员的介绍、成员分工

    b) 赛题理解与问题建模:清楚描述对赛题任务的理解,抽象为模型建立的策略

    c) 数据探索与特征工程:针对赛题提供的数据描述必要的数据特征、数据清洗、特征工程的关键思路和方法

    d) 模型训练和融合:描述模型的训练、实验对比和融合过程与方法

    e) 代码依赖环境:详细列出包括整体建模采用的基础框架(含版本号)以及依赖的包等

    f) 代码运行说明:对如何运行代码予以充分说明

  4. 结果提交的内容和要求:同练习榜单

  5. 提交规则:每日最多 3 次提交

  6. 排名规则:排行榜以选手历史最佳分数为依据从高到低排序。

  7. 晋级规则:组委会将结合正式榜单线上分数、解决方案的原创性和创新性等综合批评定最后的 10 强进入终选答辩。

线上排名

评价指标: macro avg precision / recall / f1

终选方式

综合选手现场答辩、线上排名分数以及其他命题方设定的综合维度(如模型思路创新性都能够),确定最后的综合排名。

 

1. 赛事奖金与奖励

类型

奖项

名次

奖励(税前)

竞赛奖励

(依据综合排名 = B 榜排名 + 复审结果 + 终选答辩排名)

一等奖

第1名

60000 元

二等奖

第2名

20000 元

三等奖

第 3 名

10000 元

四等奖

第 4-6 名

6000 元

五等奖

第 7-10 名

3000 元

注:

  1. 组委会对上述奖励方案享有最终解释权和调整权
  2. 以上奖金金额为税前金额,奖项获得者需承担个人所得税 20%

2.    证书

所有获奖选手(含学习奖励奖项与竞赛奖励奖项)将颁发盖有“世界人工智能创新大赛组委会”的赛事证书,对应赛题的证书上将同时印刻有赛事命题方的官方 logo

3.实习生绿色直通车

对于赛事排名靠前的选手将给予实习生绿色直通车的机会,将在实习招聘过程中给予一定优惠(如免笔试等,具体待进一步确定)

 

 

 

 

最新文章
怡万之消化内科.ppt
* Navarro等的研究显示在治疗腹腔感染住院患者时,厄他培南与头孢曲松加甲硝唑疗效相当(OASIS II)。1 幻灯显示的是厄他培南治疗组与头孢曲松/甲硝唑治疗组的主要治疗终点均为97%,主要研究终点即治疗结束2周后治愈试验中临床和微生物学评估
除了百度,这样搜索想要的知识质量更高
平常如果想要查一些知识或者一些不知道的东西的时候,一般人都会在百度/搜狗/谷歌等搜索引擎输入文字进行搜索。但在知识越来越重要的今天,在这些网页的搜索引擎里找到有用的信息越来越少,或者找到的文章质量也不高
天翼云SSL VPN使用教程
(1)在云主机控制台查看开通的云主机和相关的弹性IP(2)找到 SSL VPN 云主机实例,点击实例名称进去,点击本实例的安全组,在入方向规则新建规则放通tcp4430和tcp443 端口,授权对象 0.0.0.0/0(如果tcp443 端口修改成了其他端口,请放通
高清美女写真,AI生图工具如何让她们栩栩如生?
步骤1: 访问搜狐简单AI小程序首先在微信中搜索“搜狐简单AI”,进入小程序。 步骤2: 选择模板根据需求选择美女写真模板,提供多种风格可选。 步骤3: 输入指令按照页面提示,输入你想要的特征描述,比如“长发,穿着红色晚礼服”。 步骤4:
淘宝店推广怎么做?作者:小果 时间:2024-12-20 阅读:3524
淘宝店推广怎么做?哪些方法有效?在竞争激烈的电商市场中,淘宝店铺的推广成为了卖家们必须面对的重要课题。通过有效的推广策略,不仅可以提高店铺的曝光度和流量,还能显著提升销量和转化率。本文将介绍几种有效的淘宝店推广方法,帮助卖
主流海外广告投放的渠道有哪些?
主流海外广告投放的渠道有哪些?1、FacebookFacebook是公司国外广告宣传的**选择服务平台。由于这样的平台粉丝基数,新闻报道互动话题*耀眼。公司在这里面开展品牌推广,能够快速提升品牌形象曝光率,为企业的海外推广造就好的开始。除此之
用AI生成美女写真,轻松打造你的数字梦幻女友!
限时免费,点击体验最近超火的AI生图神器,坐拥3000美女的大男主就是你! https://ai.sohu.com/pc/generate/textToImg?_trans_=030001_yljdaimn 宝子们,你们有没有想过,能否通过科技的力量,去创造出一位理想中的女神?随着AI技术的飞速
违法广告
  2024年,广州市市场监督管理局扎实开展虚假违法广告专项治理,深入推动相关领域广告经营全链条监管,有效维护了全市广告市场秩序,现公布部分违法广告典型案例。  一、广州市某南网络科技有限公司发布违法广告案  当事人在其开发运
新开店怎么上地图定位(开了个店怎么在地图上显示)
开店后,为了让顾客能够方便地找到店铺的位置,将其在地图上显示是一个非常重要的步骤。以下将详细介绍如何在几种主流地图平台上添加店铺位置。一、百度地图标注二、高德地图标注打开平台打开高德地图的官方网站(amap.com)或者高德地图的
解决手机卡顿反应迟钝的全方位指南:优化性能、提升体验!
一、引言手机卡顿反应迟钝是许多用户经常遇到的问题,这不仅影响了我们的使用体验,还可能导致工作效率降低。那么,面对这一问题,我们应该如何解决呢?接下来,我们将从多个方面为您详细解答。二、分析原因1. 手机存储空间不足:过多的应
相关文章
推荐文章
发表评论
0评