Kaggle是谷歌旗下的数据科学竞赛平台,在全世界范围内有超过 85 万的数据科学家用户。企业和研究者可以在平台上发起比赛,发布问题和数据集,并为最优模型及解决方案提供奖金。参赛者大多为一流高校的硕士生、博士生,以及数据分析、机器学习等相关领域的业内人士;在有超过一千支团队参赛的比赛中,前十名以及前0.2%的团队为金奖,前5%为银奖,前10%为铜奖。
王蕴泽参加的“Optiver:已实现波动率预测”比赛共有3852支团队参赛,他和队友在其中位列第30名,排名前0.8%。这个比赛题目由国际顶尖量化交易公司Optiver提出,希望参赛者可以通过提供的股票交易数据来预测股票的波动率,从而不断改善金融市场。
王蕴泽在解决问题时尝试了Catboost、RNN attention、Transformer 等模型,最后将结果进行融合。他表示,整个过程中最重要也最困难的部分在选择模型之前的特征工程环节。“特征工程是指用一系列工程化的方式从原始数据中筛选出更好的数据特征,以提升模型的训练效果。”王蕴泽解释说,“因为我对金融领域不够了解,所以自学了很多股票、随机过程、时间序列和统计方面的知识,这样才能加深对数据集的理解。”
郁亚琪和队友通过处理美国免费阅读学习网站CommonLit提供的文本数据,对3-12年级课堂上阅读文章的复杂性进行了评估。郁亚琪介绍,这个题目可选的模型很多,所以他们选择了CLPR、RoBERTa、Mean Pooling等五个模型进行融合,其中基于官方RoBERTa预训练模型进行改进,分别使用Roberta-base 模型和Roberta-large 模型进行训练;同时保持了模型之间的差异性以有效降低过拟合风险,这样最终得出的结果会更精确。
从开始接触Kaggle至今的近两年里,王蕴泽和郁亚琪分别获得过三次银奖和一次铜奖,以及两次银奖和一次铜奖;朱佳媛首次参赛就获得了银奖的好成绩。
朱佳媛参与的比赛要用脑部的磁共振成像来训练和测试模型,从而预测胶质母细胞瘤的遗传亚型,以此判断脑瘤患者是否需要手术,可以帮助患者减少侵入性诊断和治疗。“这个比赛和我们专业的实际应用是一样的,都需要用数据科学知识去解决特定领域的问题。”朱佳媛说,“因此除了大数据技术之外,自学能力也是非常重要——你掌握的这个领域的知识越多,就越容易在数据预处理时找到合适的方法,从而获得更快、更精准的计算结果。”
郁亚琪提到,数据科学领域中模型的更新是非常快的,所以不能满足于课堂上的知识,要不断去探索和学习、接触新的东西。
西浦创业家学院(太仓)人工智能与先进计算学院院长Angelos Stefanidis教授表示:“学院一直致力于加强学术人员、学生、行业以及更广泛社区之间的密切合作,以实现促进现代化、创业型、可持续社会发展的长期目标。同学们通过参赛,把数据科学知识应用于解决实际产业问题中,这和我们学院的核心精神是一致的。”
扬子晚报/紫牛新闻记者 顾秋萍 通讯员:胡秋辰
校对 徐珩
编辑 : 胡妍璐
更多内容请打开紫牛新闻, 或点击链接