Kaggle赛题解析：蛋白质功能预测

文章目录[隐藏]

比赛背景
比赛任务
评价指标
数据描述
比赛赛程
赛题奖金
解题思路

比赛名称：CAFA 5 Protein Function Prediction

根据蛋白质的氨基酸序列和其他数据进行训练，预测蛋白质的生物学功能。

比赛链接：https://www.kaggle.com/competitions/cafa-5-protein-function-prediction

比赛类型：生物科学、氨基酸序列

比赛背景

蛋白质负责我们组织、器官和身体的许多活动，它们还在细胞的结构和功能中发挥核心作用。蛋白质是由 20 种被称为氨基酸的结构单元组成的大分子。

人体制造数万种不同的蛋白质，每一种蛋白质都是由几十或几百个氨基酸依次连接而成。这种氨基酸序列决定了蛋白质的三维结构和构象动力学，进而决定了其生物学功能。

由于正在进行的基因组测序项目，我们被来自数千种物种的大量基因组序列数据淹没，这些数据告诉我们这些基因编码的蛋白质的氨基酸序列数据。将生物学功能准确分配给蛋白质是在分子水平上理解生命的关键。

比赛任务

这是一个视角的数据竞赛。测试数据中的许多蛋白质目前没有明确任何指定的功能。研究人员在比赛进行期间将发布一些蛋白质将构成未来的测试集，最终排行榜分数将在比赛的策划阶段后计算。

评价指标

组织者提供了一组蛋白质序列，参与者被要求预测三个子本体中的基因本体论 (GO) 术语：分子功能 (MF)、生物过程 (BP) 和细胞成分 (CC)。

https://www.kaggle.com/competitions/cafa-5-protein-function-prediction/overview/evaluation

数据描述

基因本体论(GO) 是一个概念层次结构，它描述了不同抽象级别的基因和基因产物的生物学功能。它是描述蛋白质功能的多面性的一个很好的模型。

对于训练集，我们包括所有带有注释术语的蛋白质，这些术语已通过实验或高通量证据。测试集在比赛开始时是未知的。它将包含来自测试超集的蛋白质序列（及其功能），这些超集在提交截止日期和评估时间之间获得了实验注释。

train_sequences.fasta - 训练集中蛋白质的氨基酸序列
train_terms.tsv - 蛋白质训练集和相应的带注释的 GO 术语
train_taxonomy.tsv - 训练集中蛋白质的分类 ID
go-basic.obo - 本体图结构
testsuperset.fasta - 应该进行预测的蛋白质的氨基酸序列
testsuperset-taxon-list.tsv - 测试超集中蛋白质的分类 ID
IA.txt - 每个术语的信息积累。这用于衡量精度和召回率（参见评估）
sample_submission.csv - 格式正确的样本提交文件

比赛赛程

2023 年 8 月 14 日 - 报名截止日期。
2023 年 8 月 14 日 - 团队合并截止日期
2023 年 8 月 21 日 - 提交截止日期。

赛题奖金

第一名 - 15,000 美元
第二名 - 10,000 美元
第三名 - 8,000 美元
第四名 - 7,000 美元
第五名 - 5,000 美元
第六名 - 5,000 美元

解题思路

赛题数据是以序列的方式进行组织，其中蛋白质包含了多个氨基酸序列。因此在建模时，可以考虑使用序列模型。

可以参考已有的蛋白质预测比赛，也可以参考已有的序列分类模型，但应该有Transformer类似结构。

https://www.kaggle.com/code/danofer/cafa-protein-implicit-tfrs-recommender-baseline

本文由 Molly 转载发布在国际教育联盟平台，版权归原作者所有，如有侵权，请直接联系微信进行处理。

Kaggle赛题解析：蛋白质功能预测

比赛背景

比赛任务

评价指标

数据描述

比赛赛程

赛题奖金

解题思路

2023年中国队伍在康莱德全球总决选获奖！

NACAC美国大学招生咨询协会一周新闻

最新发布

牛剑最小众专业录取率高达70%？

27Fall港理工录取难度分析

被误解最深的三所英国大学 KCL LSE 华威全解析

A-Level选课攻略英G5热门专业认可哪些硬核学科

7月25日托福考情换题库是谣言！旧题依旧很多，不要掉以轻心！

英国换首相留学签证 PSW和私校学费会不会变

密歇根大学取消CS提前选拔转专业的门又开了

全美最盛产PhD的本科大学盘点真正的学术牛校藏在文理学院

最新文章

牛剑最小众专业录取率高达70%？

27Fall港理工录取难度分析

被误解最深的三所英国大学 KCL LSE 华威全解析

A-Level选课攻略英G5热门专业认可哪些硬核学科

7月25日托福考情换题库是谣言！旧题依旧很多，不要掉以轻心！