Kaggle赛题解析:蛋白质功能预测

比赛名称:CAFA 5 Protein Function Prediction

根据蛋白质的氨基酸序列和其他数据进行训练,预测蛋白质的生物学功能。

比赛链接:https://www.kaggle.com/competitions/cafa-5-protein-function-prediction

比赛类型:生物科学、氨基酸序列

比赛背景

蛋白质负责我们组织、器官和身体的许多活动,它们还在细胞的结构和功能中发挥核心作用。蛋白质是由 20 种被称为氨基酸的结构单元组成的大分子。

人体制造数万种不同的蛋白质,每一种蛋白质都是由几十或几百个氨基酸依次连接而成。这种氨基酸序列决定了蛋白质的三维结构和构象动力学,进而决定了其生物学功能。

由于正在进行的基因组测序项目,我们被来自数千种物种的大量基因组序列数据淹没,这些数据告诉我们这些基因编码的蛋白质的氨基酸序列数据。将生物学功能准确分配给蛋白质是在分子水平上理解生命的关键。

比赛任务

这是一个视角的数据竞赛。测试数据中的许多蛋白质目前没有明确任何指定的功能。研究人员在比赛进行期间将发布一些蛋白质将构成未来的测试集,最终排行榜分数将在比赛的策划阶段后计算。

评价指标

组织者提供了一组蛋白质序列,参与者被要求预测三个子本体中的基因本体论 (GO) 术语:分子功能 (MF)、生物过程 (BP) 和细胞成分 (CC)。

https://www.kaggle.com/competitions/cafa-5-protein-function-prediction/overview/evaluation

数据描述

基因本体论(GO) 是一个概念层次结构,它描述了不同抽象级别的基因和基因产物的生物学功能。它是描述蛋白质功能的多面性的一个很好的模型。

对于训练集,我们包括所有带有注释术语的蛋白质,这些术语已通过实验或高通量证据。测试集在比赛开始时是未知的。它将包含来自测试超集的蛋白质序列(及其功能),这些超集在提交截止日期和评估时间之间获得了实验注释。

  • train_sequences.fasta - 训练集中蛋白质的氨基酸序列
  • train_terms.tsv - 蛋白质训练集和相应的带注释的 GO 术语
  • train_taxonomy.tsv - 训练集中蛋白质的分类 ID
  • go-basic.obo - 本体图结构
  • testsuperset.fasta - 应该进行预测的蛋白质的氨基酸序列
  • testsuperset-taxon-list.tsv - 测试超集中蛋白质的分类 ID
  • IA.txt - 每个术语的信息积累。这用于衡量精度和召回率(参见评估)
  • sample_submission.csv - 格式正确的样本提交文件

比赛赛程

  • 2023 年 8 月 14 日 - 报名截止日期。
  • 2023 年 8 月 14 日 - 团队合并截止日期
  • 2023 年 8 月 21 日 - 提交截止日期。

赛题奖金

  • 第一名 - 15,000 美元
  • 第二名 - 10,000 美元
  • 第三名 - 8,000 美元
  • 第四名 - 7,000 美元
  • 第五名 - 5,000 美元
  • 第六名 - 5,000 美元

解题思路

赛题数据是以序列的方式进行组织,其中蛋白质包含了多个氨基酸序列。因此在建模时,可以考虑使用序列模型。

可以参考已有的蛋白质预测比赛,也可以参考已有的序列分类模型,但应该有Transformer类似结构。

https://www.kaggle.com/code/danofer/cafa-protein-implicit-tfrs-recommender-baseline

【竞赛报名/项目咨询请加微信:mollywei007】

上一篇

2023年中国队伍在康莱德全球总决选获奖!

下一篇

NACAC美国大学招生咨询协会一周新闻

你也可能喜欢

  • 暂无相关文章!

关注热点

返回顶部