根据药物的生物活性对药物进行分类。这是一个由麻省理工大学和哈佛大学合作的一个项目。
该Kaggle比赛[1]旨在通过开发药物作用机理预测算法,来提高药物发展。
比赛时间为3个月,比赛仅仅过去1个月,就引来了1036支队伍参与。
这是大家获取MoA宝贵数据,学习数据处理和建模经验,非常宝贵不可多得的资源。
期待大家能够学到更多的知识。
01 背景
药物的作用机理(MoA)是什么?为什么重要呢?
过去,科学家从天然产物或受到传统疗法的启发,提取药物。例如非常普通的药物扑热息痛,在了解驱动其药理活性的生物学机制之前,已投入临床使用数十年。
如今,随着更强大的技术的出现,药物发现已经从过去的偶然的方法,变成了基于对疾病潜在生物学机制的了解上,而开发的更具针对性的模型。
在这个新的框架中,科学家寻求鉴定与疾病相关的蛋白质靶标,并开发出可以调节该蛋白质靶标的分子。
作为描述给定生物学活性的简写,科学家们将其标记为“作用机理”或简称“MoA”。
如何确定新药的MoAs?
一种方法是用该药物作用于人的细胞样品,然后使用一种算法来分析细胞反应,该算法能搜索与大型基因组数据库中已知模式类似的模式,例如,基因表达库或具有已知MoAs的药物的细胞存活模式(cell viability patterns)。
在这场比赛中,大家可以访问结合了基因表达和细胞存活数据的独特数据集。
数据基于一项新技术,该技术可同时(在相同样本中)测量100种不同细胞类型中人类细胞对药物的反应(从而解决了事前识别的问题,哪些细胞类型更适合用于给定药物)。此外,您将可以访问此数据集中5000多种药物的MoA注释。
02 评价解决方案的准确性
基于MoA注释,将根据应用于每个药物MoA注释对的对数损失函数的平均值来评估溶液的准确性。
如果成功,将帮助开发一种算法,从而根据化合物的细胞特征预测化合物的MoA,从而帮助科学家推进药物发现过程。
03 数据描述
在这场比赛中,将预测不同样本(sig_id)的多个靶标的作用机理(MoA),并提供各种输入,例如基因表达数据和细胞存活数据。
train_features.csv -训练数据的特征,特征 g- 代表基因表达数据,c-代表细胞活力数据。cp_type表示用化合物(cp_vehicle)或对照微扰(ctrl_vehicle)处理的样品;控制扰动没有MoAs;cp_time和cp_dose表示治疗时间(24、48、72小时)和剂量(高或低)。
train_targets_scored.csv -MoA靶标二分类得分。
train_targets_nonscored.csv -训练数据的附加二分类MoA响应。这些都是无法预测或评分的。
test_features.csv -测试数据的特征。必须预测测试数据中每一行的每个MoA得分概率。
sample_submission.csv -正确提交文件的格式。
04 优秀解决方案
1 数据探索性分析EDA优秀方案[2]
2 神经网络MoA分类[3]
3 集成学习模型XGboost[4]、LightGBM[5].
05 比赛视频讲解
这个视频讨论比赛内容,展示如何开始比赛,甚至有代码讲解,并分享一些改进的想法!非常不错的资源。坚持看完,会有意想不到的收获。见上面视频。
参考资料
[1] https://www.kaggle.com/c/lish-moa/leaderboard
[2] https://www.kaggle.com/headsortails/explorations-of-action-moa-eda
[3] https://www.kaggle.com/yasufuminakama/moa-pytorch-nn-starter
[4] https://www.kaggle.com/fchmiel/xgboost-baseline-multilabel-classification
[5] https://www.kaggle.com/nroman/moa-lightgbm-206-models
免责声明:本站所有文章内容,图片,视频等均是来源于用户投稿和互联网及文摘转载整编而成,不代表本站观点,不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益,请在线联系站长,一经查实,本站将立刻删除。 本文来自网络,若有侵权,请联系删除,如若转载,请注明出处:https://yundeesoft.com/86405.html