[我是大佬的搬运工]
01 赛题背景解析
http://competition.sais.com.cn/competitionDetail/532230/format
翻译一下:
-
mRNA:疾病基因
-
siRNA:药物基因
-
RNAi:药物基因作用于疾病基因的机制
-
我们要完成的任务:预测某类药物基因对某类疾病基因的治疗效果
解释赛题相关文件
数据表格
训练集打开之后如下图所示
-
A:数据的唯一标识
-
B:数据来源的文献
-
C:需要去除的疾病基因名称
-
D:疾病基因(mRNA)编号
-
E:带有疾病基因的物种
-
F:药物基因的编号
-
G:药物基因的正义序列,与疾病基因序列相似或相同,用于稳定和辅助
-
H:药物基因的反义序列,与疾病基因序列几乎完全互补,用于识别并结合疾病基因,使其降解或无法表达
-
所谓正义,反义规则如下图所示
-
-
I:细胞系,同一个细胞系来源于同一个“祖先”
-
J、K:表示使用药物的剂量,J表示数值,K表示单位
-
L:药物导入细胞的方法
-
脂质体感染
-
自由摄取
-
等等
-
-
M:药物作用时长(测量时间:经过24h/48h/*h进行测量)
-
N:修饰后的正义序列
-
O:修饰后的反义序列
-
P:加工后的N
-
Q:加工后的P
-
R:疾病基因(靶基因)的序列
-
S:疾病基因的剩余量,也就是我们的最终任务——药物作用后的治疗效果
名词解析表格
02 Baseline速通
流程概述
两个文件:
-
dw大佬标注过的ipynb文件
-
数据集文件
-
将数据集压缩包解压完后一键运行
-
下载submission结果、关闭实例
-
官网提交成绩(没人每天提交三次,每次分数需要等待一分钟出分)
-
dw提交打卡成绩
代码分为十个部分进行理解:
-
库的导入
-
创建基因组分词器:将输入序列转换为大写;长序列按照一定的规则切分为小序列
-
创建基因组词汇表:将基因组与索引相关联,统计其中基因频率高的基因片段
-
siRNA数据集的转换:将siRNA序列数据转换为模型可以处理的格式
-
序列数据:按照一定顺序排列的数据集合,包含了与其前后相邻数据项相关的信息
-
- siRNA Model:基于GRU的神经网络模型
- GRU:使用重置门和更新门最大化使用算力
- 评估指标计算函数:根据官方设定,对精确度、召回率、F1值和评分进行代码实现
- 模型评估函数:使用第六步的函数进一步在测试集上评估模型的性能
- 模型训练函数:用于训练模型,在每一个epoch(神经网络遍历一遍数据)之后评估模型的性能
- 训练主程序:在这里可以进行模型参数的优化,也就是调参
- 进行模型测试,输出最终结果