「MetMiner」数据清洗 - 离群样本

在引言部分我们讲过离群样本的判别,很大程度上和实验设计相关,对于无样本异质性,变量较少的实验设计是一种方案,而对于存在样本异质性,或者引入了多样化变量的实验设计这里需要慎重去除...

原理

离群样本(outlier)出现的原因,一方面可能是样本本身的原因,比如处理方式不当,生长状态,遗传背景变异等,也可能是实验操作问题,总之会影响结果的准确性。对于实验设计简单,引发差异变量较少的代谢组学实验,outlier判别相对简单,生物学重复之间差异较小,而组间差异较大,如果出现个别与整体差异显著的材料,应该是各种原因造成的离群样本,tidyMass提供了detect_outlier()来判断离群值,其原理基于Detecting outlier samples in PCA – Florian Privé – R(cpp) enthusiast 结果会输出一个判断表格,基于以下判断结果我们可以根据自己的实验设计的实际情况,自助判断离群样本:

  • 根据样本中代谢物的缺失率;

  • 根据标准偏差;

  • 根据绝对中为差(MAD);

  • 根据稳健马氏距离推导的p值来判别;

操作界面

操作相对简单,对应的设置好阈值之后点击find outlier即可,MetMiner中默认的值和tidyMass提供的默认阈值一致。比如Demo中我们制造了一个虚拟的离群样本,根据缺失率和马氏距离该样本在正谱中都为离群样本,本试验的唯一变量是遗传背景的不同,所以这里可以将Outlier样本视为离群值去除,去除过程操作如下:

  • 可以直接在Pick outliers中查找到Outlier去除,也可根据样本缺失值统计散点图直观的选择需要去除的样本;

  • 开启图形交互;

  • 将鼠标悬浮到缺失值统计的高缺失率的样本查看sample_id;

  • 在Pick outlier中选择要去除的样本;

  • 点击remove and update;

  • 在静态图模式下,可以看到去除前后缺失率统计图。

其它

这里仍旧需要再次提醒包含不同物种、不同组织、时序效应等复杂实验设计,在离群值去除时需要慎重!

---The end---

Jul 27, 2024 by Shawn Wang, HENU, Kaifeng, Henan, China.