我们将代谢组学数据分析大致的分为了两部分,第一部分数据清洗,也就是将包含系统误差、批次效应、噪音、离群样本,等多种干扰因素的「原始数据」清洗成「干净数据」。MetMiner在执行数据清洗前会对原始数据进行质控,尽早的基于质控样本(QC)来观测是否具有严重批次效应的出现,以及由于实验操作失误产生的异常数据;
该部分主要介绍两点:
-
代谢组数据误差来源原理和解决方案;
-
数据清洗步骤简介;
误差来源
在代谢组学实验中,仪器漂移和批次效应是两个主要的系统误差来源,它们会影响数据的质量和分析结果的可靠性。以下是对这两个现象的详细解释:
仪器漂移
定义:仪器漂移是指在长时间的实验过程中,分析仪器(如质谱仪、色谱仪等)性能的逐渐变化。这种变化可能是由于温度、压力、样品负载、仪器部件老化等因素引起的。
表现:
- 信号强度变化:随着时间的推移,仪器的检测灵敏度可能会变化,导致相同样品在不同时间点测得的信号强度不同。
- 保留时间漂移:在色谱分离过程中,化合物的保留时间可能会随着时间的推移发生变化,导致峰位偏移。
- 质量偏移:质谱分析中,质量数(m/z)的测量可能会发生轻微的偏移,影响质量准确度。
解决方法:
- 定期校准:对仪器进行定期校准和维护,保持仪器性能的稳定。
- 使用QC样品:在实验过程中定期插入QC样品,通过比较QC样品的检测结果,监控和校正仪器漂移。
- 数据归一化:利用QC样品数据进行归一化处理,校正仪器漂移对实验数据的影响。
批次效应
定义:批次效应是指在不同实验批次中,由于实验条件、操作人员、试剂、设备等的变化,导致的系统性误差。这种误差会使得不同批次之间的实验数据出现系统性差异。
表现:
- 系统偏差:同一实验在不同批次中进行时,测得的结果可能会存在系统性的偏差,导致无法直接比较不同批次的数据。
- 变异增大:不同批次之间的变异会增加数据的总变异,影响统计分析的结果和结论。
解决方法:
- 实验设计:在实验设计阶段,通过随机化和平衡化减少批次效应。例如,将样品随机分配到不同的批次中进行检测。
- 使用QC样品:在每个批次中都插入相同的QC样品,利用QC样品数据进行校正,减小批次效应对实验结果的影响。
- 数据归一化和校正:采用数据归一化和批次校正方法,如多元统计分析、批次效应校正,来减少批次效应的影响。
QC-based normalization
QC-based Normalization的优点
- 校正系统误差:通过使用QC样品,可以有效校正因仪器漂移和批次效应引起的系统误差,保证数据的准确性。
- 提高数据一致性:在实验过程中定期插入QC样品,确保数据在不同时间点和不同批次中的一致性,提高实验结果的可比性。
- 增强数据的可靠性:QC样品提供了一个标准参考,有助于减少假阳性和假阴性结果,增强数据分析的可靠性。
- 监控实验过程:QC样品可以用于实时监控仪器性能和实验过程,及时发现和纠正实验中的问题。
- 简化数据处理:QC样品的使用使得数据归一化和校正过程更加简便和标准化,提高数据处理的效率。
常用的QC-based Normalization算法
- LOESS(Locally Estimated Scatterplot Smoothing):
- 原理:LOESS算法通过局部回归的方法,对QC样品的信号强度进行平滑,校正仪器漂移和批次效应。
- 优点:能够处理复杂的非线性关系,适用于大规模数据集。
- SVR(Support Vector Regression):
- 原理:利用支持向量回归模型,对QC样品的信号强度进行建模,校正仪器漂移和批次效应。
- 优点:适用于高维数据,具有良好的泛化能力。
- SERRF(Systematic Error Removal using Random Forest):
- 原理:使用随机森林模型来校正系统误差。首先,利用QC样品的数据构建随机森林模型,学习QC样品的信号强度与实验条件(如批次、时间等)之间的关系。然后,利用训练好的模型预测每个样品的系统误差,并进行校正。
- 优点:SERRF能够有效地校正由于仪器漂移和批次效应引起的系统误差,提高数据的准确性。
数据清洗步骤简介
检测批次效应和离群样本
首先我们从上述原理可知QC样本的设置对于数据清洗来说是非常重要的,一般在我们的实验过程中,会在开头先上3针左右的QC,然后再上样本,每个10个样本左右穿插一针QC。在上样结束再补3针QC。
理论上QC样本是所有sample等量混样获得的,包含了所有的variable信息,而且他们是一致的,我们通过QC样本代谢物峰面积的boxplot、PCA、以及样本中的代谢物的缺失率可以观测到批次效应和系统偏移。通观测这些图,如果我们发现了随着上样时间的推移,QC样本呈现较大幅度的偏移,而且具有一定的规律,结合实验记录我们需要在sample_info
中补充实验的批次信息。其次,如果实验设计中不包括样本异质性,也就是说测试样本基本属于同一物种、同一(近似的)发育时期、相同组织的话,那么变量较为单一。分为以下情况:
-
同一材料不同处理: 变量为处理条件;
-
不同遗传背景相同处理:变量为遗传背景;
-
不同遗传背景不同处理:变量为遗传背景+处理;
-
相同材料时序:变量为时间序列;
-
不同遗传背景时序:变量为遗传背景+时间序列;
-
...
总之实验设计越简单,差异构成因素越小,越容易从差异代谢物入手聚焦生物学问题;相反,需要更多的数据分析手段,逐步排除干扰,聚焦生物学问题。
针对这类实验设计,我们经验得知代谢水平 物种特异性 ≈ 组织特异性 >> 处理-对照 ≈ 遗传背景差异 。那么当你的实验设计包含了样品异质性后,物种间特异性和组织间特异性会大幅度掩盖遗传背景和处理造成的差异,反映到代谢组数据上就是在不同物种,不同组织间的样本在代谢物类别上具有明显差异,通过样本中代谢物的缺失率(missing value rate)在不同组织间具有显著差异;这里我们提供一个参考的阈值,
-
如果对于无样本异质性的实验设计,mv > 0.5可以被认为是outlier,这个可能是样本本身的问题,也可能是实验操作的问题(进样瓶有气泡,浓度不足),因为同一种材料超过50%的代谢物检测不到肯定不正常。
-
如果对于有样本异质性的实验设计,mv > 0.8可以被认为是outlier,我们实操和经验中,这类样本一般是由于实验操作引起的失误,从TIC图可以看出这类样本提峰的结果就很奇怪,遇到这种情况需要及时在补一针样品,所以在遇到大样本量的非靶代谢时,需要阶段性的观测跑完样本结果,及时纠正实验失误引发的错误样本结果;
标准数据清洗步骤
离群样本和批次效应在规范化的实验操作流程中根据实验记录和对结果的观测是可以提前避免的,但也不能保证每次实验均可以,那么在我们获得原始数据后,通过后期数据质控,数据清洗过程也可以亡羊补牢;
-
在MetMiner中 Data cleaning的第一步是『Overview』这里展示了原始数据QC样本峰面积的统计结果;随着上样顺序的排列,我们可以观测是否具有批次效应或者系统偏移,如果观测到了批次效应,需要及时修改
sample_info
中的batch
信息;第二块展示了所有样本的代谢物缺失率,同样可以观测到是否具有明显的样本异质性
或者批次效应
; -
第二步是『remove noisy features』称为去噪,通过统计每个feature在QC样本中或者测试Subject样本中的缺失率来判断是否为噪音;
-
第三步是『remove outlier』去除离群值,这里tidymass提供了多种离群值检测指标Detecting outlier samples in PCA – Florian Privé – R(cpp) enthusiast, 这里不能非黑即白的刻板的套用软件提供的参考结果,正如前文提到的一样,需要结合自己的实验设计灵活的判断;
-
第四步是『missing value imputation』缺失值的插补,在后续进行数据标准化时不允许出现缺失值,所以这里需要使用合适的算法对缺失的值进行插补;
-
第四步为『Normalization』数据标准化,也就是前面提到的标准化的过程,其实还隐含了另外一个就是batch align,在tidymass中是通过batch integrate将不同batch的结果整合到一起。
---The end---
Jul 27, 2024 by Shawn Wang, HENU, Kaifeng, Henan, China.