代谢组学3。数据分析

1.代谢物提取一般需要每组至少10个样本;

2.从所有提取的样品中取等量的混合物作为QC;

3.QC样本和实验样本穿插在计算机上,从十个QC开始,到三个QC结束,每十个样本中穿插一个QC样本。

得到质谱数据通过软件处理得到峰表。

峰表格式一般为:每行一个m/z,每列一个样品。

数值代表样品中m/z的信号响应。

第一列是保留时间_质荷比来表示离子,比如0.10 _ 96.9574 m/z。

一般有以下几点:

1.数据预处理。如缺失值过滤和填充、数据规范化等。

2.数据质量控制。包括CV分配,QC等。

3.统计分析。包括单变量、多变量等。

4.功能分析。包括通路、网络分析、生物标志物筛选等。

缺失值处理

1)缺失原因

A.信号太弱,检测不到;

B.检测误差,如离子抑制或仪器性能不稳定;

C.峰值提升的算法受限,无法从背景中提取低信号;

D.在解卷积过程中,并非所有重叠峰都能被分离。

2)缺失值过滤

例如:

去除QC样品中超过50%的缺失;

去除样本中超过80%的缺失值。

3)缺少值填充

-最小填充量

-平均/中值填充

- KNN( k近邻)填充

- BPCA(贝叶斯主成分分析)填充

- PPCA(概率PCA)填充

-奇异值分解

一般推荐KNN。

噪声信号去除

一般是低质量离子。

1)低质量离子的测定;

计算QC样品中离子的RSD(标准偏差/平均值);数值越小,偏差越小;

2)判断标准:

-对于单个离子峰,RSD

-对于总体数据,RSD 60%,总体数据合格;

样本标准化

目的是提高样本之间的可比性。

样本之间是有差异的,比如不同人的尿液浓度不同,不能直接比较。

可在采集前进行归一化,如肌酐归一化;也可以采集后归一化,如sum、pqn、分位数等。对于数据分析,通常是后者,比如求和归一化。

数据变换

下游分析一般要求数据为正态分布或高斯分布;

因此,通常需要对数据进行对数或幂变换,两者都可以消除最大值的抑制作用,调整数据的分布,如下图所示;

对数变换对零值很敏感,必须先去掉零值。

数据转换-缩放

目的是消除最大效应。

如果不同样本中相同m/z的强度差异过大而无法调整,最大值的存在往往会掩盖较低值的变化特征。

所有样本中某个m/z的强度值可以除以一个因子(SD值);

自动(uv)、pareto(推荐)、vast、range等方法。

相当于上述用于样品可比性的样品标准化和用于离子可比性的缩放。

QC样本的TIC重叠

人们普遍认为:

所有QC样品峰重叠良好;

峰值强度波动差别不大;

履历

主成分分析中质量控制样本的聚集度

QC样本的相关性

单变量分析

一次只分析一个变量,也就是一个m/z,看这个m/z在不同组、不同样本中的表达有没有差异?

常见的方法有多重分析、t检验、秩和检验、方差分析等。

聚类分析

核心思想是根据具体指标(变量)对研究样本进行分类;

聚类分析需要设定一种方法来度量样本之间的相似性或相异性(常用的有欧氏距离、相关系数等。);

常见的聚类方法:系统聚类(层次聚类)、K- means聚类等。

K- means首先要估计会划分出多少个类,然后根据相似度的远近将所有基因归入这些类。

K- means比层次聚类具有更少的计算量和更高的效率。

不管是哪种分类方法,最终应该分成多少个类别,并不完全由方法本身决定,而应该由研究者结合具体问题来决定。

聚类分析是一种探索性的数据分析方法。对同一数据使用不同的分类方法,会得到不同的分类结果。分类结果没有对错,只是分类标准不同。

使用聚类方法时,首先要明确分类的目的,然后考虑选择哪些变量(或数据)参与分类,最后再考虑方法的选择。

多变量分析

1)主成分分析

以下是分数(样本在新坐标系中的位置)

)和载荷图(载荷图,原始变量和主分量之间的角度)

PCA怎么看?

2)偏最小二乘法

PLSDA的图类似于PCA。只是监督学习的一种方法,预先对样本进行分类,最后看是否能把不同的群体分开。

R2和Q2被用来评估模型。

R2是相关系数,表示这个模型的拟合效果,是一个定量的度量(范围0-1),表示建立的模型能在多大程度上代表真实数据;

一般R2在0.7-0.8时,说明模型的解释力好,差模型的R2往往在0.2-0.3。

Q2代表PLS-DA模型的预测能力;

一般Q2大于0.5,说明预测能力好,R2和Q2的数值应该比较接近。

排列检验模型用于拟合检验。

可变重要性投影

每个m/z都有一个VIP值,表示这个m/z在一个主分量上的投影,即重要程度;

一般我们用第一和第二主成分的VIP来表示这个m/z对模型分类的贡献,VIP >;=1被认为是重大贡献。

代谢组学数据分析的最后两个部分-功能分析和生物标志物筛选将在下一节中显示。