代谢组学3。数据分析
2.从所有提取的样品中取等量的混合物作为QC;
3.QC样本和实验样本穿插在计算机上,从十个QC开始,到三个QC结束,每十个样本中穿插一个QC样本。
。
得到质谱数据通过软件处理得到峰表。
峰表格式一般为:每行一个m/z,每列一个样品。
数值代表样品中m/z的信号响应。
第一列是保留时间_质荷比来表示离子,比如0.10 _ 96.9574 m/z。
一般有以下几点:
1.数据预处理。如缺失值过滤和填充、数据规范化等。
2.数据质量控制。包括CV分配,QC等。
3.统计分析。包括单变量、多变量等。
4.功能分析。包括通路、网络分析、生物标志物筛选等。
缺失值处理
1)缺失原因
A.信号太弱,检测不到;
B.检测误差,如离子抑制或仪器性能不稳定;
C.峰值提升的算法受限,无法从背景中提取低信号;
D.在解卷积过程中,并非所有重叠峰都能被分离。
2)缺失值过滤
例如:
去除QC样品中超过50%的缺失;
去除样本中超过80%的缺失值。
3)缺少值填充
-最小填充量
-平均/中值填充
- KNN( k近邻)填充
- BPCA(贝叶斯主成分分析)填充
- PPCA(概率PCA)填充
-奇异值分解
一般推荐KNN。
噪声信号去除
一般是低质量离子。
1)低质量离子的测定;
计算QC样品中离子的RSD(标准偏差/平均值);数值越小,偏差越小;
2)判断标准:
-对于单个离子峰,RSD
-对于总体数据,RSD 60%,总体数据合格;
样本标准化
目的是提高样本之间的可比性。
样本之间是有差异的,比如不同人的尿液浓度不同,不能直接比较。
可在采集前进行归一化,如肌酐归一化;也可以采集后归一化,如sum、pqn、分位数等。对于数据分析,通常是后者,比如求和归一化。
数据变换
下游分析一般要求数据为正态分布或高斯分布;
因此,通常需要对数据进行对数或幂变换,两者都可以消除最大值的抑制作用,调整数据的分布,如下图所示;
对数变换对零值很敏感,必须先去掉零值。
数据转换-缩放
目的是消除最大效应。
如果不同样本中相同m/z的强度差异过大而无法调整,最大值的存在往往会掩盖较低值的变化特征。
所有样本中某个m/z的强度值可以除以一个因子(SD值);
自动(uv)、pareto(推荐)、vast、range等方法。
相当于上述用于样品可比性的样品标准化和用于离子可比性的缩放。
QC样本的TIC重叠
人们普遍认为:
所有QC样品峰重叠良好;
峰值强度波动差别不大;
履历
主成分分析中质量控制样本的聚集度
QC样本的相关性
单变量分析
一次只分析一个变量,也就是一个m/z,看这个m/z在不同组、不同样本中的表达有没有差异?
常见的方法有多重分析、t检验、秩和检验、方差分析等。
聚类分析
核心思想是根据具体指标(变量)对研究样本进行分类;
聚类分析需要设定一种方法来度量样本之间的相似性或相异性(常用的有欧氏距离、相关系数等。);
常见的聚类方法:系统聚类(层次聚类)、K- means聚类等。
K- means首先要估计会划分出多少个类,然后根据相似度的远近将所有基因归入这些类。
K- means比层次聚类具有更少的计算量和更高的效率。
不管是哪种分类方法,最终应该分成多少个类别,并不完全由方法本身决定,而应该由研究者结合具体问题来决定。
聚类分析是一种探索性的数据分析方法。对同一数据使用不同的分类方法,会得到不同的分类结果。分类结果没有对错,只是分类标准不同。
使用聚类方法时,首先要明确分类的目的,然后考虑选择哪些变量(或数据)参与分类,最后再考虑方法的选择。
多变量分析
1)主成分分析
以下是分数(样本在新坐标系中的位置)
)和载荷图(载荷图,原始变量和主分量之间的角度)
PCA怎么看?
2)偏最小二乘法
PLSDA的图类似于PCA。只是监督学习的一种方法,预先对样本进行分类,最后看是否能把不同的群体分开。
R2和Q2被用来评估模型。
R2是相关系数,表示这个模型的拟合效果,是一个定量的度量(范围0-1),表示建立的模型能在多大程度上代表真实数据;
一般R2在0.7-0.8时,说明模型的解释力好,差模型的R2往往在0.2-0.3。
Q2代表PLS-DA模型的预测能力;
一般Q2大于0.5,说明预测能力好,R2和Q2的数值应该比较接近。
排列检验模型用于拟合检验。
可变重要性投影
每个m/z都有一个VIP值,表示这个m/z在一个主分量上的投影,即重要程度;
一般我们用第一和第二主成分的VIP来表示这个m/z对模型分类的贡献,VIP >;=1被认为是重大贡献。
代谢组学数据分析的最后两个部分-功能分析和生物标志物筛选将在下一节中显示。