cluster-analysis
为了探究表达基因在组织间的保守性和多样性,挖掘组织间不同生态型表达的保守性和多样性,我们对玉米关联群体中298个生态型在7个组织中的表达矩阵进行聚类分析。为了避免低表达基因或未表达基因对结果造成的影响,我们在每个组织中筛选相同的100个个体和5000个基因表达量用于后续分析。为了避免不同组织以及基因表达差异的影响,我们首先使用z-score公式(公式2.2)对每个基因在不同个体中的表达数据进行归一化,随后使用处理过的表达量信息计算两两样本间的欧式距离,然后利用欧式距离实现样本的聚类。
我们使用R语言的gplot包中的heatmap.2函数进行聚类分析(Warnes et al., 2015)。
Kmeans
层次聚类(树状图)(Hierarchical Agglomerative Clustering,HAC)
- 计算变量间的相异度
欧式距离:计算数据集中每个观测值之间的相异度 - 融合成簇
计算簇之间的距离:
完全连接聚类
ward最小方差法
R package:fossil
euclidean
https://www.jianshu.com/p/50cb85285af0
PCA
tSNE
UMAP
https://www.bioinformatics.babraham.ac.uk/training/10XRNASeq/Dimension%20Reduction.pdf