cluster-analysis

为了探究表达基因在组织间的保守性和多样性,挖掘组织间不同生态型表达的保守性和多样性,我们对玉米关联群体中298个生态型在7个组织中的表达矩阵进行聚类分析。为了避免低表达基因或未表达基因对结果造成的影响,我们在每个组织中筛选相同的100个个体和5000个基因表达量用于后续分析。为了避免不同组织以及基因表达差异的影响,我们首先使用z-score公式(公式2.2)对每个基因在不同个体中的表达数据进行归一化,随后使用处理过的表达量信息计算两两样本间的欧式距离,然后利用欧式距离实现样本的聚类。

我们使用R语言的gplot包中的heatmap.2函数进行聚类分析(Warnes et al., 2015)。

Kmeans

层次聚类(树状图)(Hierarchical Agglomerative Clustering,HAC)

  1. 计算变量间的相异度
    欧式距离:计算数据集中每个观测值之间的相异度
  2. 融合成簇
    计算簇之间的距离:
    完全连接聚类
    ward最小方差法

R package:fossil
euclidean

https://www.jianshu.com/p/50cb85285af0

PCA

tSNE

UMAP

https://www.bioinformatics.babraham.ac.uk/training/10XRNASeq/Dimension%20Reduction.pdf