MR

why MR:

混杂因素confounding会影响outcom -> radomisation method but immoral -> MR
MR comes from Mendel’s Laws(segregation:randomly inheritance;independent assortment:no LD)
(当使用TWAS 混杂因素影响怎么去掉?)
3 MR core assumptions:

  1. SNP unrelates to confounders(in most case it is true. prove it by analyse one confounder with snp)
  2. population stratifation
  3. no horizontal pleiotropy (identify by sensitivity test)
gs

y=u+G+E+GE+e
提高GS准确性:

  1. 基因型:加入功能性marker(gwas结合)
  2. trait:多性状模型;选择指数(多性状整合)
  3. G x E
  4. 多组学数据
  5. 群体:增加训练群体;训练群体和预测群体之间的亲缘关系。

note:选择指数(指数辅助):选定某一目标性状,选择指数SI
选择指数与性状之间的遗传决定系数;
多性状和选择指数的区别

预测精度:育种值
预测能力:表型值

育种值和表型值的关系:https://blog.csdn.net/zjguilai/article/details/90707052

性状和方法间的互作 F-test

基于GWAS获得p值小的snp进行GS

22.12.10
SNPBLUP :每个snp(rrBLUP)
GBLUP:kinship G矩阵IBS snp的和
IBS怎么矫正群体结构(可能把主效基因矫正没了,即假阴性)
IBS怎么做GS

有的群体结构为什么IBS矫正不掉:marker密度不同 分布不均匀,重组不均一,理想情况下一个重组一个marker;frequency是偏的;原假设是极少数相关,但现实遗传力高,比如20%的marker都与性状相关。

PCA用IBS和每个snp的区别,解释的pc1 IBS版低。

最小二乘法
最大似然法
贝叶斯
modeling computering

rrBLUP
统计基础:linear algerbra
概率与似然
最小二乘法
极大似然
最小二乘法与极大似然区别联系
回归的正则化
Ridge
Lasso
Elasticnet
Bayes回归
(即解y=ax+b)

zhihu.com/p/72370235

如何解混合线性模型

imputation

填充群体
call snp

phase:
reference panel
trios

gtex
  1. 同一个变异在不同组织都存在 但不同效应 ->可以解释两个性状负相关机制
  2. 同一个变异对整体的影响

sQTL影响可变剪切丰富度

missing regulation –developmental GTEx

遗传变异丰富
Farm GTEx意义:
找到与真正casual variant最相近的snp,提升芯片预测准确度。
物种间的借鉴意义
组织间的借鉴意义

在不同组织共定位的意义

rnaseq 填充可以解决cis QTL问题 不能解决trans eQTL问题
MBRA 功能变异验证
遗传力富集区域
怎么知道是甲基化了影响 介导

杨树 松树 注释转录调控区域
不同种群 荟萃分析

参考单倍型图谱,群体水平上 rnaseq reference: UTR
encode计划:功能注释 同一生态型不同时期;ATACseq hi-c
800个转录因子的atacseq
做一个生态型
gtex:独立生态型 IBS 同一个体筛掉SNPcall

不同环境 可塑性怎么遗传

标签转移
https://github.com/fjchange/Papers-Notes/blob/master/LPA(标签转移算法).md
数据点相近具有相似的标签

原位atac-seq
空间组学

color space

表达可塑性

deg

DEG principle

conditional-analysis

精细定位
通常情况下GWAS或是meta分析检验的是基于单个SNP模型的相关,所估计的效应量为被检验SNP的边际效应,但相比于多SNP模型的联合效应,单个SNP模型的边际效应并没有考虑该SNP与周围SNP的LD。

这会带来两个问题:

如果两个SNP成负相关,那么这两个SNP的效应都会被减弱。
如果两个SNP都达到了显著的阈值,事后很难通过LD来确定这两个SNP的相关的程度。

WGCNA

为了探究组织间的共表达网络的保守性和多样性,我们进行了加权共表达网络的构建。本部分使用R语言的WGCNA包进行分析(Langfelder and
Horvath, 2008)。

首先我们进行数据整理,在每个组织中随机选取2000个表达基因,通过“goodSamplesGenes”函数检验缺失值并对缺失值处理,随后通过样本聚类分析剔除离群样本,从而减少样本因素导致的误差。

其次,我们对样本进行了层次聚类,进一步使用bicor相关系数进行基因间的表达相关系数的计算,后选取拟合曲线第一次接近0.9时的软阈值参数,将基因分类构成基因共表达模块,并验证共表达网络是否符合无尺度网络,即出现连接度为k的节点的对数log(k)与该节点出现的概率的对数log(P(k))要负相关,且相关系数要大于0.85。本研究通过“pickSoftThreshold”函数进行筛选最佳软阈值筛选。

(SoftThreshold)

再次,我们将表达矩阵转换成邻接矩阵,然后再将邻接矩阵转换成拓扑矩阵(TOM),基于TOM,我们使用average-linkage层次聚类法对基因进行聚类,按照混合动态剪切法在确定基因模块后,我们依次计算每个模块的特征向量值(eigengenes),然后对模块进行聚类分析,将距离较近的模块合并成新的模块,本部分使用“blockwiseModules”函数进行分析,设置mergeCutHeight =0.1、deepSplit=2、minModuleSize=30、pamStage=F。

cluster-analysis

为了探究表达基因在组织间的保守性和多样性,挖掘组织间不同生态型表达的保守性和多样性,我们对玉米关联群体中298个生态型在7个组织中的表达矩阵进行聚类分析。为了避免低表达基因或未表达基因对结果造成的影响,我们在每个组织中筛选相同的100个个体和5000个基因表达量用于后续分析。为了避免不同组织以及基因表达差异的影响,我们首先使用z-score公式(公式2.2)对每个基因在不同个体中的表达数据进行归一化,随后使用处理过的表达量信息计算两两样本间的欧式距离,然后利用欧式距离实现样本的聚类。

我们使用R语言的gplot包中的heatmap.2函数进行聚类分析(Warnes et al., 2015)。

Kmeans

层次聚类(树状图)(Hierarchical Agglomerative Clustering,HAC)

  1. 计算变量间的相异度
    欧式距离:计算数据集中每个观测值之间的相异度
  2. 融合成簇
    计算簇之间的距离:
    完全连接聚类
    ward最小方差法

R package:fossil
euclidean

https://www.jianshu.com/p/50cb85285af0

PCA

tSNE

UMAP

https://www.bioinformatics.babraham.ac.uk/training/10XRNASeq/Dimension%20Reduction.pdf