r2

2022-11-17

D=P(AB)-P(A)*P(B) 各配子基因型绝对值相同，可正可负；因D的取值受人为制定的等位基因频率影响，引入标准化的不平衡系数D’；

D’=D/Dmax 不能比较不同研究之间的LD程度且依赖样本量大小，只包括重组史；

当D<0, Dmax=min{P(A)P(B),P(a)P(b)}；

当D>0, Dmax=min{P(A)P(b),P(a)P(B)}

推导过程：u s t v 分别为AB，Ab，aB，ab频率

DAB=pAB-pApB=u(1-u-s-t)-st=uv-st

同理得DAb=-（uv-st）

令uv-st=D

pAB=pApB+D pAb=pApb-D

当D>0 因pAb不能为负

故得出以上结论

r2=D*D/(P(A)P(a)P(B)P(b)) 包括重组和突变，r2的期望值和有效种群大小和重组系数相关，r2=1/(1+4NeC),其中Ne是有小种群大小，C是重组系数。https://www.plob.org/article/21675.html

note：R2用于回归评价指标，1表示预测跟真实结果完美匹配

genomic LD：半衰期确定lead snp区间
或 block LD：locus zoom确定小区域
最终确定candidate gene

LD群体遗传学作用：一方面可以判断GWAS所需标记量，决定GWAS的检测效力以及精度；另外也可以辅助分析进化与选择，在同一个连锁群上，LD衰减慢说明该群体受到选择，一般来说，野生群体比驯化改良群体LD衰减快，异花授粉植物比自花授粉植物LD衰减快。
连锁也并不一定是导致不平衡的唯一原因。？（wjkp30）[连锁不平衡的程度取决于多方面的因素，包括遗传连锁、自然选择、基因重组的概率、突变率、遗传漂变、婚配制度、选型交配以及种群结构。
连锁并不一定意味着一定存在不平衡，长期随机交配也可以导致平衡。

两个座位间不平衡的显著检验

卡方检验