Phylogenetic-tree

Wright-Fisher模型:从前向后或由过去推测现在的基因谱系研究方法。

基因融合模型

Bootstrap value

model

矩阵法:近邻结合法 neighbor-joining (NJ)

简约法:最大简约法 maximum parsimony (MP)

最大似然法:最大似然估计 maximum likelihood (ML)

后验概率法:贝叶斯法 Bayesian

tools

MEGA-X

BEAST2 (Bayesian):https://github.com/CompEvol/beast2.git

MrBayes:http://mrbayes.csit.fsu.edu/index.php

gwas-model

Q(群体结构)+K(亲缘关系)模型

FASTA(why “permutation procedures can not be applied to estimate genome-wide significance, because the data structure is not exchangeable.”)
GRAMMAR(Amin et al, 2007)

EIGENSTRAT(GenABEL qtscore)

FASTA(GenABEL mmscore)

heritability

遗传力(Heritability )是我们理解遗传与环境因素对性状影响的基础,定义为 遗传方差占性状方差(总方差)的比值 ,可以理解为遗传因素对性状的影响,数学上以h2表示。

independence-test
二项分布 几何分布 泊松分布 超几何分布
具有可能结果x次的概率 第x次具有第一次可能结果出现的概率 某个时间范围内,
发生某件事情x次的概率

独立性检验
chi.test需所有单元期望数>5,样本数>40
fisher.test最小单元期望数<5

相关分析
pearson spearman kendall
note:如果散点图表明“可能是单调的,可能是线性的”关系,最好的选择是 Spearman 而不是 Pearson。即使数据证明是完全线性的,用 Spearman 也不会造成信息丢失。但是,如果不是完全线性但使用 Pearson 系数,会丢失 Spearman 可以捕获的信息,是否单调。

相关性检验
2个 t检验;多个 方差分析

生物学重复?
随机完全区组
双因素方差分析
环境 样本

r2

D=P(AB)-P(A)*P(B) 各配子基因型绝对值相同,可正可负;因D的取值受人为制定的等位基因频率影响,引入标准化的不平衡系数D’;

D’=D/Dmax 不能比较不同研究之间的LD程度且依赖样本量大小,只包括重组史;

当D<0, Dmax=min{P(A)P(B),P(a)P(b)};

当D>0, Dmax=min{P(A)P(b),P(a)P(B)}


推导过程:u s t v 分别为AB,Ab,aB,ab频率

DAB=pAB-pApB=u(1-u-s-t)-st=uv-st

同理得DAb=-(uv-st)

令uv-st=D

pAB=pApB+D pAb=pApb-D

当D>0 因pAb不能为负

故得出以上结论


r2=D*D/(P(A)P(a)P(B)P(b)) 包括重组和突变,r2的期望值和有效种群大小和重组系数相关,r2=1/(1+4NeC),其中Ne是有小种群大小,C是重组系数。https://www.plob.org/article/21675.html

note:R2用于回归评价指标,1表示预测跟真实结果完美匹配

genomic LD:半衰期确定lead snp区间
或 block LD:locus zoom确定小区域
最终确定candidate gene

LD群体遗传学作用:一方面可以判断GWAS所需标记量,决定GWAS的检测效力以及精度;另外也可以辅助分析进化与选择,在同一个连锁群上,LD衰减慢说明该群体受到选择,一般来说,野生群体比驯化改良群体LD衰减快,异花授粉植物比自花授粉植物LD衰减快。
连锁也并不一定是导致不平衡的唯一原因。?(wjkp30)[连锁不平衡的程度取决于多方面的因素,包括遗传连锁、自然选择、基因重组的概率、突变率、遗传漂变、婚配制度、选型交配以及种群结构。
连锁并不一定意味着一定存在不平衡,长期随机交配也可以导致平衡。

两个座位间不平衡的显著检验

卡方检验

BLUP

表型值(P)=加性遗传效应(A)+显性效应(D)+上位效应(I)+系统环境效应(ES)+随机环境效应(ER)

加性遗传效应即育种值(EBV)。

gwas-kinship

亲缘系数(coefficient of kinship):从两个个体中分别随机抽取一个同源等位基因,这两个基因是IBD的概率(相同且来自同一个祖先)。直接衡量个体间亲缘关系。

OUTLINE

Genotype preparation

  1. Sequencing
  2. Imputation
  3. QC(call rate, MAF)
  4. Cluster analysis [code]
  5. 其他比对 SV、CNV

Phenotype preparation

  1. BLUP

Basic statistics

  1. Distrubution
    zscore(Normalization or Standardization)
  2. Corelate
    (pearson,spearman,kendall,
    fisher,chip-squared test)
  3. Linear algebra ……
  4. Bayesian
  5. probability and Likelihood
  6. Least squares method …… —> statistics
  7. How to calculate 'r2'?
    LD function(LDSC)
  8. Bonferroni

GWAS

  1. kinship
    How to deal with population strucure?
    Phylogenetic tree
  2. GWAS model
  3. What are lambda, P, PVE, effect size?
  4. How to pick 'p threshold'?
    (how to calculate independent snp?)
  5. Fine mapping
    conditional analysis [code]
  6. LD block
    locus zoom [code]

others

BSA analysis
trio-GWAS
haplotype analysis
PRS

GS

  1. GS model
  2. Genomic prediction(G matrix) [code]
    Prediction acuracy(cross validation) [code]

sQTL

Instrument(leafcutter踩坑指南)

post-analysis

  1. Heritability
  2. SNP annotation [code]
  3. neutrality tests

Integrative analysis

  1. Colocalization
    共定位 [code]
  2. MR [code]

TWAS

  1. TWAS model [code]

Meta-analysis

  1. Merge different Genotype [code]

Analysis about DNA

ATAC-seq [code]

  1. Chrom accessibility region(where, function)
  2. Method

Bisfule-seq [code]

  1. Method
  2. DMR [code]

DAP-seq

RNA-seq [code]

https://ming-lian.github.io/2019/02/08/Stat-on-RNAseq/
1.Sequencing(depth,coverage,library)
https://www.jieandze1314.com/post/cnposts/239/
批次效应 batch
2.How to aligh
3.Flow and note

Find DEG [code]

R package: Deseq principles

WGCNA [code]

Interpreting literature:

Using Interactome Big Data to Crack Genetic Mysteries and Enhance Future Crop Breeding - ScienceDirect
Open problems in human trait genetics | Genome Biology
GTEX

Book to read

Likelihood
算法设计与分析基础_第3版
机器学习周志华

学习思路

statistics -> data science
quantitative genetics

Algorithm & Programming

Makefile
R packages: ggplot