【4.4】impute
一、imputation 概况
imputation是一种猜测数据的方法。该方法可以很简单,可以直接从可选的情况中选择可行性最大的,也可以很负责,通过其他已知的数据来推测这一部分未知的。
1.imputation of SNPs ?
在遗传学中,imputation通常用来猜测未被测出来的SNPs
2.为什么imputation
在SNP研究中,SNP丢失比较常见,通常比例能到达5-10%,但出于费用的考虑,重新分型的可能性不高;所以这一部分的SNPs通常被丢掉了,猜测这些数据的值能够降低费用同时减少有用的信息的丢失。
二、imputation常用的方法
如下图,某个人测了16个SNPs,但其中有一个SNP因为实验原因,信息没测到。 如果我们能获得这个SNP的基因型,那么我们就可以不用重新测序了。
方法一:Naive Method
直接根据这个SNP的频率,选择频率最大的那个作为这个点的基因型
但如果刚好这个人的这个SNP出现的是低频的基因型呢?
方法二: LD Method
根据 HapMap,我们可以获知未知基因的SNP跟其他已知基因型位点的LD值。 如果测出的数据中有SNP跟这个位点有很强的LD关系,则可以根据那个位点来推测出这个位点
如果有很多已知位点跟该SNP有很强的LD关系怎么办?
可以根据根据LD值,计算该未知SNP为 Major Allele 或Minor的推测个数,如果推测出来为Marjor更多,那就是Major。反之
方法三 其他方法
LD方法的缺点
- Doesn’t have optimal accuracy。 Other methods have as low as 4 or 5% error rate [J. Dai et al. 2007]
- Doesn’t produce a statistically usable confidence value。 Confidence value is dependent on sample size (and can decrease due to increased sample size)
- Not easy to interpret unless it is -1 or 1。 Results are dependent on haplotype phasing, which may have errors
另外需要改进的地方:
及时LD值为1,但有的位点两个Allele的频率相等时,仍旧没法判断到底选哪一个
改进的方法:
三、常用工具
IMPUTE2
http://mathgen.stats.ox.ac.uk/impute/impute_v2.html
参考资料
这里是一个广告位,,感兴趣的都可以发邮件聊聊:tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn
个人公众号,比较懒,很少更新,可以在上面提问题,如果回复不及时,可发邮件给我: tiehan@sina.cn