跳转至

Vol.071 如何科学地分析你的口水?

这是你的口水,98% 都是水,剩下的是各种各样的酶、电解质、细菌和细胞,最常见的,是白细胞和从你口腔黏膜脱落的上皮细胞。

在这个直径 50μm 的上皮细胞里,有一个 5μm 的细胞核,细胞核里,有 46 条这样的染色体,每条染色体里,是一条折叠缠绕在一起的双螺旋长链,这就是你的 DNA。

DNA 很长,每个几微米的细胞核里,都有 61.76 亿个间距为 0.34nm 的碱基对,连起来差不多有 2m 这么长.

但其中只有大概 1% 的 DNA 为基因片段,参与蛋白质和 RNA 编码。我们大约有 3 万个这样基因序列。

基因决定了我们为什么有两只眼睛一张嘴,但我们人类 99% 以上的 DNA 都一样。

决定我们不同的,是 60 亿个碱基对里几千万个常见变异,它们的人群变异率大于 1% ,被称为 SNP(Single-nucleotide polymorphism) ——单核苷酸多态性。

碱基对只有两类,AT 和 CG,SNP 指的就是单个碱基对的变异。

比如第 16 号染色体中部 ABCC11 基因上的这个 SNP 位点(rs17822931),如果是 TA-TA,那么你的耳垢是干的,如果是 TA-CG 或 CG-CG,那么你耳垢就是油性的。

今天分析你口水的基因检测公司,其实主要是在分析这些 SNP,进而解读你的基因。

拿到你的 2ml 口水后,首先需要用 SOD 这种表面活性剂把 DNA 从蛋白质里分离出来,提纯,用 NaOH 把双螺旋 DNA 解成单链,再杂交扩增,沉淀,复溶之后,就能得到用于测试的 DNA 样品了,此时,每立方米溶液里至少会有 50g DNA (50 ng/ul)。

这是各色DNA 与 illumina 联合定制的 ASA 芯片,可以检测专门为亚洲人定制的 75 万个 SNP 位点。

这里的每个方格,都可以检测一个人的 DNA ,方格里,是 1125 万个 1μm 的微珠,每个微珠里,有几十万根一模一样的探针。

探针是一条有 73 个碱基的 DNA 单链,前半部分是 23 个碱基的 Address 序列,是探针所在微珠的编号。

后半部分是由 50 个碱基组成的 Probe序列,用来和你的 DNA 里待检测的片段结合。

还是用耳垢来举例,这是我们 16 号染色体上的这段 DNA 序列,其他地方都一样,但在这个 SNP 位点上,可能是 TA-TA,也可能是 TA-CG 或 CG-CG 。

为了检测这个 SNP 到底是什么,我们把探针的 Probe 序列设计为这段 DNA 里的右侧序列,这样,你的 DNA 中左边这条链就能和探针完成配对杂交了。

之后,我们加入 4 种带标记的单个碱基,其中,A/T 可以被结合发红光,C/G 可以被结合发绿光。

这样,不同的 SNP 位点就会结合不同的碱基,如果是 TA-TA,就会结合两个 A ,发红光,同理,CG-CG 会结合两个 G,发绿光,而如果红绿都有就是 TA-CG。

当然,在更复杂的实际情况中还需要更多设计。每一个微珠可以测量一个 SNP 位点,但每个微珠要重复 15 次,才能得到相对准确的结果。

这样,1125 万个微珠发出的红绿光,才能帮我们得到 75 万个 SNP 位点的数据。

更多的位点还可以通过计算得到。这时,就需要用到 HMM——隐马尔可夫模型,把 75 万个 SNP 位点数据扩展到 570 万。

1966 年,数学家 Leonard E. Baum 在这篇论文中提出了隐马尔可夫链的雏形,核心思想是通过观察到的输出序列,找到最可能产生这个输出的状态序列。

比如在这个例子中,状态是天气——晴天阴天雨天之间存在转换概率,不同的天气下有不同的行动概率。

假设小明连续 3 天的行动是睡觉跑步逛街,我们就可以通过 HMM 计算出这 3 天最可能是什么天气。

HMM 要求状态和状态之间存在转换概率,而不是完全随机。对于我们的基因来说,这的确存在,被称作「连锁不平衡」。

今天,我们所有现存人类共同的母系祖先生活在大概 20 万年前的非洲,即使 20 年繁衍一代,也只有一万代人。

这么少的繁衍代数也意味着染色体的重组相当有限,人类基因组里许多相邻区域往往都“黏”在一起遗传下去了。

容易黏在一起遗传的 SNP 位点,就被称为一个 Block。这张图中,16 个 SNP 位点构成了 4 个Block,我们可以看到两个 SNP 共同遗传的概率,数字越高,概率越高。

这样,只要我们检测中出其中几个 SNP 位点的数据,就能通过隐马尔可夫模型推算出最有可能 的整条 SNP 链。

当然,还需要对比实际检测数据和 HMM 模型的推测数据,去掉不准的位点。在各色DNA,75 万个 SNP 可以扩展成 570 万个准确度在 98% 以上的 SNP 位点。

现在,就可以解读你的口水了。

研究 SNP 位点最常见的方法是 GWAS (Genome-wide association study),全基因组关联分析,在不同表现的人群之间寻找 SNP 的相关性。

比如在这份 2011 年的论文中,来自英国卡迪夫大学的研究团队把 21274 名躁郁症患者的 SNP 位点和 38675 名正常人进行比对,找到了一系列具有显著差异的 SNP 位点。

相关度用 P 值衡量,P 值越低,位点和性状之间的相关性就越高。

其中 P 值最低的是位于 2 号染色体的 RS1344706 位点,比阈值 5×10^-8 要低 5 个数量级。如果你在这个位点上的碱基对里有 AT,那么你更可能出现兴奋和低落情绪的两极变化。

作为一种复杂的精神类特征,每个 SNP 位点对于躁郁症的影响程度也不同。

各色 DNA 的方案是根据已有数据和研究报告,选取了 10 个 SNP ,通过 OR 值为每一个相关的 SNP 位点设定权重,就能到一张这样的分布图,评分越高,出现情绪两极变化的可能性越高。

除此之外,各色 DNA 还提供了与躁郁症相关的生活环境影响、现状测评和行动建议,帮助你更全面的理解这个特征。

最后,你寄给各色的 2ml 口水就能变成一份超过 20 万字的解读报告和可供下载的 570 万原始 DNA 数据。

得益于测序平台和数据分析平台不断革新,获得 DNA 数据的成本过去十几年内下降了一万倍。现在只需不到 500元,你就能完成这一切,了解先天的你,成为更好的人。

该文件编辑日志

  • Mar 29, 2020. By Zhao-Robert

    创建文件 & Markdown 格式化