科技动态|中科院昆明动物所在树鼩基因组研究中取得进展

树鼩是一种与实验大鼠差不多大小的小型哺乳动物,是灵长类动物的近亲,在生物医学研究中颇具潜力。树鼩繁殖周期短,每胎产仔数2-5只,饲养成本低,作为在某些方面替代非人灵长类的实验动物,具有独特的优势。目前,树鼩已被用于感染性疾病如乙型肝炎、丙型肝炎、疱疹病毒感染、禽流感病毒感染等模型创建,在视觉系统研究、近视模型,以及一些肿瘤模型构建方面,也显示了很好的前景。


为了解决树鼩用于疾病动物模型创建时缺少基因组学等遗传信息的问题,2013年,昆明动物所姚永刚课题组牵头组织中科院动物模型与人类疾病机理重点实验室相关研究团队,联合华大基因,发表了利用二代测序技术测定的中缅树鼩的全基因组,较为全面地获取了树鼩的遗传特性,证实树鼩与灵长类动物的亲缘关系最近。基于此版树鼩基因组数据,姚永刚课题组建立了首个树鼩基因组数据库,实现了树鼩基因组数据的自由访问和共享,促进了树鼩研究领域的发展。由于二代测序读长过短等技术局限,第一版树鼩基因组中存在一些问题,如拼装的基因组中缺口多达223607个,其中位于基因编码区的缺口有2091个。这些问题阻碍了人们进一步深入分析与挖掘树鼩基因组信息。


近期,来自姚永刚课题组的博士范宇利用单分子实时测序技术,结合高通量染色质构象捕获技术测序数据,完成了新版的树鼩基因组高精度测序、组装和注释,最终获得的树鼩基因组大小是2.67Gb。其中,contig N50为3.2 Mb,长度比第一版树鼩基因组提高了146倍。对contigs进行聚类与定序后,总共有1728个contigs可锚定在31条假染色体上,最终得到的Scaffold N50为104Mb,实现了树鼩基因组染色体水平组装。新版树鼩基因组填补了第一版基因组中约73%的拼装缺口,其中处于基因编码区的缺口全部得到填补。利用从头预测、同源预测和转录组数据预测等方法,对新版基因组进行注释共得到23568个基因,其中约88.3%的基因添加与更新了功能注释信息。第二版树鼩基因组中,蛋白编码基因的数量与序列长度较第一版基因组有明显的质量提升,基因结构的精确度也明显上升。基于第二版基因组信息,范宇等人完成了基因组重复序列的分析,发现120多个长转座子和400多万个包含短重复序列和长重复序列的卫星区域。对LINE1的分析发现,树鼩基因组中的LINE1占基因组的18.54%,这种基因组占比和人类的类似。与包括人类、猕猴和小鼠的基因组结构变异对比分析后发现,相比较于人类,树鼩基因组中含有221个结构变异,猕猴基因组中有188个结构变异,而小鼠基因组中的结构变异多达387个。有趣的是,一些结构变异,如位于MYSM1基因和SLC35D1基因间的区域,只出现在树鼩和灵长类动物中,这一结果也从结构变异的角度说明,相比于小鼠,树鼩与灵长类动物在基因组方面有更高的相似性。


通过对6只野生树鼩的全基因组二代技术重测序,获得基因组水平上约1280万个单核苷酸遗传变异信息。这些信息对了解树鼩的进化历史、表型特征和疾病模型创建等提供了基础。基于蛋白编码基因区的单核苷酸变异信息,范宇等人分析了野生树鼩的多项群体遗传学参数,获取了关于树鼩群体全基因组学水平的更多认识。如基于核苷酸多样性的分析发现,树鼩蛋白编码基因区域存在30个核苷酸多样性较高的区域,其中约1/6的区域位于主要组织相容性复合体MHC或免疫球蛋白基因家族中,该结果间接提示,树鼩免疫基因相对于基因组中其他基因,可能有较高的进化速率,这和树鼩免疫系统基因的特殊性可能具有联系。


为了更好地展示最新版的树鼩基因组信息,研究人员将新版基因组数据、注释信息、群体遗传学参数、预测的基因共表达网络等数据,增加或更新在第二版树鼩基因组数据库中。这些用户友好型的数据库构建与更新,将为树鼩动物模型的研究提供相关基础数据,有望继续惠及树鼩研究领域。


中国科学院昆明动物研究所的研究团队,对树鼩开展了长期而深入的研究,先后主导完成了树鼩高质量基因组测定、基于树鼩精原干细胞的转基因技术突破、树鼩特殊遗传特性和生活习性的解析等工作,拓展了人们对于这一新型实验动物的认识。