文章解读

刚发了一篇产量构成因素的关联分析文章,应王瑞之邀来解读一下。其实就是说说自己的一些想法,跟大家交流交流。这算篇标准的GWAS文章吧,主要也就是发现了一些新的位点,不过优点是有双亲群体的验证,所以为其后来的应用和继续研究提供了方便。简单介绍一下文章内容,主要说一些文章里没有的吧。

简单介绍一下文章内容

本研究利用262个光周期不敏感春小麦做了几个产量构成因素(小穗数,穗粒数,单粒重,产量)和植物冠层水分状态(用的是标准水分系数3,NWI3)的关联分析(GWAS)。经过8个NAM群体验证,另外去除和抽穗期和株高相同的位点,我们共发现了14个产量QTL,15个小穗数QTL,1个穗粒数QTL,11个单粒重QTL,9个NWI3 QTL。我们还总结了以前的QTL研究并与之作了比较(图3,数据在补充材料里。这个图是根据遗传距离作的,后面有时间了我再把它转成物理距离)。产量和NWI3在所有的试验里都是显著负相关,并且它们之间共享了6个位点,这也算是从遗传上证明了它们的相关。NWI3水分系数一直被推荐用来预测最终产量,以前测量冠层光谱很慢(需要一个小区一个小区的测),变异较多,现在无人机的应用使得光谱测量更加方便,水分系数以及其他光谱系数应该会有更多的应用前景。其他没有被验证的以及抽穗期和株高的QTL都在补充材料里,大家如果做这方面的研究,也可以比较下。本文用到的所有数据都上传到了T3数据库,欢迎大家重新分析验证。另外,本文用到的春小麦的NAM群体也被存到了美国农业部的小作物种资库,大家也应该可以索取。这些NAM都已经做过90K芯片,只需要在本地调查些性状即可。

一点背景

这个研究课题是当时美国这边Triticeae CAP发起的。CAP就是农业合作项目,做小麦的和做大麦的都有,分别叫Wheat CAP和Barley CAP,TCAP是当时两家合作申请的一个大项目。当时GWAS刚在小麦里面应用,由于它容易建群体的优点,所以TCAP当时就建了好几个群体,有冬小麦的,有春小麦的,有农家种的,有改良种的,这些群体也分散到各单位根据自己的环境条件来应用研究。我所在的单位加州大学戴维斯分校做了改良种春小麦的抗旱和产量构成因素的研究。我们从2012年开始在加州试验这个群体,但是发现好多材料不适合这边的气候,所以我们换了将近一半的材料,所以我们用的这个春小麦群体和其他组的有一半材料的区别。

这个课题是我到这边做博后接手的,也算是我第一次独立进行课题研究。量地,划行,播种,收割都得自己弄,还得在加州南北两个实验点跑,确实很辛苦。大田实验辛苦,又吃力不讨好(发不了大文章),但这又是必须要做的,可以为将来的精细研究提供很多数据和材料。现在genotyping很容易,但是phenotyping还是很慢,成了研究瓶颈。现在我们实验室发现新的基因都要在我的大田数据上看看有没有效果。

GWAS方法

这次GWAS我用的就是经典的Mixed Linear Model (MLM),用的是经典的软件(Tassel),没有用最新的软件比如FarmCPU和BLINK,主要是因为这些经典的方法已经可以给我足够的结果来理解和应用了;另外,新的软件并不一定适合小麦,所以如果你想用最新的软件,一定要先比较一下。GWAS最初是在人类遗传学中用到的,后来在动物研究中,再后来才用于植物研究,软件的开发也主要是做玉米研究的人做的。但玉米是异交作物,染色体重组很多,LD区间很短,所以需要很多分子标记,当然最后离候选基因也近(P值较小,显著性高)。而小麦是自交作物,LD区间非常长,以前报道大约10个cM,本文的群体平均距离大约是2个cM,按每个cM一个Mb的物理距离来算的话,也就是大约2个Mb,往往会有很多基因,所以在小麦GWAS几乎没有能直接拿到候选基因的,这也是为什么我们没有对候选基因进行预测的原因。不过好处嘛就是不需要非常密集的分子标记,这对于小麦这样的巨大的基因组来说真的算是福音了。

GWAS的一个缺点就是假阳性比较高,所以在人类和玉米的研究中要对P值进行校正,常用的方法有Bonferroni(显著水平/分子标记数)和FDR校正,但是这两种方法在小麦里都不能直接用,因为小麦的很多标记都在LD里,比如本文用到了22226个SNP标记,但是只相当于1090个LD组(按r2值0.25为界线),所以要用Bonferroni的话分母得是1090,而不是22226。所以我们这次的研究和上次的条锈GWAS一样,是按重复性来判定的,这次是P < 0.05至少3次,另外还得P < 0.01至少一次。这样其实已经可以把假阳性的可能性降的很低了。不过为了更好的减少假阳性,也是弥补以前GWAS研究的不足,我们还用了8个NAM群体,也就是8个RIL群体来做了验证。有了RIL群体的验证,一是几乎可以确定这个QTL是真的了,二是我们相当于有了继续做精细定位和克隆的群体。我们可以直接去F5代找QTL还在分离的RIL去创建近等基因系(NIL)了。我发现这个方法屡试不爽(所以大家务必要保存RIL群体构建过程中每一代的种子,特别是F5的)。另外,我们这8个NAM群体的亲本也都做了外显子测序,为后面克隆工作中的标记开发和单倍型分析提供了非常重要的资源。

GWAS都会找到很多QTL,但是真正验证的不多,应用的更少。所以我们现在在试验怎么把这么多的新QTL用到育种上,也欢迎大家分享建议和想法。不过至少现在我们可以找几个作用较大的QTL来做精细定位和克隆,来导入到品种中去。实验室里已经有两个新学生在做这篇文章的一些结果的克隆,也算是这篇文章的后续应用之一吧。Dubcovsky实验室的一个突出优点就是基础研究和应用联系的很紧密,新发现的QTL或者突变体很快会被导入到我们的育种材料中去,来检测它们在大田里的效用。把研究结果应用到育种中去,说来简单,实际上还是有很多门道的,这也是我一直在学习的。

春化基因 VRN1 在春小麦里的分布

春小麦虽然在大部分地区是春播的,但是在很多地中海气候地区是冬播的,因为冬天雨水充分,但温度没有低到冬小麦需要的春化条件。然而,春播春小麦和冬播春小麦还是有些差异的。我没有去查其他地中海气候区的降雨时段,但在加州戴维斯附近,一般是从10月份到4月份,为了充分利用自然降雨,这边的小麦一般是11月初播种,而在5月底收获。控制小麦开花的基因大的方面有两个,一个是 PPD 基因,感知光周期的(其实是夜长);另一个是 VRN 基因,感知温度的。小麦原来是冬性长日照植物,春小麦是由于 VRN 基因的变异,小麦是多倍体物种,以前能被我们选择的几乎上都是显性突变,所以在春化上主要是 VRN1 这个基因。 VRN1 的3个拷贝中,VRN-A1 的作用最强,开花时间最短,VRN-B1 次之,VRN-D1 最弱,开花时间最长。春播小麦因为生长时间短,所以需要早点开花,而冬播小麦要适当晚开花来充分利用自然降水。我们看了一下我们这262个春小麦 VRN1 的分布,果然春播小麦主要是 Vrn-A1a ,而冬播小麦主要是 Vrn-D1 (图1)。Zhang et al. (2008)当时研究了 VRN1 在中国小麦品种里的分布,得出了相同的结论。这里我们为什么没有看 PPD1 的分布呢,那是因为我们这262个材料全是光周期不敏感的,不然开花太迟了,其他都要收获了,而它们才刚灌浆。这就是为什么我们当时替换了将近一半材料的原因。

小麦育种群体的多样性也很高

很多人认为育种材料的多样性可能减少了,但是在小麦的育种材料中,多样性还是非常高的。比如在这篇文章里,我们发现无论是LD的距离还是基因多样性(gene diversity)都和Maccaferri et al. (2015)报道的875个美国农业部收集的核心材料很相似。这也可能跟小麦育种中用到了很多农家种材料以及远缘种有关系吧。

题外话

这个课题数据很多,老板又压了一年多才开始给我修改,所以数据整理分析过程费了好大劲儿,特别是有时候发现一个错误,就得重新来花好长时间来重做表和图。还好我接触R和RMarkdown比较早,也认识到了“可重复研究”这个概念。RMarkdown可以让你直接从数据到文章和图表,需要修改的话只需要重新生成一下即可,省去了中间很多麻烦。当然我在这里要特别感谢一位大神谢益辉在RMarkdown的开发以及“可重复研究”领域作的贡献。我也建议大家学习一下,真的可以省去很多麻烦。