先扯点儿无关的。关于学渣,这个世界上学霸不常有,学渣们却是遍地可见。作为一个“理实交融、红专并进”(科大校训)的学渣,人生还有希望吗?如果兄弟你对此感到困惑,不妨先读读周期素的故事。
另外,学渣逆袭这种事儿从比例上来说不高,但绝对数量上其实也不少。例如因为发现诱导多能干细胞iPS而拿诺奖的山中伸弥,当年大家都觉得呆头呆脑,是日本公认的学渣。学霸呢?比如笹井芳树就是,当然我们知道最后学渣拿了诺奖,学霸上吊自杀了(小保方导师自杀身亡)。
另外,咱读研究生那会儿,领域里有位公认的大水车MarkGerstein,学术上没什么创见整天灌水,大家当然不能公开说他是学渣喽,而且当成领域的“阴性对照”(Negativecontrol),学霸“阳性对照”(Positivecontrol)自然是华盛顿大学的DavidBaker。那时候美国老板们教育学生,都是说,这个这个,你要向David看齐,不要学Mark灌水。
Mark的惊天逆袭是2003年在Science上发表论文,提出利用贝叶斯网络算法来预测蛋白质的相互作用。这篇文章的发表标志着蛋白质相互作用预测这个研究方向的盛极而衰,而12年另一位学霸,我在清华大学的学长在Nature上发表的工作则彻底kill掉了这个方向(参见《少年班:来自天顶星的超级赛亚人们》)。
Mark成功的方式几乎影响了整整一代的青年学生。因为从读书做研究开始立马学霸风范并且一路学霸的不是没有,例如,大三的时候就以通讯作者身份发表了一篇Nature,注意哦,是通讯作者而不是第一作者。这样你就要纳闷了,第一作者是谁?他爸爸,进化遗传学领域的顶级牛人。
讲到这你肯定要抗议说老外也搞学术不端,老子帮儿子这么帮也太过分了。关于这件事情我问过师哥,师哥说这篇文章的想法是Fyodor的,他带着他爸爸做的这个研究,所以自然应该是通讯作者。Fyodor更猛的在于,突然一下就没动静了,游山玩水了几年之后重出江湖,2010年一出手就是两篇Nature,并且一不小心就解决了一个近80年没人搞定的难题,有力的捍卫了学霸风范。
但事实上来说,初进生信领域大多数学生还停留在“小菜鸟”的级别,如何实现从学渣到学霸的逆袭是大家共同面临的难题。Mark的方式为大家提供了一条捷径,虽然不是唯一:先灌水灌到大家都知道你是水车,然后再踏踏实实做研究。因为自从Mark发表那篇Science论文之后,这么多年来再也没有灌过水,研究做的极扎实,已经隐隐然一派宗师的风范。我们这一批搞生信的,很多是Mark捷径理论的坚定支持者。
当然这条“捷径”有致命的缺陷,因为灌水的科研风格一旦形成,想改变是极其困难的,绝大多数会继续坚持灌水灌到退休,能够成功改变科研风格,从短平快转换到稳扎稳打的寥寥无几。另一个方面,现在生信发展很快,学者之间的交流也远比10年前密切的多,灌水?你今天灌出来明天立马就有一堆朋友打电话过来骂你是猪头,所以灌水的代价很高,这条捷径已经走不通了。当然你知道,只要肯动脑筋肯花精力,学渣是可以逆袭的。
另一条学渣实现逆袭的捷径是:向学霸们学习方法。咱在之前讲过,学霸们绝对不光是智力超常,一般都有五花八门的独门秘方,没有形成理论但好处是经过长期的实践检验。方法学很重要,因此今天咱通过讨论Shirley近期发表的三篇论文,来介绍学霸们的科研方法。
正式开讲之前先简要介绍一下CRISPR/Cas9系统,这项技术最关键的突破是2012年8月17日,两位杰出的女科学家EmmanuelleCharpentier和合作在Science上发表的一篇论文,首次证明CRISPR/Cas9可以作为基因组编辑的工具。
2013年2月15日Science同期刊登的两篇论文,张锋研究组和研究组则首次实现CRISPR/Cas9用于哺乳动物细胞的基因编辑。2013年底2014年初,陆续有四篇论文发表,包括张锋研究组、EricLander研究组、KosukeYusa研究组以及北京大学魏文胜研究组发表的利用CRISPR/Cas9系统开展高通量基因敲除的筛选工作。其中第一、第二篇文章主要是在人类细胞中进行全基因组范围的筛选,第三篇文章是在小鼠胚胎干细胞中做基因敲除筛选。
全基因组筛选比较贵,除了针对不同基因的单个引导RNA(singleguideRNA,sgRNA)设计要费钱,筛选之后要做测序检测gRNA的存在也要不少花不少银子,所以文胜兄的这篇Nature论文提出了一个更实际的方法,有针对性的筛选291个可能与白喉(Diphtheria)或嵌合炭疽(Chimaericanthrax)毒素相关的基因。
讲到这里估计大家都纳闷了:CRISPR/Cas9是一项实验技术好吧,跟生物信息学有一毛钱的关系吗?所以去年五月底在北京听文胜兄作报告的时候好多人都晕了(其实是我晕啦),不知道会议组织者世华和王MM怎么安排了这么一个纯实验的报告。
当然我睡得呼呼的也不光是不感兴趣纯实验技术,文胜兄平淡的语调也是相当的催眠。关于语调是不是平淡这个问题我和勇哥有过激烈讨论,他倒是说讲的蛮好听的津津有味,我来了一句:你俩报告的风格都是催眠型的。
CRISPR/Cas9里面有计算问题吗?理论上来说,没有。所以学霸们的第一项必杀技是:从没有问题中发掘出问题。因此像我这样的学渣听有意思的报告就回呼呼大睡,像勇哥这样的学霸立马就眼睛瞪得像铜铃竖起黑猫警长般的耳朵陷入深深的思考。
当然勇哥有没有马上发现问题不知道,但Shirley迅速的发现了计算问题,并且是两个。这就得简要介绍一下CRISPR/Cas9的设计原理。第一,Cas9结合的sgRNA,其5’端大约20多个碱基可以通过人工设计,与基因组特定区域通过碱基互补结合,由于互补的区域比较短,因此一个sgRNA很有可能会结合基因组上其他位置而不是希望结合的位置,这就是脱靶效应,所以sgRNA的设计很需要技巧。
第二,由于sgRNA也可能存在敲除效率不高的情况,所以一般来说针对每个基因会设计多个sgRNA保证敲除率。用病毒携带的sgRNA会被整合到宿主的基因组上,这样筛选之后进行测序测的就是整合之后的sgDNA,测到的sgDNA读段越多就表明宿主细胞携带的这个sgRNA/sgDNA越多,敲除的效率也就越高(这一点我之前理解有误,由Shirley纠正,特此感谢)。但问题在于,如果针对同一个基因的不同sgRNA,筛选后有的能检测的多,有的检测的少,该怎么判断这个基因被敲除的效率?
因此去年10月份在南京开咱生信的全国大会时,Shirley讲了两个CRISPR/Cas9相关的计算问题,第一是高通量基因敲除的筛选实验做完之后,怎么对结果进行分析、排序以及发现重要的被敲除基因,第二是怎么提高sgRNA的设计效率。
第一个问题很重要,因为高通量筛选很容易就鉴定上百甚至数百个基因,怎么从里面挑选一个或几个开展后续的实验是必须要解决的问题。
EricLander研究组的策略是每个基因设计10个sgRNA,其中有4个具有显著差异就认为基因被敲除,张锋研究组和KosukeYusa研究组用的都是非参检验(non-parametrictest),文胜兄因为本来筛选的基因就不多,最后结果也就没多少,所以就回避掉了选择的问题。人为进行设定当然不可取,不知道数据的分布情况用非参检验也是可以接受的,但最好还是找到合适的统计学模型来拟合数据,这样算出来的结果会更精确。
Shirley的博士导师是哈佛大学的刘军教授,2002年拿过有“统计学的诺贝尔奖”之称的COPSSPresidents'Award,找模型拟合数据当然不是问题。所以Shirley组开发了一个新的计算工具MAGeCK,发表在GenomeBiology上,大致的解决思路是先将不同条件下测序得到的sgRNA结果做归一化处理,然后用负二项分布(Negativebinomialdistribution,NB)去拟合数据算均值和方差。
负二项分布是目前处理测序数据比较普遍被接受的统计模型,这个不难想到。用NB拟合完数据就需要算sgRNA的差异性,并且根据p值排序。排完之后针对每个基因的sgRNA集合,统计检验这个集合是否偏向于sgRNA差异高的部分,这样就可以对每个基因的重要性进行排序,同理也可以用于信号通路重要性的排序。
抱歉讲的专了一点儿,但基本上就是把之前的非参检验改成基于NB的统计检验,数据拟合的好自然预测准确性也就高了。这套研究策略叫Model-based,Shirley的绝活之一,另一个绝活是做序列模体分析(Motifanalysis)。所以学霸们的第二项必杀技是:要有能做得精的绝活儿。
在这篇文章的基础上,Shirley组上个月底又发了一篇改进的工作,设计了一个新算法NEST,原理也不难,大致的意思是看你牛不牛只需要看一下你的朋友圈儿,你的朋友圈儿里牛人多,那你就很有可能是牛人。基因也一样,基因与基因的相互作用构成网络,一个基因与许多重要的基因有关联,自然也就重要。因此在数据拟合的基础上引入网络的信息,自然又提高的准确性。

第二个问题自然也很重要。合成sgRNA费钱,不管RMB还是美刀都不能拿来当废纸烧,先从序列上预测一下sgRNA的有效性,挑选可能有效的sgRNA再合成,这样就可以省下不少银子。Shirley组今年8月份在GenomeResearch上发表的关于sgRNA有效性的预测工作,主要是分析sgRNA的序列特征与敲除效率的关系,属于序列分析,这就不是绝活而是生信的基本功之一。大家上生物信息学的课程,主要内容讲的就是序列分析,这东西搞不清楚基本上生信就白学了。所以学霸们的第三项必杀技是:基本功要扎实。
好,写个总结。第一项技能“无中生有”是可以学习的,学霸们事情多神忙所以思考的时间就少了,学渣们天天打游戏有的是时间,如果能分出点时间来考虑点儿正事总还会有心得。第二项技能嘛,学霸们一般能会多个绝活儿,学渣要是笨精通一个还是可以做得到的,比如上一篇讲到的爵爷(参见《周期素:学渣的惊天逆袭【上】》),能跑出一手漂亮的变性胶也算是绝活不?如果基础不好的话,第三项技能训练起来有难度,毕竟基本功的提高非一日之功。不过持之以恒的话,时间久了还是会有收获。
当然,学霸们的第四项必杀技是:快。CRISPR/Cas9里的计算问题,大家花一点儿时间也能想得到,搞清楚原理大家早晚也能想出来五花八门的方法。只是说等到Shirley讲报告的时候,大家都知道估计文章已经再投或者接收了,这时候再开始做那已经没戏唱了。所以搞科研究竟应该是想清楚了再做,还是晕晕乎乎有个大致方向就开始动手,我现在比较倾向于后者。毕竟你晕大家也晕,等你明白了大家也明白了,我反正是不相信Shirley在开始做的时候就考虑清楚了所有问题,要不然也不至于发完第一篇之后今年又打了个补丁。
这篇博文之前写的是另一个版本,发给文胜兄看了之后立马指出我一个常识性的错误,结果只好删了重写。后来咱又提到文胜兄催眠式的报告风格,哈哈一笑:下回发你个报告录音,睡前听一段保你不失眠。
此文来自科学网薛宇博客