胡松年:每个细胞里面都有30亿个碱基组成的DNA分子。那么会问另外一个问题了,你为什么有肌肉?为什么有肠道?为什么这个地方形成眼睛?这30亿个碱基是一个单元,生命的奇妙性就是它在不断变化,我用这些基因表达一下,你这个地方就形成眼睛。为什么外国人长的是蓝眼珠,我们是黑的,所以说生命科学的奇妙性不仅仅是一个静态的测一个序列,把30亿个碱基排列起来就可以了,去看,去预测,去判断。比如说我们根据您的序列去看,我和其他人比一比?和其他中国人比一比?和其他致病的基因比一比?比如说家族里面有糖尿病,我们去判断,像我们家有糖尿病遗传,就判断我自己是不是有这样的风险?我如果有风险话我会吃很少的吃糖,我要多运动等等,他的重要性预测一下就可以了,他还有非常非常多的工作,从我们完成技术的角度来说,经常就是说我测一个基因组,因为现在他测序技术并不是简单的,我把我的DNA撑成一个线,一个一个读起来,这是现在达不到的水平,就像刚才金老师说的需要非常大的量。比如我们做一个基因图,要求的原始数据至少要在几十个G的水平,把这些一点一点排列起来,没有计算机是根本不可能的,像在我的实验室里,我们虽然说是生物实验室,但是很多老师一去就说,胡老师你们实验室怎么没有人干活呢?我们研究所08年开始建立超算平台,当时存储买了800个T的存储,用了不到10个月满了,数据量非常非常大,然后现在今年一共花了1500万把存储升到一点几个P的水平,然后超算也是这样,08年的时候买了十万亿次,当时说生物口里面我们是很高的,现在不行了,今年升到四十万亿次。整个生物学的快速发展,其实很大一个推动就是得益于计算,生物跟超算的快速结合,三年前同样的数据我用一个月算完,而现在计算机的快速发展我可能只需要一周时间就可以做完了。
赵效民:所以我们看出来每个人都是超大容量的数据量的集合体,在他们眼看来这个人至少有几个P的存量。我们感觉到生命科学还是非常奇妙的。金老师能给我们打一个比方,比如说我们一般人使用电脑,干您那个工作,我们这个电脑得用多长时间?
胡松年:干我们的工作?
赵效民:对。
胡松年:基本上放在那个地方一年休假就可以了。这种数据量普通电脑是根本没有办法承载的,因为它不光是很复杂,生命科学跟气象遥感比起来,感觉生命科学数据量不是很大,跟一个网站不管是新浪也好,搜狐也好,一天的访问量非常高,但是生命科学复杂性就是它是立体的,在很多层次上去研究。我们曾经跟大的计算中心讨论过,我们怎么去买存储的问题,他们跟我们说,胡老师我们有非常现代的,我们根据使用量来决定怎么给你存数据,不像网站,我一个新闻报过了,可能大家三天以后大家不补点击它, 我们数据特点是这个数据放在这个地方,一个月以后我们可能还要用,三个月以后我还要用,五年以后我可能还要用,他的复杂性不是靠自己家里有一个小电脑可以做的,绝对不是一个作坊式的研究,我们拼命给金老师这边示好,金老师给我们点存储吧,给我们更多资源吧,就是因为他运算的复杂性来说,其实比一个单纯做网站要求有更高的质地层次,我们很高兴这是一个大学生的竞赛,我们跟越来越多的大学生去关注我们的专业,我可以在这个地方说,现在我们这个专业做超算的学生是一票难求,不管是出国还是什么,而且这个专业永远不会失业。
赵效民:刚才您说一票难求是非常重要的,但是资金也是很重要的。
胡松年:对。
赵效民:刚才我们谈到了超算在生命科学里面的应用和生命科学有非常巨大的需求,其实很多人觉得计算能有那么重要吗?这就是超算,为什么叫超算?超级计算。还不是普通高性能计算,这是非常强烈的一种计算需求。刚才我们也谈到了这两位嘉宾全都是来自中科院的,我们也看出来关系都非常好,算是应用的提交方,另外一个可能是高性能计算中心的,看看怎么能满足客户的需求。金老师从您的角度来讲,是不是胡老师这种人是比较可怕的,您不愿意招惹他,怎么从一个高性能计算中心的角度来面对这类高水平的应用,对于胡老师这种应用需求,需要什么样的计算系统才能够面对这种无止境的需求?
金钟:其实我们做超级计算机的目的是什么?我们根本上是要满足科学家的需求,需求推动大计算机系统的建造。无论是国内也好、国外也好,生命科学一直是超算最重要的应用领域。就像胡老师刚才提到的,生命科学的计算工作不是一般的笔记本能够完成的,至少需要达到几十万台笔记本的处理水平。比如像水稻的计划,千人基因组的计划,如果是普通的电脑,我估计咱们在场这么多人多少辈子恐怕都处理不完。
赵效民:重孙子?
金钟:不是重孙子数都数不过来,这个计算量首先非常大。因为他这个计算有一个特点,它需要特别大的内存的机器,就好比说,需要有足够大的舞台,同时需要有足够多的这样的舞台,一个大容量的舞台可以让更多的人去表演,足够多的舞台能让很多节目同时上演,还需要一个很大的后台,保障节目的顺畅举行。
赵效民:打断一下,我们知道平常的笔记本最高是四个核,这边一下子就是一万多个核。
金钟:实际上据我们估算,根据数据量的增长和计算量的增长,可能在今后五年达到相当于我们计算机是100T,其中1000个T等于1个P。“天河一号”达到了了PB级的计算能力。
赵效民:您所说的处理我计算上了,我上午计算完了我下午下班就出结果了吗?是这样一种需求吗?
胡松年:因为超算促进了生物领域的发展,生物领域是贪得无厌的需求,又对超算提出了永无止境的需求,08年我们建立的系统存储达到800T,不到十个月就满了,今年中国科学院北京基因组所计划投入1500万建设存储达到1点几个T的存储,计算力从10万亿次升级到40万亿次。生命科学的发展与超算的发展紧密相随、相伴,
赵效民:永远饥渴。您刚才说的1P就是现在阶段比较理想的目标,是永无止境的。
金钟:从超算来讲,你如果有这么大计算力以后,他会自己鼓励科学家去产生更大胆的设想,更大胆的设想促使他们对计算能力的需求有一个更大的想象空间,这样话有点像鸡生蛋,蛋生鸡的这样一个往复循环,互相促进不断推动两个领域的技术一直向上发展的特点。
赵效民:这是踏步走的过程。应用跟上了,就需要更大的机器,有更大的机器你怎么用的好?那时候是上千万个核,如果把GPU的都算上的话,上千万核,你怎么用也是一个很大的挑战。我们总结一下胡老师您的工作能不能用四个字“生命不息,计算不止”。
胡松年:绝对可以。
赵效民:胡老师,如果用一句话来总结一下超算与生命科学的关系,我觉得是八个字:“生命不息、计算不止”。其实刚才我们说的都有点虚,您能给我们拿一个很实在的例子跟网友分享一下,让我们了解超算对生命科学的帮助吗?
胡松年:好。刚才讲到一些都是大家觉得意识层面上比较多,讲一个比较实在的例子,我们和沙特来完成的中沙椰枣基因计划,椰枣大家都知道,他是在中东地区最主要经济的作物,在沙特放在国徽上面的,为什么讲这个项目呢?一个是很高兴的我们的国产的高性能计算在生物领域第一次走出国外。我们在沙特的实验室配备的完全是纯国产的超算的整个一套设备,不管是从刀片还是存储,浪潮的服务设备。另一个是这个项目非常重要,09年胡主席访问沙特的时候专门去这个地方访问,大家都很重视,不仅仅是一个单纯的科研项目,而是一个整个中国的科研能力,包括我们计算机的能力。说起来这么大的一个项目来说,它从最初的开始采集数据,到最终的后面的整个后续计划话每一步都是离不开超级计算机的,首先第一个我们要对未知的序列的排列,在这个序列的排列过程中我们这两年的时间,前前后后产了几百个G的数据,这些数据都用超算的设备从杂乱无章的一个一个排列通过高性能计算排列成有序的形式。第二步我们经常说的我们测的是无字的天书,而这一个点标点符号了解他所含有的生命意义全部靠超算来进行完成,我们那边的设备也是十几万亿次的运算的能力。那么就是因为整个项目的一个顺利的完成,这个项目已经结束了,把文章投入到国际高水平的杂志上,不仅仅是说中国的团队,包括我们的高性能计算的这种机器的稳定性都得到了他们那边的大家普遍的认可,我们机器升级,那边也进行大规模的机器升级,升级做什么?因为有了超算的保证,下一个计划开始,因为我们当时做了一个种植品种的基因组合序列,下面要做对他当地几百种这种不同品质的椰枣都要进行测序,在这种超算找出序列之间的差异性,为这么这棵树长的很高,为什么它产的枣子就更甜一些,中间通过这些差异希望以后能够培养出生产又好,又抗病,又在大家觉得口感更好的枣子。
赵效民:金老师这边也有比较现实的例子吗?比如说是不是有老听人说医学上的什么病毒或者怎么着,药品研制也跟超算有很大的关系。
金钟:实际上是这样的,在现在的药物设计和药物研究当中像虚拟药物筛选,超级计算机在中间起到很大的作用,这些都是化合物,这些药物,人根据他不同的功能集团设计出有功能药物的时候,我们需要验证我们的设想是否是正确的,因为我知道我们有一些化合物来说由于结构的差别,有些可能是药物,有的可能起到相反作用的化合物,很可能大家知道像分子这些小球球,小棍棍,大家把它理解成这些,有的像树枝上的树杈,他的结构和排列顺序是千变万化的,实际上我们设计的时候可能人只能够判断出哪些结构是可能组成分子的,或者说可能具有某种作用,但是是不是有这种作用呢?过去的办法只能我做试验一样一样试,但是现在由于有了高性能计算机的出现,利用一些软件,利用一些化学或者生物的原理来验证它是否有这样的功能,比如说虚拟药物筛选当中,用一些技术我们还可以用分子生物学的一些模拟的技术,那么来验证。像之前的时候曾经我们科学院的药物所是跟我们合作在达菲药物发现的时候,主要是应对甲型H1N1的病毒的流行,当时我们是用超算的手段把计算过程进行并行化可能把原来需要几个月才能够完成的率筛选的计算缩短到十天,一两周这样的时间范围,这样在突发疾病的危险面前可以大大加快药物研制的时间,应该说起到了非常好的作用。那么我想就是说超级计算机除了在这种方面,我知道在国外还有一种做像易感人群的模拟方面,发挥一定的作用,比如说一个传染病出现以后,根据城市人群的特点,如何预测他流行的趋势,像我们在03年的时候非典的时候现在可以看到怎么去流行?来了一个当时超级病毒携带者,像这种情况的时候如何预测流行的趋势?采取更好的有效的预防措施。那么超级计算机在当中还是起到非常重要的作用。
赵效民:可以看到超算一方面能满足我们的口福,一方面还能治病救人。另外,这次是首届中国大学生超算大赛,请两位想谈谈对大赛本身的看法?
胡松年:因为我们是用户,当我听说有这个大赛,真的是非常高兴。这样的大赛会鼓励很多很多的大学生坚定地从事超算的研究,也正好借这个机会呼吁,希望做计算机和做生物的同学多关注超算在生命科学领域的应用。
金钟:首先听到这个大赛的信息,我自己还是有一点激动的。我注意到国外对于高性能计算尤其是在本科大学生这一层次,他们的教育推广还是比较成功的。这个领域我认为是一个实践性比较强的专业领域,像并行计算、组建大型的超级计算机,我们很多的学生实际上没有很多的机会去体验。如果说你想体验高性能计算的威力、想组建高性能计算机,必须进行实践,对它的体系架构有了解。通过这样一个竞赛,对于咱们国内的大学生来讲,他们有很好的机会向世界展现中国大学生高性能计算方面的能力。对咱们冠、亚军队寄予厚望,这次比赛我相信他们能赛出很好的水平,参加本次比赛的都是国内高性能计算实力很强的学校,我想到国际上一方面是能够更好的能够跟国际上这些先进国家的大学生更好的交流,学习,另外也希望他们真正赛出好成绩,拿到NO1,为我们国家争光,为我们国家高性能事业后继有人。在国际上获得更好的地位。
赵效民:我们预告一下,6月17号到20号在德国汉堡,ISC全球的大学生超算比赛的决赛将如期举行,现在有5个名额,3个名额已经有了,剩下两个名额等中国的比赛的结果。期待明天最终结果的出现,也预祝我们的参赛队最终在德国汉堡为国争光。今天这期走进超算的视频节目到此告一段落了,非常感谢两位嘉宾带来非常精彩的讲解,让我们走进超算,走进生命科学。谢谢大家!