Hi!请登陆

中科院细胞所存储进化史从数据抽屉发展到10PB数据平台

2020-10-28 44 10/28


原标题:中科院细胞所存储进化史:从数据抽屉发展到10PB数据平台
这就是课题组的全部研究成果。科学家打开他的抽屉,里面塞满了移动硬盘,这让徐姚晨很是惊讶。将数据中心藏在抽屉里,显然存在安全风险,至少应该进行异地备份,而且如此分散堆放的存储介质,也不利于后续在线的研究分析。
从抽屉里的数据中心开始
这是15年前的故事,徐姚晨现任中科院分子细胞科学卓越创新中心信息建设与运维部主管,他所在的研究所更是大有来头。中科院生化与细胞所是中国生命科学领域,最具科研实力、最具影响力的国立研究机构之一。曾经成功破解牛胰岛素拆分、合成的科学难题,这也可能是新中国成立后,最早接近诺奖的一项研究成果。
回到文章开篇所述,抽屉里的数据中心确实已经稍显原始。虽然55年前,中国的前辈科学家仅依靠分液漏斗、三颈反应瓶,就可人工合成牛胰岛素,但现在抽屉里的数据中心,显然在制约后辈科学家的工作效率。

2006年,上海生命科学研究院2016年,上海生命科学研究院从中科院生化与细胞所独立建立了第一套300GB的存储系统,这已经是当时生命科学领域,较先进的存储系统。徐姚晨回忆当时的起步略有感慨。现在来看,300GB的存储容量确实小了一些,主流笔记本的硬盘配置也不只如此,甚至1TB移动硬盘的价格,还不到300元,但300GB的存储就是研究所平台思维的开始。
一花一世界
目前,研究所数据中心的容量已经达到10PB,而且几乎全部采用浪潮的设备。徐姚晨将话跳至10余年后。而从GB到PB不仅是两个数量级的差异,这更代表了IT技术与生命科学的深度融合。
其实,2010年是一个重要时间节点,生物科学的试验手段和试验设备,在此后均出现大规模更新换代。当然,此时需要采集的研究数据也呈现爆发式增长。而这背后,更隐含着对存储空间、I/O性能、高并发性能的更高诉求,以及设备管理、子系统管理、数据管理等诸多问题。
这又是一个相对专业的话题。生物科学被誉为21世纪的科学,细胞生物学又是生命科学研究的最前沿领域。通过研究细胞的生命活动过程、基因调控,以及细胞与微环境的关系,即可了解细胞的健康活动和发育过程。解答人类寿命到底可以延长多久是什么控制着器官再生为什么人类基因会如此之多等一系列问题。
所谓一花一世界,大致就可描述科学家对细胞的研究。因为显微成像、基因组学、蛋白质组学检测,均会产生海量数据,而中科院生化与细胞所正是基于对上述课题的研究,决定进行数据存储设备采购,以数字化技术提升为细胞研究提速。
数据存储也必须分层
问题也是由此而来。
这里有必要对中科院生化与细胞所,再进行详细介绍。研究所下设数十个实验室,研究方向涵盖:基因调控、RNA、表观遗传学;蛋白质科学;细胞信号转导;细胞与干细胞生物学;癌症和其它重大疾病机理等五大前沿领域。
也就是说,研究所的存储平台峰值时,需同时支撑超过70个课题组,近1000多名用户。而且课题组的研究方向不一样,试验手段不一样,产生的数据类型也不一样,调用和分析数据的方法更不一样。
科学家对计算和存储一直十分挑剔。徐姚晨开始解释他的工作。可以想象,科学家经过几天不眠不休,将小鼠数字化,而一旦数据丢失,所有的研究成果都将付诸东流。所以,我们的工作就是让科学家安心于科研。
经过与浪潮解决方案专家的联合研究,一套涵盖计算、网络、存储、大数据、虚拟化、安全、备份等多种IT设备,可服务数据全生命周期的存储解决方案,已经部署于中科院细胞所,而且此解决方案已经实现了分层,即特定的需求黏性联接特定的产品,这样冷、热数据可以分层存储使用,系统效率大幅度提升。

具体而言,在核心业务方面,浪潮存储提供了由多套统一存储构建的统一数据资源池,用于承载生物细胞分析和研究的核心业务。浪潮存储基于iTubo智能引擎技术,可以智能感知前端Lue高性能计算业务的I/O负载,实现数据智能调度和智能管理,让百万级IOPS在存储系统内自由流动,大幅提升细胞研究的数据处理效率。
面对海量实验室数据,浪潮存储提供了分布式存储平台。基于分布式全对称架构,不仅能保证所有节点的数据一致性,而且随着细胞研究数据量的增加,还可以灵活扩展存储节点,最大可扩展至EB级,轻松容纳海量实验室数据。同时,浪潮分布式存储还能以一套存储并发提供文件、块、对象,以及大数据四种存储服务,满足文件共享、云计算、大数据等不同业务的访问需求。
浪潮对需求的理解会说话
这里再插播一个小故事。数年前,浪潮推出AS13000整机柜软件定义存储系统,徐姚晨看到新闻很是激动,彼时本土科技企业尚无人推出类似产品,但徐姚晨又暂时无法说服他的同事,因为科学研究可以永远鼓励创新尝试,但支撑科学研究又不允许他去尝试。
现在已经时过境迁。如今的本土存储系统,更像一个既会赚钱,又爱家庭的男人。因为他们的产品会说话,浪潮已经具有从软件到硬件的全栈自研能力,也因为他们对用户需求的理解更会说话,所有特定需求都会得到满足。

其实,浪潮一直与国内多家高校和研究所,保持着紧密的合作。这也使其有机会接触到更前沿的应用需求,研制出更具创新价值的产品功能。举例说明,基于与复旦大学在脑科学领域的合作,浪潮形成了软拷贝技术;基于与清华大学在RUSH脑成像领域的合作,浪潮成熟了回收站技术。此外,浪潮在存储领域首创的零拷贝、闪搜索等技术,也都源自于科研院所的合作。
而回到中科院生化与细胞所的应用,IT系统正在成为研究所之胆。浪潮存储为细胞研究配置了,业界首创的文件系统级别的回收站功能,防止多人操作同一源数据时,重要文件误删除。同时通过纠删码+副本的方式,进一步为数据提供保护。
而在数据保护方面,浪潮存储为中科院细胞所提供了备份软件、浪潮磁带库相结合的数据备份方案,采用LANFREE和LAN备份方式实现集中、统一、快速、自动的数据备份,降低数据丢失风险。
也正是基于上述解决方案,正是基于浪潮与研究所的合作,动物复杂性状的进化解析与调控等一批重点科研项目,得以顺利进行。而这些项目,正是科学家原本在计算与存储方面不敢做,也做不动的课题。徐姚晨最后说。
作者|张戈公众号ID:TechECR
TechECR关注科技企业生态体系建设,这里有思考、有观点;有点头咂嘴,也有会心一笑。创始人:张戈,曾任商业伙伴、电脑商报副总编,不码字,不写稿子、只输出有质感的文章。以生态合作为视角,研究IT产业18年,常年保持对ICT企业、IT方案商、IT渠道商保持高频度采访。同名专栏现已入驻各大主流媒体平台。合作联系:[email protected]
目前已同步入驻:百家号、头条号、一点号、搜狐号、企鹅号等自媒体平台。

相关推荐