华大尹烨:生命基因即因 数字未来已来
金蝶云社区-徐少春身份
徐少春
162人赞赏了该文章 11335次浏览 未经作者许可,禁止转载编辑于2021年12月13日 15:02:49

01.gif



02.jpg

GLOBAL CHANGEMAKERS

CONFERENCE 2021

基因与数字有什么关系?华大集团尹烨总在2021金蝶创见者大会上,为我们揭秘生命科学与数字化的无限可能,特别分享给您。




生命基因即因 数字未来已来


我今天分享的题目是《生命基因即因 数字未来已来》。为什么呢?这是大家都很熟的IT的发展。


03.png


但有多少人琢磨过生命科学也是随着IT的发展而发展的?随着软硬件、摩尔定律的一直推进,也做了很多事情。


人们今天讨论光刻机的时候,也要明白支撑IT发展的科学发现是什么,是上个世纪的两个大工程计划——1945年曼哈顿原子弹计划和1969年阿波罗登月计划,它们催生了硅基加工的极致工具——光刻机。而到了1999年,人类基因组计划催生了碳基解码的极致工具——测序仪。如果人们今天不能从科学发现的角度,而是只谈软件、只谈应用,恐怕终究是无法实现复兴,因为科技的本质是要软硬并重的。


04.png


生命其实是一次奇遇。我们讨论数字化的前提——有数据。下图是一件有意思的事情——受精。受精36个小时之后,受精卵就开始分裂了,两周以后就会产生几万个细胞。这个过程可能超越了今天人类在物理上所有的加工机制。宝宝快要出生的时候——40周,心跳已经跳了快5,000万次。


05.png


每天在地球上有26万新生儿诞生,我在这走几步路的时间,差不多已经诞生了几个孩子。中国的出生率令我很担心,去年的出生率低于日本。中国14亿人、印度13亿人、非洲15亿人,人口基数是差不多,但中国每生一个,印度生两个半,非洲生五个。这么算下去,未来数字化究竟在哪?在非洲。所以今天不能把我们的眼光从人口学的角度向海外赋能,大家应该多考虑未来数字化的机会。


人都会出汗,人一生会出多少汗呢?14吨,大约548大桶矿泉水。


06.png


同样的,人一生泵多少血呢?8吨/天。假如一个人活到80岁,那么一生能泵20万吨血,差不多能装满高为17.7米的标准足球场大的游泳池。那你问我为什么还会得心脏病呢?因为大家不按说明书来,使用的时间太长了。所以没事别老熬夜,我特别害怕,有些人的数字化还没有做完,他的人生就只有数字化了。


07.png


人体有多少细胞呢?个高个矮不太一样,大概是在几十万到百万亿个,如果把这些细胞都铺在一层的话,能铺满1600米长的沙滩。


人体有多少DNA呢?人类的每一个细胞里都有30亿对碱基,把这个东西拉直了大约长不到2米;如果把这30亿对碱基写成书,可写564本书,正常阅读速度差不多需要10年;如果把人体所有的细胞数乘上2米大概能往返地月之间8,000次。这就是华大每天干的工作——把人的这些细胞拿过来测一遍、再测一遍、再测一遍……去防止出生缺陷,预防肿瘤、传染感染疾病。


08.png


Life is Digital。生命本身就是数字化的,即身为一个个体的本身就是一个大数据。IT习惯的表达方式是最简单的二进制0101,而生命的表达其实就是ATCG——用四个代码所构成的一本生命天书。


09.png


一般说起华大,好像就只是做基因测序,实际上,精准医疗绝对不仅仅是做测序,要看生理、生化、影像、菌群、环境的暴露甚至相关的社会和心理。当我们把这些数据全部组合起来的时候,一个人一生会有多少数据呢?今天大家都在努力地用可穿戴或者其他无感设备,使我们的数据从被动到主动、从主动到自动,我们自觉地收集自己的大量数据。


这是华大某位高管存了不到十年的数据,现在是4TB——一个人的健康数据4TB,这个里面的影像数据还是压缩存储的。而以前做的传统的体检报告,一个人可能从生到死的数据也就65MB。归根结底,今天令人最头大的是硬盘。“现在谁都买不起硬盘,因为最近硬盘又在减产”。所以,这些问题都堆积起来之后会发现:我们要想实现数字化,可能要解决一些“算、存、传”问题的极限。


10.png


下图是华大做的几个数据。华大在1999年成立的时候,参与了人类基因组计划,这个计划涉及6个国家,大概共计8,000多人参与做了13年——数据是68 GB,花费约38亿美金;2008年,华大从北京搬到深圳,做的第一个项目是测一个中国人的基因组——数据432 GB,当时也是发在Nature封面上了;2016年,华大牵头与美国和英国一起做了千人基因组,最后测了2,582人的数据,上传到国际的公开数据库——内部的数据是24.5 TB;2021年,华大完成了先导猴脑时空组学数据——1.5PB;我们将测完猴脑时空基因组全谱——数据为36PB。这就是今天生命科学行业的窘境——IT跟不上行业对数据的采集计算要求。


11.png


在这个过程中,我们非常期望并行计算——无论用怎样的混合方式。人们之所以很喜欢GPU,是因为它真的能帮助我们解决很多问题。华大是最先遇到一个既是大数据又是海量个体的组合数据。这就是天生的万物所带来的计量挑战。


我想每一个IT人都会因数据传输而苦恼,以现在大数据公司的门槛值——年产20PB数据举例,普通家庭用户1Mb/s要传600年;一般光纤25Mb/s需要25年;中美高速互联800Mb/s需要8个月。


所以,如果你知道,今天全球的数据中心还是靠集装箱拖盘阵来完成数据交换是不是很无语?这些问题都给今天的IT带来了巨大的挑战。


12.png


那么技术核心,特别是生物技术核心一定会带来生物大数据的革命。今天华大基因与华西医院合作一个10万人的测序招标项目——价格1,348元/人,大约是200美金/人。同比,大约在20年前测一个人是38亿美金,到今天只要200美金,它的下降速度比摩尔定律还快。自然就会带来信息大爆炸,自然就会带来很多的奇点。


13.png


那这些问题都合在一起的时候,就使得我们不得不重新向自然去寻找答案,比如说 “存”的极限到底是什么?目前为止,大家不得不承认,DNA就是当前存储复杂信息最集约的载体——用的原子量最少、信息密度最高,6pg DNA就能存储6GB基因。一个人就是因为一个受精卵而诞生的,而最初的受精卵里只有6pg DNA,但里面存储的是人类30亿个碱基(刚好3GB),父亲母亲各3GB,共6GB——这就是自然界已知的存储极限。跟硅基相比,DNA的存储密度多了10亿倍。


我们讨论1g硅时,存储的信息在Mb级别;1g石墨烯在Tb级别;而1gDNA存储的信息在Eb级别。(下图)左边是最早的一个5MB容量的硬盘,右边是今天全世界所有的数据,大概只需几公斤DNA来存储。


14.png

-

有时候你能不服大自然吗?它给了一个特别简单的方法,让人类把这些数据都存了进去。这是一个非常有意思的事情。如果用硬盘以盘对盘的方式拷贝一倍的数据,还需要再买一对硬盘,而用DNA存储非常简单,我把它装到一个微生物里去,只需给它营养源让微生物自己去发酵,就完成了无穷的备份。


“算”的极限。我们在讨论最开始的基本逻辑元件,从单晶体管到今天的单量子位再到单神经元,那已经不是简单的2的4次方或8次方的问题了。所以人类和AlphaGo博弈(下围棋)的时候,可以说它胜之不武。人类大脑的功率只有40-60瓦,而它的超级服务器几十万瓦。换言之,你能让一个婴儿和一个相扑去比赛拔河吗?何况它是一个最简单的特定算法。


15.png

-

从这个意义上讲,我们一直在讨论BT(Bioindustry Technology)到底应该在哪一个点上彻底拉动IT基础设施的存储。


大家都觉得今天所有的互联网公司做得很好。但别忘了这是建立在数万亿投资所搭建的信息高速公路——3G、4G、5G等基础上实现的,如果没有这些基础设施,互联网就是无根之水。这些数据要在什么样的载体上去跑?这个基础设施是国家的力量,是在中国强大国力、单一最大市场——巨人肩膀上的才能做的事情。


16.png

-

所以,我们在讨论的是碳和硅所结合的一个未来——今天大家能看到的计算是基于硅基的,而今天研究的生物,只要还是以DNA、RNA为基础的——那本质还是基于碳基。


量子计算和DNA存储至少是大家有限的认知内,在未来5-10年,想在全世界的科研界能够把BT和IT深度融合所发生的一个关键点。接下来我讲具体的事,我们看一下大数据的应用。


这是一个个体应用的真实案例。我先说,因为生命有这么多的细胞、基因,所以很多时候测量一次是测不准的。生命学的很多问题都要求用很多很多次的测量来找到真相。


17.png


这是一个前不久的新闻,某患狂犬病的患者抢救两个月还是遗憾地过世了,后来发现那只伤害她的狗可能并没有狂犬病毒。我打一个问号?如果没有,那对医院来讲就可能是一次误诊,那病人的家属心里肯定会不舒服。


是没有吗?不是没有,是测的量不够。狂犬病毒是一个很狡猾的病毒,它不走血液,他走神经,不是所有的病毒都是走血的,就像新冠病毒,它是走呼吸道的,然后再进入血液。华大测了1亿次,在最后才找到狂犬病毒的序列,狂犬病毒的基因组在病犬当中、唾液当中的含量非常低。华大的三家友商用今天的核酸检测或者测序,结果都是阴性的,最后华大测了1亿次,证明这是阳性的,1亿次当中只找到了一条属于狂犬病毒的序列,测9,000万次都不一定能找得到。


18.png


同时,因为只找到了一条序列,孤证不立,所以华大最后测了4亿次才把狂犬病毒的基因组测了出来。换言之,我不光知道这里面有狂犬病毒,我还知道她大概是被哪一个毒株所感染。好比是今天的德尔塔毒株还是阿尔法毒株。测出具体是哪一毒株的问题,只有当测序技术几乎免费的时候才能实现,如果不掌握底层的测试方法、试剂、软件、数据库,还做什么呢?换言之,在这些方面被“卡脖子”的时候,无论在哪一个点都可能被“卡死”。


经过大量测序,我们发现每一个人的基因都不“干净”。每一个人体内有大量的细菌、病毒,每个人的肠道中至少有11万种噬菌体病毒,每一个人的粪便都可以提取出5万种病毒,这是一个真相。实际上,微生物在绝大情况下与人类是互利共生的。当然一小部分特别兴风作浪的病毒除外,比如近期发现的Omicron新冠毒株。


所以我非常认可数字化转型,这可能是所有组织获得未来竞争力的必由之路。同时,我其实很不喜欢“转型”这个词,我一直想叫它“升级”。这个“升级”既包括了一个个体的大数据,也包括了一个群体的大数据,还包括了我要把其中的数据不是形成孤岛,而是要把它能够从过去的闲棋冷子变成星罗棋布。


我不知道有多少人看不懂中国EDG战队翻盘夺冠。可能你也不会承认看不懂。但我想告诉大家,如果你看不懂,只能证明你老了。很多人也很不理解,为什么有的人一直用QQ而不用微信,因为QQ可以不需要实名认证的,我不想让家长知道我到底在干什么。


19.png


我想说人类进步的本质什么。我们做生命的特别明白,下一代不太听上一代的话,我们就进步了。不管从物质上、精神上、习惯上到生活方式上,只是人类的寿命大幅度的提升了(1949年平均能活39年,今天平均活80年),所以我们在一起的时间长了,才有了各种各样的思想纷争。


所以,时间真的很公平。你明白了这点,你可能就会知道数字化升级固然是一把手工程。但确保成功率要大胆启用并坚定授权青年人主导实施。至少在科技公司是这样子的。“我请你们来是帮我解决问题的,不是有问题来找我。”


20.png


所以我们在做数据转型和升级的过程中,特别重视你是不是已经把先进的数字化工具、科研工具都用起来了?


而当我们的数字化流程体系达到更好、循环系统越发畅通的时候,越要考虑强身健脑——就是人自己真实的硬件软件。当信息系统愈发畅通的时候,必须考虑根本问题——硬件和软件到底来自哪里?会不会被“卡脖子”?


这是大家经常遇到的一个梗:为什么每年一高考大家都会讨论作文呢?因为他们也就只能看懂作文题了。什么事情是真正不会的?数学不会就真的不会了。作文好比软件;数学好比硬件。


21.png


中国不担心软件?中国最担心的是硬件。美国实体清单什么时候卡过中国的软件?美国以谁冒头就打谁的方式“卡脖子”。算法、数据、算力——所谓弱人工智能的三支柱。在中国,我从不担心算法,中国的数学都好;我也不担心数据,因为咱们人多,大不了都用开源的也能解决。我真正担心的是硬件,如果硬件做不出来,可以想一想,CPU、GPU、内存没一个是自己的,今天咱们集体“元宇宙”了,明天他不卖给你了,“元宇宙”的脖子立马被卡住,马上自己的宇宙后路就没了,那才是无根之水。这是最根本、最底层的东西。


22.png


如果中国要在世界上去“掰手腕”的话,不解决这深层次的制造业问题、硬件问题,追求科学极致、原子制造,那我们很难说,把软件做的好就一定能在世界上畅行无阻。


所以,我们在讨论经济应该“脱虚向实”的时候,我们也要注意在IT领域要软硬兼施。确实应该这么做,甚至不能走既有的路,而要寻求一些新的突破。毕竟科技的每一次突破都是因为颠覆了过去的原理。只有一个企业的硬核竞争力强大了,信息系统才会真正帮你如虎添翼、事半功倍。如果你不是为战略服务上信息系统,那只不过是个噱头。


23.png


华大抗疫为什么可以做?因为华大的硬件是自己做的、软件是为硬件做的、信息系统是结合软件硬件做的。现在建一个100万通量的实验室需要多少人呢?最少的时候甚至可以不用人。直接可以在里面熄灯自动化操作——Light-Off、流水线。不都是数字孪生吗?不都是软硬兼施吗?但能不能像苹果手机一样?硬件和软件本身来讲是相辅相成的,现在很多的问题都在于并没有打通软硬件之间的任督二脉。


24.png

-

华大去年支撑了全世界上百个国家和地区的火眼实验室,这发生在短短的3-4个月里。这非常符合大家所讨论的:能不能迅速组装出一个企业?能。这个过程中,考量的是这个组织极强的运维管理能力。我想说,除了软件和硬件,还有一个最重要的因素——湿件——人。心中要有“人民至上,生命至上”、中国人类命运共同体、生命健康共同体向全世界赋能的初心,别人家都在往中国跑,华大是一批批员工赶赴到前线。从这个意义上讲,大家在看软件和硬件的时候,也不要忘了企业做软件和硬件的本质是什么——自己的使命、愿景、大目标。


25.png

-

所以,华大驰援超过180个国家和地区,做出了各种各样的实验室,有50分钟就可建立的气膜方舱或者车载方舱。一个企业如果最后想真正地能够长久地走下去,特别是在数字化升级的阶段,要坚持软件、硬件和湿件齐头并进,让能够做好决策的人做好决策。


26.png


这是我特别喜欢的一个诺贝尔奖得主西德尼·布瑞納 (Sydney Brenner),他在1980年的时候讨论过科学技术的进步源于新技术、新发现、新想法的推动。现在一听,好像科学的未来就是线性的,必须先做科学,再做技术,再做产业。他告诉你,并非如此。


27.png


如果显微镜不发明,任何人能定义出微生物群吗?连微生物看都看不见,怎么可能定义出微生物群?是因为1590年,荷兰的詹森父子发明了显微镜,列文虎克和罗伯特·胡克,一个看微生物,一个看细胞,经过了科赫,经过了巴斯德……的努力,才开始诞生了微生物群的概念。这是一个典型的由技术产生的工具,由工具产生的数据,由数据倒推出相关的驱动。人类的科技创新从来不是线性的,而是在任何一个点上都可以循环迭代。甚至低技术创新、组合式创新也有可能带来一些科技领域的突破。


即使爱因斯坦等科学家早就证明了引力波是存在的。那为什么直到2016年LIGO才证明了引力波的存在。很简单,因为需要装置足够大,大到足以区分背景噪音和信号,这是大科学装置的力量。


28.png


LIGO有多大呢?它由两个干涉仪组成,每一个带有两个4千米长的臂并组成L型,它们分别位于相距3千米的美国南海岸Livingston和美国西北海岸,每个壁由直径为1.2米的真空钢管组成。


再举个例子,1969年,阿波罗登月计划完成了,处于美苏冷战期间。物理学家罗伯特·威尔逊在做粒子加速器,当时有美国参议员问他,做这个东西对保护国家有没有帮助?威尔逊的回答振聋发聩。没有任何帮助,除了它可以证明这个国家更值得保护。杨振宁和李政道争论的本质是在讨论一个大的科学装置要不要再做。两个人都没有错,做大科学装置要看不同的阶段需求。1980年,我们斥资建造高能加速器可能不对,今天我们思考一下,修一条桥,修一条高速公路、一段地铁要花多少钱?如果这些基础设施变成科学装置,这些大科学工程能给我带来的是什么?这可能是我们今天要扪心自问的。


贵州天眼是南仁东的坚持,这个人很了不起。什么是天眼?一个500米直径的射电望远镜。天眼是非常有意义的,我非常高兴中国决定再建造几个天眼在贵州构成天然阵。


29.png


如果你不抬头去看星空,1894年甲午海战的事情是否会再来一遍?被锁死科技的降维打击,这件事情不能再发生了。


所以我为什么强调要做测序仪?大家看到的这都是华大自己的测序仪。这样的超级测序工厂就在深圳,它对这个世纪是非常有意义的。因为它就像今天在半导体行里的光刻机,它决定了生命密码的“存、写、读”。


30.png


元素周期表里的118个元素,中国人在里面的贡献只有两个“Zn”和“As”,这都是炼丹的时候发现的,在葛洪的《抱朴子》有记载。


今天我们讨论生命周期表——重要的动植物基因组,这个数据是谁贡献的?中国的比例是多少?32.5%。华大参与了其中的大约70%。这就是华大在基因领域有底气的原因。因为我们不是在技术点上才切进去的,而是一直坚持在科学发现上,我们一直在为业界去做力所能及的贡献。


31.png


所以,全球只有少数几个公司可以量产高通量临床级别的基因测序仪,其中,就有美国的illumina和中国的华大智造。


当然,华大的技术, 原来是从美国收购过来的,经过了反垄断,经过了国家安全。2013年把一家在美国纳斯达克上市的公司经过退市之后收购过来,再经过7年的消化吸收再创新,就使得华大有了可以在世界上一较短长的产品设备。这是一个很漫长的过程,华大在收购这家公司的时候,有人说这是小灵通,人家是iPhone,这怎么竞争?别管他,爱怎么说就怎么说,做出来就再说。“风物长宜放远量”,直到你做出来的时候,你就可以非常自信自豪地说,在这件事情上我们有底气可以做得更好。


所以,你问我今天中国的机会在哪里?今天做科技最强的还是在美国,Science要找美国;Art要找欧洲。但中间Technology、Engineer、Maths/Manufacture都是中国的机会。中国强于做工程,强于做技术,强于数学和制造业,但下一步当我们讨论“两谋”的时候,我们肯定要有文化自信,肯定还要向科技突破。


32.png


这种对科技的突破,可真不是我们只“吃”一段最后的制造业利润就能搞定的。


我们经常会将“科技”混用,其实,“科学”和“技术”是两个有本质区别却紧密联系的概念。我们今天看到很多产业上“卡脖子”的问题,实际上,是在科学上“卡脑子”的问题。


思考一下,如果曼哈顿原子弹计划、阿波罗登月计划、从电子管到晶体管到集成电路到大规模集成电路,你都没进去?光刻机有你什么事儿呢?总是觉得我可以吃最后的工程制造业、人口红利、巨大国内市场的利润,这是出不去国的,而且上游产业轻松地就可以把你“卡死”,弯道是超不了车的,弯道只能翻车。


所以我现在是特别受不了,动则就宣称,谁又做出了5nm、7nm光刻机,那只是一次试验;做出一亿片保证一片不坏,那是市场。如果今天中国头部的企业还没有这个觉悟,那么在讨论科技创新这件事上似乎段位还是不够。


什么是科学?无用之用,任正非说这是好奇心驱动并鼓励更多科学家想什么都行;技术是什么?有用之用;工程是什么?唯公之用,往往由经济目标驱动;大科学工程是什么?大用之用,往往有使命大目标驱动。曼哈顿原子弹计划、阿波罗登月计划、人类基因组计划、中国抗疫为什么赢了?那不是科学家决定的,而是政治家决策的。中国抗疫赢在了习总书记提出的大目标上——人命至上,生命至上。


33.png


当南部非洲发现了新冠病毒新毒株的时候,今天的媒体一片哗然。人们可以反省一下,如果这个地球上只有中国,这个病毒在没有疫苗、没有药物的条件下于去年底已经被我们消灭了——就靠大家听招呼+检测,可是其他的国家做不到,然而再不断地“培养”新毒株,不断地通过演化论的原理“搞出”新毒株,怎么办呢?我们也不知道,只能密切地关注新毒株的发展。


我希望地球能够尽快的战胜新冠疫情。


毕竟从生物学角度上讲,地球上只有一种人类,你不会觉得黑猫、黄猫、白猫是三种猫,为什么有人会觉得黑人黄人白人是三种人呢?这个文化的误解有多大呢?说这是美国人造的专门感染中国人的病毒,美国那边没有亚裔吗?同志们稍微用大脑去想一想便会明白——新冠病毒之所以灭不了,不是因为病毒厉害,而是因为人类的分裂所导致的。


什么叫技术?在过去异想天开,今天勉为其难,未来习以为常,就称之为技术。这个技术也可以是低技术创新,别以为数字化一定是高大上的,我们什么时候能吃到味道一样的兰州牛肉拉面?那也叫数字化,而不是说打开菜谱问,放盐少许,放糖适量。这种情况下,标准化都做不到,谈什么数字化呢?


34.png


而进一步,人们要始终铭记,技术是有边界的,当已知圈越大的时候未知圈就更大,所有的技术都不可能解决人类所有的问题,更不能唯技术论,而忽略了道德、伦理、宗教、文化和法律。


35.png


我一直说,一个没有科技的人文可能是愚昧的,但没有人文的科技一定是危险的,比如说P2P,比如把区块链技术都用来“挖矿”去找比特币,那么我们就集体掉进了死胡同。


现在有一个令我很担心的新概念——元宇宙。扎克伯格开始忽悠“元宇宙”的时候,物理的世界——天地不仁,以万物为刍狗,真实的物理世界是不需要“管你是谁的”——规律就是规律。但任何公司推出的“元宇宙”概念,问它的规则是谁规定的?大股东规定?它有上帝密码?你说怎么办呢?实际上,我更在意的是马斯克的走向太空。


36.png


我想说,今天的很多科技——身外之物算得太多,性命攸关的想得太少,冗余信息充斥大脑,从此丧失独立思考。


想想大多数人用手机的时间都在干嘛?游戏、短视频、直播、带货……怎一声叹息了得?!有人说马斯克能穿越太空,我们能吗?纵然不可能让所有人穿越星际,但我不希望一个技术的诞生妨碍我们集体仰望星空。毕竟,人类基本的神性,就是相信相信的力量,人类是一个真利他主义的物种,是可以为了国家、民族、大义、科技、伙伴儿而奉献甚至牺牲的——这是人之所以为人的根本。


37.png


2021金蝶全球创见者大会已圆满落幕

约150万全球观众通过直播观看了本次大会

十分感谢您的关注和参与!

为了在未来给您提供更好的服务体验

诚邀您点击填写有奖问卷


image.png

徐徐道来:用EBC,向管理要效益

赵燕锡:金蝶云,重构数字战斗力


38.gif


本文转载自:微信公众号:尹哥聊基因

作者:尹烨

原文链接:https://mp.weixin.qq.com/s/vBLBnYpi-Q5PlBstCPPZHw

赞 162