DC在2007年公布的一项最引人注目的报告,就是对2010年前人类数字信息增长趋势的分析预测。报告指出,2006年全球新增加的数字信息达到了161 EB (1EB=1024TB)。即便是拿人类诞生以来所有的文字记载转换成数字形式后的数据量与其相比,也仍然显得相形见绌,因为后者只有“可怜”的5EB(extrabyte,艾字节)。数据量的迅速增长,也给越来越多的企业带来了前所未有的挑战,因为数据对于他们的重要性已达到了前所未有的高度。263网络通信股份有限公司技术总监李宏宇说:“数据量的增长使其对企业的意义‘同比增加’。今天,更多的企业依赖于IT,这实际上就是依赖于数据。对企业来说,硬件没了可以再买,软件没了可以再开发,但是数据丢了企业就可能活不下去,就像在美国‘9·11’事件后消失的那些企业一样。”也正因为如此,近两年来,与数据存储和信息管理相关的IT技术成为了用户最为关心的热门。对企业来说,业务与数据之间往往存在着微妙的互动关系:数据量的增长,会要求一些企业对自身业务流程做出调整;而一些企业在业务上的改变或创新,则也可能会给企业带来数据量的翻番。在今天的信息化商业环境中,数据和业务,就好似太极图上的阴阳鱼一般相互推动,构成了企业业务提升的内在前进动力。
问题 PROBLEM 如果你是北京的上班族,那你一定体验过每周一的“早高峰”。从东西二环到长安街,从主干道到联络线,几乎每一条通向商业聚集区的路上都塞满了汽车,这无疑是对城市交通能力的一次又一次考验。然而你可曾想到,263公司设在昌平的数据中心机房里,每周一早上也会迎来邮件的“早高峰”。
263网络通信股份有限公司(以下简称263公司)邮件事业部运营总监赵江波说:“每周,我们都会迎来用户邮件的‘周一早高峰’,用户在周末积累了两三天的邮件会在那个时间段集中查收和回复。根据我们的流量监测结果,每周一高峰时段的数据流量可能要比平时翻一倍。”邮件早高峰是由人们工作习惯造成的压力,如果每个用户在邮件服务器上存储的邮件只有几兆,这种压力对于263来说可能并不算大,但是如果每个用户的邮箱里,都有几十兆甚至上百兆的邮件要下载,那263的服务器所要承载的压力可就非同一般了。 2006年3月,263推出了“263天下邮企业G邮局”服务,将以往企业以兆为单位的邮局规模,统一为企业提供单个用户容量为1GB/2GB的企业邮箱服务。 在新的业务推出后,赵江波说:“用户开始大量地在邮件服务器上保存副本,我们统计的数据显示,用户邮箱的平均使用率很快涨到100多兆,用户的需求非常明显。”然而所有这些,也给263的业务带来了很大挑战。首先,用户在服务器上存储的邮件多了,存储容量需要扩充;其次,用户每次访问邮箱的时候,都要先读出邮件列表、同步信息,邮件越多,列表也越大,用户的信息下载量也越多。赵江波说:“我们的业务流量、存储的压力都比以前大多了。” 实际上,不仅仅是在周一早高峰,企业邮箱与个人邮箱的本质不同决定了它在平时的访问流量也要比个人邮箱大。 在公司里,很多员工用户是通过安装在本地计算机上的邮件客户端收发邮件的,这种客户端往往设置定时收取新邮件功能,每隔几分钟就要连接一次服务器、读取一次邮件列表。这样的读写频率要比通常通过Web访问的个人邮箱高很多,对于邮件系统的要求也高很多。263技术总监李宏宇在接受CIOINSIGHT记者采访时,说出了当业务改变、数据量随之发生巨大变化时,他所面临的几个压力: 首先,是海量的数据的存储问题,目前263的邮件数据已经达到了一两百TB左右,仅仅是将这些数据存起来,就是一件很不容易的事情。263采用的直连存储架构(DAS),面对100多TB,并且每个月以3TB持续增长的数据,已经难以负重了。在业务改变之后,原来每台存储服务器上所承载的数据量必须由4TB增加到30TB,但是在直连架构下,惟一能采用的办法就是增加服务器磁盘数量,但这种方法可能连服务器磁盘槽位这一关都过不去,因为磁盘槽位很可能不够,而且增加磁盘数量会导致故障点增加,例如由4TB增加到30TB,故障点就有可能从1个变为8个。 第二个问题是文件的数量问题。一直以来,人们对信息量大小的关注,常常是用GB、TB等字节单位来衡量的,而对文件系统所能支持的文件数量却了解不多。实际上,任何文件的存储都需要文件系统的支持,每种文件系统所能容纳的文件数量也是有限的。随着业务的改变,企业所存储数据的字节数飞速增长,但请不要忘记,另一种计量方法——文件数量也同样没有停下,所以,业务的增长使得263需要一个能够容纳足够多文件的文件系统。第三个问题是,随着用户数量的增长,用户读取数据的频繁度越来越高。他说:“目前263每天的数据吞吐量在上TB以上,而这方面压力的根本原因还是要归结到网络线路的限制上。” 其实,不仅仅是263公司,随着信息化的深入,很多企业都依靠信息技术与外界沟通。数据量的增大,使企业之间相互传输的数据比以往更多了,因此海量数据所带来的诸多压力中,有一条是与连接在各个企业之间的网络线路紧密相连的。 263公司所面临的数据存储、传输方面的压力,直接原因是企业运营扩张而引发的。相反,也有一些企业的业务流程、规章制度,会因为数据量的增长而受到影响,做出相应的调整。开发了《天骄》、《傲世》等网络游戏软件的目标软件(北京)有限公司(以下简称目标软件)是一家成立于1995年,目前拥有200名员工的游戏开发制作企业。该公司副总裁毛海滨在接受CIOINSIGHT记者采访时谈到,目前目标软件公司所进行的每个典型项目的数据量大约在100GB-200GB左右。而这样的项目,在目标软件的三个研发中心当中都有很多,所有这些项目数据加上公司事务部门一些日常数据,使得目标软件公司大约需要1000GB(即1TB)的在线存储空间。 虽说目标软件公司的数据量与对外提供邮件服务的263网络公司的数据量无法相比,但是,作为一家知识型企业,所有项目数据就像农民脚下的田地一样,是他们要生产加工的对象,也就是他们的生产资料。上TB的海量数据对他们来说是很大一片“土地”,而这片“土地”对他们在公司成立之初的年代里来说,是极其难啃的一块硬骨头。 解决 SOLUTION 对于解决海量数据所带来的问题,人们首先想到的就是从数据存储入手。正如263网络通信公司所遇到的直连存储架构对几十TB级别的数据鞭长莫及的情况,运营总监赵江波的问题交给了技术总监李宏宇及其带领的技术团队来解决。这些工作从2006年初,263实现业务扩展之后不久,就如火如荼地展开了。“首先,我们采用了虚拟存储架构来解决直连架构所面临的难题。”李宏宇说,“我们将原有的直连存储架构更换成了存储区域网络(SAN)。”在263,SAN存储结构的一些优势得到了良好的体现。首先,它实现了大容量存储设备的数据共享,使263得到了一个更大的、统一的存储空间,而不再是以几TB计算的级别;其次,SAN结构所实现的数据快速备份功能,也使得每天都有大量新增数据的263,能够及时将新的用户邮件进行备份。 在问及文件系统问题时,李宏宇表示,263采用的ZFS(Zettabyte File System)文件系统,实际上相当于让263可存储的文件的数量可以达到无限大。 与此相对应,目标软件公司他们面临的问题是,如何让海量数据用起来更加顺手。毛海滨当初用了6个月的时间来适应一种改变,这种改变是公司采用了新的软件开发流程而产生的:为了减轻程序开发人员的劳动量,也为了降低公司的存储成本,目标软件公司采用了Visual Source Safe控制系统。在这个版权管理系统上,开发人员可以不用将整个项目文件全部下载到本地计算机上,而是通过该系统提供的Check Out功能,从服务器上获得最新版本,并取得修改权,等到将文件修改完毕后,再试用Check In功能,将修改好的文件上传至服务器。 这样一来,开发人员的本地计算机上几乎不用保存大量的数据,对项目的修改只需获得Check Out权限就可以了。这既提升了工作效率,又节省了存储成本,可谓一举两得。 策略STRATEGY 尽管很多企业在应对海量数据挑战的过程中,获得了成功,但这是需要企业做很多前期准备工作的。例如,263公司在提供“G邮局”服务之后,正是由于对用户行为数据进行严密监测,并及时发现了数据量迅速上涨的趋势,才在新业务推出后两三个月内的时间里,加紧完成了存储架构的升级和改造,以至于能够从容应对此后一段时间里更加迅猛的数据增长速度。李宏宇认为,这种未雨绸缪的态度,是企业在面对数据增长的时候所必须具备的。他说:“CIO在面对数据增长的时候,一定要眼光长远,要使得自己企业的存储架构能够适应更长时间的发展,因为数据的增长往往比你想像的更快,有时候,数据会因为业务的变化而迅速变化。作为CIO,起码要为未来5至10年的数据考虑数据结构。”
另外,在真正亲手实施数据结构改造以应对海量数据增长的时候,技术人员的素质是一个非常重要的关键点。 由于新的存储结构比原来复杂得多,许多工程师原有的知识已经无法胜任这项工作了。为此,263专门在技术团队中重点培养了一些工程师,让他们从普通的技术工程师,成长为架构工程师。李宏宇说:“我们花3个月的时间从原来的工程师团队中培养了一名架构工程师,3个月里,他需要熟悉新的存储结构和新的运作方式,进行演练和迁移测试。到实际操作的时候,这名存储架构工程师,花了整整两周的时间,几乎每天都要通宵达旦地将当时263已有的60TB邮件数据,平滑、同步地迁移到新的存储架构上。 其实,这种人员培训成本在目标软件公司引入Visual Source Safe版权控制系统的时候,也得到了体现。为了让员工尽快适应新的工作流程,目标软件需要对员工进行流程、新规章制度的培训。同时,开发人员也需要自身调整以适应流程的改变,成长为公司副总裁的毛海滨,就是一个很好地适应了流程改变的程序开发人员。 价值 VALUE 企业为应对海量数据而采取的变革措施,无论是存储架构上的,还是业务流程上的,都可以说是一笔很值得的投入。 目标软件因为采用版本控制系统而获得了快速、高效的开发流程;263公司及时升级存储架构使其获得了用户更高的满意度,因为在服务稳定性和访问速度保持原有水平的前提下,263邮箱的用户能获得更大的存储空间,这使得他们对263的评价更高。而在263推出企业G邮局之后不久,很多竞争对手也开始效仿他们的做法。 另外很重要的一点是,存储并管理好海量数据,对于任何一个不断产生、保存、复制着数据的企业来说,都有可能是在堆积一座日后可供开采的金矿。李宏宇说:“对数据进行深入挖掘,是对公司原积累的信息进行二次利用。如果一家企业保留了几年的销售或市场数据,那么它就可以根据数据对市场和客户进行分析,由此,他们甚至可以得出更好的商业模式。”他说,“然而,这一切都是以海量数据的存储作为基础的,只有保存好海量的数据,企业才能有东西可分析。” 所以说,即便企业今天所日夜操劳、精心照顾的海量数据,可能暂时看不出有什么价值。但随着时间的积累,迟早有一天你可以通过深入挖掘发现其中的价值,那是可以对企业决策和战略产生重要影响的价值。