世界上第一批网站真正达到规模以来,已经过去十多年了。我们就是当年的运维工程师,在那些日子里,见证了网站前所未有的快速增长,过去也没有人知道该怎样管理这样的网站。而保持系统正常运行正是我们的责任。
当其他人在发布会晚宴上庆祝时,我们却在数据中心拆装最后的服务器。忙完完以后,已是深夜了,在桌边坐下来,看着日志文件和访问曲线不断增长,我们个个都容光焕发。
我们的经历是有普遍意义的:软件崩溃了,或不能随着规模的增长而缩放。数据库崩溃了,数据也被污染了,而服务器、磁盘、交换机,这些产品的制造商都保证说绝对不会出问题,却恰恰都出问题了。网站遭到了黑客攻击开始日时是为了好玩,后来就为钱而干了。我们刚把事情搞定,这时又要推出一项新功能,导致访问量急剧上升,所有努力又全完了。
在那些早期的日子里,因为没有预算,我们只能使用我们能找到的东西。我们从使用那些杂物间里找出来的机器,逐渐增长到分布在全球的兆瓦规模的数据中心,这些数据中心里的机器仍然是我们能找到的最便宜的机器。
随着网站逐渐走向规模化,现实世界及其危险也就逐渐凸显了。数据中心会遭遇火灾、洪水、被飓风吹得一片狼藉。电力可能中断,备用发电机可能不起作用一一或可以启动,但马上又没油了一一或被什么人撤下了紧急断电(EmergencyPowerOff)按钮。制冷系统会损坏,酒水装置会漏水,光缆可能被挖土机、松鼠或在海底爬行的不知什么生物给切断。人、机器、大自然会在我们能够想象到的所有方面对我们发起挑战,然后在我们永远也想不到的方面使我们目瞪口呆。
呼机鸣叫、朋友无心地询问“网站宕了吗?”或CEO惊恐与愤怒地叫喊时,我们立马投入工作。我们总是第一个知道网站容机的,网站正常后,也总是最后一个离开的。
总是这样。
每天,我们都能更机敏一点,更聪明一点,也总能学到一些小技巧。十多年前我们写的脚本,现在已经发展为成熟的工具和语言了,而且围绕这些已经出现了完整的行业,知识经验、工具、过程正在成长为一种技艺,我们称其为“Web运维”。
我们之所以称Web运维是一种技艺,而不是科学,是有原因的。在这方面没有标准、认证、甚至正式的学校教育(至少目前是这样)。我们花了很长时间才学到了怎么做,又花了更长时间才算精通。每个人在每个阶段都必须找到他或她自己的风格。这里没有“正确答案,”有的只是什么管用(现在),以及下次要做得更好的承诺。
他们最终将依赖于我们。Web正在改变我们的生活方式,并且触及到了每一个人。随着越来越多的人依赖于网站建设Web,Web运维就是这样的工作。
>>> 查看《网站运营维护是什么?你知道吗》更多相关资讯 <<<
本文地址:http://nlpc.cn/news/html/3300.html