VMware社の1つのミスにより数千台の仮想インフラが機能停止の可能性(200812-1)
8月12日午前、新しい「Infrastructure 3.5 Update 2」(ビルド103908)で仮想データセンタをアップグレードしたVMware社の顧客にはとんでもないサプライズが待っていた。仮想マシンをいったん止めると再度起動することができず、「VMotion」(ホスト間でVMのライブマイグレーションを行う)を実行しようとしても動かないのだ。
この前代未聞の大問題の原因は、ライセンス期限のミスだった。
現在、この問題の唯一の回避策は、ある顧客がこちらで提案しているように、Network Time Protocol(NTP)クライアントを無効にし、日付をすみやかに8月10日に戻すしかない。
もちろん、この対応策はログの一貫性と、各種目的(パフォーマンスモニタ、傾向分析、キャパシティプラニング計算など)で「VirtualCenter」のイベントを分析するツールに影響を与える。
この問題にはほかにも、ITの管理者らが休暇中(特に8月12日前後が多い)で、リカバリが実行できないため、インフラの可用性にも影響があることは言うまでもない。
世界中のユーザからシステムの一部に関する障害の報告が来ており、なかには完全にダウンした例もある。
VMware社は20万社以上の大企業(Fortune 100企業の100%、そしてFortune 500企業の95%)を顧客として抱えており、そのうちの59%が本番環境でVMotionを利用しているという。
同社は何社程度が既にUpdate 2を導入しているのかを明らかにしていないが、ライセンスの不具合は数千社に影響を与える可能性がある。
VMware社はこの問題を認識しているが、速やかにソリューションを提供することはできていない。
現時点で、VMware Knowledge Baseは完全に崩壊状態のようだ。
サポート窓口に電話をかけても「この問題は36時間以内に解決します」という簡単なメッセージが流れるだけだ。
さらに、VMware社では影響を受ける製品のダウンロード機能も削除してしまった。
輝かしい歴史のなかの複雑な時期でのこのような問題の発生は、(既にこれまで何度もミスを犯してきた)同社の信頼を揺るがすのに十二分だ。
36時間というソリューション提供期限は、本番環境で仮想化を導入しているこれだけ多くの大企業にとっては容認できない内容だ。
これらはすべて、12日の株価に深刻なダメージを与える可能性がある。
最新情報: 「VMware ESXi 3.5 U2」(ビルド103909)のライセンスも同じ問題の影響を受けるとの報告がある。
最新情報2:状況をさらに悪化させるのが、この日がいわゆるMicrosoft社の定例パッチ提供日となっていて、多数のゲストOSが自動的に(あるいはこの問題を知らない人が手動で)再起動を行うことだ。
これでも不足だとでもいうように、VDI環境を運用している顧客は間違いなくどこもが仮想デスクトップをエンドユーザが好きなときに再起動できるようにしている。
最新情報3:VMware社のKnowledge Base(KB)がおそらく過負荷が原因でまだ復旧していないため、virtualization.infoがこの問題に関するオリジナルの部分を公開する。
最新情報4:この問題は特定のパッチをあてたESX 3.5 Update 1にも影響を与える。
virtualization.infoの読者のおかげで、この記事のコメント部分に完全な詳細がある。
この問題はにわかに初期導入の問題ではなくなってしまった。
最新情報5:コメント部分でさっそくお伝えしたように、VMware社の新最高経営責任者(CEO)であるPaul Maritz氏は、公式ブログで謝罪し、パッチが公開されたことを伝えている。
…なぜこのような事態になったか疑問に思われていることと思う。 今回は2カ所に問題があった。
- Update 2の完成版にある当該コードを無効にしなかった。
- それを、われわれの品質保証プロセスで把握できなかった。
われわれは、確実な再発防止に向けてできる限りのことをしている。 VMware社は自社製品の品質と信頼性に誇りを持っており、今回の問題を契機に、製品の開発と、それの顧客への提供方法について徹底的な自省を行う。 QAやリリースプロセスに関して包括的かつ綿密な見直しを始めており、必要な変更は早急に行う。…
Maritz氏は同社のトップとして最悪のスタートを切ったことになる。とはいえ、これは素晴らしいチャンスでもある。VMware社の共同創業者で元CEOのDiane Greene氏は、同社をMicrosoft社と競合できる大企業に成長させることができないとして、たびたび非難されてきた。
今回の問題を処理することで、Maritz氏には自分がGreene氏に勝る適切な人物であることを示す最初のチャンスが訪れることになる。
最新情報6:VMware社は依然としてフレッシュインストレーション用のESX 3.5とESXi 3.5 Update 2のイメージを再公開できずにいる。
これらは、米太平洋標準時2008年8月13日の午後6時までには公開される見込みとなっている。
最新情報7:VMware社はさきほど、新しいパッチ適用済みの同製品のイメージを予定期限までに提供できないことを顧客に伝えた。
同イメージは現在、米太平洋夏時間8月14日の午前2時から午後8時の間のリリースが予定されている。
最新情報8:多くの理由から、多数の法人客は最初にリリースされたパッチ(上の最新情報5を参照)を適用できない可能性が高い。
- 保守期間のスケジューリングができない
- 社内の変更管理手続き
- VMをVMotionで移行するのに利用可能なサーバがない
VMware社はこれらの制約を認識しており、「U2 Alternative Install Process」(U2 AIP)と呼ばれる2番目のパッチ適用手順の開発が進行中であることを顧客に通知している。これは、サポートに連絡することで入手する。
2008年8月15日現在、パッチインストール手順の新たなリリース日は明らかになっていない。
一方、パッチを完全に適用したイメージはついにネットで公開され、ダウンロードリンクもすべて復旧した。
新しいビルド番号は次の通り。
- ESX 3.5 Update 2 - 110268
- ESXi 3.5 Installable Update 2 - 110271

