月次処理の話とか。

熱だ病気だといっても仕事はあるわけで、昨日も月次定例処理の立会いをやってきました。月次定例処理とは月に1回土曜夜~日曜朝にかけてサーバリブートやウイルスフルスキャンをするものです。なので立会いは徹夜です。でもほとんど寝てました(←給料泥棒)。いや、ちゃんと見るとこ見てました。月次処理といっても処理と処理の間にインターバルが数時間単位であるのでその間寝てたわけです。暇なら本でも読めよ、という話だけどそこは病み上がりの身。そんなやる気はございません。というか先週は病気もあって1日睡眠8時間で推移してたのでいきなり徹夜とか無理です。

そんなこんなで立会い終了。その帰り道お客様から

「今日は普通の立会いでよかったですねー。立会いっていうと普通は暇で暇でしょうがないんですが、○○タスクはいつも何かありましたからねー。」

という言葉を頂く。

あーそういえばこんなに問題のない立会いは久しぶりだなぁ。システムリリースして4ヶ月目でやっと安定してきたのかな…?まぁ本来月次処理というのはスケジュールで実行されるので立ち会う必要はなくて。ならなぜ立会ってるかというと、毎回月次処理が上手く行ってなかったからなのだ。具体的にはジョブが止まったりサーバが再起動しなかったりでその度に手動実行が必要だったのだ。それがこのまま安定してくれるなら月1の深夜勤務がなくなってくれるわけである∩(・ω・)∩バジャーイ

「そう上手くいくかなふふふ…」とうちのサーバくんが言ってるような気もしますが。

それにしても月次処理はある程度正常運用のめどがついたとしても、未知のエラーはなくならないね。保守業務を始めた頃は「今あるエラーを解決したらシステムが安定する」とか思ってたけどなかなかどうして。「システムをアップグレードする→未知のエラー発生→(無限ループ)」だったりするんだよなぁ。そういう意味では真に「安定したシステム」というのはなくて、エラーが発生する前提で保守体制を整えることが重要なんだよなぁ。

と書いていくと長くなりそうなので考察薄めでこのへんで。