home Blog [사례로 배운다] 이것으로 서버 감시와 장애 대응을 할 수 있다!

[사례로 배운다] 이것으로 서버 감시와 장애 대응을 할 수 있다!

신규 서비스 시작 시기에 모든 과제를 해결해 두는 것은 중요하지만, 자체 조직에서 기한 내에 실시할 수 있는 것은 한정되어 있습니다.비교적 소규모의 프로젝트부터 시작하는 스몰 스타트의 경우, 평상시 이상으로 우선순위를 판별해 불안한 것은 외부 전문가에게 맡기는 대담한 의사결정이 시급합니다.특히 중요한 것은, 사업으로 이용하는 시스템을 안전하게 유지하기 위한 서버 감시나 장해 대응의 구조입니다.사례와 함께 소개해 드리겠습니다.

「장애가 발생했을 경우라도 대응할 수 있겠지?」라고 돌연 다짐을 받아도

신규 서비스를 시작해 인프라 담당으로 막 취임한 B씨는, 상사로부터 서버 감시나 장해에의 대응 상황을 듣고 어떻게 하면 좋을지 고민하고 있었습니다.예정대로 새로운 서비스를 시작할 수 있도록 노력해왔고, 전혀 여유가 없는 상태에서 더욱 걱정스러운 업무가 증가했기 때문입니다.무엇을 어떻게 해야 하는지, 왜 내가 하는지 이해할 수 없었습니다.

이에 B씨는 문제를 밝히기 위해 상사나 사내의 관계자에게 의견을 청취한 결과 아래와 같은 3가지 과제가 있다는 것을 알게 되었습니다.

【과제(1)】 

감시나 장해 대응을 할 여유가 없다(시간이나 여력 등).

【과제(2)】 

보안대책 전반을 자조직에서 지속적으로 대응하는 것은 무리.

【과제(3)】믿고 맡길 수 있는 전문가를 모른다

이 세 가지를 푸는 단서를 B씨를 대신해 보충합니다.적어도 여기만 확보해 두면, 자조직의 과제를 해소할 현실적인 수단을 찾아낼 수 있다고 생각합니다.

[B씨의 과제 (1)을 푸는 단서]

감시나 장해 대응을 할 여유가 없다.스몰 스타트를 위해 한정된 인원으로 신규 서비스를 시작하는 모든 업무를 기한 내에 끝내는 중책이 있습니다.예정된 기일에 맞추는 것이 아무래도 우선 순위로 높아지기 쉽습니다.시간의 제약이 있기 때문에, 자조직에 있어서 서투른 업무에 차분히 임할 여유도 없습니다. 다양한 경험이 있는 담당자 모임에서 도잘하지 못한 전문분야도 있을 것입니다.

그래서 아래와 같은 선택지에서 실제로 할 수 있는 방법을 선택하는 것이 일반적이라고 생각합니다.

(a)업무를 외주한다(실시 방법의 입안, 운용, 감시와 비상시의 대응 등)

(b)자체 조직에 대응할 수 있는 담당자를 늘린다

(c)부득이 신규 서비스 출시 일정을 늦추다

(d)대처할 수 없기 때문에 몰랐던 것으로 해서 문제가 발생하지 않기를 간절히 바란다.

아무리 완벽한 시스템이라도 뜻하지 않은 사태에 대처하지 못하면 안심하고 이용할 수 없습니다.눈앞의 일에 사로 잡히지 않고, 일견 쓸데없이 비치는 「용장화」라고 하는 여력이 역시 필요하게 됩니다.

[B씨의 과제 (2)를 푸는 단서]

보안대책 전반을 자조직에서 지속적으로 대응하는 것은 무리.

무리라고 느끼면 너무 쫓지 말고 외부의 신뢰할 수 있는 서비스를 한시라도 빨리 이용해야 한다고 생각합니다.1회성 업무라면 모를까, 전망도 서지 않고 익숙하지 않은 일을 계속하는 것은, 조직에도 신규로 피어오르는 사업에도 부담이 너무 큽니다.

현 시점에서는 보안 대책을 아무것도 하지 않아도 문제나 피해가 전혀 발생하지 않을지도 모릅니다. 들인 비용과 시간이 낭비된다고 판단될 수도 있을 것입니다.

모든 리스크를 상정해 그것들을 완전히 대책하는 것이 이상적이지만 현실적으로는 거의 불가능합니다.그럼에도 불구하고 기본적인 진행방법(리스크평가와 순위부여)이 있습니다.그것이 리스크 관리의 본질입니다.

자조직의 시스템 상에서 의뢰한 서비스가 동작할 것

의뢰인의 요망을 이해하고 본질적인 조언을 할 수 있으며, 요망을 충족시키는 방법을 제시할 수 있을 것

계속적인 대응을 할 수 있을 것

터무니없는 대가를 요구하지 않을 것(납득할 수 있는 비용으로 과제 해결이 가능한 것)

의뢰인에게는, 실은 외주를 주는 것만으로도 노력이 듭니다.주의해야 할 점은 [외주처를 선정하는 것만이 목적이 아니다]라는 것입니다.다음 사항을 검토하여 위탁하고 있는 업무가 원활하게 가동되고 있는지 점검과 개선을 계속할 필요가 있기 때문입니다.

(a) 실시방법의 입안과 재검토

(b) 필요한 것을 갖춘다(비용, 매뉴얼, 시스템 등)

(c) 신규로 도입한 것이 잘 연계되어 실제로 동작하는지를 테스트

(d) 본 운용

(e) 진행 방법에 불편함이 없는지 정기적으로 점검 (바빠 잊지 않도록)

위의 예에서는 (e)가 되면 일련의 흐름은 종료가 아니라, 다시 (a)로 돌아가 ‘(a)’로서 재검토하는 것이 중요하다고 생각합니다.