메트릭.. 그거 측정해서.. 뭐할라고? (대부분의 메트릭은 쓸모없다.)

2009년부터 4년 넘게 이 공간에 쓸데 없이 주절 주절 소프트웨어 테스팅과 관련이 있다고 생각하는 글을 137편을 끄적거렸습니다.

매달 2편 정도의 글을 썼습니다.

그다지 많이 쓰지도 않았는데.. 이제는 예전에 제가 무슨 글을 썼는지 잘 기억이 안납니다.

이 블로그 서비스는 구글이 제공하는 서비스임에도 불구하고 검색 기능은 아주... 엉망인지라...

지금 쓰고자 하는 이 글도 예전 언젠가 썼었던 기억이 있는데..

아무리 찾아보아도 아니보여서 다시 써봅니다.

이번에 제가 얘기하고 싶은 주제는 메트릭입니다.

우리는 소프트웨어를 개발하고 테스트를 진행하면서 제품의 품질과 테스트의 진척을 판단하기 위해 꽤 많은 메트릭을 사용하고 있습니다.

결함 갯수, 수정된 결함 수, 잔존 결함 수, 결함 수정 기간, 작성된 테스트 케이스 수, 품질 지표, 실행된 테스트 케이스 수, 실패한 테스트 케이스 수 등등등...

정말로 많은 메트릭 종류가 있습니다.

그리고 이러한 메트릭을 기반으로 사람을 평가하고 제품을 평가합니다.

많은 조직에서는 좀 더 의미있는 메트릭을 수집하고자 매우 많은 노력을 하고 있습니다.

그래서.. 그 많은 메트릭을 수집하셔서 품질이 좀 나아지셨습니까? 테스터의 역량이 향상되셨습니까? 개발자로부터 유입되는 결함은 좀 줄어드셨나요?

물론, 괄목할만한 성과를 얻는 조직도 있습니다.

하지만 많은 조직은 분명 열심히 하고 있다고 생각하는데 성과는 높지 않습니다.

그리고 더 나은 메트릭을 찾아서 킬리만자로의 표범처럼 헤메이고 있습니다.

자.. 더 나은 메트릭을 찾아 헤메기 전에 왜 나아지지 않는 것일까요?

수집하는 메트릭이 좋지 않아서일까요?

잘못된 메트릭을 수집하고 있어서 그런걸까요?

결론적으로는 메트릭을 수집하기 때문에 그렇다고 볼 수 있습니다.

어쩌면 메트릭을 수집하지 않음으로 인해 더 나은 경험을 해보실 수도 있습니다.

이 무슨 해괴한 이야기인가 싶으신가요?

관리자는 숫자에 대한 맹신과 같은 신념이 있습니다.

관리자들은 말 그대로 관리하는 것에 대해 굉장히 집착하는 경향이 있습니다.

때문에 현재 상태를 판단하고 의사결정을 위해 굉장히 많은 메트릭을 수집합니다.

하지만 정말로 제대로 된 메트릭을 수집하고 계신가요?

더 나은 메트릭을 찾아 헤메시기 전에 아래 사항들에 대해 한번 더 고민해 보시기 바랍니다.

첫번째는 지금 수집하는 각 메트릭에 목적과 용도가 있으십니까?

그 메트릭을 어떤 목적을 가지고 어디에 어떻게 사용하기 위해서 수집하고 계신가요?

이 질문에 명확하게 대답하지 못하신다면 의미 없는 메트릭을 수집하고 계신겁니다.

그리고 다른 회사들에서 성공적이었던 그 어떤 메트릭을 가져다고 수집하셔도 그 메트릭의 목적과 용도를 정확히 이해하지 못하셨다면 그 메트릭은 얼마 안가 매우 쓸모없는 메트릭이 될 것입니다.

예를 들면 많은 조직에서 오늘 발견한 결함을 측정합니다.

그런데 오늘 발견한 결함은 왜 수집하시는건가요? 수집된 결함 갯수를 가지고 무엇을 판단하고 결정하실건가요?

어떤 분들은 결함 갯수가 많으면 제품의 품질이 낮다고 판단할 수 있답니다.

정말로 그런가요? 심각도라는 메트릭을 추가해서 매일 발견된 심각도 높은 결함 갯수를 수집한다고 하더라도 마찬가지입니다. 이걸 왜 수집하시는 건가요? 이걸로 무엇을 판단하고 결정하실 수 있으신가요?

어제보다 오늘 심각도 높은 결함이 나왔다는 것은 무슨 의미일까요?

어제보다 오늘 제품의 품질이 내려갔다는 의미인가요?

잘 생각해보시기 바랍니다. 정말로 이 메트릭이 왜 수집이 되고 있는 것인지? 무엇을 판단하고 결정하기 위해서 수집되고 있는것인지.. 우리가 이해하고 알고 있고 그렇다고 믿었던 것에 대해 한번 더 물어보시기 바랍니다.

정말 확신하시나요?

두번째는 기준이 명확하신가요?

수집하는 메트릭의 기준이 명확하신가요?

메트릭의 추세를 판단하는 기준이 명확하신가요?

많은 조직들이 커버리지를 측정합니다.

예를 들어 오늘 100개의 테스트 케이스 중에 80개를 실행해서 테스트 케이스 실행률이 80%가 되었습니다.

그리고 한 주 뒤에 추가로 100개의 테스트 케이스가 만들어졌고 기존 100개의 테스트 케이스 중에 50개가 기능 변경으로 삭제되었습니다. 전체 테스트 케이스는 150개가 되었고 120개의 테스트 케이스를 실행하여 실행률은 80%가 되었습니다.

지난주에 테스트 케이스 실행률은 80%였고 이번주도 80% 입니다.

그러면 우리는 일은 한 것일까요? 안한것일까요? 우리 팀의 생산성은 높아진것일까요? 낮아진것일까요?

많은 메트릭들의 기준은 프로젝트를 진행하면서 바뀝니다. 그에 따른 기준을 정하기란 매우 어렵습니다.

어떤 관점에서 해석하느냐에 따라 전혀 다른 결과를 나타냅니다.

고로 우리가 어떤 메트릭을 선정해서 측정하기 위해서는 프로젝트 기간 동안 그 기준이 변하지 않고 수집을 하는 이유와 그 활용 용도가 명확한 메트릭을 선정해야 합니다.

그렇지 않다면 그냥 측정하지 않는 것이 더 좋습니다.

우리가 메트릭을 수집하는 것을 측정을 하기 위해서입니다. 측정에는 정량적이란 의미가 내포되어 있습니다.

숫자는 무엇인가에 대한 이해를 빠르고 직관적으로 이루어지도록 하는 마법을 부리지만 숫자에는 정황이 반영되지 못하기 때문에 전체적인 판단을 하기에는 오히려 부적절합니다.

즉, 측정은 관리적인 측면에서 미시적인 관리에 빠져들게 하는 단점이 있습니다.

미시적인 관리에 집중하게 되었을 때 가장 큰 리스크는 신뢰가 사라진다는 점입니다.

오늘 발견된 결함 갯수, 오늘 실행한 테스트 케이스 수, 오늘 작성한 테스트 케이스 수의 측정 이면에는 신뢰하지 못하는 관계가 숨어있습니다.

테스터의 전문성은 사라지고 기계의 일부처럼 취급되고 있다는 의미입니다.

세번째 메트릭은 어떤 경우에도 사람을 측정하는 용도로 쓰여져서는 안됩니다.

어떠한 경우에도 메트릭이 테스터나 개발자와 같은 사람을 측정하는 용도로 사용되는 순간 조직에서 신뢰는 사라지고 무의미한 성과지표 위주의 조직으로 바뀌게 됩니다.

그 조직에는 열정도 사라지고 책임도 사라집니다.

고로 사람을 측정하는데 사용될 수 있는 메트릭은 설계되어서는 안됩니다.

그럼 어떤 메트릭이 좋은 메트릭일까요?

제품 자체, 진척 자체만 측정할 수 있는 기준이 변하지 않고 수집 목적과 활용 방안이 명확한 메트릭은 무엇이 있을까요?

저는 정량적인 측정보다 좀 더 정성적인 측정을 종아합니다.

테스트 목적 도달 여부에 필요한 테스트를 정해 놓고 리스크에 따라 강도를 설정한 후 그에 따른 테스트를 충분히 수행했는가를 측정하는 정도면 충분하다고 생각합니다.

테스트를 충분히 수행했는가를 어떻게 측정할것인가는.. 테스터와 팀원을 믿어야 한다고 생각합니다.

예전에 어떤 분이 이렇게 얘기해준적이 있습니다. 당신은 당신의 이름을 걸고 테스트 보고서를 쓸 수 있습니까?

각자의 이름을 걸고 보고서를 쓸 수 있다면 그걸로 충분하다고 생각합니다.

저도 매일 그러기 위해서 노력하고 있습니다.

우리 나라 실정에 맞지 않고 뜬구름 같은 이야기이지만..

잘 생각해보면 쓸모 없는 메트릭 수집할 시간에 의미 있는 테스트를 한번이라도 더 실행하는 것이 모두에게 더 나은 것임은 분명하다고 생각합니다.

여러분은 의미 있는 메트릭을 수집하고 계신가요? 그렇다면 공유해주시면 고맙겠습니다.

정리하면 좋은 메트릭이란

1. 수집 목적과 활용 방안이 명확해야 한다.
2. 기준이 변하지 않아야 한다.
3. 사람이 아닌 제품을 측정해야 한다.

이렇게 생각합니다.

테스팅 히치하이커를 위한 안내서

이 블로그 검색

메트릭.. 그거 측정해서.. 뭐할라고? (대부분의 메트릭은 쓸모없다.)

태그

댓글

댓글 쓰기

이 블로그의 인기 게시물

테슬라 구매 과정 후기

스위치봇 & 스위치봇 허브 미니 간단 사용기

테슬라 악세사리 구매 후기