기본 콘텐츠로 건너뛰기

메트릭.. 그거 측정해서.. 뭐할라고? (대부분의 메트릭은 쓸모없다.)

2009년부터 4년 넘게 이 공간에 쓸데 없이 주절 주절 소프트웨어 테스팅과 관련이 있다고 생각하는 글을 137편을 끄적거렸습니다.

매달 2편 정도의 글을 썼습니다.

그다지 많이 쓰지도 않았는데.. 이제는 예전에 제가 무슨 글을 썼는지 잘 기억이 안납니다.

이 블로그 서비스는 구글이 제공하는 서비스임에도 불구하고 검색 기능은 아주... 엉망인지라...

지금 쓰고자 하는 이 글도 예전 언젠가 썼었던 기억이 있는데..

아무리 찾아보아도 아니보여서 다시 써봅니다.

이번에 제가 얘기하고 싶은 주제는 메트릭입니다.

우리는 소프트웨어를 개발하고 테스트를 진행하면서 제품의 품질과 테스트의 진척을 판단하기 위해 꽤 많은 메트릭을 사용하고 있습니다.

결함 갯수, 수정된 결함 수, 잔존 결함 수, 결함 수정 기간, 작성된 테스트 케이스 수, 품질 지표, 실행된 테스트 케이스 수, 실패한 테스트 케이스 수 등등등...

정말로 많은 메트릭 종류가 있습니다.

그리고 이러한 메트릭을 기반으로 사람을 평가하고 제품을 평가합니다.

많은 조직에서는 좀 더 의미있는 메트릭을 수집하고자 매우 많은 노력을 하고 있습니다.

그래서.. 그 많은 메트릭을 수집하셔서 품질이 좀 나아지셨습니까? 테스터의 역량이 향상되셨습니까? 개발자로부터 유입되는 결함은 좀 줄어드셨나요?

물론, 괄목할만한 성과를 얻는 조직도 있습니다.

하지만 많은 조직은 분명 열심히 하고 있다고 생각하는데 성과는 높지 않습니다.

그리고 더 나은 메트릭을 찾아서 킬리만자로의 표범처럼 헤메이고 있습니다.

자.. 더 나은 메트릭을 찾아 헤메기 전에 왜 나아지지 않는 것일까요?

수집하는 메트릭이 좋지 않아서일까요?

잘못된 메트릭을 수집하고 있어서 그런걸까요?

결론적으로는 메트릭을 수집하기 때문에 그렇다고 볼 수 있습니다.

어쩌면 메트릭을 수집하지 않음으로 인해 더 나은 경험을 해보실 수도 있습니다.

이 무슨 해괴한 이야기인가 싶으신가요?

관리자는 숫자에 대한 맹신과 같은 신념이 있습니다.

관리자들은 말 그대로 관리하는 것에 대해 굉장히 집착하는 경향이 있습니다.

때문에 현재 상태를 판단하고 의사결정을 위해 굉장히 많은 메트릭을 수집합니다.

하지만 정말로 제대로 된 메트릭을 수집하고 계신가요?

더 나은 메트릭을 찾아 헤메시기 전에 아래 사항들에 대해 한번 더 고민해 보시기 바랍니다.

첫번째는 지금 수집하는 각 메트릭에 목적과 용도가 있으십니까?

그 메트릭을 어떤 목적을 가지고 어디에 어떻게 사용하기 위해서 수집하고 계신가요?

이 질문에 명확하게 대답하지 못하신다면 의미 없는 메트릭을 수집하고 계신겁니다.

그리고 다른 회사들에서 성공적이었던 그 어떤 메트릭을 가져다고 수집하셔도 그 메트릭의 목적과 용도를 정확히 이해하지 못하셨다면 그 메트릭은 얼마 안가 매우 쓸모없는 메트릭이 될 것입니다.

예를 들면 많은 조직에서 오늘 발견한 결함을 측정합니다.

그런데 오늘 발견한 결함은 왜 수집하시는건가요? 수집된 결함 갯수를 가지고 무엇을 판단하고 결정하실건가요?

어떤 분들은 결함 갯수가 많으면 제품의 품질이 낮다고 판단할 수 있답니다.

정말로 그런가요? 심각도라는 메트릭을 추가해서 매일 발견된 심각도 높은 결함 갯수를 수집한다고 하더라도 마찬가지입니다. 이걸 왜 수집하시는 건가요? 이걸로 무엇을 판단하고 결정하실 수 있으신가요?

어제보다 오늘 심각도 높은 결함이 나왔다는 것은 무슨 의미일까요?

어제보다 오늘 제품의 품질이 내려갔다는 의미인가요?

잘 생각해보시기 바랍니다. 정말로 이 메트릭이 왜 수집이 되고 있는 것인지? 무엇을 판단하고 결정하기 위해서 수집되고 있는것인지.. 우리가 이해하고 알고 있고 그렇다고 믿었던 것에 대해 한번 더 물어보시기 바랍니다.

정말 확신하시나요?

두번째는 기준이 명확하신가요?

수집하는 메트릭의 기준이 명확하신가요?

메트릭의 추세를 판단하는 기준이 명확하신가요?

많은 조직들이 커버리지를 측정합니다.

예를 들어 오늘 100개의 테스트 케이스 중에 80개를 실행해서 테스트 케이스 실행률이 80%가 되었습니다.

그리고 한 주 뒤에 추가로 100개의 테스트 케이스가 만들어졌고 기존 100개의 테스트 케이스 중에 50개가 기능 변경으로 삭제되었습니다. 전체 테스트 케이스는 150개가 되었고 120개의 테스트 케이스를 실행하여 실행률은 80%가 되었습니다.

지난주에 테스트 케이스 실행률은 80%였고 이번주도 80% 입니다.

그러면 우리는 일은 한 것일까요? 안한것일까요? 우리 팀의 생산성은 높아진것일까요? 낮아진것일까요?

많은 메트릭들의 기준은 프로젝트를 진행하면서 바뀝니다. 그에 따른 기준을 정하기란 매우 어렵습니다.

어떤 관점에서 해석하느냐에 따라 전혀 다른 결과를 나타냅니다.

고로 우리가 어떤 메트릭을 선정해서 측정하기 위해서는 프로젝트 기간 동안 그 기준이 변하지 않고 수집을 하는 이유와 그 활용 용도가 명확한 메트릭을 선정해야 합니다.

그렇지 않다면 그냥 측정하지 않는 것이 더 좋습니다.

우리가 메트릭을 수집하는 것을 측정을 하기 위해서입니다. 측정에는 정량적이란 의미가 내포되어 있습니다.

숫자는 무엇인가에 대한 이해를 빠르고 직관적으로 이루어지도록 하는 마법을 부리지만 숫자에는 정황이 반영되지 못하기 때문에 전체적인 판단을 하기에는 오히려 부적절합니다.

즉, 측정은 관리적인 측면에서 미시적인 관리에 빠져들게 하는 단점이 있습니다.

미시적인 관리에 집중하게 되었을 때 가장 큰 리스크는 신뢰가 사라진다는 점입니다.

오늘 발견된 결함 갯수, 오늘 실행한 테스트 케이스 수, 오늘 작성한 테스트 케이스 수의 측정 이면에는 신뢰하지 못하는 관계가 숨어있습니다.

테스터의 전문성은 사라지고 기계의 일부처럼 취급되고 있다는 의미입니다.

세번째 메트릭은 어떤 경우에도 사람을 측정하는 용도로 쓰여져서는 안됩니다.

어떠한 경우에도 메트릭이 테스터나 개발자와 같은 사람을 측정하는 용도로 사용되는 순간 조직에서 신뢰는 사라지고 무의미한 성과지표 위주의 조직으로 바뀌게 됩니다.

그 조직에는 열정도 사라지고 책임도 사라집니다.

고로 사람을 측정하는데 사용될 수 있는 메트릭은 설계되어서는 안됩니다.

그럼 어떤 메트릭이 좋은 메트릭일까요?

제품 자체, 진척 자체만 측정할 수 있는 기준이 변하지 않고 수집 목적과 활용 방안이 명확한 메트릭은 무엇이 있을까요?

저는 정량적인 측정보다 좀 더 정성적인 측정을 종아합니다.

테스트 목적 도달 여부에 필요한 테스트를 정해 놓고 리스크에 따라 강도를 설정한 후 그에 따른 테스트를 충분히 수행했는가를 측정하는 정도면 충분하다고 생각합니다.

테스트를 충분히 수행했는가를 어떻게 측정할것인가는.. 테스터와 팀원을 믿어야 한다고 생각합니다.

예전에 어떤 분이 이렇게 얘기해준적이 있습니다. 당신은 당신의 이름을 걸고 테스트 보고서를 쓸 수 있습니까?

각자의 이름을 걸고 보고서를 쓸 수 있다면 그걸로 충분하다고 생각합니다.

저도 매일 그러기 위해서 노력하고 있습니다.

우리 나라 실정에 맞지 않고 뜬구름 같은 이야기이지만..

잘 생각해보면 쓸모 없는 메트릭 수집할 시간에 의미 있는 테스트를 한번이라도 더 실행하는 것이 모두에게 더 나은 것임은 분명하다고 생각합니다.

여러분은 의미 있는 메트릭을 수집하고 계신가요? 그렇다면 공유해주시면 고맙겠습니다.

정리하면 좋은 메트릭이란

1. 수집 목적과 활용 방안이 명확해야 한다.
2. 기준이 변하지 않아야 한다.
3. 사람이 아닌 제품을 측정해야 한다.

이렇게 생각합니다.

댓글

이 블로그의 인기 게시물

매우 매우 매우 실망스러운 레일플러스 모바일 교통카드

우리 나라에서 버스나 지하철 같은 교통 수단을 이용하는 대부분의 사람들은 티머니와 같은 선불교통카드나 카드사와 연계된 후불교통카드를 쓰는 경우가 거의 대부분일 것입니다.

저도 현금으로 지하철이나 버스를 이용해본지가 언제인지 기억이 가물가물 합니다. (최근에는 현금을 들고 다닐 필요가 거의 없긴 하죠. 그러다보니 가끔 지방에 가서 카드가 안되는 가게나 주차장 등에서 난감하기도 하고요..)

그런데, 이런 카드 말고 스마트폰으로 교통 수단을 이용하는 사람들도 있습니다.

우리 나라에서 스마트폰으로 교통 수단을 이용하는 것은 심카드를 기반으로 구현된 기술로 문제는 해외 단말은 이 기능을 지원하지 않는 다는 것입니다.

해외 단말들이 이와 같은 기능을 구현하기 위해서는 HCE 라는 방식이 필요한데.. 이런 방식으로 결제 시스템을 구현은 할 수 없지만 지금까지는 이 기술로 구현된 사례가 없었는데, 얼마전 코레일에서 레일플러스 모바일 교통카드를 HCE 로 구현하여 서비스를 시작했습니다.

이로서 해외 단말을 사용하는 사람들도 스마트폰으로 버스나 지하철과 같은 교통수단을 이용할 수 있게 될것이라고 환호했습니다만, 실상은 그렇지 않다고 볼 수 있습니다.

저는 넥서스 5X 사용자로 심카드를 기반으로 하는 결제 시스템을 쓸 수 없었기 때문에 저도 코레일에서 저 서비스를 내놓았을 때 기대에 부풀어서 나오자마자 바로 설치해봤습니다. 처음 서비스 시작한 시점이 8월이었는데, 그 때에는 안드로이드 8.0을 지원하지 않아서 서비스는 시작되었지만 사용할 수 없었습니다.

그러다가, 9월 업데이트로 안드로읻 8.0(오레오)에서도 해당 앱이 정상적으로 동작하게 되어서 한번 사용해 본 소감을 남깁니다.

우선 현재 시점으로 해당 서비스를 이용하는 방법은 크게 2가지입니다.

하나는 레일플러스 모바일 교통카드 앱을 설치하여 이용하는 방법이고, 다른 하나는 신한 판(앱카드)를 설치하여 이용하는 방법입니다.

카드 종류는 선불과 후불 2가지 종류가 있는데, 레일플러스 모바일 교통카드 앱은 2가지를 모두 지원하고…

안드로이드 오토 그리고 브링고...

2018년 7월 12일.. 기다리고 기다리던 안드로이드 오토가 드디어 국내 서비스를 시작했습니다.

대한민국의 특수한 상황 때문에 구글 지도가 아닌 카카오 네비게이션과 함께 국내 서비스를 시작했습니다.

제 차량이 더 넥스트 스파크인데.. 기본 네비게이션이 브링고라는 앱입니다.

물론 AS 마켓에서 여러 네비게이션을 설치할 수도 있지만, 그러기에는 안정성도 문제이고 마이링크와 같이 사용하는 것도 어색해서 저는 공식적으로 지원하는 브링고를 써왔습니다.

그런데, 이 브링고라는 앱의 가장 큰 문제점은 네비게이션임에도 불구하고 업데이트가 거의 없습니다. 1년에 2번 정도 해주면 아주 양호한 정도입니다. 웃긴 것은 만원이나 하는 유료 앱입니다.

구독 서비스가 아닌걸 천만다행으로 생각해야하는 건지... 어쨌든 유료 앱임에도 불구하고 AS는 정말 구립니다.

안드로이드 업데이트 될 때마다 연결이 잘 안되기도 하고.. 마이링크는 왜 업데이트가 안되는건지도 모르겠고..

거기다가 기본적으로 지도의 데이터 양이 절대적으로 부족하고 최신 정보가 반영이 안되다보니 목적지 설정할 때 주소로 해야 하는 경우가 비일비재하고 그 주소마저 신도시와 같은 곳은 주소 설정마저 안되서 목적지 설정이 안됩니다.

과속카메라나 단속 구간의 속도 제한 안내는 말하면 잔소리죠..

울며 겨자먹기 식으로 어쩔 수 없이 브링고를 써오던 저에게 안드로이드 오토는 정말 이 무더운 여름에 단비 같은 소식이었습니다.

카카오 내비는 싫어하지만.. 이 역시 저에게 어떤 선택지가 있는 것은 아니라서 어쩔 수 없다고 생각합니다. 웨이즈라는 앱이 있긴 하지만 이 역시 국내 데이터가 너무 부족해서 실제 사용이 어려운 지경이기 때문에 의미가 없습니다.

어쨌든 안드로이드 오토 서비스와 동시에 설치 후 2주 정도 사용한 후기입니다.

우선은 카카오 내비의 정보가 실시간 반영되다 보니 목적지 설정에 대한 스트레스는 좀 줄어들어서 좋습니다.

하지만 사용해 보니 몇가지 불편한 점이 있습니다.

1. 경유지 설정이 안됩니다.
2. 스마트폰에서 카카오…

테스트 케이스와 체크리스트의 차이가 뭐여?

테스트 실무에서 가장 혼돈되어 사용되는 용어 중 하나가 테스트 케이스와 체크리스트입니다.

많은 경우 체크리스트를 테스트 케이스로 사용하는 경우가 많습니다.

실제로 인터넷 커뮤니티나 블로그, ISO, IEEE, ISTQB 등등을 검색해보시면 테스트 케이스와 체크리스트에 대한 구분이 다 제각각입니다.

각각에 대한 정의가 다 제각각입니다.

사정이 이러하다보니 많은 사람들이 테스트 케이스와 체크리스트를 잘 구분하지 못하고 혼동해서 사용하는 경우가 많습니다.

물과 기름처럼 테스트 케이스와 체크리스트를 정확하게 구분할 수는 없겠지만..

ISTQB를 기준으로 말씀드리면 설계 기법을 통해 도출된 것은 테스트 케이스 그렇지 않은 것은 체크리스트라고 생각하시면 쉽습니다.

예를 들면 아래는 결정 테이블 테스팅 기법을 통해 도출된 테스트 케이스의 예제입니다.



실제 테스트 케이스는 위보다 복잡하겠지만 어쨌든 얘기하고 싶은 것은 위와 같이 설계 기법을 통해서 도출된 것은 테스트 케이스라고 합니다.

그런데 딱 보시면 아시겠지만 실제 테스트에서는 저 정도로는 테스트 커버리지를 충분히 만족했다고 얘기하기 힘듭니다.

그렇습니다.

어떤 분들은 테스트 케이스가 전가의 보도, 은 총알 쯤으로 생각하시는데..

테스트 케이스는 일종의 마지노 선이라고 보시면 됩니다.

최소한 제품을 테스트 할때 이정도는 해줘야 한다는 최후의 방어선 정도라고 보시면 됩니다.

전쟁에서 최후의 방어선은 물러설 수 없는 마지막 보루입니다.

하지만 최후의 방어선만 지킨다고 전쟁에서 승리할 수는 없습니다.

프랑스는 마지노 요새만 믿고 있다가 독일에게 깔끔하게 발렸던 과거가 있지요.

전쟁에서 승리하려면 앞으로 나가야하고 치밀한 전략과 전술이 뒷받침 되어야 합니다.

더 높은 커버리지를 도달하고, 충분히 좋은 테스트가 수행되려면 테스트 케이스는 기본이 되어야 하고 거기에 더해서 체크리스트가 따라와 줘야 합니다.

이러한 체크리스트는 팀의 경험과 과거 프로젝트의 데이터를 통해서 도출되어야 합니다.

위와 같은 테스트 케이스에 추가적으로 …