2009년 7월 6일 월요일

사용성 평가... 다른 시각으로 바라보기

사용자 리서치란 무엇인가?

 

 

연구 또는 리서치는 지식인의 탐구를 기반으로 한 인간의 활동이며, 세상의 여러 측면에 대한 인간의 지식을 발견, 해석, 정정하는 데 초점을 맞추고 있다.

- 출처: 위키피디아

 

 

사용자 리서치는 외부 환경 자극 속에서 사용자들이 어떻게 느끼고 반응하며, 그 결과로 어떻게 반응하는지 이해하고자 하는 활동이다. 우리는 사용자 리서치를 통해 사용자에 대해서 더 많이 이해함으로써, 사용자에게 유용한 경험을 제공해 줄 수 있는 서비스나 제품을 만들 수 있다.

 

 

리서치의 종류

 

리서치는 크게 정량적인 리서치(Quantitative research)와 정성적인 리서치(Qualitative Research)로 분류된다. 가장 큰 차이는 리서치를 통해 획득한 데이터를 수치화할 수 있느냐 없느냐이다. 관찰된 데이터가 숫자로 변환될 수 있다면 정량조사(Quantitative Research)이고, 숫자로 변환할 수 없다면 정성조사(Qualitative Research)이다. 정량 조사의 경우, 자료를 계량하고 다양한 통계 분석 방법론에 적용하기 위한 조사방법론이라고 할 수 있다.

 

그렇다면, 우리가 일반적으로 사용하고 있는 사용성 평가(Usability Testing)은 정량조사로 봐야 할까? 아니면 정성조사로 봐야 할까? 우선적으로 정량조사가 무엇이고, 어떤 특성을 가지고 있으며, 어떻게 활용되고 있는지 먼저 살펴보자.

 

 

정량조사(Quantitative Research)

 

앞에서 살펴본 것처럼, 관찰된 데이터를 수치화할 수 있다면 정량조사(Quantitative Research)로 분류할 수 있다고 했다. 정량조사에서 분석되는 데이터들은 크게 4가지 유형으로 분류될 수 있다.

 

1.     명명 척도 Nominal Scale

2.     서열 척도 Ordinal Scale

3.     등간 척도 Interval Scale

4.     비율 척도 Ratio Scale

 

4가지 유형으로 분류되는 기준은 크게 순서가 있느냐, 척도 간의 간격이 일정하냐, 그리고 절대 기준점이 있느냐 등이다. 예를 들어, 서열 척도는 순서는 있지만 척도 간의 간격을 알 수 없으며, 또한 절대 기준점이 없다. 대표적인 것인 운동 경기에서 1, 2, 3등으로 나누는 것이다. 비율 척도는 순서가 있으며, 척도 간의 간격도 일정하고, 절대 기준점이 있는 등 모든 조건을 만족시킨다. 예를 들면, 완료 시간과 같은 것이 비율 척도인 것이다. 이에 반해, 명명 척도는 3가지 기준을 모두 충족시켜 주지 못하는 데이터로써 임의적인 숫자만을 할당한다. 예를 들어, 태스크를 성공했을 때에는 1, 실패했을 때에는 0 이라는 임의의 숫자를 할당한 경우가 명명 척도이다.

 

정량 조사의 가장 큰 장점은 다양한 통계 분석을 활용하여 매우 유용한 정보를 활용할 수 있다는 것이다. 특히, 평균값 등을 활용할 수 있는 간격 척도나 비율 척도의 경우 단순 통계치 뿐만 아니라 다변량 분석이나 회귀 분석과 같은 매우 고급 통계 분석까지 할 수 있다. (이에 반해, 명명 척도나 서열 척도는 척도의 특성으로 인해 상대적으로 제한적인 통계 분석 방법만 사용할 수 있다.) 그리고, 결과에 대한 일반화가 정성조사 결과에 비해 매우 쉽게 검증할 수 있다는 것이다.

 

정량 조사를 통해 획득한 데이터를 분석하기 위해서 일정 수 이상의 표본 수를 확보해야 한다. 통계 분석 방법에 따라 필요로 하는 표본 수가 달라지기는 하지만 (예를 들면, 변량 분석을 하기 위해서는 조건 당 최소 30명 이상, 요인 분석을 하기 위해서는 최소 200명 이상이 필요하다고 주장), 일반적으로 많이 사용하고 있는 통계 분석의 경우 최소 조건 당 30명 이상의 데이터가 있어야 통계적인 유의미성을 확보할 수 있다고 합의하고 있다. 그래야만 조건 내 개인차가 상쇄되면서 정규 분포를 가져갈 수 있다는 것이다

 

 

만약 조건 당 30명 미만의 데이터를 확보하게 된다면, 정규 분포에 대한 가정은 깨지고 분포 자체가 편향된 분포 Skewed Distribution를 보일 가능성이 높아진다고 한다. 이 경우, 정규 분포를 가정하고 있는 통계 분석을 사용하고 유의미성을 확보하는데 있어서 매우 제한적이게 된다.

 

 

 

사용성 평가(Usability Test) : 정량조사 vs. 정성조사

 

그렇다면 사용성 평가는 정량조사로 보아야 하는가? 아니면 정성조사로 보아야 하는가? 일반적으로 사용성 평가에서 측정되는 데이터는 정량조사 데이터로 분류될 수 있다. 왜냐하면, 데이터 자체에 대해서 수치화가 가능하며 상당수가 등간척도나 비율척도로 분류될 수 있기 때문이다. 아래에 사용성 평가에서 측정되는 대표적인 측정치들이 예시로 나와 있다.

 

l  Time on task

l  Percentage of tasks completed (Correctly without help / Correctly after help)

l  Percentage of tasks not completed

l  Number of errors (Recoverable or Not)

l  Time to Recover from an error

l  Number of repetitions of failed commands

l  Time spent navigating (on paper or line) in search of navigation

l  Number of steps to complete a task

l  Number of assists (Calls to help or use of online help or print documentation)

l  Number of Clicks (Optimum path to correct information)

l  Number of clicks

l  Quantity of information found

l  In comparison testing, which of two products performs better when users have to locate information or perform tasks

 

측정치에 따라서 어떤 척도로 분류될 수 있고 어떤 통계 분석 방법을 사용할 수 있는지는 다음을 보면 알 수 있다.

 

유형

측정치

분석 방법

명명척도

과제 성공 (성공 vs 실패)

과제 실패율

Top-2-Box Scores

빈도분석, 교차분석, Chi-Square 분석

서열척도

이슈 심각성(, , )

디자인 선호 순서

빈도분석, 교차분석, Chi-Square 분석,

Wilcoxon rank sum 분석, Spearman rank 상관분석

등간척도

Likert Scale (만족도, 선호도 등)

사용성 평가 척도

모든 기술 통계 가능, T test, ANOVA, 상관분석, 회귀분석

비율척도

과제 완료 시간

도움 요청 횟수

응시 시간, 응시 횟수

평균 과제 성공율

모든 기술 통계 가능 (Geometric means 포함), T test, ANOVA,상관분석, 회귀분석

 

측정치들로만 보면 정량조사로 분류될 수 있을 것이다. 하지만, 여기서 우리는 한 가지 질문을 하게 된다. 정량조사 결과에 대한 통계적인 유의미성을 확보하기 위해서는 조건 당 30명 이상의 데이터가 필요하다고 했다. 하지만, 일반적으로 수행되는 사용성 평가에서는 5명에서 10명 정도의 사용자만을 대상으로 한다. 이 정도의 데이터라면 통계적인 관점에서 보면 정규분포를 가정할 수도 없고, 표본에 대한 신뢰성 또한 확보할 수 없다. 그 결과, 정량 데이터이지만 그 결과에 대한 유의미성을 확보할 수 없다.

 

이 부분에 대해서 Tom Tullis Bill Albert(2008) Measuring the User Experience에서 다음과 같이 주장하고 있다.

 

For example, if all eight participants in a study have the same exact problem, you can be quite certain it is a common problem. But what if only two or three of the eight participants encounter this problem? What does that mean for the larger population of users? Usability metrics offer a way to estimate the number of users likely to experience this problem.

- Tom Tullis and Bill Albert (2008), Measuring the User Experience.

 

적은 수의 사용자를 대상으로 한 사용성 평가에서도 문제의 심각성에 대한 강도(magnitude)를 추정할 수 있으며, 그 자체로도 매우 유용한 측정치로써 역할을 한다고 주장하고 있는 것이다. 사실, 이 부분에 대해서는 UX 분야 내에서도 많은 논쟁이 있어왔다. 과연 적은 수의 사용자를 대상으로 한 사용성 평가가 유의미한 결과로 받아들여야 하는 것이냐에 대한 논쟁이 지속적으로 발생하고 있는 것이다.

 

 

사용성 평가 : 적은 수의 사용자를 대상으로 했음에도 불구하고 정량조사로 분류해야 하는가?

 

사용성 평가에 참여하는 사용자 수에 대한 논란에 대해서는 '사용성 테스트에서 몇 명의 참여자가 필요한가?'라는 포스팅에서 언급하였다. 이러한 논쟁들은 상대적으로 적은 수의 사용자를 대상으로 사용성 테스트를 진행하기 때문에 발생하게 되는 것이다. , 통계적으로 유의미한 분석을 하기 위해서는 최소 조건을 충족시켜줘야 하지만, 일반적으로 실시되고 있는 사용성 테스트에서는 최소 조건을 충족시켜주지 못하고 있다. 그 결과 통계적인 유의미성에 대한 확신이 없는 상황이다. 그래서 문제가 발생하는 것이다.

 

 

사용성 평가 : 측정치를 고려해 볼 때 정량조사로 분류할 수 있을까?

그렇다면, 통계적인 유의미성을 확보하기 위하여 조건 당 최소 30명 이상의 사용성 테스트를 수행했다 하더라도, 측정치를 고려해 볼 때 정량조사로 분류할 수 있을까? 앞에서도 논의했지만, 사용성 평가에서 측정되는 일반적인 측정치는 다음과 같다.

 

l  Time on task

l  Percentage of tasks completed (Correctly without help / Correctly after help)

l  Percentage of tasks not completed

l  Number of errors (Recoverable or Not)

l  Time to Recover from an error

l  Number of repetitions of failed commands

l  Time spent navigating (on paper or line) in search of navigation

l  Number of steps to complete a task

l  Number of assists (Calls to help or use of online help or print documentation)

l  Number of Clicks (Optimum path to correct information)

l  Number of clicks

l  Quantity of information found

l  In comparison testing, which of two products performs better when users have to locate information or perform tasks

 

측정치의 형태는 분명 정량조사에서 획득한 데이터의 형태를 띄고 있어, 측정치만 보면 사용성 테스트는 분명 정량조사로 분류할 수 있다. 하지만, 측정치들이 우리들에게 알려주는 의미는 무엇인가?

 

사실, 사용성 테스트에서 측정된 측정치 자체에는 우리에게 큰 의미가 없다. 단지, 우리에게 무엇인가 문제가 있다는 것만 알려줄 뿐이다. 왜 문제가 있는지, 그 문제가 가지고 있는 중요도는 무엇인지, 그리고 그 문제를 해결하기 위해서는 어떻게 대응할지에 대해서는 정성적인 측면에서 고민해 보아야 한다.

 

예를 들어, 블로그 서비스에 대한 사용성 테스트를 진행하였다. 이 때, 포스팅을 올리는 과정에서 10명의 참석자 중 3명이 오류를 범했다. 이에 반해, 블로그 스킨 변경 과정에서는 10명 중 8명이 오류를 범했다. 우리는 이 때 어떻게 대처해야 하는가? 수치적으로 보면 블로그 스킨 변경 과정에서 사용성 이슈가 굉장히 크게 나타났다. 포스팅을 올리는 과정보다는 우선적으로 블로그 스킨 변경 과정에 대해서 더 빨리 개선안을 만들어야 할 것 같다. 하지만, 이 문제에 대해서 다시 한번 생각해 보자. 블로그에서 가장 중요한 핵심 태스크는 블로그에 포스팅을 하는 것이다. 그래야만 블로그로써의 제 역할을 할 수 있을 것이다. 그렇기 때문에 블로그 스킨 변경 과정 보다는 포스팅 과정에서 나타난 사용성 이슈를 먼저 개선해야 한다. 하지만, 앞에서 예시로 든 사용성 테스트의 경우 수치적으로만 봐서는 오히려 블로그 스킨을 변경하는 것을 수정하는 것이 시급하게 나타난다.

 

이처럼 사용성 테스트에서 정량적인 수치만을 가지고 판단하는 것보다는 서비스의 목적이 무엇이냐에 따라 개선 우선 순위를 다시 산정할 수 있다. 정량적인 수치를 중심으로 사용성 테스트를 진행하지만, 정성적인 관점에서 정량적인 수치를 보조 자료로 활용하면서 판단해야 하기 때문에, 사용성 테스트는 오히려 정량조사 보다는 정성조사에 가깝다고 해야 할 것이다.

 

(이 부분에 대해서는 논란의 여지가 많을 수 있지만, 사용성 테스트가 사용성 이슈를 파악하는 것이 아닌 사용성 이슈와 관련된 Insights를 탐색하는 것이 가장 큰 목적이기 때문에 정성조사로 보는 것이 오히려 타당할 것이다.)

 

 

앞에서 논의한 것을 정리하면, 사용성 평가는 정량조사의 형태를 띄고 있지만, 정량조사라기 보다는 정성조사로 보는 것이 타당할 것이다. 물론, 통계분석의 조건을 충족시켜 준다면 다양한 통계분석을 활용할 수 있는 정량조사로 활용될 수 있지만, 평가의 목적 자체가 정량적인 수치가 아닌 그 속에 내재되어 있는 의미를 찾는 것이 더 크기 때문에 정성조사로 보는 것이 더 타당한 것이다.

댓글 5개:

  1. 혼동할 수 있는 개념을 이렇게까지 풀어서 설명해주시다니 저로서는 정말 단비같은 글이네요. '이러이러 할 것이다.'라고만 예측해왔으나 정리된 글을 읽고나니 어떻게 설명해야 할지 감이 오는 것 같습니다.



    좋은글 잘읽고 갑니다. :)

    답글삭제
  2. @hong! - 2009/07/06 18:22
    도움이 되셨다니 감사합니다.. ^^

    답글삭제
  3. 안녕하세요.

    검색하다 우연히 찾게 되었습니다.

    제가 오해를 하는 것이겠지만...



    내용에 있는 '30명 이상' 부분은 중심극한정리를 얘기하는 것으로

    이는 모집단의 평균을 추정하기 위한 표본크기와 관련된 부분입니다.

    즉 모든 통계분석에서 표본크기가 30을 반드시 넘겨야 한다는 전제는 없다는 것이며,

    이는 분석에 따라 다를 수 있습니다.

    표본크기가 적은 경우는 정규분포가 아닌 T분포를 적용할 수 있는 것 처럼요.

    물론 표본크기가 클수록 분산이 안정되니 환경이 허락한다면 표본을 늘려잡는게 좋겠지만...



    그리고 통상 '명목척도'라 하지 '명명척도'라 하지는 않습니다.

    용어가 분야마다 서로 달리 표기하던데 이런 정도로 통일해서 사용해야 되지 않을까 합니다.



    즐거운 시간 되세요.

    답글삭제
  4. @무지개타고 - 2009/07/08 15:18
    안녕하세요... 의견을 주셔서 감사합니다.



    말씀하신 것처럼 통계 분석 방법에 따라 기본적으로 필요한 N에 대해서 차이가 있습니다. 제가 포스팅에 언급한 것처럼 Factor Analysis의 경우 최소 N=200 이상은 되어야 한다고 이야기하고 있습니다. 여기서 제가 'N=30' 이상이 되어야 한다는 것은 집단 간 비교, 즉 ANOVA와 같은 통계 분석을 활용하기 위한 것입니다. (Cluster Analysis, Discriminant Analysis와 같은 고급 통계 분석에서는 N수가 상당히 많이 늘어납니다) 단, 조건 당 'N=30'이상이 되어야 한다는 것이고, 통제조건과 비교조건에 대해서 차이 검증을 하기 위해서는 'N=60' 이상이 되어야 합니다. (피험자 내 설계의 경우, 'N=30'이지만, 측정치는 60개가 되겠네요). 이 부분은 정규 분포 가정과 관련이 되어 있다는 것을 알고 계실겁니다. 그리고 T 분포를 말씀해 주셨는데, T Test를 사용할 경우 집단 간 비교가 2개 밖에 되지 않습니다. 3개 이상의 집단에 비교를 할 경우 ANOVA 분석을 실시해야 합니다. 물론, ANOVA 분석에서 집단이 2개일 경우 T 분포와 동일한 분포가 나와 있을 것입니다. ANOVA 분석을 선호하는 이유가 아무래도 집단간 비교에서 집단 수에 상대적으로 자유롭기 때문입니다. (예를 들어, 단 2개의 시안만 비교하는 경우는 별로 없었네요.)



    샘플링 집단이 정규 분포를 이루고 있느냐에 대해서는 반드시 분포 검증을 해야 하며, 이 부분에 대한 분석 방법도 있습니다. 하지만, 예를 들어, ANOVA 분석을 실시할 경우 'N=30' 이상인 경우 어느 정도 정규분포를 이룬다는 가정에서 하기 때문에 이러한 검증을 잘 하지 않는 것이 현실이며, 논문 발표 시에도 제대로 보고하고 있지 않습니다. (엄격하게 해야 한다면 정규 분포를 형성하고 있는지 반드시 검증해야 하고, 논문 발표 시에도 보고를 해야 합니다. 정규 분포를 이루지 않는다면 데이터에 대한 보정 절차가 뒤따르기 때문입니다.)



    그리고 척도 레이블과 관련해서 사실 표준화 작업을 많이 하고 있지만, 말씀하신 것처럼 분야마다 다르게 부르고 있습니다. 분명 표준화 작업이 필요하고 그래야 의사소통 상의 문제가 없을 것입니다. 하지만, 아직 공식적인 표준화 작업이 되어 있지 않은 이상 제가 배운 것에 기초해서 레이블을 붙이는 것이 저는 타당하고 생각합니다.



    이렇게 관심을 가져 주시고 좋은 의견을 주셔서 진심으로 감사드립니다. 즐거운 시간 보내시기 바랍니다.. ^^

    답글삭제
  5. 논문에 usability anaylsis 개념이 나와서 찾게 되었는데 잘 읽고갑니다. 적은 수의 데이터로 심각성의 magnitude를 추정할 수 있다는 문장이 가장 기억에 남네요^^;; 얄팍한 브레인에는 한 줄만 입력되는 것 같습니다. 좋은 글 감사합니다.

    답글삭제