본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Miscellaneous

[2023-2] 김동한 - Improving Library User Experience with A/B Testing: Principles and Process

by 동96 2024. 2. 20.

A/B 테스트를 실제로 진행했던 사례연구에 대한 논문

https://quod.lib.umich.edu/w/weave/12535642.0001.101?view=text;rgn=main

 

 

Abstract

 

사용자 경험 연구 방법론에 해당하는 A/B 테스트를 통해 사용자 상호작용 측정 및 평가

A/B 테스트

가장 성과가 좋은 변형을 결정하기 위해 제품이나 서비스의 다양한 변형을 사용자에게 무작위로 제공하는 통제된 실험과정을 수반

A/B테스트 진행과정에서 수집되고 분석된 데이터를 통해 도서관은 사용자 중심의 웹사이트 변경을 시작, 사용자 경험을 개선 : 이 논문에서는 도서관 사이트에서의 A/B 테스트 프로세스를 설명함.

 

Introduction

 

- UX(사용자 경험 : User Experience) 연구자는 도서관 제품 및 서비스에대한 반복적인 사용자 중심 데이터 기반 의사결정을 내릴 수 있음

A/B 테스트(확장형 : A/B/n 테스트)는 대조군(A), 변형(B), 추가변형(n)중 하나를 무작위로 제공하는 간단한 통제실험의 약식 표기.

적절한 실험 설계 >> 사전 정의된 지표로 성과가 가장 높은 변형을 식별할 수 있음.

 

- 1960년대에도, 사용자 중심의 연구질문으로, 전화기에서 버튼 크기, 배열, 글자, 버튼 힘 등 UX문제를 직원들에게 테스트하고, 다양한 변형 중에서 선호, 비선호를 조사하였음.

변화하는 사용자 기대와 행동을 이해하기 위해 실험을 사용함.

perpetual beta 지속적으로 수정, 업데이트되는것을 의미하는데, A/B 테스트와 같은 사용자 주도의 수정문화가 perpetual beta 모델에 부합함.

 

사용성 테스트, 휴리스틱 평가등과 같은 다른 UX 연구방법론과 비슷한 A/B 테스트

사용성 테스트는 이전에 알려지지 않은 UX문제를 발견하기 위함

A/B테스트는 이미 알려진 UX 문제에 대한 여러 대안중 최적의 솔루션을 찾기위함

 

 

A/B Methodolgy & Case Study

 

A/B 테스트 프로세스 : 가설 > 디자인변형 > 타당성 테스트 > 미리 정의된 지표로 사용자 반응의 차이를 측정

효과적인 실험을 위해, 핵심연구질문에 대한 답이 있어야 하고, 결과를 측정가능해야함.

 

연구 질문 정의

사용자 인터뷰를 통한 질문구체화

가설설립, 적절한 도구의 식별, 테스트 메트릭 정의

실험 설정 및 실행

데이터 수집 및 결과 분석

결과 공유 및 의사 결정

 

아래의 실험은 도서관 웹사이트에 대한 분석과정.

웹사이트에 맞춰진 사례이지만, A/B테스트는 UX문제, 명확한 디자인 질문, 측정가능한 사용자 데이터가 있는 모든 상황에서 적용이 가능함

 

Step 1 : 연구 질문 정의하기

실험에 대한 일반적 질문을 파악, A/B테스트의 방향을 설정

설문조사, 인터뷰, 포커스 그룹, 프로토타이핑, 사용성 테스트, 웹사이트 분석에서도출된 기존 피드백을 바탕으로 알려진 UX문제에서 구체화시킴. 아래의 예는 웹사이트 분석을 통해 받은 사용자 피드백을 바탕으로 연구질문을 개발함.

2013년 봄에, 도서관 홈페이지에 대한 웹사이트 분석 결과 콘텐츠 중 interact 카테고리가 사용자들에게 외면당하고 있는 것이 확실했음.

 

 

- 201343~ 410일까지의 기간중 10819번의 홈페이지 방문에서 Find 탭은 35%의 클릭률, Request6%, Interact2%

Interact탭에는 참고서비스, 교육 서비스, 과목 연락 담당자, 작문센터, 정보, 직원 디렉토리, 도서관 FAQ, 도서관에 기부, 층별 지도가 있었는데, 이렇게 낮은이유에 대한 의문이 생김

 

도서관 웹위원회에서, 이카테고리의 이름이 interact라는 추상적인 용어로 인해, 어려움 및 혼란을 주는 것으로 판단함. 이를 Connect, Learn, Help, Service 4개로 변형할 것으로 제안됨

 

Step 2 : 사용자 인터뷰를 통해 질문 구체화하기

A/B 테스트를 통한 피드백이 의미 있는 결과로 이어질 수 있을 만큼 충분히 다른지 확인하기 위한 소규모 사전테스트.

너무 유사한 변형은 효과확인이 어렵기도함.

게릴라식 접근으로, 3명의 학부생과 임시 대화 진행

 

그들에게 제공된 질문

1) 이전에 interact를 클린한 적이 있는지?

2) interact를 클릭하면 어떤 content가 뜨기를 기대하는지?

3) interact를 선택 후, 찾은 컨텐츠가 정확히 interact를 설명하는지?

4) category 설명하기 위한 단어는 ? : interact, connect, Learn, Help, Service

 

답변의 일부

 

2학년 : About(정보)ineract 아래에 있는지 몰랐다. Learn은 아닌거 같고, connect는 모호하기도하고, ineract와 비슷한거 같다. service가 정확하고, Helpstrong한거 같다.

Help > Service > Interact > Connection > Learn

 

Junior Student:

영어가 모국어가 아니기 때문에, 강한 단어를 찾는데, Help > Service 순으로 좋은 것 같다

 

Senior Student:

Interact 클릭의 필요성을 느낀 적이 없다. 도서관과 상호작용하는건가요?

층별 지도가 tab이 있는 줄 몰랐는데, 필요했던 적이 있다.

Help가 맞는 것 같다. 도움이 필요하면, 적어도 클릭해서 확인할 것 같다.

Service도 괜찮다. Learn은 내가 배우는가 하는 생각이 든다.

Connect가 낫기는 하지만, interact처럼 별로다.

Help > Service > connection > Interact > Learn

순으로 답

 

간단한 인터뷰를 통해, interact, Learn, Help, Service, Connect에 차이 제공할 가능성이 존재, Help, Service가 가장 성과 높은 변수가 될 가능성이 높음.

5개의 옵션이 적절히 구분될 것이라 했지만, 비슷할수 있다는 의견도 있음

 

Step 3 : 가설 수립, 적절한 도구 식별 및 테스트 지표 정의

 

Help 혹은 Service 탭인 홈페이지는 Learn, Connect, Interact에 비해 웹사이트에서 클릭이 증가할 것이다.

 

이 사례 연구는 웹사이트 기반 A/B테스트에 중점. google 애널리틱스, Crazy Egg를 통해 실험 진행. 목표는 어떤 Category 제목이 더 깊은 접속을 유도하는지 파악. 홈페이지 클릭률, 카테고리 페이지 이탈률, 카테고리 페이지의 홈페이지 재방문율의 3가지 측정지표를 사용

 

클릭률 : category 제목의 초기 사용자 유인능력

이탈률 : google analytics 사용자 흐름을 통해 사용, 특정 페이지에서 사이트를 떠나는 사용자의 비율 >> 카테고리 페이지가 사용자의 기대치를 충족하는 능력을 측정하는 지표

재방문률 : 실험에서 공식화한 지표인데, 이는 google analytics 사용자흐름 및 카테고리에서 다시 홈페이지로 돌아온 사용자의 비율, 즉 원하는 탭을 찾은경우를 의미 재방문률이 높다는 것은, 해당 카테고리에서 원하는 탭을 찾지못함을 의미함.

 

 

Step 4 : Set up and run experiment

 

미묘하고, 반복적 디자인 진행상황에서 가장 빠르고 효율적으로 작동.

너무나 큰 디자인 차이는 사용자 경험이 저하되고, 프로세스 효율성이 낮아짐. 실험에서 디자인이 너무나도 차이가 나면, 사용자는 혼란에 의해 탐색자체가 어려워져 효율성이 낮아지게됨. >> 미세한 차이의 A/B 테스트에서는 모든 사용자를 실험대상으로 이용하는 것이 가능하여, 반복적 실험을 더 많이 진행하고, 짧은시간에 효율적 실험 진행이 가능함.

 

- 2013529~ 618일 까지 3주간 웹사이트 방문자 100%를 실험대상으로.

무작위 배정 및 변형으로 사용자 수가 거의 같도록 변형실험을 진행. A/B테스트 별로 다른 샘플링 진행이가능함. 예를 들어, 성과 낮은 변형을 최소한으로만 제공하는 전자상거래 A/B테스트 선호도 있음.

 

무작위 배정 및 비율, 실험기간 설정등은 google analytics / Crazy Egg는 사용자 클릭 데이터를 수집하고, 시각적 보고서 생성

5가지 변형

 

Step 5 : 데이터 수집 및 결과 분석

 

가설 정의 및 실험 진행 / 3주의 실험기간동안 주요 지표에 대한 데이터 분석

service는 클릭률, 이탈률, 재방문율에서 가장 높은 성과 / 재방문율 0% 이탈율 0%

이러한 극도로 좋은 비율은 이후에 반복되지는 않더라도, 충분히 좋은 성과가 나타났음을 확인함.

 

이 연구에서 성공적 테스트 결과이지만, 명확한 승자임은 아님. 실험 설계가 잘못되었을 수도 있고, 확실한 성과가 없는 경우에는 다시 디자인 변수를 재작업하고, 변수를 다시 테스트할수도 있음.

 

Step 6 : 결과 공유 및 의사 결정

동료와 의사결정권자에게 의미있는 결과로 변환. 시각화도구를 사용하면, 복잡한 클릭데이터에 대해서도 비전문가들에게도 설명이 가능함.

 

 

Disccusion

A/B테스트는 UX질문을 던지고 답하는 구조를 제공. 예상치 못한 인사이트가 나오기도하는데 이를 받아들여야함. 웹위원회에서는 초기에 Learn을 선호했고, 인터뷰에서는 Help가 좋은 순으로 나왔지만, 실제로는 Service tab이 제일 좋은 것으로 나타났음.

 

한가지 사례만을 설명중이지만, 서비스 전반에 걸쳐 창의적 방식으로 적용이 가능.

도서관이므로, 구독자 참여, 이벤트 참석율, 뉴스레터의 언어, 디자인 테스트 등을 진행할 수 있음.

 

A/B테스트 프로세스는 강력하고, 유연한 연구 기법이지만, 한계가 존재.

단독으로 A/B테스트를 진행하는 경우 불완전할 수 있음.

예시 ) 버튼의 디자인을 조사하고, 클릭률을 지표로 사용하는 편협한 실험에서, 웹 홈페이지 자체의 디자인을 해치면서 눈에 띄는 디자인을 만들면, 이는 변형에대한 유리한 쪽으로 결과가 왜곡될 수 있음. 지표를 사용한 정량적 평가로, 사용자의 행동, 목적에 해당하는 정성적 평가가 가능한 것이 아니기 때문에, UX문제에 대한 정량정 인사이트 제공이 가능하고, 다른 부분은 다른 UX 연구방법론을 동시에 진행하여 파악하는 것이 중요