개인 내 응답 분산도는 한 응답자가 일련의 연속된 항목에 보인 응답들의 표준 편차를 통해 불성실 응답을 탐지하는 기법이다. 이 기법은 설문이 여러 개의 개념을 측정하거나 역코딩 문항을 포함하는 경우 각 개념이나 문항의 유형에 맞게 응답하는 것이 정상적이라는 전제에서 시작한다. 개인 내 응답 분산도가 낮은 것을 불성실 응답으로 볼 수 있다. 만약 어떤 응답자가 문항에 관계 없이 한줄 응답을 보였다면 개인 내 응답 분산도는 매우 낮은 값을 가질 것이고 불성실 응답으로 간주될 수 있다. 짧은 동일 연속 반응(예, 4, 4, 4, 5, 5, 5, 4, 4, 4)이나 번갈아 가면서 동일 연속 반응(예, 3, 4, 3, 4, 3, 4, 3, 4)을 하는 경우도 낮은 개인 내 응답 분산도를 통해 탐지될 수 있다. 개인 내 응답 분산도는 다른 기법에 비해 계산이 쉽고 설문 전체가 아닌 일부분에도 적용할 수 있다는 장점을 가진다. 따라서 응답자가 지루함을 느껴 빠르게 설문을 마치려 할 가능성이 높은 설문지의 마지막 부분에서 사용할 것을 권장한다.
개인 내 응답 분산도는 계산에 사용된 문항 수, 선택지의 수 등에 영향을 받을 수 있기에 불성실 응답으로 분류할 기준치를 명확히 설정하는 것이 어렵다는 단점을 가진다. 이에 대해 Dunn 등(2018)¹은 전체 응답 표본 중 불성실 응답으로 탐지할 비율에 따라 기준치를 설정한 후 개인 응답 변량이 가장 낮은 응답부터 실제 불성실 응답에 해당하는지 여부를 살필 것을 권고하였다. 한편, 중심 경향성을 보이는 응답자들 역시 낮은 개인 내 응답 분산도를 가질 것인데 불성실 응답자와 중심 경향성을 보이는 응답자를 구분하기 위해 역코딩 문항을 사용할 것을 권고했다. 개인 응답 변량 계산에는 총 25개 이상 150개 이하의 문항을 사용할 것을 권장하였다.
R에서 개인 내 반응 분산도의 계산은 ‘Careless’ 패키지에 포함된 ‘irv’코드를 이용해 쉽게 진행할 수 있다. irv코드는 irv(x, na.rm = TRUE, split = FALSE, num.split = 3)
로 이루어져 있으며, x
는 데이터 매트릭스를, na.rm
은 결측치의 처리방식을 지정해주는 매개변수이다. 나머지 두 가지는 전체 문항에서의 개인 내 반응 분산도를 계산하는 것에 더하여 일부 문항에 대한 개인 내 반응 분산도를 계산하기 위한 인자이다. 추가적인 계산은 전체 문항을 동일한 길이로 쪼개어 이루어지며 각 부분에서 계산된 개인 내 반응 분산도가 추가적으로 제공된다. split
을 TRUE로 입력하여 추가적인 계산을 진행할 수 있으며 num.split
은 전체 문항을 몇 개의 하위 문항집단으로 나눌 것인지를 나타낸다. ‘Careless’ 패키지에 포함된 예시 데이터셋을 이용한 코드의 작성은 다음과 같이 이루어질 수 있다.
irv_total <- irv(careless_dataset)
#전체 문항의 개인 내 반응 분산 구하기
irv_split <- irv(careless_dataset, split = TRUE, num.split = 4)
#전체 문항의 개인 내 반응 분산에 더하여 전체 문항을 4등분하여 각 부분에 대한 개인 내 반응 분산 구하기
실제 데이터로 분석 시의 과정과 결과를 예시를 통해 설명하고자 한다. 1번 데이터를 이용하여 진행했으며 역코딩을 진행한 전체 53문항 모두를 사용했다. 실제로 적용해본 코드와 그에 따른 결과는 다음과 같다.
big5_irv <- irv(big5_reverse53, na.rm = TRUE)
id | irv |
---|---|
566 | 0.233295 |
329 | 0.362422 |
1467 | 0.366405 |
1380 | 0.4112 |
2317 | 0.431859 |
696 | 0.456369 |
847 | 0.469691 |
1767 | 0.478871 |
295 | 0.481893 |
… | |
1307 | 0.699886 |
1657 | 0.699886 |
2148 | 0.7009221 |
367 | 0.7029897 |
… | |
1005 | 1.771202 |
364 | 1.784264 |
220 | 1.790557 |
1233 | 1.79501 |
657 | 1.802876 |
586 | 1.819105 |
1102 | 1.867334 |
개인 내 응답 분산도는 롱스트링 분석과 마찬가지로 불성실 응답으로 탐지할 명확한 기준치를 가지고 있지 않다. 이 데이터에서 낮은 개인 내 응답 분산도를 보인 응답자부터 다른 탐지 기법의 적용 결과를 포함하여 면밀히 살펴본 결과 0.7이하의 개인 내 응답 분산도를 보인 사람들을 불성실 응답으로 설정할 수 있었다. 이에 따라 전체 응답자 수의 약 6.7%에 해당하는 170명을 불성실 응답으로 탐지했다.