사회 구성원들이 무엇을 생각하고 어떻게 행동하는지를 관찰하고 기록할 수 있게 하는 도구로서의 사회조사는 현대 사회과학의 근간이 되며, 조사에 있어 신뢰롭고 타당한 측정은 사회 및 심리과학의 학문적 발전에 있어 기본적인 요소이다. 그런데 지능 검사 같은 인지적 측정과는 달리, 자기 보고(self-report) 형식의 조사에서는 응답자들의 반응에 대한 정(正)/오(誤) 판단이 어렵고, 응답자들은 익명이거나 특별한 이해가 없으면 불성실하게 응답할 가능성이 있다. 불성실한 응답(IER: Insufficient Effort Responding)은 문항의 내용과 관련 없이 무작위로(randomly) 응답하거나, 내용이 다른 문항들에 대해 동일 응답을 일정하게 응답하거나, 문항을 제대로 읽지 않고 너무 빠르게 응답하는 것이다.
자기 보고형 조사에서 불성실 응답(IER)은 일정하게 발생한다. 특히 온라인 조사가 늘어나면서 불성실 응답에 대한 우려와 이에 대한 대응 방안에 관심이 늘고 있다. 이제 불성실 응답을 예방하거나 이를 탐지하고 제거하는 것은 연구 과정에서 중요한 단계 중의 하나가 되고 있다. 불성실 응답을 탐지하는 방법은 다양하며, 계속 새로운 방법들이 제안되고 있다. 여기서는 장재윤 등(2024)¹, Curran(2016)², Yentes & Wilheim(2023)³을 참고하여 다음과 같은 방법들을 소개한다.
응답시간(response time) | 마할라노비스 거리(mahalanobis distance) | ||
---|---|---|---|
가짜 문항(bogus item) | 홀짝 일관성 지표(odd-even consistency) | ||
지시 응답 문항(instructed response item) | 재표집된 개인 신뢰도(resampled individual reliability) | ||
자기 보고 척도들(self-reported scales) | 의미적 및 심리측정적 반의어와 동의어(semantic and psychometric antonyms/synonyms) | ||
롱스트링 분석(long-string analysis) | 개인-전체 상관관계(person-total correlation) | ||
개인 내 응답 분산도(intra-individual response variability) | 다분 거트만 오차(polytomous Guttman errors) |
위에 제시된 방법들은 사용 시점과 특징에 따라 구분될 수 있다. 먼저 사용 시점에 따라 설문조사 실시 이전 설계 단계에서 미리 계획하여 사용하는 **‘**사전 기법’과 설문조사를 통해 수집한 자료를 통계적으로 분석하여 사용하는 **‘사후 기법’**으로 나눌 수 있다.
사전 기법에는 응답 시간, 가짜 문항, 주의 체크 문항, 지시 조작 체크, 자기 보고 척도가 포함되며 나머지 기법들은 사후 기법으로 볼 수 있다. 사후 기법들은 어떤 종류의 불성실 응답을 탐지하는가에 따라 크게 불변성 지표, 이상치 지표, 일관성 지표 세 가지로 구분할 수 있다. 먼저 불변성 지표는 문항 내용에 관계 없이 특정 응답 패턴을 반복하는 것을 탐지하며 롱스트링 분석, 개인 내 응답 분산도가 이에 해당한다. 이상치 지표는 표본 내 다른 응답자들과 매우 동떨어진 응답을 탐지하며 마할라노비스 거리가 포함된다. 이 지표는 대부분의 응답자가 성실히 응답할 것이라 전제하여 대부분의 응답자가 보이는 패턴과 매우 다른 응답을 보인다면 불성실 응답일 것이라 가정한다. 마지막으로 일관성 지표는 거의 동일하거나 높은 상관관계를 보일 것으로 예상되는 문항들에는 유사한 응답을 보이는 것이 논리적이라는 가정에 기반하여 유사한 항목에 일관되지 못한 응답을 보일 경우 불성실 응답으로 간주한다. 여기에는 홀-짝 일관성 지표, 재표집된 개인 신뢰도, 의미적 및 심리측정적 동의/반의어, 개인-전체 상관관계, 다분 거트만 오차가 포함된다.
불성실 응답을 어떤 방법으로 탐지하고 어느 정도나 제거해야 하는 지에 대해 Ward & Meade(2023)⁴는 다음과 같은 세 가지 제거 수준과 탐지 방법들을 제안하였다.
표 1. IER 제거의 세 수준별 탐지 방법 추천(Ward & Meade, 2023, p. 591)
제거 수준 | 사전 조치 | 사후 조치 |
---|---|---|
최소 | ○지시 응답 문항 | |
○페이지당 응답 시간 | ○ 불변성 분석(예, 롱스트링이나 개인 응답 변량 지표) | |
○ 다변량 이상치 분석(예, 마할라노비스 거리) | ||
적정 | ○지시 응답 문항 | |
○페이지당 응답 시간 | ||
○가짜 문항(선택적) | ||
○ 불변성 분석(예, 롱스트링이나 개인 응답 변량 지표) | ||
○ 다변량 이상치 분석(예, 마할라노비스 거리) | ||
○ 두 가지 일관성 지표(예, 심리측정적 동의어, 홀-짝 지표) | ||
최대 | ○지시 응답 문항 | |
○페이지당 응답 시간 | ||
○가짜 문항 |
| ○ 불변성 분석(예, 롱스트링이나 개인 응답 변량 지표) ○ 다변량 이상치 분석(예, 마할라노비스 거리) ○ 세 가지 일관성 지표 ○ 개인-적합 지표 ○ 재표집 통계치 ○ 순차적인 제거 절차 적용(예, 불변성 기반 제거 후, 다른 지표들 계산) ○ 잠재 계층 분석 또는 요인 혼합 모델 |
사전 조치와 사후 조치는 하나만 선택하기보다는 가급적 두 가지 모두 적용할 것을 추천하며 사전 조치를 취하지 못한 경우에는 부득이 사후 조치만 적용해야 할 것이다. 위의 ‘최소 제거 수준’은 가장 기본적으로 수행해야 하는 것이다. 사전 조치로는 지시 응답 문항에 정확히 반응하지 못한 응답들과 페이지당 응답 시간이 매우 짧은 응답들을 제거할 것을 추천한다. 사후 조치로는 마할라노비스 거리와 같은 이상치 지표가 먼저 추천되며, 롱스트링 분석이나 개인 응답 변량의 불변성 지표를 함께 사용하는 것이 좋다. 불변 응답자는 전체 불성실 응답 중 소규모 비율로 나타나는 경향이 있지만, 자료를 가장 편향시킬 수 있기 때문이다.
불성실 응답이 많이 나타날 것으로 예상될 때는 최소 제거 수준 이상의 조치를 고려할 수 있다. 아래 여섯 가지 조건들 중 두 가지 이상이 해당할 경우에는 적정 제거 수준 또는 최대 제거 수준 고려해볼 것을 추천한다. 더 많은 조건에 해당할 수록 더 강한 제거 수준을 선택하는 것이 바람직하다.
불성실 응답이 많이 나타날 것으로 예상되는 6가지 조건 |
---|
1) 온라인으로 설문이 실시될 때 |
2) 설문 문항이 100문항 이상으로 많을 때 |
3) 응답자가 설문 내용과 관련성이 없거나 관심이 없어 지루함을 느낄 때 |
4) 불성실하게 응답하더라도 보상의 철회와 같이 부정적 결과가 나타나지 않을 때 |
5) 응답자의 자발적 참여가 아닐 때 |
6) 검증력에 손상이 없을 정도로 표본 크기가 클 때 |
적정 제거 수준의 사전 조치로는 가짜 문항(bogus item)을 추가할 것을 권장한다. 특히 보상을 얻고자 설문에 참여하는 영리한 응답자가 많을 것 같으면 가짜 문항을 추가하는 것이 좋은데, 이때 가짜 문항이 단순히 재밋거리가 되지 않도록 유의해야 한다. 사후 조치로는 이상치 지표와 불변성 지표에 더해 최소한 두 가지의 일관성 지표를 추가적으로 활용할 것을 권장한다. 복수의 문항들로 구성된 여러 구성개념 척도들을 사용한 경우라면 홀-짝 일관성 지표, 심리측정적 동의어가 추천된다.
최대 제거 수준에서 적용되는 사전 조치는 적정 제거 수준과 동일하며, 사후 조치를 더 많이 사용하여 불성실 응답을 철저히 가려내는 것이 좋다. 본 매뉴얼에서는 2개의 불변성 지표, 1개의 이상치 지표, 5개의 일관성 지표를 제시하는데 이를 모두 사용하여 불성실 응답을 가려낼 것을 제안한다. 본 매뉴얼의 가장 마지막에 제시된 다중 허들 접근은 순차적으로 여러 기법을 적용하는 방법으로 최대 제거 수준에서 활용하도록 권장한다.
본 매뉴얼은 사전 기법을 먼저 소개한 후 사후 기법들을 소개한다. 사후 기법은 불변성 지표, 이상치 지표, 일관성 지표의 순서로 구성되어 있다. 탐지 기법의 소개는 각 탐지 기법의 개요, R코드 매뉴얼, 실제 분석 예시의 순서로 구성된다. 탐지 기법의 개요에는 각 탐지 기법의 주된 논리와 작동 원리, 적용 시 주의할 점 등이 담겨있다. R코드 매뉴얼은 R프로그램을 사용하여 탐지 기법을 적용할 때 코드에 입력해야 하는 매개변수와 코드의 작동 원리에 대한 설명, 유의할 점 등이 담겨있다. 마지막으로 실제 분석 예시는 사후 기법의 소개에만 포함되어 있다. 실제 분석 예시 부분에서는 실제 응답이 담긴 샘플 데이터를 활용하여 각 탐지 기법의 코드를 적용한 결과를 설명한다. 샘플 데이터에 대한 소개는 아래에 이어진다.