심리학 연구 결과 재현 실패에 관하여

Posted by on Sep 8, 2015 in 과학, 링크, 수업자료 | No Comments

많은 심리학 연구들이 결과 재현에 실패했다는 소식이 연일 회자되고 있다. 나도 이 담벼락에 두 차례나 관련 게시물을 올렸다. 반응의 대부분은 실험설계와 논문 리뷰의 엄밀성을 더하자는 쪽으로 쏠린다. 재현이 안되는 실험들을 이른바 ‘탑저널’에 실리도록 놔두는게 큰 문제라는 것이다.

논문의 객관성을 높이기 위한 조치들은 과학의 발전을 위해 반드시 필요하다. 하지만 그런 조치들을 논하기에 앞서 이 리포트에 대해 두 가지 의문을 제기하고 싶다.

첫째, 이번에 결과가 재현된 실험들은 더욱 엄밀한 과학적 프로토콜에 기반했다고 주장할 수 있을까? 그래 보이는 것이 사실이지만, 내가 보기엔 대상 실험들을 다시 한 번 (혹은 그 이상) 실행했을 때 어떤 결과가 나올지 장담할 수 없다고 본다. 즉 (1)번의 패턴이 나타난 실험과 (2)번의 패턴이 나타난 실험에 대해 세 번째 재현 시도를 했을 때 어떤 결과가 나올지는 알 수 없다는 것이다.

(1) O -> O (재현 성공)
(2) O -> X (재현 실패)

세 번째 시도를 했을 경우. 아래는 모두 가상 시나리오

(1-1) O -> O – > O 계속된 재현 성공
(1-2) O -> O -> X 세 번째 재현 실패

(2->1) O -> X -> O 다시 처음 연구 결과가 재현됨.
(2->2) O-> X -> X 두 번째 연구 결과가 재현됨.

이렇게 보면 이번에 재현에 실패한 연구들에 대해 ‘실험설계에 문제가 있다’고 단정할 수 있을까? 이 시나리오에 따르면 ‘재현가능성’의 여부를 제대로 검증하기 위해서는 이후 몇 차례의 실험이 더 필요할지도 모른다.

두 번째는 좀더 근본적인 문제다. 심리학 실험의 결과가 일정한 통계적 가정에 맞을 때 우리는 그 결과를 ‘일반화’할 수 있다고 믿는 경향이 있다. 그러나 많은 심리학 실험들은 사회적, 문화적, 경제적, 인구적, 성적, 연령적, 역사적 요인들을 모두 고려하는 샘플링을 하지 못한다. 즉, 특정 집단에서의 실험 결과가 모든 사람들의 심리를 예측할 수 있는 지표로 사용될 수 있는가 하는 근본적인 질문이 제기되는 것이다.

이에 대한 단적인 예로 미국 대학 중심의 학문 생태계의 문제점에 대해 정리해 둔 글 하나를 첨부한다.

====

*어떻게 미국의 인문사회과학이 전세계를 지배하는가 – 일례*

심리학 분야 ‘탑저널’에 나오는 연구 결과는 대부분 미국에 기반을 두고 있다. 함정은 종종 미국 학부생들이 참여자라는 것. 하지만 탑저널논문은 미디어를 통해 전세계에 유통된다. 미국 대학생들의 심리가 전세계인의 심리가 되는 것이다.

이 과정에서 통계는 미국 학부생의 심리 연구의 결과가 “일반화할 수 있는 지식”이라고 주장하는 가장 강력한 도구가 된다. 연령과 문화적 차이는 통계의 랜덤 샘플링에 의해 모두 커버된다.

하지만 정말 그런가?

만약 정말 그렇다면 심리학 연구는 심리학자들이 많이 살고 있는 대규모 도시 하나에서만 일어나면 된다. 다른 데는 통계를 통해 커버가 되니까.

하지만 실상은 그렇지 않다. 한 사회 내에서도 역사에 따라서 심리는 달라진다. 심리 도구도 달라지고 심리학 이론도 달라진다. 그렇기에 우리는 비교문화심리학이 필요한 것이고, 한국의 심리학이 필요한 것이고, 한국 농촌/빈민 심리학이 필요한 것이다.

===

인간의 심리와 행동패턴은 끊임없이 변화하고 있다. 심리학자는 아니지만 심리학에 깊은 애정을 가진 사람으로서 바라는 게 있다면 심리학이 좀더 생태적 관점을 가지고 개개인의 다양성과 사회문화적 맥락에 민감한 학문이 되었으면 하는 것이다.

관련 사이언스 지 기사
http://www.sciencemag.org/content/349/6251/aac4716.full

===

덧댐 1: 1945년 미국의 심리학자 총 수는 약 5천. 이중 1/3 정도인 1,700 명 정도가 군대에 소속되어 활동하고 있었다고. 다양한 지능검사가 군대에 적합한 인원을 선별하는 데서 시작되었음을 알려주는 통계. – 오자와 마키코 저, 박동섭 역. <심리학은 아이들 편인가? – 교육으로부터의 해방> (서현사) p. 107

덧댐 2: “과학적인 심리학 지식”에 대한 합리적 의심: 표집 편향의 한 사례

사회심리학 분야의 탑저널인 <성격과 사회심리학지(Journal of Personality and Social Psychology)>에 발표된 연구의 미국인 참여자 중 67퍼센트가 미국 대학에서 심리학 관련 과목을 수강하는 학부생이었다고 합니다. (2008년 통계) 이 데이터를 기반으로 본다면, 무작위 표집시 미국의 학부생이 연구참여자가 될 확률은 비서구권 참여자들에 비해 4천 배가 넘는다고 하구요. 그래서 일부 학자들은 장난스럽게 해당 표본 집단을 ‘이상한(WEIRD)’ 이라는 줄임말로 묘사하기도 했습니다. WEIRD는 “Western, Educated, Industrialized, Rich, and Democratic”의 약자라고 하네요. 흔히들 말하는 ‘세계적인’ 심리학 저널에 미국 학부생 참여자가 많다는 것은 익히 알고 있었지만 이 정도 비율일 줄은 몰랐네요.

중요한 것은 이런 ‘탑저널’의 기사가 영향력있는 매체들을 통해 단시간에 널리 유통된다는 사실입니다. 신문과 잡지, 각종 해설, 블로그, 팟캐스트, 때로는 TV와 인터넷 방송으로 전세계 사람들에게 전달되죠. 과학대중서의 주요 꼭지로 들어가기도 하고요. 문제는 대중을 독자로 하는 기사 혹은 과학서 대부분이 “이 결과는 미국 대학의 학부생을 대상으로 한 것입니다. 사회문화적 배경, 연령, 교육수준 등에서 볼 때 협소하고도 균질한 집단에서 나온 결과입니다. 그렇기 때문에 일반화를 경계해야 합니다.”라는 단서를 달지 않는다는 겁니다.

그렇다면 저널에 기고하는 과학자들 스스로가 정보를 왜곡하고 있는 것일까요? 그렇지는 않을 겁니다. 논문이 정상적인 과정을 통해 출판되었다면 해당 저널에서 요구하는 연구 프로토콜을 잘 따랐고, 윤리규정을 준수했으며, 동료들의 엄격한 평가를 통과한 것이니까요. 하지만 학계가 출판논문의 질보다는 양에 열을 올리고 있고, 이것이 표집편향(sampling bias)을 부추기고 있음은 분명해 보입니다. 과중한 출판 압력 속에서 과학자들의 ‘합리적’ 선택은 명확합니다. 학부 심리학 강의와 같이 많은 피험자들을 최대한 신속하게 구할 수 있는 곳을 공략하는 것입니다.

In a study titled, “The Weirdest People in the World?” researchers conducted a kind of audit of studies that exclusively sample US college students — who, among other similarities, tend to hail from societies that are “Western, Educated, Industrialized, Rich, and Democratic (WEIRD)”. They found that American undergraduates in particular were vastly over-represented:

“67% of the American samples [in the Journal of Personality and Social Psychology in 2008] were composed solely of undergraduates in psychology courses. […] A randomly selected American undergraduate is more than 4,000 times more likely to be a research participant than is a randomly selected person from outside the West.”

인용구 출처: http://priceonomics.com/mechanical-turk-new-face-of-behavioral-science/ (Mechanical Turk: The New Face of Behavioral Science?)

덧댐 3: 황승식Hwang Seung-sik​ 선생님 코멘트

“검정력 80%, 유의수준 5%로 수행된 연구는 이론 상으로 절반 정도가 재현됩니다. 최근 연구를 보면 재현율이 그 이하이기 때문에 문제입니다. 모든 연구가 재현돼야 한다는 뜻은 아닙니다. ^^;”

“물론 재현율 50%는 만족스럽지 않습니다. 이 때문에 연구 설계 시 유의수준을 0.01과 같이 더욱 엄격하게 적용하자는 주장이 힘을 얻고 있습니다. 과거 사례지만 거의 완벽하게 재현되는 연구는 p<0.001이었다는 보고도 있습니다.”

덧댐 4: 양대규Daegyu Yang​) 선생님의 구플 포스트에서

“… 그 대신 앞으로 우리가 사회과학의 문제점으로서 고찰하고자 하는 바는 “사회과학은 자연과학과 유사한 학문인가? 아니면 양자는 근본적으로 상이한 학문인가?”라는 문제이다. 보다 명료히 말하자면 “심리학, 사회학 등과 같은 분야에서의 설명과 화학, 물리학 등과 같은 분야에서의 설명은 동일한 유형인가?” 이다. 이에 대해 “그렇다”라고 대답한다면 몇가지 철학적 쟁점들과 대결해야 하는 결과를 초래하는데, 이는 다시 인간행위에 대한 우리의 이래를 재해석해주기를 요구하는 데에까지 이를 수도 있겠다. 반면에 “아니다”라고 대답해도 역시 적잖은 문제에 봉착하게 되는데, 사회과학적 설명이라는 것이 겉보기와 같이 그렇게 뚜렷이 구분될 수 있는 행위가 아니라는 견해들과 대결하지 않을 수 없다.

새뮤얼 구텐플란, 마틴탬니 공저의 “교양논리학” 중에서.

덧댐 5: 심리학에서의 표집의 대표성 문제, 문화적 상대성 등에 대해 잘 설명한 Pacific Standards의 글. 길지만 읽어볼만하다.

http://www.psmag.com/books-and-culture/joe-henrich-weird-ultimatum-game-shaking-up-psychology-economics-53135

덧댐 6: 심리학에서의 Publication bias에 대한 논문 두 개

Publication bias in psychological science: prevalence, methods for identifying and controlling, and implications for the use of meta-analyses.

http://www.ncbi.nlm.nih.gov/pubmed/21787082

Too good to be true: Publication bias in two prominent studies from experimental psychology

http://link.springer.com/article/10.3758%2Fs13423-012-0227-9

Leave a Reply