카카오톡 상담하기 네이버 예약하기

코호트 연구, 메타분석, 체계적 문헌고찰, 임상시험 | 뭘 믿어야 하나?


진료를 보다 보면, 환자분들이 인터넷에서 찾은 건강 정보를 보여주시면서 “이거 진짜인가요?”라고 여쭤보시는 경우가 있습니다. 어떤 글은 “코호트 연구에서 밝혀졌다”고 하고, 어떤 글은 “임상시험 결과”라고 하고, 또 어떤 글은 “메타분석에 따르면”이라고 합니다.

의학 연구는 다양한 종류가 있는데, 종류별로 신뢰도가 다릅니다. 의학에서는 이 신뢰도를 근거 수준이라고 부릅니다.1 코호트 연구, 임상시험, 메타분석, 체계적 문헌고찰이 각각 무엇이고, 어떤 게 더 믿을 만한 의학 연구인지 정리해 드리겠습니다.

근거 수준, 한눈에 보기


아래 그림과 표에서 위로 갈수록 믿을 수 있는 정도가 높아집니다.1

코호트 연구, 메타분석, 임상시험, 체계적 문헌고찰을 포함한 의학 근거 수준을 피라미드 형태로 정리하여 어떤 연구가 더 믿을만한지 한눈에 보여주는 계층도
근거 수준연구 유형특징
최상위여러 임상시험을 종합한 분석
(체계적 문헌고찰 + 메타분석)
관련 연구를 빠짐없이 모아서 통계적으로 합산. 개별 연구의 한계를 보완
상위임상시험
(무작위 대조 시험)
환자를 무작위로 나눠서 약과 위약을 비교. 인과관계 증명에 가장 강력
중위관찰 연구
(코호트 연구, 환자-대조군 연구)
특정 집단을 추적하거나, 이미 질병이 있는 사람을 과거로 추적. 연구자가 개입하지 않음
하위증례 보고, 증례 시리즈소수 환자 사례를 기술. 새로운 현상 발견에 유용하지만 일반화 어려움
최하위시험관/동물 연구, 전문가 의견사람에게 적용하기 전 단계이거나, 체계적 연구 없이 경험에 의존

이 피라미드의 핵심은 단순합니다. 더 많은 사람을, 더 엄격한 조건에서 비교할수록 근거가 강해진다는 것입니다.2

각 단계를 하나씩 살펴보겠습니다.

체계적 문헌고찰과 메타분석 | 뭐가 다른가


근거 피라미드의 꼭대기에는 체계적 문헌고찰(관련 논문을 빠짐없이 모아서 질을 평가하고 정리하는 과정)과 메타분석(그 논문들의 숫자 결과를 통계적으로 합산하는 방법)이 있습니다.8

이 두 용어는 자주 혼동되는데, 역할이 다릅니다.

체계적 문헌고찰메타분석
하는 일관련 논문을 빠짐없이 찾고, 질을 평가하고, 결과를 정리여러 연구의 숫자 결과를 통계적으로 합산
성격“과정” (어떻게 논문을 모으고 걸러내는가)“방법” (모은 숫자를 어떻게 합치는가)
비유시험 범위에 해당하는 교과서를 전부 모아서 읽고, 믿을 만한 것만 추리는 작업추린 교과서들의 점수를 평균 내는 계산
코크란 체계적 문헌고찰과 메타분석의 과정을 보여주는 인포그래픽으로, 여러 개별 임상시험을 선별하고 통계적으로 합산하여 하나의 결론을 도출하는 단계를 시각화

현실에서는 이 둘이 거의 항상 함께 나옵니다. 실제로 논문 제목에 두 가지가 함께 붙는 경우가 대부분입니다. 체계적으로 논문을 모은 뒤(체계적 문헌고찰), 그 결과를 합산(메타분석)하는 것이 한 세트이기 때문입니다.9

이 종합 분석이 근거 피라미드 꼭대기에 있는 이유는, 개별 임상시험 하나가 가질 수 있는 한계를 보완하기 때문입니다. 임상시험마다 대상자 수, 연구 기간, 측정 방법이 다릅니다. 하나의 임상시험 결과만 보면 “이 연구에서만 그랬을 수도 있지 않을까?”라는 의문이 남지만, 같은 주제의 연구 10~20개를 모아서 합산하면 개별 연구의 오차가 상쇄됩니다.

다만 주의할 점이 있습니다. 종합 분석이라고 무조건 믿을 수 있는 것은 아닙니다. 포함된 개별 연구의 질이 낮으면, 아무리 많이 합쳐도 결론의 질은 높아지지 않습니다. 2016년 발표된 한 논문에서는 종합 분석을 피라미드의 꼭대기가 아니라, 근거를 들여다보는 “렌즈”로 봐야 한다고 제안하기도 했습니다.10

저도 이 관점에 동의합니다. 진료실에서 치료 방침을 정할 때, 종합 분석 결과가 있다면 우선 참고하되, 그 안에 포함된 연구들의 질과 일관성도 함께 살핍니다.

코크란: 종합 분석의 국제 기준

건강 정보를 찾다 보면 “코크란 리뷰”라는 표현을 만나게 됩니다. 코크란(Cochrane)은 1993년 영국에서 설립된 국제 비영리 단체로, 특정 치료법에 대한 모든 임상시험을 찾아서 체계적으로 분석하고 종합 보고서를 출판합니다.

코크란 리뷰가 의학계에서 신뢰받는 이유는 세 가지입니다. 첫째, 제약사 후원을 받지 않아 이해충돌이 적습니다. 둘째, 분석 과정이 매우 엄격합니다(독립적 평가자 2명 이상이 논문을 선별하고 질을 평가). 셋째, 새로운 연구가 나올 때마다 업데이트합니다.

그래서 어떤 치료법의 효과를 확인하고 싶을 때, 코크란 리뷰가 있다면 개별 연구보다 먼저 확인하는 것이 효율적입니다. 저도 궁금한 부분이 생기면 코크란 리뷰를 가장 우선적으로 참고합니다.

임상시험 단계: 1상부터 4상까지


임상시험은 사람을 대상으로 약의 효과와 안전성을 확인하는 연구입니다.3 임상시험의 설계는 세 단계로 결정됩니다.

첫째, 비교군이 있는가?

위약이나 기존 약과 비교하는 대조 시험과, 비교군 없이 약만 투여하는 단일군 시험으로 나뉩니다. 비교군이 있어야 “약 덕분에 나은 건지, 시간이 지나서 나은 건지” 구분할 수 있습니다. 단일군 시험은 주로 1상(안전성 확인)처럼 비교보다 약 자체의 반응을 보는 것이 목적일 때 쓰입니다.

둘째, 대조 시험이라면 — 어떻게 나누는가?

환자를 약 그룹과 위약 그룹으로 나눌 때, 컴퓨터가 무작위로 배정하면 무작위 임상시험입니다. 무작위 배정을 하면 두 그룹의 나이, 중증도, 기저질환 등이 통계적으로 비슷해지기 때문에, 약 효과만 비교할 수 있습니다. 무작위가 아닌 경우(예: 입원 순서대로 배정)는 그룹 간 특성 차이가 결과를 오염시킬 수 있어 근거 수준이 낮습니다.

셋째, 무작위 임상시험이라면 — 누가 뭘 받는지 아는가?

환자와 의사 모두 누가 진짜 약을 받는지 모르게 하면 이중맹검, 둘 다 알고 진행하면 오픈라벨입니다. 이중맹검은 진짜 약과 위약의 생김새를 똑같이 만들어서, 심리적 편향과 평가 편향을 모두 차단합니다. 주사와 먹는 약처럼 형태가 달라 숨길 수 없을 때는 오픈라벨로 진행합니다.

임상시험의 설계를 대조 시험과 비대조 시험으로 나누고 무작위 배정과 이중맹검 오픈라벨까지 계층적으로 보여주는 코호트 연구 포함 의사결정 트리 다이어그램

이 세 가지가 모두 갖춰진 설계 — 대조군 + 무작위 배정 + 이중맹검 — 이 임상시험에서 가장 엄격한 형태이고, 3상 임상시험의 표준입니다. 신약은 1상부터 4상까지 단계를 거치는데, 각 단계별로 일반적인 사용되는 설계가 정해져있습니다.4

단계목적규모대조군배정눈가림
1상안전한 용량 범위 확인20~100명없음 (단일군)
2상효과 탐색 + 적정 용량100~300명있음 (위약 등)무작위이중맹검 또는 오픈라벨
3상대규모 효과 입증. FDA 승인 핵심수백~수천 명있음 (위약/기존 약)무작위이중맹검
4상시판 후 장기 안전성 추적수천~수만 명다양다양주로 오픈라벨
임상시험 1상부터 4상까지 각 단계별 대상 인원과 목적을 보여주는 흐름도로, 코호트 연구 등 관찰 연구와 구분되는 임상시험의 체계적 과정을 설명하는 다이어그램

뉴스에서 가장 자주 인용하는 것이 3상 임상시험 결과입니다. 무작위 배정 + 대조군 + 이중맹검을 모두 갖춘 가장 엄격한 설계이기 때문입니다.5

4상은 약이 시판된 뒤에 진행됩니다. 3상까지는 수천 명 규모라 1만 명에 1명꼴로 생기는 드문 부작용을 발견하기 어렵습니다. 4상에서는 실제 처방 환경에서 수만 명의 데이터를 모아, 3상에서 놓친 장기 부작용이나 특수 집단(고령자, 임산부 등)의 반응을 추적합니다.4 식약처나 FDA가 조건을 붙여 4상을 의무화하는 경우도 있고, 제약사가 자발적으로 진행하는 경우도 있습니다.

관찰 연구: 코호트 연구, 환자-대조군 연구, 증례 보고


임상시험과 관찰 연구의 가장 큰 차이는 연구자가 개입하느냐입니다.6 임상시험에서는 연구자가 환자에게 약을 직접 투여합니다. 관찰 연구에서는 이미 일어난 일을 관찰할 뿐, 연구자가 치료에 개입하지 않습니다.

대표적인 관찰 연구 유형을 예시와 함께 살펴보겠습니다.7 핵심 차이는 시간 방향입니다.

예를 들어 “어릴 때 항생제를 많이 먹으면 아토피가 잘 생기는가?”를 알고 싶다고 합시다.

코호트 연구는 현재에서 미래로 갑니다. 신생아 1만 명을 모아서, 항생제를 먹은 아이와 안 먹은 아이를 10년간 추적합니다. 누가 아토피가 생기는지 지켜보는 것입니다. 시간 순서가 명확하기 때문에 “항생제 → 아토피”의 방향을 추론할 수 있지만, 시간과 비용이 많이 듭니다.

환자-대조군 연구는 현재에서 과거로 갑니다. 아토피가 있는 아이 200명(환자군)과 아토피가 없는 아이 200명(대조군)을 모은 뒤, 과거 의료 기록을 비교합니다. “아토피 아이들이 과거에 항생제를 더 많이 썼었나?”를 확인하는 것입니다. 빠르고 저렴해서 특히 드문 질병에 유리하지만, 과거 기록이 부정확하거나 환자군이 과거를 더 심각하게 회상하는 편향이 생길 수 있습니다.

코호트 연구는 현재에서 미래로, 환자 대조군 연구는 현재에서 과거로 추적하는 시간 방향 차이를 항생제와 아토피 예시로 보여주는 관찰 연구 비교 다이어그램

증례 보고는 1명 또는 소수 환자의 사례를 상세히 기술한 것입니다. 새로운 질병이나 드문 부작용을 처음 발견할 때 유용하지만, 한두 명 사례로는 일반화할 수 없어 근거 수준이 가장 낮습니다.

유형시간 방향장점한계
코호트 연구현재 → 미래인과 추론 가능시간 · 비용 큼
환자-대조군 연구현재 → 과거빠르고 저렴, 드문 질병에 유리기억 편향
증례 보고새로운 현상 첫 발견일반화 불가

관찰 연구가 임상시험보다 근거 수준이 낮은 이유가 있습니다. 연구자가 대상자를 무작위로 배정하지 않기 때문에, 결과에 영향을 미치는 다른 요인(교란 변수)이 숨어 있을 수 있습니다.6

예를 들어, “비타민 D를 많이 먹는 사람이 건강하다”는 관찰 연구 결과가 있어도, 그 사람들이 원래 건강에 관심이 많아서 운동도 하고 식단도 관리했을 수 있습니다. 비타민 D 때문인지, 건강한 생활 습관 때문인지 구분이 안 됩니다.

그래도 코호트 연구를 비롯한 관찰 연구가 쓸모없는 것은 아닙니다. 윤리적으로 임상시험을 할 수 없는 경우(예: “흡연이 암을 유발하는지” 확인하려고 사람에게 일부러 담배를 피우게 할 수는 없으니), 관찰 연구가 유일한 선택지입니다. 코호트 연구 결과가 여러 연구에서 일관되게 반복되면 강력한 근거가 됩니다.

건강 정보를 읽을 때, 이것만 확인하세요


지금까지 정리한 내용을 바탕으로, 건강 관련 뉴스나 블로그 글을 읽을 때 확인할 수 있는 체크리스트를 정리합니다. 저도 아토피와 음식의 연관성 같은 블로그 글을 쓸 때, 인용하는 근거별로 근거 수준을 함께 표기하려고 노력합니다.

1. “연구에서 밝혀졌다”고 할 때, 어떤 종류의 연구인가?

동물 연구인지, 소규모 관찰 연구인지, 대규모 임상시험인지에 따라 근거의 무게가 달라집니다. “연구 결과”라는 표현만으로는 코호트 연구인지 임상시험인지 구분할 수 없습니다.

2. 대상자 수는 몇 명인가?

20명 대상 연구와 2,000명 대상 연구는 신뢰도가 같을 수 없습니다.

3. 비교 대상이 있는가?

“이 약을 먹고 좋아졌다”가 아니라, “이 약을 먹은 그룹이 위약을 먹은 그룹보다 좋아졌다”인지 확인합니다. 비교군 없이는 자연 회복인지 약 효과인지 알 수 없습니다.3

4. 여러 연구에서 같은 결론이 나왔는가?

하나의 연구에서만 나온 결과보다, 여러 연구에서 반복 확인된 결과가 훨씬 강력합니다. 종합 분석(여러 임상시험을 모아서 합산한 분석)이 있다면 개별 연구보다 우선적으로 확인하는 것이 좋습니다.11

5. 출처가 명시되어 있는가?

신뢰할 수 있는 건강 정보라면 논문 출처, 가이드라인 명칭, 연구 규모가 함께 적혀 있을 것입니다. “전문가에 따르면”이나 “알려져 있다”라는 표현만 있고 구체적 출처가 없다면, 그 근거는 한 번 더 의심해 볼 필요가 있습니다.


참고 문헌


코호트 연구 결과만 있는 건강 정보는 못 믿는 건가요?

아닙니다. 관찰 연구도 충분히 유용합니다. 다만 임상시험에 비해 교란 변수가 개입할 가능성이 있어서 근거 수준이 한 단계 낮게 분류됩니다. 같은 결론을 보여주는 관찰 연구가 여러 개 쌓이면 꽤 강한 근거가 됩니다.

3상 임상시험을 통과한 약은 안전한 건가요?

3상은 수백에서 수천 명 규모로 효과와 안전성을 확인하지만, 아주 드문 부작용(1만 명에 1명 등)은 3상에서 발견되지 않을 수 있습니다. 그래서 시판 후 4상(시판 후 조사)이 존재합니다. 약을 처방받으셨다면 의사와 상의하여 모니터링하는 것이 중요합니다.

메타분석이 있으면 무조건 그 결론을 따라야 하나요?

반드시 그렇지는 않습니다. 종합 분석(여러 임상시험을 합산한 분석)의 질은 포함된 개별 연구의 질에 좌우됩니다. 질이 낮은 연구만 모아서 분석하면 결론도 불확실해집니다. 종합 분석이 있다면 우선 참고하되, 포함된 연구의 규모와 질도 함께 살펴야 합니다.