진료를 보다 보면, 환자분들이 인터넷에서 찾은 건강 정보를 보여주시면서 “이거 진짜인가요?”라고 여쭤보시는 경우가 있습니다. 어떤 글은 “코호트 연구에서 밝혀졌다”고 하고, 어떤 글은 “임상시험 결과”라고 하고, 또 어떤 글은 “메타분석에 따르면”이라고 합니다.
의학 연구는 다양한 종류가 있는데, 종류별로 신뢰도가 다릅니다. 의학에서는 이 신뢰도를 근거 수준이라고 부릅니다.1 코호트 연구, 임상시험, 메타분석, 체계적 문헌고찰이 각각 무엇이고, 어떤 게 더 믿을 만한 의학 연구인지 정리해 드리겠습니다.
목차
근거 수준, 한눈에 보기
아래 그림과 표에서 위로 갈수록 믿을 수 있는 정도가 높아집니다.1

| 근거 수준 | 연구 유형 | 특징 |
|---|---|---|
| 최상위 | 여러 임상시험을 종합한 분석 (체계적 문헌고찰 + 메타분석) | 관련 연구를 빠짐없이 모아서 통계적으로 합산. 개별 연구의 한계를 보완 |
| 상위 | 임상시험 (무작위 대조 시험) | 환자를 무작위로 나눠서 약과 위약을 비교. 인과관계 증명에 가장 강력 |
| 중위 | 관찰 연구 (코호트 연구, 환자-대조군 연구) | 특정 집단을 추적하거나, 이미 질병이 있는 사람을 과거로 추적. 연구자가 개입하지 않음 |
| 하위 | 증례 보고, 증례 시리즈 | 소수 환자 사례를 기술. 새로운 현상 발견에 유용하지만 일반화 어려움 |
| 최하위 | 시험관/동물 연구, 전문가 의견 | 사람에게 적용하기 전 단계이거나, 체계적 연구 없이 경험에 의존 |
이 피라미드의 핵심은 단순합니다. 더 많은 사람을, 더 엄격한 조건에서 비교할수록 근거가 강해진다는 것입니다.2
각 단계를 하나씩 살펴보겠습니다.
체계적 문헌고찰과 메타분석 | 뭐가 다른가
근거 피라미드의 꼭대기에는 체계적 문헌고찰(관련 논문을 빠짐없이 모아서 질을 평가하고 정리하는 과정)과 메타분석(그 논문들의 숫자 결과를 통계적으로 합산하는 방법)이 있습니다.8
이 두 용어는 자주 혼동되는데, 역할이 다릅니다.
| 체계적 문헌고찰 | 메타분석 | |
|---|---|---|
| 하는 일 | 관련 논문을 빠짐없이 찾고, 질을 평가하고, 결과를 정리 | 여러 연구의 숫자 결과를 통계적으로 합산 |
| 성격 | “과정” (어떻게 논문을 모으고 걸러내는가) | “방법” (모은 숫자를 어떻게 합치는가) |
| 비유 | 시험 범위에 해당하는 교과서를 전부 모아서 읽고, 믿을 만한 것만 추리는 작업 | 추린 교과서들의 점수를 평균 내는 계산 |

현실에서는 이 둘이 거의 항상 함께 나옵니다. 실제로 논문 제목에 두 가지가 함께 붙는 경우가 대부분입니다. 체계적으로 논문을 모은 뒤(체계적 문헌고찰), 그 결과를 합산(메타분석)하는 것이 한 세트이기 때문입니다.9
이 종합 분석이 근거 피라미드 꼭대기에 있는 이유는, 개별 임상시험 하나가 가질 수 있는 한계를 보완하기 때문입니다. 임상시험마다 대상자 수, 연구 기간, 측정 방법이 다릅니다. 하나의 임상시험 결과만 보면 “이 연구에서만 그랬을 수도 있지 않을까?”라는 의문이 남지만, 같은 주제의 연구 10~20개를 모아서 합산하면 개별 연구의 오차가 상쇄됩니다.
다만 주의할 점이 있습니다. 종합 분석이라고 무조건 믿을 수 있는 것은 아닙니다. 포함된 개별 연구의 질이 낮으면, 아무리 많이 합쳐도 결론의 질은 높아지지 않습니다. 2016년 발표된 한 논문에서는 종합 분석을 피라미드의 꼭대기가 아니라, 근거를 들여다보는 “렌즈”로 봐야 한다고 제안하기도 했습니다.10
저도 이 관점에 동의합니다. 진료실에서 치료 방침을 정할 때, 종합 분석 결과가 있다면 우선 참고하되, 그 안에 포함된 연구들의 질과 일관성도 함께 살핍니다.
코크란: 종합 분석의 국제 기준
건강 정보를 찾다 보면 “코크란 리뷰”라는 표현을 만나게 됩니다. 코크란(Cochrane)은 1993년 영국에서 설립된 국제 비영리 단체로, 특정 치료법에 대한 모든 임상시험을 찾아서 체계적으로 분석하고 종합 보고서를 출판합니다.
코크란 리뷰가 의학계에서 신뢰받는 이유는 세 가지입니다. 첫째, 제약사 후원을 받지 않아 이해충돌이 적습니다. 둘째, 분석 과정이 매우 엄격합니다(독립적 평가자 2명 이상이 논문을 선별하고 질을 평가). 셋째, 새로운 연구가 나올 때마다 업데이트합니다.
그래서 어떤 치료법의 효과를 확인하고 싶을 때, 코크란 리뷰가 있다면 개별 연구보다 먼저 확인하는 것이 효율적입니다. 저도 궁금한 부분이 생기면 코크란 리뷰를 가장 우선적으로 참고합니다.
임상시험 단계: 1상부터 4상까지
임상시험은 사람을 대상으로 약의 효과와 안전성을 확인하는 연구입니다.3 임상시험의 설계는 세 단계로 결정됩니다.
첫째, 비교군이 있는가?
위약이나 기존 약과 비교하는 대조 시험과, 비교군 없이 약만 투여하는 단일군 시험으로 나뉩니다. 비교군이 있어야 “약 덕분에 나은 건지, 시간이 지나서 나은 건지” 구분할 수 있습니다. 단일군 시험은 주로 1상(안전성 확인)처럼 비교보다 약 자체의 반응을 보는 것이 목적일 때 쓰입니다.
둘째, 대조 시험이라면 — 어떻게 나누는가?
환자를 약 그룹과 위약 그룹으로 나눌 때, 컴퓨터가 무작위로 배정하면 무작위 임상시험입니다. 무작위 배정을 하면 두 그룹의 나이, 중증도, 기저질환 등이 통계적으로 비슷해지기 때문에, 약 효과만 비교할 수 있습니다. 무작위가 아닌 경우(예: 입원 순서대로 배정)는 그룹 간 특성 차이가 결과를 오염시킬 수 있어 근거 수준이 낮습니다.
셋째, 무작위 임상시험이라면 — 누가 뭘 받는지 아는가?
환자와 의사 모두 누가 진짜 약을 받는지 모르게 하면 이중맹검, 둘 다 알고 진행하면 오픈라벨입니다. 이중맹검은 진짜 약과 위약의 생김새를 똑같이 만들어서, 심리적 편향과 평가 편향을 모두 차단합니다. 주사와 먹는 약처럼 형태가 달라 숨길 수 없을 때는 오픈라벨로 진행합니다.

이 세 가지가 모두 갖춰진 설계 — 대조군 + 무작위 배정 + 이중맹검 — 이 임상시험에서 가장 엄격한 형태이고, 3상 임상시험의 표준입니다. 신약은 1상부터 4상까지 단계를 거치는데, 각 단계별로 일반적인 사용되는 설계가 정해져있습니다.4
| 단계 | 목적 | 규모 | 대조군 | 배정 | 눈가림 |
|---|---|---|---|---|---|
| 1상 | 안전한 용량 범위 확인 | 20~100명 | 없음 (단일군) | — | — |
| 2상 | 효과 탐색 + 적정 용량 | 100~300명 | 있음 (위약 등) | 무작위 | 이중맹검 또는 오픈라벨 |
| 3상 | 대규모 효과 입증. FDA 승인 핵심 | 수백~수천 명 | 있음 (위약/기존 약) | 무작위 | 이중맹검 |
| 4상 | 시판 후 장기 안전성 추적 | 수천~수만 명 | 다양 | 다양 | 주로 오픈라벨 |

뉴스에서 가장 자주 인용하는 것이 3상 임상시험 결과입니다. 무작위 배정 + 대조군 + 이중맹검을 모두 갖춘 가장 엄격한 설계이기 때문입니다.5
4상은 약이 시판된 뒤에 진행됩니다. 3상까지는 수천 명 규모라 1만 명에 1명꼴로 생기는 드문 부작용을 발견하기 어렵습니다. 4상에서는 실제 처방 환경에서 수만 명의 데이터를 모아, 3상에서 놓친 장기 부작용이나 특수 집단(고령자, 임산부 등)의 반응을 추적합니다.4 식약처나 FDA가 조건을 붙여 4상을 의무화하는 경우도 있고, 제약사가 자발적으로 진행하는 경우도 있습니다.
관찰 연구: 코호트 연구, 환자-대조군 연구, 증례 보고
임상시험과 관찰 연구의 가장 큰 차이는 연구자가 개입하느냐입니다.6 임상시험에서는 연구자가 환자에게 약을 직접 투여합니다. 관찰 연구에서는 이미 일어난 일을 관찰할 뿐, 연구자가 치료에 개입하지 않습니다.
대표적인 관찰 연구 유형을 예시와 함께 살펴보겠습니다.7 핵심 차이는 시간 방향입니다.
예를 들어 “어릴 때 항생제를 많이 먹으면 아토피가 잘 생기는가?”를 알고 싶다고 합시다.
코호트 연구는 현재에서 미래로 갑니다. 신생아 1만 명을 모아서, 항생제를 먹은 아이와 안 먹은 아이를 10년간 추적합니다. 누가 아토피가 생기는지 지켜보는 것입니다. 시간 순서가 명확하기 때문에 “항생제 → 아토피”의 방향을 추론할 수 있지만, 시간과 비용이 많이 듭니다.
환자-대조군 연구는 현재에서 과거로 갑니다. 아토피가 있는 아이 200명(환자군)과 아토피가 없는 아이 200명(대조군)을 모은 뒤, 과거 의료 기록을 비교합니다. “아토피 아이들이 과거에 항생제를 더 많이 썼었나?”를 확인하는 것입니다. 빠르고 저렴해서 특히 드문 질병에 유리하지만, 과거 기록이 부정확하거나 환자군이 과거를 더 심각하게 회상하는 편향이 생길 수 있습니다.

증례 보고는 1명 또는 소수 환자의 사례를 상세히 기술한 것입니다. 새로운 질병이나 드문 부작용을 처음 발견할 때 유용하지만, 한두 명 사례로는 일반화할 수 없어 근거 수준이 가장 낮습니다.
| 유형 | 시간 방향 | 장점 | 한계 |
|---|---|---|---|
| 코호트 연구 | 현재 → 미래 | 인과 추론 가능 | 시간 · 비용 큼 |
| 환자-대조군 연구 | 현재 → 과거 | 빠르고 저렴, 드문 질병에 유리 | 기억 편향 |
| 증례 보고 | — | 새로운 현상 첫 발견 | 일반화 불가 |
관찰 연구가 임상시험보다 근거 수준이 낮은 이유가 있습니다. 연구자가 대상자를 무작위로 배정하지 않기 때문에, 결과에 영향을 미치는 다른 요인(교란 변수)이 숨어 있을 수 있습니다.6
예를 들어, “비타민 D를 많이 먹는 사람이 건강하다”는 관찰 연구 결과가 있어도, 그 사람들이 원래 건강에 관심이 많아서 운동도 하고 식단도 관리했을 수 있습니다. 비타민 D 때문인지, 건강한 생활 습관 때문인지 구분이 안 됩니다.
그래도 코호트 연구를 비롯한 관찰 연구가 쓸모없는 것은 아닙니다. 윤리적으로 임상시험을 할 수 없는 경우(예: “흡연이 암을 유발하는지” 확인하려고 사람에게 일부러 담배를 피우게 할 수는 없으니), 관찰 연구가 유일한 선택지입니다. 코호트 연구 결과가 여러 연구에서 일관되게 반복되면 강력한 근거가 됩니다.
건강 정보를 읽을 때, 이것만 확인하세요
지금까지 정리한 내용을 바탕으로, 건강 관련 뉴스나 블로그 글을 읽을 때 확인할 수 있는 체크리스트를 정리합니다. 저도 아토피와 음식의 연관성 같은 블로그 글을 쓸 때, 인용하는 근거별로 근거 수준을 함께 표기하려고 노력합니다.
1. “연구에서 밝혀졌다”고 할 때, 어떤 종류의 연구인가?
동물 연구인지, 소규모 관찰 연구인지, 대규모 임상시험인지에 따라 근거의 무게가 달라집니다. “연구 결과”라는 표현만으로는 코호트 연구인지 임상시험인지 구분할 수 없습니다.
2. 대상자 수는 몇 명인가?
20명 대상 연구와 2,000명 대상 연구는 신뢰도가 같을 수 없습니다.
3. 비교 대상이 있는가?
“이 약을 먹고 좋아졌다”가 아니라, “이 약을 먹은 그룹이 위약을 먹은 그룹보다 좋아졌다”인지 확인합니다. 비교군 없이는 자연 회복인지 약 효과인지 알 수 없습니다.3
4. 여러 연구에서 같은 결론이 나왔는가?
하나의 연구에서만 나온 결과보다, 여러 연구에서 반복 확인된 결과가 훨씬 강력합니다. 종합 분석(여러 임상시험을 모아서 합산한 분석)이 있다면 개별 연구보다 우선적으로 확인하는 것이 좋습니다.11
5. 출처가 명시되어 있는가?
신뢰할 수 있는 건강 정보라면 논문 출처, 가이드라인 명칭, 연구 규모가 함께 적혀 있을 것입니다. “전문가에 따르면”이나 “알려져 있다”라는 표현만 있고 구체적 출처가 없다면, 그 근거는 한 번 더 의심해 볼 필요가 있습니다.
참고 문헌
- Burns PB, Rohrich RJ, Chung KC. The levels of evidence and their role in evidence-based medicine. Plast Reconstr Surg. 2011;128(1):305-310.
- Sackett DL, Rosenberg WM, Gray JA, et al. Evidence based medicine: what it is and what it isn’t. BMJ. 1996;312(7023):71-72.
- Zabor EC, Kaizer AM, Hobbs BP. Randomized Controlled Trials. Chest. 2020;158(1S):S79-S87.
- Umscheid CA, Margolis DJ, Grossman CE. Key concepts of clinical trials: a narrative review. Postgrad Med. 2011;123(5):194-204.
- Bhide A, Shah PS, Acharya G. A simplified guide to randomized controlled trials. Acta Obstet Gynecol Scand. 2018;97(4):380-387.
- von Elm E, Altman DG, Egger M, et al. The Strengthening the Reporting of Observational Studies in Epidemiology (STROBE) statement: guidelines for reporting observational studies. J Clin Epidemiol. 2008;61(4):344-349.
- Munnangi S, Boktor SW. Epidemiology Of Study Design. StatPearls. 2024.
- Linares-Espinos E, Hernandez V, Dominguez-Escrig JL, et al. Methodology of a systematic review. Actas Urol Esp (Engl Ed). 2018;42(8):499-506.
- Cumpston M, Li T, Page MJ, et al. Updated guidance for trusted systematic reviews: a new edition of the Cochrane Handbook for Systematic Reviews of Interventions. Cochrane Database Syst Rev. 2019;10(10):ED000142.
- Murad MH, Asi N, Alsawas M, et al. New evidence pyramid. Evid Based Med. 2016;21(4):125-127.
- Balshem H, Helfand M, Schunemann HJ, et al. GRADE guidelines: 3. Rating the quality of evidence. J Clin Epidemiol. 2011;64(4):401-406.
자주 묻는 질문
코호트 연구 결과만 있는 건강 정보는 못 믿는 건가요?
아닙니다. 관찰 연구도 충분히 유용합니다. 다만 임상시험에 비해 교란 변수가 개입할 가능성이 있어서 근거 수준이 한 단계 낮게 분류됩니다. 같은 결론을 보여주는 관찰 연구가 여러 개 쌓이면 꽤 강한 근거가 됩니다.
3상 임상시험을 통과한 약은 안전한 건가요?
3상은 수백에서 수천 명 규모로 효과와 안전성을 확인하지만, 아주 드문 부작용(1만 명에 1명 등)은 3상에서 발견되지 않을 수 있습니다. 그래서 시판 후 4상(시판 후 조사)이 존재합니다. 약을 처방받으셨다면 의사와 상의하여 모니터링하는 것이 중요합니다.
메타분석이 있으면 무조건 그 결론을 따라야 하나요?
반드시 그렇지는 않습니다. 종합 분석(여러 임상시험을 합산한 분석)의 질은 포함된 개별 연구의 질에 좌우됩니다. 질이 낮은 연구만 모아서 분석하면 결론도 불확실해집니다. 종합 분석이 있다면 우선 참고하되, 포함된 연구의 규모와 질도 함께 살펴야 합니다.

아토피, 주사피부염, 지루성피부염
진료를 봅니다.
커뮤니티에 올려주신 소중한 후기들 덕분에 먼 곳에서도 찾아주시는 만큼,
정성 어린 진료로 보답하겠습니다
한덕규
미라젠의원 대표원장
University of Michigan, Ross School of Business 졸업
충남대학교 의학전문대학원 졸업
(전) 이화피닉스요양병원 대표원장
(현) 미라젠의원 대표원장