3billion

Raw data와 임상 리포트는 왜 다를까? | NGS 데이터 분석 과정 정리 [2편]

유전자 검사 | 26. 05. 07

📍Key Takeaways

  1. Raw data와 리포트의 목적성 차이: Raw data(VCF)가 존재하는 모든 변이의 ‘가능성’을 담은 목록이라면, 임상 리포트는 그중 환자의 진단과 의사결정에 즉시 활용 가능한 ‘검증된 결과’만을 선별한 데이터입니다.
  2. 엄격한 변이 필터링 기준: 단순히 희귀한 변이라고 해서 모두 보고하지 않으며, 환자의 표현형(Phenotype)과의 연관성, 인구 통계 및 인하우스 데이터 기반의 병원성 근거, 그리고 기술적 데이터 신뢰도(QC)를 종합적으로 평가하여 임상적 불확실성을 최소화합니다.

1편을 놓친 분들은 먼저 확인하세요! 바로가기


“이 변이는 있는데 왜 보고되지 않았나요?”

WES/WGS 검사를 진행한 이후, 많은 고객들이 VCF file을 (annotated data)를 확인합니다.

그리고 매우 자연스럽게 이런 질문을 하십니다.

  • “이 변이는 있는데 왜 리포트에 없나요?”
  • “carrier로 가진 pathogenic variant도 보고해 주세요”

이 질문에 답하려면 먼저 한 가지를 분명히 해야 합니다.


Raw data와 리포트는 ‘다른 목적의 데이터’입니다

NGS 분석을 통해 얻는 데이터는 크게 두 가지입니다.

1) Annotated data : 존재하는 변이의 목록

  • 수십만~수백만 개의 변이
  • annotation이 포함된 상태 (VCF 기반)

2) Clinical report : 임상적으로 의미 있는 변이

  • 실제 진단과 의사결정에 사용

 annotated data는 ‘가능성’, 리포트는 ‘선택된 결과’입니다


왜 특정 변이는 리포트에 포함되지 않을까

고객이 raw data에서 확인한 변이가 리포트에 포함되지 않는 경우는 대부분 다음 이유들의 조합입니다.


1. phenotype과의 관련성이 낮은 경우

  • 환자의 증상과 관련 없는 유전자
  • 질환 연관성이 명확하지 않은 경우

2. 병원성 근거가 부족한 경우

단순히 rare하다는 것만으로는 부족합니다.

다음과 같은 경우가 많습니다:

  • 문헌 보고 없음(동일 변이에 대한 임상 사례 부족)
  • in silico prediction 근거 부족
  • 기능적 연구 없음

3. population 데이터와 맞지 않는 경우

병원성 평가에서 가장 기본이 되는 기준입니다.

예를 들어:

  • 특정 변이가 일반 인구 데이터(예: gnomAD)에서 반복적으로 관찰되는데
  • 해당 질환의 발생 빈도나 유전 방식과 맞지 않을 정도로 존재하는 경우

 이 경우, 해당 변이가 질환의 원인일 가능성은 낮아집니다


4. in-house 데이터와 맞지 않는 경우

임상 해석에서 매우 중요한 보완 근거입니다.

예를 들어:

  • 동일 변이를 가진 환자들이 내부 데이터에서 확인되지만 phenotype이 문의된 환자와 일치하지 않거나 무증상 개인에서 반복적으로 확인되는 경우

 실제 임상에서는 해당 변이가 질환을 설명하지 못한다는 강한 근거로 작용합니다


4. 변이의 기술적 신뢰도(quality)가 낮은 경우

이 부분은 고객이 가장 놓치기 쉬운 지점입니다.

VCF 파일에는 변이가 기록되어 있지만, 모든 변이가 동일한 신뢰도를 가지는 것은 아닙니다

실제로는 다음과 같은 이유로 false positive 가능성이 존재합니다:

  • 낮은 read depth
  • strand bias
  • mapping error (특히 repetitive region)
  • sequencing artifact

이러한 정보는 BAM 레벨 또는 내부 QC 과정에서 평가되며, 단순 VCF만으로는 판단하기 어렵습니다.

즉,VCF에 보인다고 해서 모두 “신뢰할 수 있는 변이”는 아닙니다


그래서 결론은 이렇게 됩니다

고객이 문의하는 “미보고 변이”는 대부분 아래 요소들의 조합으로 제외됩니다:

  • phenotype과의 불일치
  • 병원성 근거 부족
  • population / in-house 데이터와의 불일치
  • 기술적 신뢰도 문제

“VUS 더 없나요?”라는 질문

 있습니다. 상당히 많습니다.하지만 모두 보고하지 않는 이유는:

  • 임상적 해석 불확실
  • false positive 증가
  • 임상적 혼란 유발

 의미 있는 VUS만 선별적으로 보고합니다


“carrier pathogenic variant도 보고해 주세요”

이 역시 자주 받는 요청입니다. 하지만 WES/WGS 진단 리포트에서는

  • 현재 환자의 증상과 질환과의 관련성
  • incidental finding 문제
  • 해석 범위를 고려하여

검사 목적과 관련된 변이에 한해 보고합니다


그렇다면 carrier 정보는 확인할 수 없는 걸까?

그렇지는 않습니다. 3billion에서는 이러한 니즈를 반영하여 별도의 검사 옵션을 제공하고 있습니다.

Family Insight 검사

  • 유전적 고위험군을 위한 WGS 기반 검사
  • 가족력 및 임상적 맥락을 반영한 해석

또한 필요 시 carriership finding을 별도로 의뢰하여 pathogenic / likely pathogenic variant를  확인할 수 있습니다.


고객이 데이터를 가장 잘 활용하는 방법

✔ Clinical report

→ 진단과 의사결정을 위한 데이터

✔ Annotated data (VCF)

→ 탐색과 확장을 위한 데이터


3billion의 결과 리포트는 는 단순한 “변이 목록”이 아니라 “해석과 검증을 거쳐 의미가 부여된 결과”입니다

이 차이를 이해하면 왜 특정 변이가 보고되지 않았는지 납득할 수 있고 raw data를 훨씬 효과적으로 활용할 수 있습니다


VCF 파일 속 수많은 노이즈를 걷어내고, 실제 환자 치료에 필요한 핵심 유전 정보만을 선별합니다. 검사 결과 해석에 드는 에너지를 환자 케어에만 집중할 수 있도록 지원합니다.

3billion의 WES/WGS 검사는 위에서 설명한 모든 분석 단계를 자체 파이프라인으로 수행합니다. 검사 방법이나 결과 해석에 대해 궁금하신 점이 있으시면 문의해 주세요. 

3billion 뉴스레터 구독자만을 위한
희귀질환 진단 최신 정보를 받아보세요.

Sohyun Lee

임상유전학자/ 임상고객지원 :유전체 검사를 더 쉽고 잘 활용할 수 있도록 돕고자 합니다. 고객에게 검사 선택부터 결과 해석, 증례 문의 등을 지원하며, 현장에서 들려오는 불편함을 더 나은 서비스로 연결하는 역할을 합니다.

필진 글 더 보기

연관 소식