3billion
목록으로 가기목록으로 가기

NGS 데이터는 어떻게 만들어질까? | NGS 데이터 분석 과정 정리 [1편]

유전자 검사 | 26. 04. 24

📍Key Takeaways

  1. NGS 분석은 Primary → Secondary → Tertiary 3단계로 이루어지며, 각 단계의 품질과 도구 선택이 최종 결과를 결정합니다.
  2. 변이 탐지는 단일 알고리즘이 아니라 SNV, CNV, structural variant 등 변이 유형별로 다른 도구를 조합해 수행됩니다.
  3. 같은 샘플도 분석 파이프라인과 해석 기준이 다르면 결과가 달라집니다. “NGS를 했다”보다 “어떻게 분석했는가”가 더 중요합니다.

유전체 검사를 의뢰하고 결과 리포트를 받아보면, 몇 개의 변이와 해석 결과가 정리된 문서를 보게 됩니다.

하지만 그 결과 뒤에는 생각보다 훨씬 복잡한 분석 과정이 숨어 있습니다.

이번 글에서는 WES/WGS 기반 검사가 실제로 어떻게 이루어지는지, 임상적으로 중요한 흐름만 짚어서 설명드리겠습니다.


NGS 분석은 3단계로 이루어진다

전체 workflow는 크게 세 단계입니다.

  • Primary analysis
  • Secondary analysis
  • Tertiary analysis

이 구조를 이해하는 것이 NGS 결과를 제대로 해석하는 첫 번째 단계입니다.


1. Primary analysis: “데이터를 읽어내는 단계”

이 단계는 시퀀싱 장비에서 생성된 신호를 실제 염기서열 데이터로 변환하는 과정입니다.

주요 과정은 다음과 같습니다:

  • base calling (이미지 → 염기서열)
  • BCL → FASTQ 변환
  • adaptor trimming
  • 품질 평가(QC)

여기서 중요한 점은 하나입니다. 데이터의 ‘출발 품질’이 전체 결과를 좌우합니다

이 단계에서 품질이 떨어지면 이후 아무리 정교한 분석을 하더라도 신뢰도는 제한적일 수밖에 없습니다.


2. Secondary analysis: “유전체에서 위치를 찾는 단계”

이 단계에서는 읽힌 DNA 조각들이 인간 reference genome의 어디에 해당하는지를 찾습니다.

  • alignment (reference genome에 mapping)
  • BAM 파일 생성
  • duplicate read 제거
  • base quality recalibration

그리고 핵심은 바로 여기입니다.

[variant calling (변이 탐지)]

이 과정에서 실제 변이가 검출됩니다. 흥미로운 점은 하나의 알고리즘으로 모든 변이를 찾지 않는다는 것입니다.

  • SNV/INDEL → GATK
  • CNV → 3bCNV + MANTA
  • structural variant → MANTA
  • repeat expansion → ExpansionHunter
  • mobile element insertion → MELT

즉, 하나의 검사 결과는 여러 분석 도구의 결합으로 만들어집니다.


3. Tertiary analysis: “임상적으로 의미를 부여하는 단계”

이 단계부터는 단순한 데이터 처리가 아니라 해석(interpretation)의 영역입니다.

(1) Annotation

  • 변이가 어떤 유전자에 위치하는지
  • 단백질에 어떤 영향을 주는지 분석
  • VEP 및 내부 DB 활용

(2) Filtering

  • population database (예: gnomAD)를 이용해 흔한 변이 제거

 대부분의 임상적으로 유의미하지 않은 변이는 이 단계에서 제거됩니다


(3) Variant classification

  • ACMG 가이드라인 기반 분류 (Pathogenic, Likely pathogenic, VUS 등)

(4) Prioritization

  • AI 기반 분석
  • phenotype과의 일치도

결국 중요한 질문 하나

결국 중요한 질문은 하나입니다. 이 모든 과정을 거쳐 남는 질문은 단순합니다.

“이 변이가 환자의 phenotype을 설명하는가?”

기술이 아무리 발전해도, 이 질문이 바뀌는 일은 없습니다.


임상에서는 종종 이런 질문을 받습니다.

  • “다른 기관에서는 이 변이가 확인되었다는데, 왜 3billion 결과 보고서에는 없나요?”
  • “왜 여기서는 VUS인데, 다른 곳에서는 pathogenic인가요?”

이 질문들은 자연스럽지만, 한 가지 중요한 사실을 놓치고 있습니다.

NGS 결과는 ‘발견된 데이터’가 아니라 ‘분석 과정과 해석 기준을 거친 결과물’입니다


실제로 결과는 다음 요소들에 따라 달라질 수 있습니다.

  • 데이터 품질
  • 사용된 분석 알고리즘 (variant caller)
  • 필터링 기준
  • 해석 전략

같은 샘플이라도 이 과정이 달라지면 👉 보고되는 변이도, 해석 결과도 달라질 수 있습니다

단순히 “NGS를 했다”는 사실보다  “어떻게 분석하고 해석했는가”가 더 중요합니다


NGS 결과는 단순한 검사 결과가 아니라 수많은 데이터 중 의미 있는 신호를 찾아내는 과정의 결과물입니다.그리고 이 과정을 이해하는 것이 정확한 해석의 출발점입니다.

3billion의 WES/WGS 검사는 위에서 설명한 모든 분석 단계를 자체 파이프라인으로 수행합니다. 검사 방법이나 결과 해석에 대해 궁금하신 점이 있으시면 문의해 주세요. 

3billion 뉴스레터 구독자만을 위한
희귀질환 진단 최신 정보를 받아보세요.

Sohyun Lee

임상유전학자/ 임상고객지원 :유전체 검사를 더 쉽고 잘 활용할 수 있도록 돕고자 합니다. 고객에게 검사 선택부터 결과 해석, 증례 문의 등을 지원하며, 현장에서 들려오는 불편함을 더 나은 서비스로 연결하는 역할을 합니다.

필진 글 더 보기

연관 소식