banner
홈페이지 / 소식 / 단일 항목의 차원 축소, 일괄 통합 및 시각화를 위한 대응 분석
소식

단일 항목의 차원 축소, 일괄 통합 및 시각화를 위한 대응 분석

May 16, 2023May 16, 2023

Scientific Reports 13권, 기사 번호: 1197(2023) 이 기사 인용

3634 액세스

1 인용

20 알트메트릭

측정항목 세부정보

단일 세포 RNA-seq(scRNAseq) 분석에는 효과적인 차원 축소가 필수적입니다. 주성분 분석(PCA)이 널리 사용되지만 연속적이고 정규 분포된 데이터가 필요합니다. 따라서 이는 종종 scRNAseq 애플리케이션의 로그 변환과 결합되어 데이터를 왜곡하고 의미 있는 변화를 모호하게 할 수 있습니다. PCA의 개수 기반 대안인 대응 분석(CA)에 대해 설명합니다. CA는 왜곡된 로그 변환을 피하면서 카이제곱 잔차 행렬의 분해를 기반으로 합니다. scRNAseq 데이터의 과분산과 높은 희소성을 해결하기 위해 우리는 빠르고 확장 가능하며 표준 CA 및 glmPCA보다 성능이 뛰어난 CA의 5가지 적응을 제안하여 9개 데이터 세트 중 8개에서 더 성능이 높거나 비슷한 클러스터링 정확도로 셀 임베딩을 계산합니다. 특히 Freeman-Tukey 잔차를 사용하는 CA는 다양한 데이터 세트에서 특히 잘 수행되는 것으로 나타났습니다. CA 프레임워크의 다른 장점으로는 "CA biplot"에서 유전자와 세포 집단 간의 연관성 시각화 및 다중 테이블 분석 확장이 있습니다. scRNAseq 데이터의 통합 다중 테이블 차원 축소를 위한 corralm을 소개합니다. 우리는 Bioconductor의 단일 세포 클래스와 직접 인터페이스하는 R/Bioconductor 패키지인 corral에서 scRNAseq 데이터용 CA를 구현합니다. PCA에서 CA로의 전환은 간단한 파이프라인 대체를 통해 이루어지며 scRNAseq 데이터 세트의 차원 감소를 향상시킵니다.

단일 세포 mRNA 염기서열 분석(scRNAseq)은 수천 개의 개별 세포에서 유전자의 전사체 수준을 동시에 측정하여 조직이나 실험에서 세포의 전사 및 기능적 다양성에 대한 창을 제공합니다. 이러한 복잡한 데이터 세트는 조직 샘플에서 "대량" RNAseq 데이터를 분석할 때 발생하는 것보다 훨씬 더 큽니다. 이러한 미세한 해상도 데이터는 새로운 생물학적 발견을 밝힐 수 있는 잠재력을 가지고 있지만 scRNAseq 데이터는 대량 RNA 샘플에서 볼 수 있는 것 이상의 희소성, 잡음 및 기술적 인공물을 나타내므로 scRNAseq 특정 전처리 및 정규화가 필요합니다3,4. 일반적으로 scRNAseq 분석에는 소음을 줄이고 계산 용이성을 보장하기 위한 차원 축소 사용이 포함되지만 방법 선택은 다운스트림 분석, 결과 및 결론에 상당한 영향을 미칩니다3,5.

적절한 차원 축소 방법을 선택하는 것이 중요합니다. 효과적인 방법은 노이즈와 중복성을 최소화하는 데이터 표현을 찾는 동시에 데이터 내의 잠재 구조와 패턴을 나타내는 의미 있는 신호를 찾아내는 것입니다6,7. scRNAseq 데이터에서 정의할 때 축소된 차원 임베딩 표현은 의미 있고 생물학적으로 관련된 변이를 보존할 때 가장 유용합니다. 강력합니다. 즉, 새롭지만 유사한 관측값을 분해하면 일관되게 유사한 임베딩 공간이 생성됩니다. 일반화하고 새로운 데이터로 전송하여 유사한 생물학적 과정에서 발생하는 새로운 관찰을 동일한 잠재 공간에 투영할 수 있습니다.

ScRNAseq 수는 일반적으로 다항식 분포로 모델링되며, 종종 음이항식 또는 Poisson2로 근사화되는데, 이는 데이터가 연속적이지도 대략 가우스 분포도 아니라는 사실을 반영합니다. 따라서 주성분 분석(PCA)을 사용하려면 이 방법을 사용하여 차원 축소에 앞서 이산적이고 희박한 scRNAseq 수 데이터를 변환해야 합니다6. PCA는 각 축에서 설명되는 분산 비율이 유클리드 공간4,8,9,10,11에서 최대화되도록 직교 선형 축을 따라 저차원 데이터 표현을 얻는 선형 차원 축소 방법입니다. PCA는 대략적으로 정규 분포를 따르는 연속 데이터에 가장 적합하기 때문에 기울기 또는 비연속 데이터(예: 개수)가 있는 데이터에 적용하면 아티팩트가 나타날 수 있습니다. "아치" 또는 "말굽" 효과라고 불리는 이러한 아티팩트 중 하나는 PCA가 로그 변환 없이 scRNAseq 데이터에 적용될 때 발생합니다4,6,12. 따라서 실제로 scRNAseq 개수 데이터에 로그 변환을 적용하는 것과 관련된 알려진 문제에도 불구하고2,13,14 대부분의 단일 세포 작업 흐름은 개수 행렬의 로그(x + 1) 변환으로 시작한 다음 PCA를 사용하여 결과를 분해합니다. "로그카운트" 데이터3. 로그 카운트의 사용은 이론적 근거가 부족하고 경우에 따라 의미 있는 변화를 모호하게 할 수 있지만2,14 PCA 데이터의 감소된 차원 임베딩은 그럼에도 불구하고 scRNAseq 클러스터링, 궤적 분석 및 세포 유형 분류에 사용됩니다3. ZINB-WaVE와 같은 방법을 포함하여 scRNAseq 수에 맞춰진 여러 차원 축소 접근법이 제안되었습니다. ZINB-WaVE는 카운트 분해를 위한 제로 팽창 음이항 모델을 기반으로 하는 카운트와 함께 사용하기에 적합한 첫 번째 방법 및 제로 팽창 인자 분석( ZIFA)2,15,16,17. 그럼에도 불구하고 PCA는 단순성, 속도 및 계산 효율성으로 인해 가장 널리 사용되는 방법으로 남아 있습니다. 18가지 차원 축소 방법 비교에서 PCA는 계산 확장성과 함께 다운스트림 분석의 정확성과 성능을 고려할 때 높은 순위를 차지했습니다18.