کارگاه آموزشی آنالیز داده های ترنسکریپتوم در نرم افزار R
هزینه ثبت نام: 4,910,000 تومان
- شناسه برنامه: IranGene-99
- نوع برنامه: مجازی - شروع از 8 صبح
- مشارکت: با همکاری مدرسه ملی زیست فناوری ایران
- تاریخ برگزاری: 1405/03/16
- تاریخ پایان برنامه: 1405/03/30
- ظرفیت باقی مانده: 2 نفر
- برگزاری: به صورت مجازی - با استفاده از نرم افزار آنلاین استودیو (ویندوز 8 به بالا)
- گواهینامه: دریافت گواهینامه بین المللی مورد تایید مدرسه ملی زیست فناوری ایران و دانشگاه های علوم پزشکی برگزار کننده
گواهی تایید صلاحیت حرفه ای
ایران ژن با همکاری موسسه کاریابی نون حلال و مدرسه ملی زیستفناوری ایران، با افتخار به شما گواهی تایید صلاحیت حرفهای را ارائه میدهد.این گواهی ویژه، به منظور سنجش مهارتهای کاربردی و فنی در حوزه زیستفناوری، به دانشجویان و فارغالتحصیلان این حوزه که موفق به گذراندن آزمون مجازی در سامانه تایید صلاحیت حرفهای میشوند، اعطا خواهد شد.
این مدرک از چندین جنبه ارزشمند و مهم خواهد بود که برخی از آنها عبارتند از:
- اولین گواهی تایید شده توسط یک مرکز کاریابی معتبر
- معرفی بهتر از توانمندی های فردی به بازار کار در صنعت سلامت و درمان
- اعتبار بینالمللی به عنوان مدرک ملی مورد تایید جمهوری اسلامی ایران برای ارائه در رزومههای حرفهای
با دریافت این گواهی، شما نه تنها مهارتهای خود را اثبات میکنید، بلکه فرصتی طلایی برای ورود به بازار کار و بهویژه حوزههای بینالمللی خواهید داشت.
معرفی کلی آنالیز داده های ترنسکریپتوم در نرم افزار R
دوره جامع و فوقتخصصی بیوانفورماتیک: آنالیز دادههای توالییابی RNA (RNA-seq) با R و Bioconductor
تکنولوژی توالییابی کل ترنسکریپتوم (Whole Transcriptome Sequencing) یا RNA-seq، با کنار زدن محدودیتهای روشهای قدیمی مبتنی بر هیبریداسیون (مانند میکروارری)، به استاندارد طلایی در ژنومیک عملکردی تبدیل شده است. این تکنولوژی با ارائه رزولوشن تکنوکلئوتیدی، دامنه دینامیک (Dynamic Range) فوقالعاده وسیع و قابلیت شناسایی ایزوفرمهای جدید (Novel Isoforms) و RNAهای غیرکدکننده (lncRNA)، دیدگاه ما را نسبت به پیچیدگیهای بیان ژن متحول کرده است. با این حال، تبدیل ترابایتها داده خام (Raw Reads) به بینش بیولوژیکی معتبر، نیازمند تسلط بر پایپلاینهای محاسباتی چندمرحلهای، درک عمیق از مدلهای آماری و مهارت در زبان برنامهنویسی R است. این مستند فنی، به عنوان یک مرجع آکادمیک و عملیاتی، تمامی مراحل این فرآیند پیچیده را از کنترل کیفیت اولیه تا تحلیلهای سیستمی شبکه ژنی پوشش میدهد.
فصل اول: معماری دادههای NGS و پیشپردازش (Upstream Analysis)
پیش از ورود به محیط R، دادههای خام تولید شده توسط دستگاههای سکوئنسر (مانند Illumina NovaSeq) باید پالایش شوند. کیفیت ورودی مستقیماً تعیینکننده صحت خروجی است.
۱. آنالیز فایلهای FASTQ و کنترل کیفیت (QC)
فایلهای FASTQ حاوی میلیونها توالی کوتاه (Reads) به همراه امتیاز کیفیت متناظر هر باز (Quality Score) هستند.
- امتیاز کیفیت Phred (Q-Score): مقیاس لگاریتمی که احتمال خطا را نشان میدهد. Q30 به معنای دقت ۹۹.۹٪ است (یک خطا در هر ۱۰۰۰ باز). در آنالیز استاندارد، میانگین Q-score باید در تمام طول خوانش بالای ۳۰ باشد. افت کیفیت در انتهای خوانشها (3' end) امری رایج در تکنولوژی Illumina است که نیازمند تریم کردن (Trimming) است.
- محتوای GC (GC Content): توزیع غیرنرمال درصد GC میتواند نشاندهنده آلودگی باکتریایی یا سوگیری (Bias) در مرحله PCR باشد. نمودار توزیع GC باید منطبق بر توزیع نظری ژنوم گونه مورد مطالعه باشد.
- تکرار توالیها (Sequence Duplication): سطوح بالای دوپلیکیشن میتواند ناشی از غنیسازی بیش از حد PCR (PCR Over-amplification) در کتابخانههای با تنوع کم باشد که منجر به کژتابی در کمیسازی بیان ژن میشود.
۲. استراتژیهای همترازسازی (Alignment vs. Pseudo-alignment)
برای شمارش تعداد رونوشتهای هر ژن، خوانشها باید به ژنوم یا ترنسکریپتوم مرجع نگاشت شوند. دو پارادایم اصلی وجود دارد:
- همترازسازی مبتنی بر ژنوم (Genome-based Alignment): ابزارهایی مانند STAR و HISAT2 که Splice-aware هستند؛ یعنی میتوانند اینترونها را شناسایی کرده و خوانشهایی که روی مرز اگزون-اگزون قرار میگیرند (Gapped reads) را مپ کنند. این روش برای کشف ایزوفرمهای جدید و واریانتها ضروری است اما به منابع سختافزاری سنگین (بیش از ۳۰ گیگابایت RAM) نیاز دارد. فایل خروجی این مرحله فرمت BAM است.
- شبههمترازسازی (Pseudo-alignment): ابزارهای نوین مانند Salmon و Kallisto. این الگوریتمها به جای مپ کردن دقیق باز-به-باز، از گرافهای دیبروین (De Bruijn Graphs) و k-mers برای تخمین سریع و دقیق تعلق هر خوانش به ترنسکریپتها استفاده میکنند. این روشها بسیار سریعتر هستند و خطای ناشی از نگاشتهای چندگانه (Multi-mapping reads) را با مدلهای احتمالات بیزی (Bayesian inference) اصلاح میکنند.
فصل دوم: ورود به R و ساختار دادههای Bioconductor
پروژه Bioconductor اکوسیستم اصلی آنالیز ژنومیک در R است که ساختارهای دادهای اختصاصی را برای مدیریت یکپارچه دادههای حجیم ارائه میدهد.
۱. کلاس SummarizedExperiment
این کلاس شیء (Object Class)، کانتینر مرکزی برای ذخیرهسازی دادههاست و از سه مولفه هماهنگ تشکیل شده است:
- Assay: ماتریس اصلی شمارشها (Counts Matrix) که در آن سطرها نمایانگر ژنها و ستونها نمایانگر نمونهها هستند. دسترسی به این دادهها با تابع
assay()امکانپذیر است. - ColData: دیتافریمی که اطلاعات فنوتیپی نمونهها (Metadata) مانند گروه تیمار، زمان، جنسیت و بچ آزمایشگاهی را نگه میدارد. این بخش معادل
pDataدر ExpressionSet های قدیمی است. - RowData (GenomicRanges): اطلاعات ساختاری ژنها شامل کروموزوم، موقعیت شروع و پایان و رشته (Strand). این ساختار امکان انجام عملیات جبری روی بازههای ژنومی (مانند یافتن همپوشانی با پروموتورها) را فراهم میکند.
۲. پکیج tximport: پل ارتباطی بین Salmon و DESeq2
هنگام استفاده از ابزارهایی مانند Salmon، خروجی در سطح ترنسکریپت است، اما آنالیز بیان افتراقی معمولاً در سطح ژن انجام میشود تا توان آماری افزایش یابد. پکیج tximport در R وظیفه حیاتی تجمیع (Summarization) شمارشهای ترنسکریپت به سطح ژن را با استفاده از فایلهای Annotation (مانند GTF/GFF3) بر عهده دارد. همچنین این پکیج "طول موثر" (Effective Length) ژنها را محاسبه میکند که برای نرمالسازی دقیق و تصحیح سوگیری طول ژن (Gene Length Bias) ضروری است.
فصل سوم: نرمالسازی دادهها و مدلسازی آماری
دادههای خام RNA-seq به دلیل تفاوت در عمق توالییابی (Sequencing Depth) و ترکیب RNA (RNA Composition) قابل مقایسه مستقیم نیستند.
۱. چرا RPKM و FPKM منسوخ شدهاند؟
معیارهای قدیمی FPKM و RPKM تنها برای مقایسه ژنهای مختلف در "یک نمونه" طراحی شده بودند. در مقایسه بین نمونهها، اگر یک ژن بسیار پربیان در یک نمونه وجود داشته باشد، سهم نسبی سایر ژنها کاهش مییابد، حتی اگر بیان واقعی آنها تغییر نکرده باشد. بنابراین استفاده از آنها در آنالیز بیان افتراقی (DGE) ممنوع است. واحد TPM (Transcripts Per Million) جایگزین بهتری برای مقایسه فراوانی نسبی است، اما برای DGE همچنان نیاز به روشهای نرمالسازی مبتنی بر فاکتور مقیاس (Scaling Factor) داریم.
۲. روش نرمالسازی DESeq2: میانه نسبتها (Median of Ratios)
این الگوریتم استاندارد فعلی است که فرض میکند اکثر ژنها تغییر بیان ندارند (Housekeeping genes predominant):
- ابتدا یک "نمونه مرجع مجازی" (Pseudo-reference sample) با محاسبه میانگین هندسی هر ژن در تمام نمونهها ساخته میشود.
- برای هر نمونه، نسبت بیان هر ژن به این مرجع محاسبه میشود.
- میانه (Median) این نسبتها به عنوان "فاکتور سایز" (Size Factor) آن نمونه در نظر گرفته میشود.
- این روش در برابر ژنهای پرت (Outliers) و تفاوتهای شدید در ترکیب کتابخانه بسیار مقاوم است.
۳. توزیع دوجملهای منفی (Negative Binomial Distribution)
شمارشهای RNA-seq ماهیت گسسته دارند و واریانس آنها معمولاً بزرگتر از میانگین است (پدیدهای به نام Overdispersion). توزیع پواسون (Poisson) که در آن واریانس برابر میانگین است، برای این دادهها مناسب نیست.
- تخمین پراکندگی (Dispersion Estimation): از آنجا که تعداد تکرارهای بیولوژیکی معمولاً کم است (n=3)، تخمین واریانس برای هر ژن به تنهایی دقیق نیست. DESeq2 با استفاده از روش "اشتراک اطلاعات" (Sharing information across genes)، برآورد پراکندگی ژنها را به سمت یک منحنی کلی سوق میدهد (Shrinkage). ژنهایی که واریانس بسیار بالاتری نسبت به منحنی مورد انتظار دارند، به عنوان Outlier شناسایی شده و ممکن است از آنالیز حذف شوند (قانون کوک - Cook's distance).
فصل چهارم: آنالیز بیان افتراقی (Differential Expression Analysis)
هدف نهایی، شناسایی ژنهایی است که بیان آنها تحت تأثیر متغیر آزمایشی تغییر معنادار داشته است.
۱. آزمون والد (Wald Test)
برای مقایسه دو گروه (مثلاً تیمار در برابر کنترل)، آزمون والد استفاده میشود. این آزمون نسبت ضریب تغییرات (Log2 Fold Change) به خطای استاندارد آن را محاسبه میکند. هرچه این نسبت بزرگتر باشد، احتمال معناداری بیشتر است.
۲. فرضیه صفر و تصحیح تستهای چندگانه
در RNA-seq، ما برای ۲۰,۰۰۰ ژن به طور همزمان آزمون آماری انجام میدهیم. اگر سطح معناداری (alpha) را ۰.۰۵ در نظر بگیریم، به طور تصادفی ۵٪ از ژنها (یعنی ۱۰۰۰ ژن) ممکن است به اشتباه معنادار شوند (False Positives).
- نرخ کشف کاذب (FDR - False Discovery Rate): برای حل این مشکل، از روش Benjamini-Hochberg استفاده میشود تا P-value های خام به Adjusted P-values تبدیل شوند. معمولاً padj < 0.05 به عنوان آستانه پذیرش ژنهای افتراقی (DEGs) در نظر گرفته میشود.
- Independent Filtering: الگوریتمی که به طور خودکار ژنهایی با میانگین بیان بسیار پایین را از تستهای آماری حذف میکند تا قدرت آزمون (Statistical Power) برای سایر ژنها افزایش یابد و جریمه اصلاح FDR کاهش یابد.
۳. جمعبندی تغییرات (LFC Shrinkage)
ژنهایی که بیان بسیار کمی دارند، اغلب نویز بالایی نشان میدهند و ممکن است به طور تصادفی Fold Change های بزرگی داشته باشند. DESeq2 از روشهایی مانند apeglm یا ashr برای تعدیل (Shrinkage) تغییرات لاگاریتمی این ژنها استفاده میکند. این کار P-value را تغییر نمیدهد اما رتبهبندی ژنها بر اساس Fold Change را برای آنالیزهای بعدی (مانند GSEA) دقیقتر میکند.
فصل پنجم: تحلیل اکتشافی دادهها (EDA) و مصورسازی
پیش از نتیجهگیری نهایی، کیفیت تفکیک نمونهها باید بصریسازی شود.
۱. تبدیلهای تثبیت واریانس (VST rlog)
برای مصورسازی (مانند PCA و Heatmap)، دادههای شمارشی باید تبدیل شوند تا وابستگی واریانس به میانگین حذف شود (Homoscedasticity). روش VST (Variance Stabilizing Transformation) برای دیتاستهای بزرگ (n > 30) سریعتر است، در حالی که rlog (Regularized Logarithm) برای دیتاستهای کوچک حساستر عمل میکند.
۲. تحلیل مؤلفههای اصلی (PCA)
PCA یک تکنیک کاهش ابعاد است که واریانس کلی دادهها را در دو محور اصلی خلاصه میکند. در یک آزمایش ایدهآل:
- PC1 (محور X): باید بیشترین واریانس را داشته باشد و نمونهها را بر اساس متغیر اصلی آزمایش (مثلاً تیمار و کنترل) جدا کند.
- PC2 (محور Y): باید واریانسهای ثانویه را نشان دهد. اگر جداسازی نمونهها در PCA بر اساس متغیرهای مزاحم (مانند روز آزمایش یا اپراتور) باشد، نشاندهنده وجود "اثر دستهای" (Batch Effect) است که باید اصلاح شود.
۳. نقشههای حرارتی (Heatmaps)
استفاده از پکیجهای pheatmap یا ComplexHeatmap برای نمایش الگوی بیان ژنهای منتخب (مثلاً ۵۰ ژن با بیشترین واریانس). استفاده از خوشهبندی سلسلهمراتب (Hierarchical Clustering) با متریکهای فاصله اقلیدسی یا همبستگی پیرسون، به شناسایی گروههای همبیان (Co-expressed genes) کمک میکند. دادههای ورودی به هیتمپ باید حتماً نرمالسازی و تبدیل شده باشند (Z-score scaling).
فصل ششم: آنالیز غنیسازی عملکردی (Functional Enrichment Analysis)
لیستی از نام ژنها به تنهایی فاقد ارزش بیولوژیکی است. برای درک مکانیسمها، باید ژنها را به عملکردها ترجمه کنیم.
۱. Gene Ontology (GO) Analysis
پایگاه داده GO ژنها را در سه دسته طبقهبندی میکند: فرآیندهای بیولوژیکی (BP)، اجزای سلولی (CC) و عملکرد مولکولی (MF). آنالیز ORA (Over-Representation Analysis) با استفاده از آزمون فیشر یا فوقهندسی بررسی میکند که آیا ژنهای یک مسیر خاص در لیست DEGs ما بیش از حد انتظار تصادفی حضور دارند یا خیر. ساختار GO به صورت گراف جهتدار بدون دور (DAG) است، بنابراین نتایج ممکن است همپوشانی داشته باشند که با متد simplify در پکیج clusterProfiler قابل کاهش است.
۲. تحلیل مسیرهای KEGG
پایگاه داده KEGG ژنها را در شبکههای تعاملی (Pathway Maps) قرار میدهد. این آنالیز به ما میگوید که تغییر بیان ژنها کدام مسیرهای سیگنالینگ (مثلاً مسیر NF-kappaB یا Apoptosis) را فعال یا مهار کرده است. استفاده از پکیج pathview اجازه میدهد تا تغییرات بیان (Fold Change) را مستقیماً روی نقشههای رنگی KEGG مشاهده کنیم.
۳. آنالیز GSEA (Gene Set Enrichment Analysis)
برخلاف ORA که نیاز به یک آستانه برش (Cut-off) دلخواه دارد، GSEA از تمام ژنهای آنالیز شده استفاده میکند. ژنها بر اساس میزان تغییر بیان رتبهبندی میشوند و الگوریتم بررسی میکند که آیا اعضای یک مجموعه ژنی خاص در بالا یا پایین این لیست رتبهبندی شده تجمع یافتهاند. این روش بسیار قدرتمند است و میتواند تغییرات جزئی اما هماهنگ در یک مسیر بیولوژیکی را شناسایی کند که ممکن است در روش ORA نادیده گرفته شوند.
فصل هفتم: مدیریت اثرات دستهای (Batch Effects)
یکی از بزرگترین چالشها در پروژههای بزرگ RNA-seq، اثرات تکنیکال ناخواسته است که ناشی از انجام آزمایش در زمانهای مختلف، توسط افراد مختلف یا با سریهای متفاوت معرفهاست.
- تشخیص: اگر در نمودار PCA نمونهها بر اساس تاریخ آزمایش یا سری ساخت کیت جدا شوند، اثر دستهای وجود دارد.
- اصلاح در مدلسازی (توصیه شده): افزودن متغیر Batch به فرمول طراحی DESeq2 (مثلاً:
design = ~ batch + condition). این کار به مدل اجازه میدهد تا اثر Batch را تخمین زده و آن را از اثر تیمار تفکیک کند. - حذف مستقیم (ComBat): استفاده از تابع
ComBat-seqاز پکیج sva. این روش دادههای شمارشی را مستقیماً تغییر میدهد و تنها باید برای مصورسازی (PCA/Heatmap) استفاده شود. استفاده از دادههای تغییر یافته توسط ComBat به عنوان ورودی برای آنالیز DGE توصیه نمیشود زیرا فرضیات توزیع آماری را مخدوش میکند.
سرفصل های آموزشی
Brief Introduction to R and RStudio
Downloading RNA-seq Data from Database
Data Structure of Gene Expression
Differential Gene Expression Analysis
قوانین ثبت نام در برنامه
محدودیتی در رشته و مقطع تحصیلی شرکت کننندگان وجود ندارد
امکان انصراف از ثبت نام و عودت وجه پرداختی تحت هیچ شرایط امکانپذیر نمی باشد
اجرای کارگاه تنها با استفاده از نرم افزار انلاین استودیو ویژه نسخه ویندوز (8 به بالا) امکان پذیر است
مدت مشاهده محتوای کارگاه از روز شروع 12 روز و غیر قابل تمدید است
جهت دانلود نرم افزار آنلاین استودیو اینجا کلیک نمایید