کارگاه آموزشی آنالیز داده های میکروآرایه در نرم افزار R

هزینه ثبت نام: 4,920,000 تومان

ثبت نام:

🔒 برای ثبت نام ابتدا وارد ناحیه کاربری شوید. در صورت نداشتن اکانت کاربری بر روی ساخت اکانت کاربری کلیک نمایید.

شناسه برنامه: IranGene-100
نوع برنامه: مجازی - شروع از 8 صبح
مشارکت: با همکاری مدرسه ملی زیست فناوری ایران
تاریخ برگزاری: 1405/05/06
تاریخ پایان برنامه: 1405/05/20
ظرفیت باقی مانده: 3 نفر
برگزاری: به صورت مجازی - با استفاده از نرم افزار آنلاین استودیو (ویندوز 8 به بالا)
گواهینامه: دریافت گواهینامه بین المللی مورد تایید مدرسه ملی زیست فناوری ایران و دانشگاه های علوم پزشکی برگزار کننده

گواهی تایید صلاحیت حرفه ای

ایران ژن با همکاری موسسه کاریابی نون حلال و مدرسه ملی زیست‌فناوری ایران، با افتخار به شما گواهی تایید صلاحیت حرفه‌ای را ارائه می‌دهد.
این گواهی ویژه، به منظور سنجش مهارت‌های کاربردی و فنی در حوزه زیست‌فناوری، به دانشجویان و فارغ‌التحصیلان این حوزه که موفق به گذراندن آزمون مجازی در سامانه تایید صلاحیت حرفه‌ای می‌شوند، اعطا خواهد شد.
این مدرک از چندین جنبه ارزشمند و مهم خواهد بود که برخی از آن‌ها عبارتند از:

اولین گواهی تایید شده توسط یک مرکز کاریابی معتبر
معرفی بهتر از توانمندی های فردی به بازار کار در صنعت سلامت و درمان
اعتبار بین‌المللی به عنوان مدرک ملی مورد تایید جمهوری اسلامی ایران برای ارائه در رزومه‌های حرفه‌ای

معرفی کلی آنالیز داده های میکروآرایه در نرم افزار R

دوره جامع و پیشرفته بیوانفورماتیک: آنالیز داده‌های بیان ژن (Microarray) با استفاده از زبان برنامه‌نویسی R و پکیج‌های Bioconductor

تکنولوژی میکروآرایه (Microarray) علی‌رغم ظهور روش‌های نوین توالی‌یابی نسل جدید (NGS)، همچنان یکی از ستون‌های اصلی تحقیقات ترنسکریپتومیکس و پزشکی دقیق است. حجم عظیم داده‌های موجود در پایگاه‌های عمومی مانند GEO، گنجینه‌ای برای کشف بیومارکرها و مسیرهای سیگنالینگ بیماری‌زاست. با این حال، استخراج دانش بیولوژیک از این ماتریس‌های عددی پیچیده، نیازمند تسلط بر آمار زیستی، الگوریتم‌های نرمال‌سازی و زبان برنامه‌نویسی R است. این دوره آموزشی با رویکردی کاملاً کدنویسی-محور (Script-based)، پژوهشگران را از مرحله دریافت فایل‌های خام (.CEL) تا ترسیم نمودارهای حرفه‌ای و تفسیر مسیرهای بیولوژیک (Pathway Enrichment) هدایت می‌کند.

فصل اول: اکوسیستم R و Bioconductor در آنالیز ژنومیک

پیش از ورود به داده‌ها، درک معماری نرم‌افزاری ضروری است. Bioconductor یک پروژه متن‌باز برای توسعه ابزارهای آنالیز داده‌های بیولوژیک است که بر بستر زبان R سوار می‌شود.

۱. ساختار داده‌ای ExpressionSet

در بیوانفورماتیک، ما با داده‌های ساده سروکار نداریم. شیء ExpressionSet کانتینر استانداردی است که سه نوع داده را به صورت همزمان و متصل مدیریت می‌کند:
Assay Data: ماتریس بیان ژن (سطرها پروب‌ها و ستون‌ها نمونه‌ها).
PhenoData: اطلاعات بالینی نمونه‌ها (تیمار، کنترل، سن، جنسیت، مرحله بیماری).
FeatureData: اطلاعات مربوط به پروب‌ها و ژن‌ها (Annotation).
تسلط بر نحوه دسترسی و ویرایش اسلات‌های (Slots) این شیء برای هرگونه آنالیزی ضروری است.

۲. نصب و مدیریت پکیج‌ها

تفاوت مخازن CRAN و Bioconductor. استفاده از دستورات BiocManager::install برای نصب پکیج‌های حیاتی مانند GEOquery، limma، affy و oligo. مدیریت ورژن‌های R و وابستگی‌های پکیج‌ها (Dependencies) برای جلوگیری از تداخلات نرم‌افزاری.

فصل دوم: داده‌کاوی و دریافت داده از پایگاه NCBI GEO

پایگاه داده Gene Expression Omnibus (GEO) بزرگترین مخزن عمومی داده‌های بیان ژن است. ساختار این پایگاه پیچیده است و درک تفاوت موجودیت‌های آن حیاتی است.

۱. سلسله مراتب داده‌ها در GEO

GSE (Series): شناسه کل مطالعه که شامل تمام نمونه‌ها و توصیفات آزمایش است.
GSM (Sample): شناسه اختصاصی هر نمونه بیولوژیک.
GPL (Platform): شناسه پلتفرم یا چیپ استفاده شده (مثلاً Affymetrix HG-U133 Plus 2.0). این فایل حاوی اطلاعات نگاشت (Mapping) پروب‌ها به نام ژن‌هاست.
GDS (Dataset): مجموعه‌ای از داده‌های نرمال شده که کمتر استفاده می‌شود.

۲. کار با پکیج GEOquery

استفاده از تابع getGEO برای دانلود مستقیم داده‌ها به محیط R. تفاوت دانلود ماتریس سری (Series Matrix File) که قبلاً نرمال شده است با دانلود داده‌های خام (Raw Data / .CEL files). اهمیت بررسی فایل‌های خام برای کنترل کیفی دقیق‌تر و اعمال روش‌های نرمال‌سازی سفارشی.

فصل سوم: پیش‌پردازش، کنترل کیفی و نرمال‌سازی (Pre-processing QC)

مهم‌ترین مرحله آنالیز. داده‌های خام میکروآرایه دارای نویزهای تکنیکال، اثرات زمینه (Background) و تفاوت‌های شدت فلورسانس غیربیولوژیک هستند.

۱. ارزیابی کیفیت داده‌های خام

Boxplot و Density Plot: بررسی توزیع شدت سیگنال در تمام نمونه‌ها. نمونه‌هایی که توزیع متفاوتی دارند ممکن است اوت‌لایر (Outlier) باشند.
MA Plot: نمودار تفاوت شدت (M) در برابر میانگین شدت (A) برای بررسی وابستگی شدت سیگنال به مقدار بیان. در حالت ایده‌آل، ابر نقاط باید روی محور صفر متمرکز باشد.
تصاویر کاذب (Pseudo-images): بازسازی تصویر چیپ برای شناسایی حباب‌های هوا، خراش‌ها یا خطاهای هیبریداسیون فیزیکی.
آنالیز RLE (Relative Log Expression) و NUSE: روش‌های پیشرفته‌تر برای شناسایی نمونه‌های کم‌کیفیت.

۲. الگوریتم‌های نرمال‌سازی

هدف نرمال‌سازی، حذف تغییرات تکنیکال است تا تنها تغییرات بیولوژیک باقی بمانند.
الگوریتم RMA (Robust Multi-array Average): استاندارد طلایی برای چیپ‌های Affymetrix. شامل سه مرحله است:
۱. اصلاح پس‌زمینه (Background Correction).
۲. نرمال‌سازی کوانتایل (Quantile Normalization) برای هم‌شکل کردن توزیع داده‌ها.
۳. خلاصه‌سازی (Summarization) با استفاده از روش Median Polish برای تبدیل سیگنال پروب‌های متعدد (Probe Set) به یک عدد واحد برای هر ژن.

فصل چهارم: آنالیز آماری بیان افتراقی (Differential Expression Analysis)

قلب تپنده آنالیز، شناسایی ژن‌هایی است که بیان آن‌ها بین گروه‌های مورد مطالعه (مثلاً بیمار و سالم) تفاوت معنی‌دار دارد. آزمون t-test معمولی برای این داده‌ها مناسب نیست.

۱. مدل‌های خطی و پکیج Limma

پکیج limma (Linear Models for Microarray Data) از رویکرد مدل‌های خطی تعمیم‌یافته استفاده می‌کند.
ماتریس طراحی (Design Matrix): تعریف گروه‌های آزمایشی با استفاده از کدهای باینری (۰ و ۱).
ماتریس مقایسه (Contrast Matrix): تعریف سوالات بیولوژیک (مثلاً: گروه تیمار منهای گروه کنترل).
تابع lmFit: برازش مدل خطی برای هر ژن (ده‌ها هزار مدل همزمان).

۲. روش بیز تجربی (Empirical Bayes)

تابع eBayes در پکیج limma. در آزمایش‌هایی با تعداد نمونه کم (که در میکروآرایه شایع است)، واریانس ژن‌ها به درستی تخمین زده نمی‌شود. روش بیز تجربی اطلاعات واریانس را از تمام ژن‌ها قرض می‌گیرد (Information Borrowing) تا آزمون t-statistic را تعدیل کند (Moderated t-statistic). این کار قدرت آماری آزمون را به شدت افزایش می‌دهد.

۳. تصحیح برای آزمون‌های چندگانه (Multiple Testing Correction)

وقتی ۲۰,۰۰۰ ژن همزمان تست می‌شوند، شانس یافتن تفاوت‌های تصادفی (False Positives) بسیار بالاست (با P-value < 0.05 حدود ۱۰۰۰ ژن کاذب خواهیم داشت).
روش FDR (False Discovery Rate) یا Benjamini-Hochberg: روش استاندارد برای تنظیم P-value. ما به جای P-value خام، از adj.P.Val استفاده می‌کنیم.

فصل پنجم: مصورسازی پیشرفته و تفسیر نتایج (Visualization)

تبدیل جداول عددی به نمودارهای قابل انتشار (Publication-ready plots).

۱. نمودار آتشفشانی (Volcano Plot)

نمایش همزمان اهمیت آماری (محور عمودی: Log10 P-value-) و اندازه اثر (محور افقی: Log2 Fold Change). شناسایی ژن‌های Upregulated (سمت راست بالا) و Downregulated (سمت چپ بالا). استفاده از پکیج ggplot2 برای ترسیم و لیبل‌گذاری ژن‌های شاخص.

۲. نمودار حرارتی (Heatmap)

خوشه‌بندی سلسله‌مراتبی (Hierarchical Clustering) ژن‌ها و نمونه‌ها. استفاده از پکیج pheatmap. نمودار هیت‌مپ نشان می‌دهد که آیا پروفایل بیان ژن می‌تواند نمونه‌های بیمار را از سالم تفکیک کند یا خیر. انتخاب ۵۰ یا ۱۰۰ ژن برتر با بیشترین واریانس برای ترسیم هیت‌مپ.

۳. آنالیز مؤلفه‌های اصلی (PCA)

یک روش کاهش ابعاد (Dimensionality Reduction) برای بررسی ساختار کلی داده‌ها. بررسی همگنی درون‌گروهی و تفاوت بین‌گروهی. شناسایی اثرات دسته‌ای (Batch Effects) ناخواسته با استفاده از PCA.

فصل ششم: آنالیز غنی‌سازی مسیرهای بیولوژیک (Pathway Enrichment Analysis)

داشتن لیستی از ژن‌های تغییر بیان یافته کافی نیست؛ باید بدانیم این ژن‌ها در کدام فرآیندهای سلولی دخیل هستند.

۱. آنالیز Gene Ontology (GO)

بررسی عملکرد ژن‌ها در سه سطح: فرآیند بیولوژیک (BP)، جزء سلولی (CC) و عملکرد مولکولی (MF). استفاده از پکیج clusterProfiler برای انجام آزمون هایپرژئومتریک و یافتن ترم‌های GO که بیش از حد انتظار در لیست ژن‌های ما حضور دارند.

۲. آنالیز مسیرهای KEGG

نگاشت ژن‌ها بر روی نقشه‌های متابولیک و سیگنالینگ پایگاه داده KEGG. درک مکانیسم بیماری در سطح سیستمیک. مصورسازی مسیرها با پکیج pathview و رنگ‌آمیزی ژن‌ها بر اساس میزان تغییر بیان (Fold Change).

۳. آنالیز GSEA (Gene Set Enrichment Analysis)

تفاوت این روش با روش‌های کلاسیک در این است که نیاز به آستانه برش (Cut-off) برای انتخاب ژن‌ها ندارد و از تمام ژن‌های رتبه‌بندی شده استفاده می‌کند تا تغییرات کوچک اما هماهنگ در یک مسیر بیولوژیک را شناسایی کند.

سرفصل های آموزشی

Downloading Microarray Data from GEO Database

Data Structure of Gene Expression

Differential Gene Expression Analysis

Exporting Results

قوانین ثبت نام در برنامه

محدودیتی در رشته و مقطع تحصیلی شرکت کننندگان وجود ندارد

امکان انصراف از ثبت نام و عودت وجه پرداختی تحت هیچ شرایط امکانپذیر نمی باشد

اجرای کارگاه تنها با استفاده از نرم افزار انلاین استودیو ویژه نسخه ویندوز (8 به بالا) امکان پذیر است

مدت مشاهده محتوای کارگاه از روز شروع 12 روز و غیر قابل تمدید است

جهت دانلود نرم افزار آنلاین استودیو اینجا کلیک نمایید

کارگاه آنالیز داده های میکروآرایه در نرم افزار R