کارگاه آموزشی آنالیز داده های میکروآرایه در نرم افزار R
هزینه ثبت نام: 4,920,000 تومان
- شناسه برنامه: IranGene-100
- نوع برنامه: مجازی - شروع از 8 صبح
- مشارکت: با همکاری مدرسه ملی زیست فناوری ایران
- تاریخ برگزاری: 1405/03/23
- تاریخ پایان برنامه: 1405/04/06
- ظرفیت باقی مانده: 2 نفر
- برگزاری: به صورت مجازی - با استفاده از نرم افزار آنلاین استودیو (ویندوز 8 به بالا)
- گواهینامه: دریافت گواهینامه بین المللی مورد تایید مدرسه ملی زیست فناوری ایران و دانشگاه های علوم پزشکی برگزار کننده
گواهی تایید صلاحیت حرفه ای
ایران ژن با همکاری موسسه کاریابی نون حلال و مدرسه ملی زیستفناوری ایران، با افتخار به شما گواهی تایید صلاحیت حرفهای را ارائه میدهد.این گواهی ویژه، به منظور سنجش مهارتهای کاربردی و فنی در حوزه زیستفناوری، به دانشجویان و فارغالتحصیلان این حوزه که موفق به گذراندن آزمون مجازی در سامانه تایید صلاحیت حرفهای میشوند، اعطا خواهد شد.
این مدرک از چندین جنبه ارزشمند و مهم خواهد بود که برخی از آنها عبارتند از:
- اولین گواهی تایید شده توسط یک مرکز کاریابی معتبر
- معرفی بهتر از توانمندی های فردی به بازار کار در صنعت سلامت و درمان
- اعتبار بینالمللی به عنوان مدرک ملی مورد تایید جمهوری اسلامی ایران برای ارائه در رزومههای حرفهای
با دریافت این گواهی، شما نه تنها مهارتهای خود را اثبات میکنید، بلکه فرصتی طلایی برای ورود به بازار کار و بهویژه حوزههای بینالمللی خواهید داشت.
معرفی کلی آنالیز داده های میکروآرایه در نرم افزار R
دوره جامع و پیشرفته بیوانفورماتیک: آنالیز دادههای بیان ژن (Microarray) با استفاده از زبان برنامهنویسی R و پکیجهای Bioconductor
تکنولوژی میکروآرایه (Microarray) علیرغم ظهور روشهای نوین توالییابی نسل جدید (NGS)، همچنان یکی از ستونهای اصلی تحقیقات ترنسکریپتومیکس و پزشکی دقیق است. حجم عظیم دادههای موجود در پایگاههای عمومی مانند GEO، گنجینهای برای کشف بیومارکرها و مسیرهای سیگنالینگ بیماریزاست. با این حال، استخراج دانش بیولوژیک از این ماتریسهای عددی پیچیده، نیازمند تسلط بر آمار زیستی، الگوریتمهای نرمالسازی و زبان برنامهنویسی R است. این دوره آموزشی با رویکردی کاملاً کدنویسی-محور (Script-based)، پژوهشگران را از مرحله دریافت فایلهای خام (.CEL) تا ترسیم نمودارهای حرفهای و تفسیر مسیرهای بیولوژیک (Pathway Enrichment) هدایت میکند.
فصل اول: اکوسیستم R و Bioconductor در آنالیز ژنومیک
پیش از ورود به دادهها، درک معماری نرمافزاری ضروری است. Bioconductor یک پروژه متنباز برای توسعه ابزارهای آنالیز دادههای بیولوژیک است که بر بستر زبان R سوار میشود.
۱. ساختار دادهای ExpressionSet
در بیوانفورماتیک، ما با دادههای ساده سروکار نداریم. شیء ExpressionSet کانتینر استانداردی است که سه نوع داده را به صورت همزمان و متصل مدیریت میکند:
Assay Data: ماتریس بیان ژن (سطرها پروبها و ستونها نمونهها).
PhenoData: اطلاعات بالینی نمونهها (تیمار، کنترل، سن، جنسیت، مرحله بیماری).
FeatureData: اطلاعات مربوط به پروبها و ژنها (Annotation).
تسلط بر نحوه دسترسی و ویرایش اسلاتهای (Slots) این شیء برای هرگونه آنالیزی ضروری است.
۲. نصب و مدیریت پکیجها
تفاوت مخازن CRAN و Bioconductor. استفاده از دستورات BiocManager::install برای نصب پکیجهای حیاتی مانند GEOquery، limma، affy و oligo. مدیریت ورژنهای R و وابستگیهای پکیجها (Dependencies) برای جلوگیری از تداخلات نرمافزاری.
فصل دوم: دادهکاوی و دریافت داده از پایگاه NCBI GEO
پایگاه داده Gene Expression Omnibus (GEO) بزرگترین مخزن عمومی دادههای بیان ژن است. ساختار این پایگاه پیچیده است و درک تفاوت موجودیتهای آن حیاتی است.
۱. سلسله مراتب دادهها در GEO
- GSE (Series): شناسه کل مطالعه که شامل تمام نمونهها و توصیفات آزمایش است.
- GSM (Sample): شناسه اختصاصی هر نمونه بیولوژیک.
- GPL (Platform): شناسه پلتفرم یا چیپ استفاده شده (مثلاً Affymetrix HG-U133 Plus 2.0). این فایل حاوی اطلاعات نگاشت (Mapping) پروبها به نام ژنهاست.
- GDS (Dataset): مجموعهای از دادههای نرمال شده که کمتر استفاده میشود.
۲. کار با پکیج GEOquery
استفاده از تابع getGEO برای دانلود مستقیم دادهها به محیط R. تفاوت دانلود ماتریس سری (Series Matrix File) که قبلاً نرمال شده است با دانلود دادههای خام (Raw Data / .CEL files). اهمیت بررسی فایلهای خام برای کنترل کیفی دقیقتر و اعمال روشهای نرمالسازی سفارشی.
فصل سوم: پیشپردازش، کنترل کیفی و نرمالسازی (Pre-processing QC)
مهمترین مرحله آنالیز. دادههای خام میکروآرایه دارای نویزهای تکنیکال، اثرات زمینه (Background) و تفاوتهای شدت فلورسانس غیربیولوژیک هستند.
۱. ارزیابی کیفیت دادههای خام
- Boxplot و Density Plot: بررسی توزیع شدت سیگنال در تمام نمونهها. نمونههایی که توزیع متفاوتی دارند ممکن است اوتلایر (Outlier) باشند.
- MA Plot: نمودار تفاوت شدت (M) در برابر میانگین شدت (A) برای بررسی وابستگی شدت سیگنال به مقدار بیان. در حالت ایدهآل، ابر نقاط باید روی محور صفر متمرکز باشد.
- تصاویر کاذب (Pseudo-images): بازسازی تصویر چیپ برای شناسایی حبابهای هوا، خراشها یا خطاهای هیبریداسیون فیزیکی.
- آنالیز RLE (Relative Log Expression) و NUSE: روشهای پیشرفتهتر برای شناسایی نمونههای کمکیفیت.
۲. الگوریتمهای نرمالسازی
هدف نرمالسازی، حذف تغییرات تکنیکال است تا تنها تغییرات بیولوژیک باقی بمانند.
الگوریتم RMA (Robust Multi-array Average): استاندارد طلایی برای چیپهای Affymetrix. شامل سه مرحله است:
۱. اصلاح پسزمینه (Background Correction).
۲. نرمالسازی کوانتایل (Quantile Normalization) برای همشکل کردن توزیع دادهها.
۳. خلاصهسازی (Summarization) با استفاده از روش Median Polish برای تبدیل سیگنال پروبهای متعدد (Probe Set) به یک عدد واحد برای هر ژن.
فصل چهارم: آنالیز آماری بیان افتراقی (Differential Expression Analysis)
قلب تپنده آنالیز، شناسایی ژنهایی است که بیان آنها بین گروههای مورد مطالعه (مثلاً بیمار و سالم) تفاوت معنیدار دارد. آزمون t-test معمولی برای این دادهها مناسب نیست.
۱. مدلهای خطی و پکیج Limma
پکیج limma (Linear Models for Microarray Data) از رویکرد مدلهای خطی تعمیمیافته استفاده میکند.
ماتریس طراحی (Design Matrix): تعریف گروههای آزمایشی با استفاده از کدهای باینری (۰ و ۱).
ماتریس مقایسه (Contrast Matrix): تعریف سوالات بیولوژیک (مثلاً: گروه تیمار منهای گروه کنترل).
تابع lmFit: برازش مدل خطی برای هر ژن (دهها هزار مدل همزمان).
۲. روش بیز تجربی (Empirical Bayes)
تابع eBayes در پکیج limma. در آزمایشهایی با تعداد نمونه کم (که در میکروآرایه شایع است)، واریانس ژنها به درستی تخمین زده نمیشود. روش بیز تجربی اطلاعات واریانس را از تمام ژنها قرض میگیرد (Information Borrowing) تا آزمون t-statistic را تعدیل کند (Moderated t-statistic). این کار قدرت آماری آزمون را به شدت افزایش میدهد.
۳. تصحیح برای آزمونهای چندگانه (Multiple Testing Correction)
وقتی ۲۰,۰۰۰ ژن همزمان تست میشوند، شانس یافتن تفاوتهای تصادفی (False Positives) بسیار بالاست (با P-value < 0.05 حدود ۱۰۰۰ ژن کاذب خواهیم داشت).
روش FDR (False Discovery Rate) یا Benjamini-Hochberg: روش استاندارد برای تنظیم P-value. ما به جای P-value خام، از adj.P.Val استفاده میکنیم.
فصل پنجم: مصورسازی پیشرفته و تفسیر نتایج (Visualization)
تبدیل جداول عددی به نمودارهای قابل انتشار (Publication-ready plots).
۱. نمودار آتشفشانی (Volcano Plot)
نمایش همزمان اهمیت آماری (محور عمودی: Log10 P-value-) و اندازه اثر (محور افقی: Log2 Fold Change). شناسایی ژنهای Upregulated (سمت راست بالا) و Downregulated (سمت چپ بالا). استفاده از پکیج ggplot2 برای ترسیم و لیبلگذاری ژنهای شاخص.
۲. نمودار حرارتی (Heatmap)
خوشهبندی سلسلهمراتبی (Hierarchical Clustering) ژنها و نمونهها. استفاده از پکیج pheatmap. نمودار هیتمپ نشان میدهد که آیا پروفایل بیان ژن میتواند نمونههای بیمار را از سالم تفکیک کند یا خیر. انتخاب ۵۰ یا ۱۰۰ ژن برتر با بیشترین واریانس برای ترسیم هیتمپ.
۳. آنالیز مؤلفههای اصلی (PCA)
یک روش کاهش ابعاد (Dimensionality Reduction) برای بررسی ساختار کلی دادهها. بررسی همگنی درونگروهی و تفاوت بینگروهی. شناسایی اثرات دستهای (Batch Effects) ناخواسته با استفاده از PCA.
فصل ششم: آنالیز غنیسازی مسیرهای بیولوژیک (Pathway Enrichment Analysis)
داشتن لیستی از ژنهای تغییر بیان یافته کافی نیست؛ باید بدانیم این ژنها در کدام فرآیندهای سلولی دخیل هستند.
۱. آنالیز Gene Ontology (GO)
بررسی عملکرد ژنها در سه سطح: فرآیند بیولوژیک (BP)، جزء سلولی (CC) و عملکرد مولکولی (MF). استفاده از پکیج clusterProfiler برای انجام آزمون هایپرژئومتریک و یافتن ترمهای GO که بیش از حد انتظار در لیست ژنهای ما حضور دارند.
۲. آنالیز مسیرهای KEGG
نگاشت ژنها بر روی نقشههای متابولیک و سیگنالینگ پایگاه داده KEGG. درک مکانیسم بیماری در سطح سیستمیک. مصورسازی مسیرها با پکیج pathview و رنگآمیزی ژنها بر اساس میزان تغییر بیان (Fold Change).
۳. آنالیز GSEA (Gene Set Enrichment Analysis)
تفاوت این روش با روشهای کلاسیک در این است که نیاز به آستانه برش (Cut-off) برای انتخاب ژنها ندارد و از تمام ژنهای رتبهبندی شده استفاده میکند تا تغییرات کوچک اما هماهنگ در یک مسیر بیولوژیک را شناسایی کند.
سرفصل های آموزشی
Downloading Microarray Data from GEO Database
Data Structure of Gene Expression
Differential Gene Expression Analysis
Exporting Results
قوانین ثبت نام در برنامه
محدودیتی در رشته و مقطع تحصیلی شرکت کننندگان وجود ندارد
امکان انصراف از ثبت نام و عودت وجه پرداختی تحت هیچ شرایط امکانپذیر نمی باشد
اجرای کارگاه تنها با استفاده از نرم افزار انلاین استودیو ویژه نسخه ویندوز (8 به بالا) امکان پذیر است
مدت مشاهده محتوای کارگاه از روز شروع 12 روز و غیر قابل تمدید است
جهت دانلود نرم افزار آنلاین استودیو اینجا کلیک نمایید