پایگاه داده باورنکردنی از تقریباً تمام پروتئین هایی که دانشمندان شناخته اند
به گزارش بانیما، سال گذشته، DeepMind Alphabet یک پایگاه داده منبع باز از ساختار های سه بعدی صد ها هزار پروتئین، از جمله تمام 20 هزار پروتئین شناخته شده در بدن انسان، منتشر کرد. اکنون، این پایگاه داده اطلاعات 200 میلیون پروتئین را دارد که تقریباً تمام پروتئین های شناخته شده از نظر علمی را شامل می گردد.
پروتئین ها محور سلول های زنده هستند که تعداد بی شماری از فرآیند های زیستی را انجام می دهند. آن ها از زنجیره ای از اسید های آمینه تشکیل شده اند که به شکل های سه بعدی پیچیده تا می شوند تا عملکرد خود را دیکته نمایند. ترسیم ساختار پروتئین ها برای درک اینکه چه کاری انجام می دهند، چگونه کار می نمایند و چگونه ممکن است روندها اشتباه پیش برود، مهم است و کلیدی برای تحقیق در خصوص همه چیز از دارو ها و درمان های نو تا بهبود محصولات کشاورزی و حفاظت از حیوانات است.
اما محاسبه ساختار دقیق یک پروتئین بر اساس اسید های آمینه تشکیل دهنده آن سخت است. پی بردن به این موضوع معمولاً به اندازه زیادی قدرت پردازشی و صرف وقت زیاد از سوی نیروهای انسانی احتیاج دارد و این شرایط به مشکل تاخوردگی پروتئین protein folding problem معروف شده است. به این ترتیب، پیشرفت در طول دهه ها نسبتاً کند بوده است.
اما آلفابت Alphabet با هوش مصنوعی DeepMind مدتی است که روی این مشکل متمرکز شده است. این سیستم که در ابتدا بر روی 100 هزار ساختار پروتئینی شناخته شده آموزش دیده بود، توانایی پیش بینی ساختار میلیون ها پروتئین دیگر را در خود توسعه داد. جالب است که زمان لازم برای معین ساختار هر پرپتئین به جای ماه ها یا سال ها، با این روش تنها چند دقیقه یا ثانیه زمان می برد.
در ژوئیه 2021 اولین پایگاه داده ساختار پروتئین آلفا فولد برای دانشمندان در دسترس عموم نهاده شد. در ابتدا حاوی بیش از 350 هزار ساختار پروتئینی بود که حدود 98.5 درصد از پروتئین های انسانی و بعلاوه پروتئین های موجود در مگس های میوه، موش، مخمر و باکتری E. coli را شامل می شد. این پایگاه داده بعد ها به حدود یک میلیون ساختار پروتئینی از 10 هزار گونه جانوری، گیاهی، باکتریایی، قارچی و سایر موجودات توسعه یافت. یک سال پس از آن، بیش از 500 هزار دانشمند از سراسر دنیا برای یاری به تحقیقات خود به پایگاه داده دسترسی پیدا نموده اند.
اکنون، DeepMind یک به روز رسانی بزرگ نو برای پایگاه داده منتشر نموده که شامل حدود 214 میلیون ساختار از یک میلیون گونه است. این تقریباً تمام پروتئین های شناخته شده از نظر علمی است و می تواند برای تحقیق در خصوص درمان بیماری ها، واکسن ها، مقاومت آنتی بیوتیکی و حتی آلودگی پلاستیکی، به محققان یاری کند.
کل پایگاه داده ساختار های پروتئین، متشکل از بیش از 25 ترابایت داده، را می توان از مجموعه داده های عمومی Google Cloud دانلود کرد.
منبع: DeepMind
منبع: یک پزشک