أدى نموذج اللغة الطبيعية إلى بدء عملية تصميم البروتين عن طريق تكوين إنزيمات نشطة.
طور باحثون نظام ذكاء اصطناعي يمكنه إنتاج إنزيمات اصطناعية من نقطة الصفر. في التجارب المعملية ، أظهرت بعض هذه الإنزيمات فعالية مماثلة للإنزيمات الطبيعية ، حتى عندما تكون الأمينية المصطنعة. حامض تسلسل انحرفت بشكل كبير عن أي بروتين طبيعي معروف.
تظهر التجربة أن معالجة اللغة الطبيعية ، التي تم إنشاؤها في البداية لقراءة وكتابة نصوص اللغة ، يمكنها استيعاب مفاهيم أساسية معينة في علم الأحياء. تم تطوير برنامج الذكاء الاصطناعي ، المعروف باسم ProGen ، بواسطة Salesforce Research ويستخدم التنبؤ بالرمز التالي لبناء بروتينات اصطناعية من تسلسل الأحماض الأمينية.
قال العلماء إن التكنولوجيا الجديدة يمكن أن تصبح أقوى من التطور الموجه ، وهي تقنية تصميم البروتين الحائزة على جائزة نوبل ، وسوف تنشط مجال هندسة البروتين البالغ من العمر 50 عامًا عن طريق تسريع تطوير بروتينات جديدة يمكن استخدامها تقريبًا. أي شيء من العلاجات إلى البلاستيك المهين.
قال جيمس فريزر ، دكتوراه ، أستاذ الهندسة الحيوية والعلوم العلاجية في كلية الصيدلة UCSF، ومؤلف العمل الذي تم نشره مؤخرًا في التكنولوجيا الحيوية الطبيعة. يتوفر إصدار سابق من الورقة على خادم ما قبل الطباعة بيوركسيف منذ يوليو 2021 ، حيث حصل على عشرات الاقتباسات قبل نشره في مجلة تمت مراجعتها من قبل الزملاء.
قال فريزر: « إن نموذج اللغة يتعلم جوانب التطور ، لكنه يختلف عن العملية التطورية العادية ». « لدينا الآن القدرة على ضبط توليد هذه الخصائص لتأثيرات محددة. على سبيل المثال ، إنزيم قابل للحرارة بشكل لا يصدق أو يحب البيئات الحمضية أو لا يتفاعل مع البروتينات الأخرى « .
لإنشاء النموذج ، قام العلماء ببساطة بإدخال متواليات الأحماض الأمينية لـ 280 مليون بروتين مختلف من جميع الأنواع في التعلم الالي نموذج واتركه يهضم المعلومات لبضعة أسابيع. بعد ذلك ، قاموا بضبط النموذج بتجهيزه بـ 56000 تسلسل من خمس عائلات من الليزوزيم ، جنبًا إلى جنب مع بعض المعلومات السياقية حول هذه البروتينات.
أنتج النموذج بسرعة مليون تسلسل ، واختار فريق البحث 100 للاختبار ، بناءً على مدى تشابهها مع تسلسل البروتينات الطبيعية ، وكذلك مدى طبيعية « قواعد » و « دلالات » الأحماض الأمينية الأساسية لبروتينات الذكاء الاصطناعي.
من بين هذه الدفعة الأولى المكونة من 100 بروتين ، والتي تم فحصها في المختبر بواسطة Tierra Biosciences ، صنع الفريق خمسة بروتينات اصطناعية لاختبارها في الخلايا وقارن نشاطها بأنزيم موجود في بياض بيض الدجاج ، يُعرف باسم الليزوزيم بياض الدجاج. (HEWL). تم العثور على الليزوزيمات المماثلة في دموع الإنسان ، واللعاب ، والحليب ، حيث تحمي ضد البكتيريا والفطريات.
تمكن اثنان من الإنزيمات الاصطناعية من تكسير جدران الخلايا للبكتيريا بنشاط مماثل لـ HEWL ، ومع ذلك كانت متوالياتهم متطابقة بنسبة 18 ٪ فقط مع بعضها البعض. كان التسلسلان متطابقين بنسبة 90٪ و 70٪ مع أي بروتين معروف.
يمكن لطفرة واحدة فقط في بروتين طبيعي أن تجعله يتوقف عن العمل ، ولكن في جولة مختلفة من الفحص ، وجد الفريق أن الإنزيمات التي يولدها الذكاء الاصطناعي أظهرت نشاطًا حتى عندما كان أقل من 31.4٪ من تسلسلها يشبه أي بروتين طبيعي معروف.
كان الذكاء الاصطناعي قادرًا على تعلم كيفية تشكيل الإنزيمات ، وذلك ببساطة من خلال دراسة بيانات التسلسل الأولي. عند القياس باستخدام علم البلورات بالأشعة السينية ، بدت الهياكل الذرية للبروتينات الاصطناعية كما ينبغي ، على الرغم من أن التسلسلات لم تكن مثل أي شيء مرئي من قبل.
قامت Salesforce Research بتطوير ProGen في عام 2020 ، بناءً على نوع من برمجة اللغة الطبيعية التي طورها باحثوهم في الأصل لإنشاء نص باللغة الإنجليزية.
لقد عرفوا من عملهم السابق أن نظام الذكاء الاصطناعي يمكن أن يعلم نفسه القواعد النحوية ومعنى الكلمات ، إلى جانب القواعد الأساسية الأخرى التي تجعل الكتابة جيدة التكوين.
قال نيخيل نايك ، دكتوراه ، مدير أبحاث الذكاء الاصطناعي في Salesforce Research ، والمؤلف الأول للورقة: « عندما تقوم بتدريب النماذج المستندة إلى التسلسل مع الكثير من البيانات ، فهي قوية حقًا في بنية التعلم والقواعد ». « يتعلمون الكلمات التي يمكن أن تحدث ، وكذلك التكوين. »
مع البروتينات ، كانت خيارات التصميم غير محدودة تقريبًا. الليزوزيمات صغيرة مثل البروتينات ، حتى 300 أحماض أمينية. ولكن مع وجود 20 نوعًا من الأحماض الأمينية المحتملة ، يوجد عدد هائل (20300) من التوليفات الممكنة. هذا أكبر من أخذ كل البشر الذين عاشوا عبر الزمن ، مضروبًا في عدد حبات الرمل على الأرض ، مضروبًا في عدد الذرات في الكون.
بالنظر إلى الاحتمالات اللامحدودة ، من اللافت للنظر أن النموذج يمكنه بسهولة توليد إنزيمات عاملة.
قال علي مدني ، دكتوراه ، مؤسس Profluent Bio ، وهو عالم أبحاث سابق في Salesforce Research: « القدرة على توليد بروتينات وظيفية من البداية خارج الصندوق تدل على أننا ندخل في عصر جديد من تصميم البروتين ». ، والمؤلف الأول للورقة. « هذه أداة جديدة متعددة الاستخدامات متاحة لمهندسي البروتين ، ونتطلع إلى رؤية التطبيقات العلاجية. »
المرجع: « نماذج اللغات الكبيرة تولد تسلسلات بروتينية وظيفية عبر عائلات متنوعة » بقلم علي مدني ، بن كراوس ، إريك آر. جرين ، سوبو سوبرامانيان ، بنجامين بي موهر ، جيمس إم هولتون ، خوسيه لويس أولموس جونيور ، كايمنج شيونج ، زاكاري زي. .صن وريتشارد سوتشر وجيمس س.فرازر ونيخيل نايك ، 26 يناير 2023 ، التكنولوجيا الحيوية الطبيعة.
DOI: 10.1038 / s41587-022-01618-2
يرجى الاطلاع على الورقة لكاتب كامل وقائمة التمويل. قاعدة بيانات شاملة للطرق الموضحة في الورقة متاحة للجمهور على https://github.com/salesforce/progen.