בשבת לפנות בוקר נערך בטקסס קרב אגרוף בין מייק טייסון (גיבור מוערץ) לבין ג'ייק פול אקס-יוטיובר שהוסב למתאגרף. התוצאה צפויה לצערי – 30 שנות הפרש הן רמז עבה… אבל, הקרב הזה הזכיר לי שרציתי לכתוב על "דו-קרב" אחר בעל תוצאות הרבה פחות צפויות: מודלי שפה גנריים מול מודלי שפה מתמחים.
🎯 ממון רב מושקע באימון ו/או fine-tuning של מודלי שפה
בתקווה ליצור מודל מתמחה שמניב ביצועים עדיפים בעולם תוכן ספציפי. מודלים אלו מכונים DAPT (domain adaptive pretraining).
לכאורה טריוויאלי ומתבקש: מודלים שאומנו (pre trained) ו/או כויילו (fine tuned) כירורגית להתמחות בעולמות רפואה או פיננסים למשל, אמורים להניב תשובות מדויקות יותר בשימושים ייעודיים ממודל גנרי עדכני.
לכאורה.
שני מחקרים שפורסמו מטילים ספק בפרדיגמה הזאת.
💰לקסם הבא אני זקוק ל-10 מיליון $ ומודל GPT3
בלומברג – ענקית פיננסים מהמובילות בעולם – השקיעה לפני שנה+ למעלה מ-10 מיליון $ ביצירת BloombergGPT – מודל שפה ייעודי מבוסס GPT3.5 שאומן על דאטה פיננסי קנייני וציבורי.
BloombergGPT הוא מודל שפה בן 50 מיליארד פרמטרים. הוא אומן מהבסיס – משימה יקרה השמורה בד"כ לשחקנים מובילים. הוכן dataset עצום שמתבסס על מידע פיננסי שנצבר מ-40 שנות פעילות, בתוספת מאגרי מידע פיננסיים ציבוריים שיצרו גוף-ידע של למעלה מ-700 מיליארד טוקנים אותם היא זיקקה ל 50.
היעד היה שאפתני והתוצאה סמוך להשקה היתה חד-משמעית: המודל של בלומברג הציג ביצועים טובים יותר בהשוואה למודלים דוגמת GPT3.5 במשימות פיננסיות, ולתוצאות דומות או עדיפות במשימות כלליות.
אמריקה, וורסאנו. או שלא תמיד?
במחקר מקיף שהתפרסם באוק 23 נמצא שמספר חודשים מאוחר יותר – מודל GPT4 החינמי הזמין לכל מביס אותו ברוב המבדקים.
הסיפור של BloombergGPT ממחיש בצורה הכי גרפית את העקרון של "שיפור אינטרינסי אקספוננציאלי" ביכולות מודלי שפה והמשמעות הדרמטית שלו על אסטרטגיות מוצר או הצעת ערך.
⚕️האם מודלים רפואיים מתמחים בהכרח עדיפים?
חוקרים מאוניברסיטאות קרנגי-מלון וג'ון הופקינס פרסמו לאחרונה מחקר שמטיל ספק דומה בתחום הרפואי. המחקר השווה בין מספר מודלי שפה מתמחים (טקסטואלים וחזותיים) לבין מודלי הבסיס הגנריים המקבילים.
ניתן לעובדות לדבר:
⭐ מודלים מתמחים טקסטואליים
הניבו תשובות נחותות בהשוואה לאחיהם "הלא משכילים" ב 38.2% מהמבדקים, השיגו תיקו ב 49.8% מהם, והביסו את אחיהם "הגנריים" רק ב- 12.1% מהמבדקים.
⭐ המודלים החזותיים
הביסו את אחיהם הגנריים רק ב 6.3% מהמבדקים, הגיעו לתיקו ב 81.3%, והובסו ב 12.5% מהמבדקים.
📈 מחשבות ותובנות שלדעתי ראוי שכל מקבל החלטות ישקול:
⚡שיקלו להשקיע באימון או fine-tuning במקרים מאד מובחנים
דוגמאות: דאטה ייחודי ובעל משמעות דרמטית לאיכות התשובה, צורך בסמנטיקה עמוקה או רצון לנתח/לבנות גרף ידע בתחום מאד מתמחה.
⚡"פקטרו" שיפור "אבולוציוני" במוצר שלכם שנובע משיפור במודל-השפה
קצב השיפור האקספוננציאלי של מודלים גנריים מאפשר לעתים לתכנן מפת דרכים שממנפת שיפור "עצמוני" במוצר ⭐שלכם⭐ שנובע מעצם השיפור במודל הגנרי השלוב בו.
נסו שלא "לנוון" שיפור זה בגלל ארכיטקטורת שילוב/פרומפטינג קשיחה.
⚡טכניקות פרומפטינג מדויקות
(דוגמת COT , few shots) כמו גם הינדוס חכם של זרימת השימוש במודלי השפה הגנריים מוכחים כיכולים לשפר דרמטית את איכות ועקביות התשובות