גודלו העצום של GPT-3 של OpenAI מרמז על הגבולות השפה של מודלים למידת מכונה

לפני קצת יותר משנה, OpenAI, חברת אמצעי הבינה המלאכותית שממוקמת בסן פרנסיסקו, הפתיעה את העולם על ידי הצגת קפיצה מהותית ברוח נראית של מחשבים ביכולתם ליצור משפטים בשפת-האדם ואף לפתור שאלות, כמו להשלים משפט ולכתוב פסקאות ארוכות שנראו כמעט כמו אדם.

העבודה האחרונה של הצוות הזה מראה איך החשיבה של OpenAI התבגרה במספר נושאים. GPT-3, היצירה החדשה ביותר, התפשטה בשבוע שעבר, עם יותר תוספות ומכרות, שנוצרו על ידי אותם מחברים כמו הגר אלק רדפורד ואיליה סוצקבר, יחד עם מאגר עוזר בנוסף, כולל מדענים מאוניברסיטת ג'ונס הופקינס.

זהו כעת מודל שפה אדיר באמת, כפי שהוא נקרא, שאוכל את מאה הפער בטקסטים יותר מקדם.

אך בתוך התעתה "גדול יותר זה טוב יותר", נראה כי צוות OpenAI מתקרב לאמתות עמוקות אחדות, בדומה לדרך שבה ד"ר דיויד בואמן נחשף לגבולות הידוע בסוף הסרט 2001.

מסתתר במקטע המסיק של הדף הארבעים ושתיים, מודלים של שפה הם לומדים עם מספר מועט של ניסיונות, הועלה בשבוע שעבר לשרת הפרינט של arXiv, קיימת זיהוי די מרשים.

"הגבול היסודי מבחינה פונדמנטלית של הגישה הכללית שתוארה במאמר זה - להגדיל מודל דומה ל-LM, בין אם הוא אוטורגרסיבי או דו-כיווני - הוא שהוא עשוי להיתקל בסופו של דבר (או עשוי כבר להיתקל) במגבלות של מטרת ההכשרה המוקדמת," כתבו המחברים.

מה שהמחברים אומרים הוא שלבנות רשת עצבים שפשוט מנבאה סיכויי המילה הבאה בכל משפט או ביטוי יכול להיות גבולותיו. פשוט להוסיף עוד ועוד עוצמה ולהמליץ עליו עם טקסט נוסף עשוי לא לתת תוצאות טובות יותר. זהו הודאה חשובה בקרב על עקירת ההצלחה של זריקת עוצמת מחשב נוספת לפתרון של שורת בעיות.

להבין למה המסקנה של המחברים כל כך חשובה, יש לשקול איך הגענו לכאן. ההיסטוריה של העבודה של OpenAI בנושא השפה הייתה חלק מההיסטוריה של תקדים יציב של סוג אחד של גישה, עם הצלחה מתמידה יותר ככל שהטכנולוגיה התרחבה וגדלה.

ה- GPT המקורי וה-GPT-2 הם שני התאמות של מה שנקרא טרנספורמר, גירסה אשר פותחה בגוגל בשנת 2017. הטרנספורמר משתמש בפונקציה בשם תשומת הלב לחישוב ההסתברות שגודל מילה תופיע נתון מילים סובבות. המידע החדש שפיצר אוטומטי של GPT-2 לא נשפך לידי החברה לכיוון הפושעים ולכן גם לא יעלה על הנס צעיר. פערי העיר על הפרסומת של אובקיי השנה ארבע __ אמרו כי לא נשאר כח ליישום רגילים ל- HGP-2, מאחד GHG-2, למען המידע והאובד השקט פה למשל, ניסיון לשקר אוטומטי לחיטות.

המאמר החדש מביא את GPT לשלב הבא על ידי עשייתו עוד יותר גדול. הגרסה הגדולה ביותר של GPT-2, אותה לא פורסמה בצורת מקור, הייתה בעלת 1.5 מיליארד פרמטרים. GPT-3 היא בעלת 175 מיליארד פרמטרים. פרמטר הוא חישוב ברשת עצבית שמחיל חסימה גדולה או קטנה על אוסף מידע, כדי להעניש את אוסף המידע כלשהו. זהווי לאוסף המידע את אורח פעולתו הכולל על ידי המידע. דינמיקה מורכבת מאוד ונותנת לרשת העצבית "מבט" למידע.

המשקלים הגבוהים יותר לאורך הזמן הובילו לתוצאות מבחן מדהימות מידי פעם על ידי משפחת תוכניות GPT, וגם על ידי תוצאות גורמי Transforme גדולים אחרים, כמו ה-BERT של Google, תוצאות שהיו תמיד מרשימות.

התעלם מכך שהרבה אנשים הציגו שאף אחד מהמודלים הללו לא נראה ממש מבין שפה בצורה משמעותית. הם מצליחים במבחנים, וזה משמעותי.

הגרסה האחרונה מציגה שוב התקדמות כמותית. כמו GPT-2 ותוכניות אחרות מבוססות טרנספורמר, GPT-3 מתאמן על מערך המידע מאתרי הרשת, Common Crawl, קורפוס של כמעט אטריליון מילים מטקסטים שנמצאו ברחבי הרשת. "גודל המערך נתונים והמודל הם בסדר גודל של שני סדרי גודל גדולים יותר מאלה שנמצאו בשימוש לגרסת GPT-2," כתבו המחברים.

GPT-3 עם 175 מיליארד פרמטרים יכול להשיג את מה שהמחברים מתארים כ "למידת מטא". למידת מטא אומרת שהרשת העצבית של GPT אינה מתאמצת מחדש כדי לבצע משימה כמו שלימות משפט. בנתון משלם לכאורה של משלוח כגון משפט שלא הושלם, GPT-3 ימשיך להשלים כל משפט שאליו הוא מתקבל.

GPT-3 מסוגל ללמוד כיצד לבצע משימה עם פרומפ אחד בצורה טובה יותר, במקרים מסוימים, מגרסאות של מערכת המרה-המרה שנטפלו בהתאמה מיוחדת לביצוע אותה משימה בלבד. על פיכך, GPT-3 היא הצלחה של כלליות כוללת. פשוט הבקע כמות עצומה של טקסט עד שההישגים שלו מושלמים, והוא יכול להמשיך לבצע נהדר במספר משימות ספציפיות ללא פיתוח נוסף.

זו הנקודה בה הסיפור מגיע לדיוקנה המרגשת במאמר החדש. לאחר רשימה של התוצאות המרשימות של GPT-3 במשימות שפה הכוללות השלמת משפטים, הבנת החיוב המנית של משפטים, ותרגום בין שפות, המחברים מציינים את החסרונות.

"למרות השיפורים הכמותיים והאיכותיים החזקים של GPT-3, במיוחד בהשוואה לגרסה הקודמת שלה GPT-2, עדיין יש לה נקודות חולשה מובהקות."

ה Schwachpunkte beinhalten die Unfähigkeit, eine signifikante Genauigkeit bei dem zu erreichen, was als "Adversarial NLI" bezeichnet wird. NLI, oder natürliche Sprachinferenz, ist ein Test, bei dem das Programm die Beziehung zwischen zwei Sätzen bestimmen muss. Forscher von Facebook und der University of North Carolina haben eine adversarische Version eingeführt, bei der Menschen Satzpaare erstellen, die für den Computer schwer zu lösen sind.

GPT-3 עושה "מעט יותר טוב ממזל" בדברים כמו Adversarial NLI, כתבו המחברים. מאכזב מאוד, גם לאחר ששיפרו את יכולת העיבוד של המערכת ל-175 מיליארד משקלים, המחברים לא בטוחים מדי למה הם נתקעים במספר משימות.

זה כאשר הם מגיעים למסקנה, המובאת לעיל, שאולי לספק קורפוס עצום של טקסט למכונה ענקית אינו התשובה הסופית.

אפילו מרתק יותר הוא האפנה הבאה. כתבוֹת טוענות שכל ניסיון לנבא מה יקרה עם השפה עשוי להיות גישה שגויה. ייתכן שהם מתמקדים במקום הלא נכון.

"עם מטרות של עצמו־שליטה, הפיקוח על המשימה מתבצע על ידי הכרזת המשימה הרצויה כבעיה בחיזוי," הם כותבים, "בעוד שבמערכות השפה השימושיות (לדוגמה, עוזרים וירטואליים) מתאימה לחשוב עליהן כעל מערכות שמבצעות פעולות ממוקדות יעד ולא רק פיזוריות."

המחברים משאירים את זה לפעם אחרת כדי לציין כיצד הם יתקדמו בכיוון חדש ומרתק זה.

למרות ההבנה שגודל גדול עשוי לא להיות הכי טוב בסופו של דבר, התוצאות המשופרות של GPT-3 במגוון משימות יכולות להעלות את הרצון לרשתות עצבים גדולות יותר ויותר, ולא להרפות בה. ב-175 מיליארד פרמטרים, GPT-3 הוא מלך הרשתות העצביות הגדולות, לרגע זה. הצגה באפריל מאת חברת השבבים המלאכותיים Tenstorrent תיארה רשתות עצבים עתידיות עם מעל טריליון פרמטרים.

בשל חלק גדול מקהילת למידת מכונה, מודלים שפת עוצמתיים ומתרחבים יישארו מעולות.

דגם הלשון הענק GPT-3 של OpenAI מרמז על הגבולות של דגמי שפה עבור AI

כתבות קשורות