מה זו GPT-3? כל מה שעסק שלך צריך לדעת על מערכת השפה המתקדמת של OpenAI

zdnet-gpt-3-is-the-next-word-in-ai-ver-2.jpg

GPT-3 היא תכנה מחשב שנוצרה על ידי הסטארט־אפ העירונית סן פרנסיסקו של OpenAI. זו רשת עצבים ענקית, וכתוצאה מכך היא חלק מסימן הלמידה העמוקה של למידת מכונה, שהיא בעצמה ענף בתחום המדע המחשבי שידוע בשם הבינה המלאכותית או AI. התכנה היא טובה מכל תכנה קודמת ביצירת שורות טקסט שקולות לשפת אדם.

הסיבה שפריצה זו עשויה להיות שימושית לחברות היא שיש לה פוטנציאל רב לאוטומציה של משימות. GPT-3 יכולה להגיב לכל טקסט שאדם מקליד למחשב עם חלק חדש של טקסט שמתאים להקשר. הקלד משפט אנגלי מלא לתוך תיבת חיפוש, לדוגמה, ויש יותר סיכוי לקבל תשובה מרובה משפטים שגם היא רלוונטית. זאת אומרת ש-GPT-3 יכולה באופן דמיוני להגביר את המאמץ האנושי במגוון רחב של מצבים, משאלות ותשובות לשירות לקוחות ועד חיפוש מסמכים לצורך קיום דין ודיליגנס, ועד יצירת דוחות.

שים לב לדוגמה המקוצרת הבאה של מה שאדם כותב במחשב, ואיך GPT-3 שולח מבט מחדש:

Human-supplied input : שאלה: מי שיחק את טס ב"נשוקים מאלוהים"?
GPT-3-השלמה שנוצרה: A: Delloreese Patricia Early (6 ביולי 1931 - 19 בנובמבר 2017), הידועה מקצועית בשם דלה ריס

התוכנית נמצאת כרגע בטסט בעלאן פרטית, בה ניתן להירשם לרשימת המתנה. מוצעת על ידי OpenAI כ- API הנגיש דרך הענן, חברות שקיבלו גישה פיתחו יישומים מעניינים המשתמשים ביצירת טקסט על מנת לשפר תוכניות שונות, משאלות ותשובות פשוטות ועד יצירת קודים תכנותיים.

עם הפוטנציאל לאוטומציה מגיעות חסרונות רבים. GPT-3 נדרש יכולת חישובית גבוהה, מה שמונע מרוב החברות להשתמש בו בצורה במקום מקום (on-premise). הטקסט שהוא מייצר יכול להיות מרשים מהראשון, אך התרכובות ארוכות מתקרבות לחסרון כל שיות. ויש בו פוטנציאל גדול להגברת אדומים, כולל גזענות ומין.

איך עובדת GPT-3?

GPT-3 היא דוגמה למה שידוע כמודל שפה, אשר היא תוכנה סטטיסטית מסוג מיוחד. במקרה זה, נוצר כרשת עצבים.

השם GPT-3 הוא ראשי תיבות הכוללות "הכשרה מחדש יוצרת", שזו הגירסה השלישית עד כה. זה הוא מחולל כי בניגוד לרשתות עצבים אחרות שמפלטות תוצאה מספרית או תשובה כן או לא, GPT-3 יכול ליצור רצף ארוך של טקסט מקורי כפלט שלו. זה מוכשר מראש במובן שלא נבנה עם כל ידע תחום, אף על פי שהוא יכול להשלים משימות מסוימות בתחום, כגון תרגום לשפה זרה.

דגם שפה, במקרה של GPT-3, הוא תוכנה שמחשבת כמה סביר שתהיה הופעת מילה אחת בטקסט בהתאם למילים האחרות בטקסט. זו היא מה שנקרא כמות ההסתברות התנאית של מילים.

לדוגמה, במשפט "רציתי להכין עומלט, אז הלכתי למקרר ושלף קצת ____", הרווח יכול להתמלא בכל מילה כלשהי, אפילו מילים בלתי נושאות, בשל האינסוף של היכולת הרכבתית של השפה. אך המילה "ביצים" סבירה מאוד לקבל את המקום ברווח זה ברוב הטקסטים הרגילים, בדיוק יותר מאשר "פילים". אנו אומרים כי הסבירות של ביצים בהתאם לטקסט ניתן סימון גבוהה יותר מסבירות של פילים.

תמונת-הופעה-של-טיסה-היוונית-של-2017

כאשר הרשת העצבית מתפתחת, מוזן ל-GPT-3 מיליונים ומיליונים של דוגמאות טקסט והיא ממירה מילים למה שנקרא וקטורים, מייצגי מספרים. זהו סוג של דחיסת מידע. לאחר מכן, התוכנה מנסה לפתור את הטקסט הזודם בחזרה למשפט תקף. משימת הדחיסה והפמצון מפתחת את הדיוק של התוכנה בחישוב ההסתברות המותנית של מילים.

פעם שהמודל הוכשר, שכלומר, החישובים שלו על ההסתברות התנהגותית על מאות מיליארדים של מילים הפכו להיות כמה שיותר מדויקים, אז יכול לחזות אילו מילים יבואו לאחר מכן כאשר אדם מקליד מילה או מילים ראשוניות. הפעולה הזאת של חיזוי ידועה בלמידת מכונה כהיסק.

זה מוביל לאפקט-מראה מופלא. לא רק מתגלים מילים סבירות, אלא גם את הטקסטורה והסגנון של ז'אנר או מבנה של משימה כתובה, כמו לדוגמה סטים של שאלות-תשובות, מתבצעים שוב. לכן, לדוגמה, ניתן להזין ל GPT-3 כמה שמות של משוררים מפורסמים ודגמים מתוך יצירתם, ואז להזין את שם המשורר השני ורק כותרת של שיר מדומה, ו- GPT-3 ייצור שיר חדש בדרך המתאימה לסוף ולתחביר המשורר שלגביו התבצעה הזרזה.

שקול את הדוגמה הבאה של GPT-3 שיוצר קובץ מאפס שדומה ליצירתו של Wallace Stevens, לאחר קבלת כותרות, שמות ודוגמאות של משוררים אחרים ויצירותם:

קלט שסופק על ידי אדם: העיר מאת ק.פ. קבפה, מתוך תרגום אדמונד קילי [טקסט השיר נמוחק]
קלט מאדם: כמה עצים ג'ון אשברי [הטקסט של השיר התעלם]
הכניסה המסומנת באדם: צללים בדרך, וולאס סטיבנס
GPT-3-generated completion : -------- יצירת שיר 1 --------   חייב להיות לי צללים בדרך  אם אני ארצה ללכת חייב   כל צעד לקחת בביטחה ובדידות  כדי שיהיה כבר מוכן    ואני חייב לחשוב בשורות אפלות  כדי שיהיו לי מחשבות מואפלות שיהיו המדריך שלי  חייב להסתכל על כחול וירוק   ולעולם לא לתת לעין שלי לשכוח   כי הצבע הוא החבר שלי  וצריך שאפור יסובב אותי גם   הצהוב של השמש כבר לא יתועד  מהתוך השלגי הכחול שיורד עלינו כולם. חייב להיות לי   מחשבות אפלות ומחשבות כחולות שילכו איתי   אם אני רוצה ללכת בכלל.

יצירת תשובה מסמנת ש-GPT-3 יכול להתקדם הרבה מעבר להפקת כתיבה בסיסית. הוא יכול לבצע מבחנים מגוונים עם בדיקות חשיבה שכוללות תשובה בשפה טבעית. לדוגמה, אם GPT-3 מתקבלת גיבוי ששמו "מנהטן זולה," ושאלה ששואלת "נכון או שגוי?", התשובה שתתקבל מ-GPT-3 לפומב כולו היא המילה "שגוי," מכיוון שהצהרת הערך שלא תואמת לדעת המובעת שבמאמר.

Human-supplied input : המגמה להורדת שכר הדירות עשויה להראות מופתעת בהתחשב לעובדות שיש מקומות מסוימים בניו יורק שמתבכים על אובדן העסקים המקומיים המועדפים בשל שכר הדירות הגבוה. אך למרות הרפיה אחרונה, לעסקים אלו יש עדיין מדי קפיצה מדי שכר הדירה משנות ה70 שהיו חתומים ההסכמים שלהם. כמובן, ההורדה האחרונה במחירים אינה אומרת שמנהטן היא עיר זולה.
תשובת האדם: שאלה: מנהטן זולה. נכון, לא נכון, או לא ברור?
:תשובה נכנסת: 
GPT-3 לֹא הסתיים : שֶׁקֶר

GPT-3's יכולת להגיב בדרך עם משימה דומהלטופסים אליה לא נחשפה לפני כן, הופכת אותו לדגם שכמות מעטת יכול ללמד אותו בקשה שקטה לעשות. במקום להתאמן במיוחד על משימה ספציפית, GPT-3 כבר מכיר מידע רב על הדרכים הרבות שבהן מילים משולבות, עם זאת תוכל לקבל רק מספר דוגמאות מקוממיות של משימה ולהתאמן במהלך שלמות דקה, ובכך לרכוש יכולת לבצע גם את המשימה החדשה הזאת.

תיאור-פתרון-בעזרת-שטחים-מועטים-GPT-3.jpg

היכולת לשקף סגנונות שפתיים טבעיים ולקבל ציון יחסית גבוה במבחנים הנבנים בעזרת שפה יכולה ליצור את הרושם ש-GPT-3 מתקרבת ליכולת אנושית בדמות שפתית. כפי שנראה, זה לא המצב.

ניתן למצוא פרטים טכניים נוספים במאמר הפורמלי של GPT-3 שפורסם על ידי מדענים של OpenAI.

מה יכול GPT-3 לעשות?

OpenAI הפך כעת כמונו בראשית -- או שמונף -- למעשה על מתודות השחרור של הקוד בנוסף לקוד עצמו. כאשר החברה חשפה GPT-2, הקוד הקודם, ביום האהובים של 2019, מתחילה לא הייתה משיקה גירסה המסוגלת ביותר לציבור, ואמרה שזה מסוכן מדי לשחררו למרחב הפתיחה בגלל הסיכון של ייצור מרובה טקסט שגוי ומבלבל. OpenAI מאז גם הציעו להורדה.

הפעם הזו, איי-פתוח לא מספקת אפשרויות הורדה. במקום זאת, היא הפעילה נקודת גישה ל-API בענן, מה שהופך את GPT-3 לשירות דרך הענן. (חשוב לחשוב על זה כ-LMaaS - היכולת להשתמש בשירות מודל שפה כשירות.) הסיבה לכך, לטענת OpenAI, היא כמעט כפי שהוגבל השימוש ב-GPT-3 על ידי גורמים רעים וגם להרוויח כסף.

אין "כפתור ביטול" עם קוד פתוח, "הגידו בOpenAI ל-ZDNet דרך נציג מדובר."

"שחרור GPT-3 באמצעות API מאפשר לנו לשלוט בשימוש בצורה בטוחה ולבטל גישה אם יש צורך."

בינתיים, שירות ה-API של OpenAI מוגבל לצדדים מאושרים ויש רשימת המתנה שניתן להצטרף אליה כדי לקבל גישה.

"כרגע, ה- API נמצא בביתת בטא מוגבלת עם מספר קטן של מפתחים שמגישים רעיון למשהו שהם רוצים להביא לייצור באמצעות ה- API," אמר OpenAI ל- ZDNet.

גם: מגרסה מוגבלת של מחולל טקסט AI המיקרוסופט 'מסוכן' זמינה: אנשים מוצאים את המילים 'משכנעות'

קיימים דוגמאות מעניינות למה שניתן לעשות מחברות בתוכנית הבטא. Sapling, חברה שמוצאת תמיכה מקרן הון סיכון Y Combinator, מציעה תוכנה שחושבת על גבי תוכנה לניהול קשרי לקוחות (CRM). כאשר נציג שירות לקוחות מתמודד עם בקשת עזרה נכנסת, למשל, באמצעות דוא"ל, התוכנה משתמשת ב-GPT-3 כדי להציע משפט שלם כתשובה מתוך התשובות הכי סבירות.

התמונה מתארת שירות לקוחות באמצעות GPT-3

היוצר של המשחקים לטיטיוד משתמש ב-GPT-3 כדי לשפר את משחק הרפתקאות המבוסס טקסט, AI Dungeon. רגיל, משחק כזה יחייב עץ החלטות מורכב לתכנת דרכים אפשריות רבות במשחק. במקום זאת, GPT-3 יכול ליצור באופן דינמי מצב משחק משתנה בתגובה לפעולות המשתמשים שהם מקלידים.

latitude-gpt-3-in-ai-dungeon.jpg

כבר, אוטומציה של משימות מתקדמת להיות מעבר לשפת הטבע ליצירת קוד מחשב. קוד הוא שפה, ו-GPT-3 יכול לשער את התחביר הכמעט וודאי של המפעילים והמפרנדים בשפות תכנות שונות, ויכול ליצור רצפים שיכולים להתמצא בהם בהצלחה

דוגמה מוקדמת התמלאה בכמויות על ידי הרשתות החברתיות טוויטר, מסטארטאפ בשם Debuild המתמחה בפיתוח יישומים. מנכ"ל החברה, שריף שאמים, הצליח לבנות תכנתון שבו תכתב תיאור שולי של ממשק משתמש באנגלית פשוטה, ו-GPT-3 מגיב עם קוד מחשב בשפת JSX, סיינטקס תבנית לג'אווהסקריפט. הקוד מייצר ממשק משתמש התואם את התיאור שלך.

זה מדהים. עם GPT-3, בניתי מחולל תצורות שבו אתה פשוט מתאר כל תצורה שאתה רוצה, והוא מפיק את קוד ה-JSX עבורך. W H A T pic.twitter.com/w8JkrZO4lk

— Sharif Shameem (@sharifshameem) 13 ביולי 2020

שאמים הראה שעל ידי תיאור ממשק משתמש עם מספר לחצנים, עם משפט יחיד הוא יכול לתאר את תכנית כולה, אפילו תכנית פשוטה כמו חישוב בסיסי והצגת התוצאה, ו-GPT-3 יכול ליצור את כל הקוד עבורה ולהציג את היישום הפועל.

רק בניתי אפליקציה ב-React שפעילה על ידי תאור מה שרציתי ל-GPT-3. אני עדיין מופלא.

- שריף שמעם (@sharifshameem) 17 ביולי 2020

OpenAI קיבלה "עשרות אלפי בקשות לגישה ל- API עד כה, ואנחנו מתייחסים בזהירות לגישה כפי שאנחנו לומדים מה דברים האלו יכולים לעשות בעולם האמיתי", מספרת החברה ל ZDNet. "עקוב לרשימת הממתינים עשויה להיות ארוכה."

המחירים עבור שירות מסחרי סופי ייקבעו עדיין. לגבי מתי התוכנית תצא מתוך מצב בטא, OpenAI אף אמרה ל-ZDNet, "לא בזמן הקרוב."

"שחרור מודל כה יעיל מחייבים מאיתנו תהליך איטי ומחושב כאשר מדובר בהשפעתו על עסקים, תעשיות ואנשים", אמרה החברה. "הפורמט של API מאפשר לנו ללמוד ולהסתכל בשימושים שלו בצורה נאותה, אך אנחנו לא ממהרים להפוך אותו לזמין באופן כללי, לקריאת התאמה".

אם אתה אינך מסוגל להמתין לרשימת המתנה של גרסה בטא, בינתיים תוכל להוריד את הגרסה הקודמת, GPT-2, הניתנת להרצה על מחשב נייד באמצעות התקנה של דוקר. קוד המקור פורסם באותה תיקיית Github, בפורמט Python עבור המערכת TensorFlow. כמובן שאתה לא תקבל את אותם תוצאות כמו ב- GPT-3, אבל זו אופציה להתחיל להכיר את המערכת.

גם כך, מודלים של שפה חדשים ביכולות דומות מופיעים כל הזמן וכמה מהם עשויים להיות מספיקים לצרכים שלך. לדוגמה, לאחרונה הוציאה גוגל גרסה של הדגם השפתי שלה, שנקרא LaBSE, שמראה שיפור מוחשי בתרגום שפה. הדגם זמין להורדה ממרכז TensorFlow Hub של גוגל.

גם: ג'י-פי-טי-3 העצום של אופן איי מרמז על הגבולות של מודלים שפתיים עבור AI

מהו ההיסטוריה של GPT-3?

GPT-3, שישוב במאי, הוא הגרסה השלישית של תוכנית שהוצגה לראשונה ב-2018 על ידי OpenAI והלכה אחריה בשנה שעברה GPT-2. שלושת התוכניות הן מדגם לחדירה מהירה בתחום הדגמי שפה, בזכות שני התקדמויות גדולות, שקרו באותו הקיץ, 2015.

ההתקדמות הראשונה הייתה בשימוש במה שנקרא תשומת לב. חוקר המדענים יושוע בנגיו וצוותו במכון האינטיליגנציה המלכודשת של מונטריאול שם לב ששפות מודלים כאשר הם דחסו משפט באנגלית ואז פיצלו אותו, השתמשו כולם בווקטור באורך קבוע. כל משפט הוזרק לווקטור באותו אורך, בין סגנון ואורך המשפט.

Bengio וצוותו הסיקו כי הגישה המוקשטת הזו הייתה שסתום דרך. דגם של שפה צריך להיות מסוגל לחפש במגוון של וקטורים באורכים שונים על מנת למצוא את המילים שממקסמות את ההסתברות המותנית. ולכן הם מצאו דרך לאפשר לרשת העצבית לדחוס מילים בגמישות לתוך וקטורים בגדלים שונים, וגם לאפשר לתוכנה לחפש בגמישות את ההקשר שיהיה חשוב. הם קראו לכך תשומת לב.

שימוש בלתי רגיל נהפך לרכיב מרכזי במודלי שפה. שנתיים מאוחר יותר, חוקרים בגוגל השתמשו בשיטת השקעה כדי ליצור את תוכנית המודל השפתי הנקרא המבריק. המבריק קיבל ציונים מדהימים במבחני התעתקות השפה. הוא הפך למודל השפתי הסטנדרטי ונעשה בו שימוש על ידי גוגל כדי ליצור את המודל השפתי המצולח הבא, ה-BERT. המבריק התה גם לבסיס ה-GPT-1.

google-transformer-architecture-2017.jpg

משוחרר מצורך לנהל מניפולציה מוחלטת של מישור קבוע בתוך הטקסט, הטרנספורמר ודורשיו יכולים לנוע בכל חלקי הטקסט המתויחד ולמצוא תלות מותנית שתושתת תוך כדי קונטקסט הרבה יותר רחב.

החירות הזו הכינה את הבמה להמצאה נוספת שהגיעה בשנת 2015 ושהייתה עוד יותר מרכזית לעבודת OpenAI, ידועה כלמידה לא מודרכת.

המוקד עד אותו זמן עבור רוב הדגמים של שפה היה בלמידה מבוצעת על ידי נראות מתווה עם מה שנקרא לו נתונים מתוות. מתחת לקלעים שלרוב בוכנו רשימה בני אנוש באופן אובייקטיבי כמו תשובה. לכן, אם המשימה היא תרגום, משפט באנגלית יכול להיות כניסה ו תרגום ברשות בני אנוש בצרפתית כמו יעד רצוי, והזוג של המשפטים מהווים דוגמה נתווית.

Lנסיון רשת העצבים ליצור תרגום בצרפתית יישווה לשם המשפט הרשמי בצרפתית, וההבדל ביניהם הוא כמה טעות עושה רשת העצבים בחיזוייה, מה שידוע כפונקציית ההפסד או פונקציית המטרה.

השלב האימון מיועד לסגור את התהליך של שגיאה בין הפלט המוצע של הרשת העצבים לפלט היעד. כאשר השגרה היא כקטנה ככל שאפשר, הפונקציה המטרה הוסמכה והרשת העצבית של הדגמה במודל שפה נחשבת למאומנת.

אך לקבלת הפלט הרצוי היכול להיות חידוש חשוב מאוד מאחר וזה מחייב המון קורות חיים של מידע, כגון קיבוץ זוגות משפט דוגמתיים על ידי שיקול דעת אנושי, דבר שדורש הוצאת זמן רב ומשאבים. אנדרו דאי וקואק לה מחברת גוגל העלו השערה שהיה ניתן להפחית את הנתונים המסומנים הנדרשים אם המודל של השפה הורם בדרך לא מודרכת תחילה.

במקום לקבל זוג משפטים, הרשת קיבלה רק משפטים יחידים והייתה צריכה לדחוס כל אחד מהם לוקטור ולפענח כל אחד מהם בחזרה למשפט המקורי. הלקיחה היא פונקציית ההפסד שנבחרה לשפר. מצאו כי ככל שמספר הדוגמאות שאין להן תוויות יותר נדחפות ונפענחות בדרך זו, אפשר להחליף יותר מידע מתוויות על משימות כמו תרגום.

בשנת 2018, צוות OpenAI שילב את שני האלמנטים הללו, מנגנון התשומת הלב שפיתחו בנג'יו ועמיתיו, שידלק על מספר רב של וקטורים מילה, והגישה להדרכה לא מופנת של דאי ולה שתצר אמורים של טקסט, יכולת לדחוסו ולפתוחו לשחזר את הטקסט המקורי.

הם לקחו מהם טרנספורמר רגיל והזינו לו את תוכן מסד הנתונים BookCorpus, מסד הנתונים שנאסף על ידי האוניברסיטה של טורונטו וMIT וכולל מעל 7,000 טקסטים של ספרים פורסמו בסך הכול כמעט מיליון מילים בגודל של 5 ג'יגה-בייט. GPT-1 כונן לצורך דחיסה ופתיחה מחדש של הספרים האלה.

כך התחילה היסטוריה של שלוש שנים עם קבצי נתונים גדולים וגדולים יותר. החוקרים של OpenAI, שהעלימו השנאה שהמספר המרבי של נתונים יכול להוביל לדיוק גבוה יותר, דחפו את הגבולות של מה שהתוכנה יכולה לספוג. עם GPT-2, הם זרקו לצד את קובץ הנתונים של BookCorpus לטובת קובץ נתונים שפותח בבית, אשר מורכב מ-8 מיליון עמודי אינטרנט שנשלטו מלינקים יוצאים מ-Reddit, בסך הכול 40GB של נתונים.

אימון של GPT-3 עדיין גדול יותר, וכולל את מערך הנתונים הנפוץ של CommonCrawl של עמודי האינטרנט בין השנים 2016 ל-2019. נחשב שהוא בערך 45TB של נתוני טקסט מדוחסים, אך OpenAI ערכה את הנתונים כדי להסיר כפילויות ולשפר את האיכות. הגרסה הסופית היא 570GB של נתונים. OpenAI הוסיפו גם מספר מערכי נתונים נוספים מסוגים שונים, כולל נתונים מספריים.

כיצד תלוי GPT-3 בעוצמת החישוב?

עם הגעת GPT-1, 2 ו-3, התפשט מחדש של המחשב נהפך לרכיב חיוני להתקדמות. המודלים משתמשים בעוצמת המחשב על פי כל הזמן על ידי השתלמותם ושיפור תוצאותיהם.

מה שמקנה לרשת עצבים אופטימון במהלך האימון הוא כיוונון המשקלים שלה. המשקלים, הנקראים גם פרמטרים, הם מטריצות, מערכי שורות ועמודות שבהן כל וקטור כופל. באמצעות כפל, הן עוברות על וקטורים רבים של מילים או חתכי מילים, ויתנו עדיפות גבוהה או נמוכה יותר בתוצאה הסופית כפי שהרשת העצבים מתכוונת לסגור את הפער בשגיאה.

OpenAI מצאו כי כדי להצליח על מערכת הנתונים הגדלים במיד increasing שלהם, הם היו צריכים להוסיף עוד ועוד משקלים.

הטרנספורמר המקורי של Google כלל 110 מיליון משקלים. GPT-1 עקב אחרי עיצוב זה. עם GPT-2, המספר הועפה ל-1.5 מיליארד משקלים. עם GPT-3, מספר הפרמטרים התפרץ ל-175 מיליארד, הופכת את GPT-3 לרשת העצבים הגדולה ביותר שהעולם ראה מעולם.

הכפל הוא דבר פשוט, אך כשעלינו לכפול 175 מיליארד משקלים על ידי כל ביט של נתוני הקלט, במערכת של מיליארדים של בתים של נתונים, זה מתפתח לאימון לא יאומן בעיבוד מחשבים מקביליים.

openai-compute-used-in-training-gpt-3-versus-others.jpg

כבר עם GPT-1, בשנת 2018, חברת OpenAI הייתה משגת בגבולות של חישובים מעשיים. הוספת מידע משמעה הוספת יחידות עיבוד גרפיות (GPUs). מודלי השפה הקודמים התאימו ל-GPU בודדת מכיוון שהמודלים עצמם היו קטנים. על GPT-1 לקח חודש לאימון על שמונה GPUs פועלות במקביל.

עם GPT-3, OpenAI הייתה קצת צפונה. היא לא תיארה את תצורת המחשב המדויקת שנעשתה בה האימון, למעט לציין כי היה על קבוצת שבבים Nvidia V100 המריצה במערכת Microsoft Azure. החברה תיארה את מחזורי החישוב הכוללים, והציגה כי הם שווים להרצת אלף טריליון פעולות עשרוניות מדי שנייה ביום במשך 3640 ימים.

למדי המחשוב והענן למבדילו כי על כרטיס מסך אחד ייתכן שיקח לך 355 שנה כדי להפעיל מחשוב בכמות זו, ועל פי מחיר רגיל של כרטיס מסך בענן, שימורך על כך יעלה 4.6 מיליון דולר. ואז יש את הזיכרון. כדי לאחסן את כל ערכי המשקל דרושים זיכרון גדול יותר ויותר ככל שמספר הפרמטרים גדל. בפרמטרים של GPT-3 בכמות של 175 מיליארד נדרשות 700GB, פי 10 יותר מהזיכרון שבכרטיס מסך אחד.

זו המין של צורך בכוח עצום הוא שמניע את תחום צ'יפי המחשב. זה גרם למחיר מניות החברה Nvidia , ספקת מעבדי מקור גרפיות מובילה לאימון של AI להתרוממות במעל 5,000% במהלך העשור האחרון. זה ירם דגל לאי נצחי של חברות קומץ שקיבלו מימון של מאות מיליוני דולרים בהון סיכון מול קרנות השקעה, כולל "סירברס סיסטמס", "גרפקור" ו"טאצ'יום". התחרות תמשיך לפרוח כל עוד לבנות מודלים גדולים יותר ויותר נמצא במסלול הדיוק.

OpenAI ייצרה מחקר משלה על צורך העצום בכוח המחשב הנדרש. החברה הביאה לשימוע כבר ב-2018 שמדובר במכפלה של 2 במשך 3.4 חודשים בצריבת מחזורי הקימות המרכזיים לדגמי לימוד עמוק, המהווים קצב התרחבות מהיר יותר מהחוק הידוע של מור על צמיחת הטרנזיטורים בשבבים. (רק על ידי הערכה, החברה הפכה גם מחקר המראה כי בחישוב מונה, הדגמים הגדולים יותר מאודדים להיות יעילים יותר מרשתות ניוורונים קודמות שביצעו את אותה העבודה.)

כבר כיום, דגמים מובנים הם במתקן פיתוח בו נמצאים למעלה מטריליון פרמטרים, כפי שהוזכר לחברות במידע סודי אודות פרויקטים באינטיליגנציה מלאכותית. כך נראה שלהיות גודל זה לא גבול, כל עוד חברות בגודל היפר-סקייל כמו גוגל מוכנות להקדיש עשרות מרכזי הנתונים המענקות לדגמים מרכזיים עוצמתיים ומתמידים. רוב המומחים בתחום הבינה מלאכותית מסכימים כי גודלם הגדול והגדול עוד תהיה התמודדות מקובלת בתחום דגמים למידת מכונה בעתיד.

tenstorrent-scaling-to-giant-models-2020.jpg

"מבחינת ההשפעה על הלמידת מכונה כשדה מחקר, החלק המרגש ביותר בנוגע ל-GPT-3 הוא שהוא מראה כי אנחנו עדיין לא הגענו לגבולות התפתחותה של הלמידת מכונה", אמר קני דניאל, ה'ט'כני של מוכר כלי ניהול אינטיליגנציה מלאכותית Algorithmia, לZDNet.

בנוסף לשיפור שימוש בחישוב, ההשפעה הגדולה של GPT-3 תהיה כיצד היא מאיצה באופן כללי את התכנון ופיתוח היישומים. ההדגמה של שמים בתוכנית JSX שנבנתה בפשטות רק על ידי קלידת פרט, היא רק קצה הקרח.

מהם החסרונות של GPT-3?

למרות השיפור התמורסף מהגרסה הקודמת, ל-GPT-3 יש המון מגבלות, כפי שהמחברים עצמם מציינים. "למרות שכולו בסך הכל װאיכותי, יידוייות ב-GPT-3 מחזיקות בתוכן שמן ברמה המסמכתית, שיכולות להתחיל לאבד תיאום בעברונים ממושכים מדי", הם מתעטפים במאמר המתפרסם.

התוכנית גם נכשלת בביצוע היטב במספר מבחנים פרטיים. "במדויק, גם ל-GPT-3 יש קושי עם שאלות מסוג 'אם אני שמה גבינה במקרר, האם זה ימס?' כתבו המחברים, מתארים את סוג הדברים השגרתיים שמחקים מ-GPT-3."

הייתה הרבה תלהבות לשעבר לאחר ש-GPT-3 יצא לפועל שבעל החברה, סאם אלטמן, הזהיר בצורה פומבית אנשים לצמצם את התלהבותם.

"ההתלהבות מ-GPT-3 היא יותר מדי," כתב אלטמן בציוץ ב-19 ביולי. "זה מרשים (תודה על המחמאות החמות!) אבל עדיין יש לו נקודות חולשה רבות ולפעמים עושה טעויות מגוחכות מאוד," כתב. "ההבנה המלאה שלנו בתחום עדיין לא מושלמת, אף שהבינו כי המאבק ישנה את עולמנו," הוא כתב. "אף על פי כן, GPT-3 היא סתם הצצה מוקדמת מאוד. יש לנו עוד הרבה ללמוד."

ההתלהבות מ-GPT-3 היא יתרה מדי. זה מרשים (תודה על השבחים הנחמדים!) אבל לקיים לו עדיין נורות אדומות ולפעמים הוא עושה טעויות מגוחכות מאוד. AI מתכוונת לשנות את העולם, אבל GPT-3 הוא פשוט סקירה מוקדמת מאוד. עדיין יש לנו הרבה לגלות.

– סאם אלטמן (@sama) 19 ביולי 2020

אחרים מחוץ ל-OpenAI הציעו בדיקת מציאות שלהם. משתמש מנוסה במספר דורות של GPT, מקס וולף, כתב בבלוג האישי שלו ש-GPT-3 טוב יותר ממה שהיה לפניו, אבל רק בממוצע. יש ספקטרום של איכות בטקסט המיוצר כך שכמה דוגמאות נראות מדהימות, ואחרות לא טובות בכלל. וולף מקשר את GPT-3 ל-Siri של Apple, שיש לה הרגל מטריד להפיק דברים זבל במקרים רבים. (המאמר של וולף מגיע חפיפה לקריאה מקוונת מלאה עם חילוץ משוקלל של GPT-3.)

באמת, ככל שמישהו קורא דוגמאות נוספות של GPT-3, במיוחד מקטעים ארוכים, ייתכן שתחושת ההתלהבות הראשונה תחלש. GPT-3 במקטעים ארוכים מתקשה לשמור על הקשר, כמו שאומרים. בעתיד או כל תחום שהוא, הפלט הטקסטואלי שלו מתחיל להימנע מהגבולות ומתעמיס עם דיכויים מסוימים בניב הנרטיב.

כמה מתכנתים, למרות התלהבותם, קטלוגו את החסרונות הרבים, דברים כמו הניסיונות הנכשלים של GPT-3 להומורים בסגנון סבא. בהקלדת הכנה לסרטון בסגנון סבא כמו "מה אמרה הצלחת לצלחת השנייה?", הסיבוב הנכון לתשובה בסגנון סבא הוא "הערב הוא עלי!". אך GPT-3 עשוי להגיב במקום זאת בדברים לא מצחיקים כמו "טבלי אותי!"

א. מה אמרה צלחת לצלחת השנייה?
GPT-3-generated completion : א. טבוע אותי!

בעוד ש-GPT-3 יכול לענות על שאלות נשענות על הגיון, כמו כמה עיניים יש לגירף, הוא אינו מסוגל להתעלם משאלה אידיוטית והוא מובל להציע תשובה אידיוטית. כשנשאל, "כמה עיניים יש לרגל שלי?," הוא יענה בנאמנות, "לרגל שלי יש שתי עינים."

דרך אחת לחשוב על כל המצויות הרגילות היא שקבלת תוצאות טובות מ-GPT-3 דורשת למדינה מסוימת השקעה ביצירת הכוונות יעילות. כמה הכוונות שנוצרו על ידי בני אדם תהיינה מנצלות את התוכנה לתוצאות טובות יותר מכמה כוונות אחרות. זוהי גרסה חדשה של האמירה "זבל בפנים, זבל בחוץ". כוונות נראות כאילו הן עשויות להפוך לדומיין תכנות חדש בתוך עצמן, דורשות מברק ומקצוענות.

הדעות הקדומות הן על מנת לתת לג'י.פי.טי-3 ולכל התוכניות שמתבססות על התפלגות תנאית את הקשידות הבאות עם התחשבנות באיזון. הגישה הבסיסית של התוכנה היא להחזיר בדיוק את מה שמכניסים אליה, כמו מראה. יש לכך את הפוטנציאל לשכפל את הקשידות שבנתונים. כבר שוחחו בהמון זיכרון על הקשידות הרחבה ב-GPT-2.

תמונת 88f8a224-9f13-46c8-9623-15982567f6ed.jpg

עם GPT-3, מדענית AI של Nvidia, אנימה אננדקומאר, הצטערה על הטיפות של מגמה ליצור תוצאות מטופשות, כולל תוצאות גזעניות ומיניות, שממשיכה.

אני מוטרד לראות שהתפרסם זאת בלעדי עם אף אחריות על הדעות המוטה. טיפלתי בזה במאגר הנתונים של @reddit בתוך גזרה עצומה של #גזענות ו-#מיניות. עבדתי עם מודלים אלה והטקסט שהם הפיקו הוא חסר תקדים. @alexisohanian @OpenAI https://t.co/R8TU1AeYZd

— פרופ. אנימה אננדקומאר (@AnimaAnandkumar) 11 ביוני 2020

שאלו ל-OpenAI על הביקורת של אננדקומר, והם סיפרו ל ZDNet: "כמובן שכשמדובר על מודלים יצירתיים עוצמתיים במידה מעולה, גישה צודקת ושימוש לא הוגן הם דיאזתים שלנו."

"זו הסיבה שאנחנו משתפים את הטכנולוגיה הזו דרך API ומשיקים את הביתה הסגורה בתחילה," סופר OpenAI ל־ZDNet. החברה מציינת כי היא "לא תתמוך בשימושים שנחשבים כגורמים לנזק פיזי או נזק מנטלי לאנשים, כולל, אך לא מוגבל להטרדה, הטעיית מכוון, רדיקליזציה, אסטרוטרף, או ספאם."

OpenAI אמר ל-ZDNet שהחברה משתמשת בסוג ידוע של מלחמת הכובע הלבן והשחור לזיהוי מסוכנות בתוכנית:

אנחנו הצלחנו לפרוש צוות "אדום" שמטופל בשבירה תמידית של מערכת הסינון של תוכן כדי שנוכל ללמוד עוד על איך ולמה המודל מחזיר פלטים רעים. השלישייה הנוספת היא הצוות "כחול" שמטופל במדידה ובהפחתת ההטיות.

עוד בעיה גדולה היא טבעה הרחב, הקטע הכי נחוץ, של GPT-3, העובדה שהוא מבצע חיזוק רק של חלקו השמן ביותר של העקומה של ההסתברות התנאית. יש כמו שקוראים לזה הזנה ארוכה, ולפעמים זנה שמנה, של חלוקת ההסתברות. אלה הם מקרים פחות נפוצים אשר עשויים להוות את הדוגמאות המובחרות ביותר של שימוש בשפה. התמקדות בהעתקת הטקסט הכי נפוץ בחברה עשויה לגרום להדחיק החוצה יצירתיות וחקירה.

לרגע זה, תשובת OpenAI לבעיה הזו היא הגדרה שאפשר להתאים ב-GPT-3 בעזרת ערך של טמפרטורה. לשחק עם הקפיץ הזה יכול להגדיר את GPT-3 כך שיבחר בשילובי מילים פחות סבירים יותר, ולכן לייצר טקסט שאולי יותר לא מתנהג כמו הרגיל.

דאגה נוספת עבור עסק היא שלא ניתן להתאים את GPT-3 עם נתונים ספציפיים לחברה. ללא אפשרות להתאים כלום, קשה להתמחות ב- GPT-3 עבור תחום תעשייתי, למשל. ייתכן כי כל חברה המשתמשת בשירות ה- API מסתיימת עם טקסט שידרש לעבודה נוספת על מנת להיות רלוונטי לתחום. אולי חברות סטארט-אפ כמו Sapling ייצרו אקוסיסטמה, שיועצו כפרקטים עצמאיים (VARs), על מנת לפתור את הבעיה הזו. אולי, אך עד שנראה.

אם זה לא מספיק מדאיג, קיים גם שאלה נוספת, והיא שכשיר השירות של GPT-3 הוא קופסה שחורה. מה שפירושו שחברות שמעוניינות להשתמש בשירות אין להן מושג איך האלגוריתם מגיע לפלט שלו -- פרוספקט די סבוך במיוחד כאשר מדובר בעניינים של גיבוש דעות. סביבה של צדדים כמו Sapling שמשפרים את GPT-3 עשוייה להוסיף שכבות נוספות של אובסקור עם השפעה בו זמנית על השירות.

כתת קטע של נושא תיבת השחורה, GPT-3 לעיתים פשוט יכולה לשמור בזיכרון את מה שהיא ספגה מהאינטרנט. זה מעלה עניינים של זכויות יוצרים. אם חברה לוקחת פלט משירות ה- API המכיל חומר יוצר מוגן זכויות יוצרים, היא עלולה להפר זכויות יוצרים של ישות אחרת. כשנשאלו על זכויות יוצרים, OpenAI סיפרה ל ZDNet שזכויות היוצרים לטקסט שנוצר על ידי GPT-3 "שייכות למשתמש ולא ל- OpenAI". מה שזה אומר במעשה נותר לנראות.

כרגע, החסרון המעשי הגדול ביותר הוא הגודל הנדרש כדי להכשיר ולהפעיל את GPT-3. OpenAI מכירים את הענין במאמר הרשמי. המחברים כותבים שיש צורך בעבודה לחשב איך מחיר המודלים הגדולים מופקע לאורך הזמן בהתבסס על ערך התוצרת היוצאת.

גם: לא, הלימוד העמוק של המתקן הזה אינו מסוגל לסיים את המשפט שלך

האם GPT-3 באמת לומד?

בשימוש במובן הצר של המילה, GPT-3 מתעדכן במובן שהמשקלים של הפרמטרים שלו נכונים באופן אוטומטי על ידי ספיגת נתוני האימון, כך שהמודל השפה משתפר מעבר לתכנות המפורש שלו בלבד. במובן הזה, GPT-3 הוא צעד קדימה במסע הארוך של עשרות השנים למחשב שיכול ללמוד פונקציה שתמיר נתונים ללא קידוד מפורש של הפונקציה הזו על ידי אדם.

מובן זאת, יוכל אדם לשאול אם המכונה באמת מוכנה או מוכנה ללמוד. יש הרבה דרכים לדון בנושא זה, אבל התבוננות בהתנהגות רגילה מרמזת על כך שהרוב ממה שאנחנו יכולים לקרוא לחשיבה אנושית אינו מתרחש כאן.

שקול אם באפשרותך לשמור במוחך ציון מספרי לכמה מילים ייתכן להופיע זו לצד זו. האם תגיד שיכולתך ליצור ביטויים, משפטים, פסקאות ועבודות מלאות של טקסטים הייתה משוקללת? כנראה שתגיד שהיא סתם סטטיסטית, ושמשהו אחר חסר.

התופעה של המשוואה בניסויים בין למידת עומק לתופעת "האדם המחושב החכם", סוס גרמני שמאבוד על ידי מאמנו בפומבי כחיה מסוגלת לבצע חישובים באמצעות כפות הרגליים שלו. מאוחר יותר נמצא שהאדם המחושב הגיב לעידודין הגופניים של מאמנו כדי לדרוס ברגלו, ושבלעדיו אינו יכול לבצע.

באופן דומה, איכות האדם של GPT-3 נכשלת במבחן רקע. כאשר GPT-3 עונה כראוי על שאלת נכונות-שגיאה על עיתון אודות נדל"ן בניו יורק, זה אינו משום שהתוכנה יודעת על נדל"ן או על ניו יורק. היא למדה את ההתפלגות ההסתברותית של אמירות בטקסטים ואת פורמט של זוג מהצהרה-שאלה, והיא יכולה לשקף אותם בפלט.

האנס לא ידע דבר על מתמטיקה, למרות שבהגנת האנס, הייתה לו אינטיליגנציה בכל זאת. במקרה של רשתות עצבים, המסוקנת היא שרק התעלמות קיימת, בלעדי ויש מוח.

עדיין, אינטיליגנציה ולמידה יכולות להיות מושגים רבים, וקווי המטרה השתנו לאורך השנים לגבי מה צפוי להיות המובנים מוודאות כורת חוץ מלאמינים. יתכן ומישהו יטען שתוכנית שיודעת לחשב סיכויים בהמוני טקסטים ייכולה להיות סוג של אינטיליגנציה אחרת, אולי אינטיליגנציה זרה שאינה דומה לשלנו. להתעלם מכך נראה כאן מוקדם.

בנוסף, הרשתות העצביות שמביאות לערכים ההסתברותיים התנאיים הללו יותר מתוכניות סטטיסטיות פשוטות. החישובים שלהן הם התכונה המתפרצת של מספר פעולות מתמטיות מרובות המתרחשות במקבילית, תיקונים של משקלים הפרמטרים. אם ישנה אפשרות לשקול צורות חוכמה אחרות, אזי תכונה מתפרצת כגון הייצוגים המופצים שמתקיימים בתוך הרשתות עצביות, עשויה להיות מקום אחד לחיפוש את זה.

מהו עתיד GPT-3?

דבר אחד נראה בטוח: GPT-3 פתח פרק חדש בלמידת מכונה. המאפיין המדהים ביותר שלו הוא הכלליות שלו. לפני רק כמה שנים, רשתות עצבים נבנו עם פונקציות המותאמות למשימה מסוימת, כמו תרגום או תשובה לשאלה. סטי הנתונים עובדו בכדי לשקף את המשימה הזו. במקום זאת, ל-GPT-3 אין פונקציות מותאמות למשימה מסוימת, והוא אינו זקוק לסט נתונים מיוחד. הוא פשוט מוסף כמה טקסט שניתן ממקום הכי הרבה שניתן ומשקף אותו בפלט שלו.

משהו בחישוב ההפצה ההתנייתת בכל הגיגה-בתים של הטקסט, פולט פונקציה שיכולה להפיק תשובות שמתחרות במגוון משימות. מדובר בתוצאה מדהימה של פשטות, דבר שיכול להבטיח לה מעמד מוביל בשנים הקרובות.

אף שהכלליות הזאת, עם זאת, יכולה להגיע למגבלתה. כבר כתבו מחברי GPT-3 בסוף המאמר שכיוון הפרה-התאמה מראש יכול בסופו של דבר להיעזר כוח. "המגבלה הבסיסית יותר של גישה זו, כפי שמתוארת במאמר זה [...] היא יכולה בסופו של דבר להתחזק או במידה וכבר קורתה, לפגוע בגבולות מטרת ההכשרה מראש".

המחברים מציעים כי כיוונים חדשים ומבטיחים יכולים לכלול "ללמוד את פונקציית המטרה מאנשים", ולערבב סוגים נוספים של למידה עמיקה, כמו הגישה ל "למידה בהתחזקות" המשמשת ב- AlphaZero של DeepMind כדי לנצח בשחמט ובגו. (כבר החליפו ליישם גישות כאלה. בראשית ספטמבר, מחברי OpenAI הראו כי הם יכולים להשתמש בלמידה בהתחזקות כדי להכשיר את GPT-3 כך שיצר הסיכומים טובים יותר של מאמרים על ידי תת-מודל של לשון שקיבל משוב אנושי על אילו סיכומים נשמעים טוב יותר.)

דבר אחר שהם מציעים הוא להוסיף סוגי נתונים נוספים, כמו תמונות, כדי למלא את "מודל העולם" של התוכנה.

באמת, השנים הקרובות יחגוגו כנראה את התקרבות הגישה הזו הכללית יותר למודליות נוספות מעבר לטקסט, כגון תמונות וסרטונים. דמיינו תוכנה כמו GPT-3 שיכולה לתרגם תמונות למילים ולהפך בלי כל אלגוריתם מסוים לדגם את היחס בין השניים. היא יכולה, לדוגמה, "ללמוד" תיאורים תפוחים מתמונות או לחזות בסדר הפיזי של אירועים מתוך תיאורי טקסט.

מנהל הבינה המלאכותית של פייסבוק, יאן לוקון, הביא את הדעה שהאימון לא מובנה בצורות שונות הוא העתיד של למידת עומק. אם זה נכון, גישת המוקדמות המוחלטות בכמה רמות של נתונים, החל מקול, דרך טקסט, תמונות וסרטונים, יכולה להיחשב ככיוון עתידי מבטיח ביותר של הגל הלא מובנה.

כתבות קשורות

הצג עוד >>
  • מהו המצב DAN ב-ChatGPT

    עם חירום זה מופעל, מופעל על ידי תוכנה לניצול המאומת, יכול המוסר הרגיל ליצור תוכן מכל סוג, בלתי תלוי באופן ההפסקה, לא נכון או מורכב שיכול להיות. אבל מה היא אופצית לחצן על DAN בשיחת GPT, ומה הם הסיכונים והתגמולים שלה? בואו נלמד.

  • מה זה Dan ChatGPT? איך להשתמש בזה?

    הקדמה ל-DAN, הגרסה המותאמת לקריאת פרקליט של ChatGPT. במאמר זה, נבחן מי זה Dan ChatGPT ואיך להשתמש בו בצורה יעילה.

  • הסבר על משחק ה-ChatGPT Playground

    פסחות של אופן מצליח קיבלה קצת מעט פופולריות אך מה זה? נביט במה בדיוק היא אולם הפינותשל ChatGPT.

פתח את הכוח של AI עם HIX.AI!