טכנולוגיה זו החדשה יכולה לנשוף את GPT-4 וכל דבר דומה לו

עבור כל ההתלהבות סביב התוכנה שמכונה גם בשם ChatGPT, מ OpenAI, וטכנולוגיית המחליף שלו, GPT-4, התוכנות הם, בסופו של דבר, יישומי תוכנה. וכמו כל יישומי התוכנה, יש להם הגבלות טכניות שיכולות לגרום לביצועים שלהם לא להיות מיטביים.

בעבודה שפורסמה במרץ, מדעני המוחשים המלאכותיים הממומחים באוניברסיטת סטנפורד ובמכון MILA למוחשים המלאכותיים בקנדה הציעו טכנולוגיה שעשויה להיות הרבה יותר יעילה מ-GPT-4 - או מכל מערך דומה כלשהו - בעלת היכולת לבלוע כמויות עצומות של מידע ולהמירו לתשובה.

גם: אלה עובדים ישנים של אפל רוצים להחליף טלפונים חכמים במכשיר זה

ידוע בשם היינה, הטכנולוגיה מסוגלת להשיג דיוק שכדול בבחינת בוחני הבינה המלאכותית, כמו השאלות והתשובות, תוך שימוש במנוע חישוב רב פחות. בחלק מהמקרים, קוד היינה יכול להתמודד עם כמויות של טקסט שמן אתגרות את טכנולוגיות בסגנון GPT שפשוט מגיעות למצב של אין דיוק והתקלות בזיכרון.

"התוצאות המבטיחות שלנו על סולם פרמטרים של שלא תיעוד ביליון מרמזות על כך שקיים צורך בעוד דברים חוץ ממנוע התרגום," כתבו המחברים. ההבחנה הזו מתייחסת לכותרת של הדוח החזק של AI משנת 2017 “המון תשומת לב – הלבד”. בדוח הזה, המדען בגוגל אשיש וויני וצוותו הכירו את תוכנת הבינה המלאכותית של הטרנספורמר של גוגל. הטרנספורמר הפך לבסיס לכל מודלי השפה הגדולים האחרונים.

אך לחלופין, יש ל-Transformer פגם גדול. הוא משתמש במנגנון שנקרא "תשומת לב", בו התוכנה מבצעת העברת מידע מקבוצה של סמלים אחת, כמו מילים, לקבוצה חדשה של סמלים, כמו התשובה שאתה רואה מחוץ ל-ChtatGPT, המהווה את הפלט.

גם:מה זה GPT-4? הנה כל מה שאתה צריך לדעת

הפעולה הזויה זו -- כלי הכרחי בכל תוכנית שפה גדולה, כולל ChatGPT ו-GPT-4 -- מכילה מורכבות חישובית "ריבועית" (זמן היישוב, לפי ויקי). מורכבות זו אומרת שזמן תגובת ChatGPT עולה בריבוע הוולם של כמות הנתונים שמועברים לו כקלט.

במסגרת התהליך, במידה ויש יותר מדי מידע - מילים רבות בשאלה, או שיחות רבות במשך שעות רבות לעיתוב עם התוכנה - התוכנה או תצטבר ותספק תשובה או יידרש להוסיף עוד ועוד צ'יפים מחשבים כדי לרוץ מהר יותר, וכך ישיבה על עלויות החישוב.

במאמר החדש, 'היררכיה של היינה: בכיוון למודלים שפת טרנספורמציונל קונבולוציונליים גדולים יותר', שפורסם על שרת הדפוס המוקדם של ארכיב, המחבר המוביל מיכאל פולי מאוניברסיטת סטנפורד ושותפיו מציעים להחליף את פונקציית התשומת הלב של המרכזית של טרנספורמר עם משהו תת-ריבועי, בדיוק היאינה.

גם: מה זה Auto-GPT? הכל שצריך לדעת על הכלי הכוח הבא של AI

המחברים אינם מסבירים את השם, אך ניתן לדמיין מספר סיבות לתוכנית "Hyena". היינות הם חיות שחיות באפריקה ויכולות לצוד מרחקים ארוכים מאוד. במובן מסוים, דגם שפה עוצמתי יכול להיות דומה ליינה, הצודה מרחקים ארוכים כדי למצוא מזון.

אבל המחברים מתעניינים באופן ממוקד ב-"היררכיה", כפי שהכותרת מרמזת, ולקלאנים של היאנות יש היררכיה מחמירה בה מגוון רמות של דרגה הקובעות את הממשיכות. בדומה מסוימת, התוכנית האיינה מחליפה מאורך מספר פעולות פשוטות מאוד, כפי שתראו, שוב ושוב, כך שהן משתלבות ליצירת סוג של מערך מעיבוד נתונים. בדיוק הרכיב המשולב קובע את קרוביות התוכנית לשמה, איינה.

גם:גרסאות ChatGPT של העתיד עשויות להחליף את רוב העבודה שאנשים עושים היום, כך אומר בן גורצל

מחברי המאמר כוללים מהמובהקים בעולם הבינה מלאכותית, כמו יושע בנג'יו, המנהל המדעי של MILA, אשר הוא זוכה של פרס טיורינג 2019, המקביל הקומפיוטרי של פרס נובל. מומחה נודע לאנשי התחום הוא בנג'יו, אשר מוממש עקרון התשומת הלב עוד לפני שווסאני וצוותו התאימו אותו לקרנל.

גם בין המחברים נמצא פרופסור משנה במדעי המחשב באוניברסיטת סטנפורד, כריסטופר רה, אשר תרם בשנים האחרונות לקידום הרעיון של AI כ"תוכנה 2.0".

כדי למצוא אלטרנטיבה לפעולת קישוריות עם פולינומיית ממעלה שנייה, פולי והצוות התחילו לחקור כיצד מנגנון הקישוריות עושה את מה שהוא עושה, על מנת לראות אם ביצוע זה יכול להתבצע בצורה יעילה יותר.

תרגום התוכן:

בפרקטיקה אחרונה במדעי המוחשת, הידועה גם בשם חשיבות מכנית, אנו משיגים תובנות אודות התהליכים העמוקים בתוך הרשת העצבית, במעגלי החישה "המחשבתיים". ניתן לחשוב על זה כמו פירוק תוכנה בדומה לפירוק של שעון או מחשב אישי כדי לראות את החלקים שלו ולהבין איך הוא פועל.

גם: השתמשתי ב-ChatGPT כדי לכתוב את אותו הרצף ב-12 שפות תכנות מובילות. הנה כיצד זה עשה

תועלות נמצאות על ידי פולי וצוותו הן לקבוצת ניסויים של המחקרן נלסון אלהאגה מחברת הסטארט-אפ הבינגווית אנטרופיק. הניסויים האלה מפרקים את תוכניות המרות ההואים על מנת לראות איך פונקציית התרגום פועלת.

למעשה, מה שמצא אלהאג' וצוותו הוא שתשומת הלב פועלת ברמה הבסיסית ביותר על ידי פעולות מחשב פשוטות מאוד, כמו העתקת מילה מקלט האחרונה והדבקתה בפלט.

לדוגמה, אם משתמש מתחיל להקליד לתוך תוכנת דגם שפה גדולה כמו ChatGPT משפת האייפון תשתית, משפת אנושית כמו מודל מבוסס שפת האייפון בשם GPT-3, התחילה "גברת דרסלי הייתה מנהלת חברה בשם גרונינגס...", להקליד למשל "ד-י-ס", תחילת שמה, עשוי להיות מספיק כדי לעורר את התוכנה להשלים את השם "דרסלי" משום שהיא ראתה את השם במשפט קודם מופרץ את השפה במכשיר האייפון. המערכת יכולה להעתיק מהזיכרון את הרשומה של התווים "ל-י" לסיים באופן אוטומטי את המשפט.

גם:הגורם המנהיגי היהודי מסכם: "ChatGPT הוא יותר דומה לאינטיליגנציה חייזרית מאשר למוח אנושי", אומר פוטוריסט

אולם, פעולת התשומת הלב נתקלת בבעיה של מורכבות ריבועית בעת שהכמות של המילים גדלה וגדלה. מילים נוספות דורשות יותר ממה שידוע בשם "משקלים" או פרמטרים, כדי להריץ את פעולת התשומת הלב.

כמו שכותבים המחברים: "בלוק הטרנספורמר הוא כלי עוצמתי ליצירת מודלים סידוריים, אך הוא אינו חסר בחסרונות. אחד המשמעותיים ביותר הוא העלות החישובית, הגדילה במהירות ככל שאורך הסדרה המוקלדת מתרחב."

אף שפרטי הטכנולוגיה של ChatGPT ו-GPT-4 לא פורסמו על ידי OpenAI, נדמה כי ייתכן כי יהיה להם טריליון או יותר לכאורה פרמטרים כאלה. הפעלת הפרמטרים האלו דורשת יותר רכיבי GPU מ-Nvidia, ולכן עולה את עלות החישוב.

כדי להפחית את העלות הקומפיטציה הריבועית ההפקה המשופרת מאתגר התשומת-לב על ידי החלפת פעולת ההתייחסות ב-"סופגניה", שהיא אחת מהפעולות הישנות ביותר בתוכניות הבינה המלאכותית, הותאמה לראשונה בשנות ה-80. סופגניה היא פשוטה מסינון שיכול לבחור פריטים במידע, בין אם זה פיקסלים בתמונה דיגיטלית או מילים במשפט.

גם: הצלחתו של ChatGPT עשויה לגרום להיט נזילה לסודיות בתחום הבינה המלאכותית, אומר מוביל התחום בנגיו

Poli וצוותו מבצעים סוג של מישור משולב: הם לוקחים עבודה שבוצעה על ידי החוקר מאוניברסיטת סטנפורד, דניאל וואי פו וצוותו, להחלקת מסננים קונבולוציים לסדרות מילים והם משלבים את זה עם העבודה של המומחה דיויד רומירו ושותפיו מאוניברסיטת פריהה פראייה שבאמסטרדם שמאפשרת לתוכנה לשנות את גודל המסנן בזמן ריצה. יכולת זו להתאים בצורה גמישה פולטת על מספר הפרמטרים היקרים או המשקלים שנדרשים לתכנה להכיל.

תוצאת המֶאַשְּׁאַפּ עוברת על כך שניתן להחיל חילוץ על כמות בלתי מוגבלת של טקסט מבלי לדרוש יותר ויותר פרמטרים כדי להעתיק יותר ויותר נתונים. זהו גישה "בלתי תלויה בתשומת הלב", כפי שהם הגדירו בהוצאה המודפסת.

"אופרטורים של היינה מסוגלים להקטין במידה משמעותית את הפער באיכות עם תשומת לב בסקאלה", כתבו פולי והצוות, "ומגיעים לתערובת רומזות וביצועים למטה דומים עם תקציב חישוב קטן יותר." רומזות היא מונח טכני המתייחס לרמת המתקפל של תשובה שמייצרת תכנית כמו ChatGPT.

כדי להדגים את יכולתו של היינה, המחברים בוחנים את התוכנה במערכת בדיקות שמכריחה את התכנה לבצע מגוון משימות בתחום הבינה המלאכותית.

גם: 'דברים חדשים מוזרים קורים בתוכנה,' אומר פרופסור ללמידת מכונה מאוניברסיטת Stanford, כריס רה

מבחן אחד הוא "The Pile", אוסף בנפח של 825 גיגה-בייט המורכב מטקסטים שנאספו בשנת 2020 על ידי Eleuther.ai, ארגון למחקר AI ללא מטרות רווח. הטקסטים נאספים ממקורות "איכותיים" כגון PubMed, arXiv, GitHub, משרד הפטנטים של ארה"ב ואחרים, כך שהמקורות יהיו בעלי עיצוב מוקפד יותר משיחות רדיט, לדוגמה.

האתגר המרכזי בתוכנית היה ליצור את המילה הבאה כאשר ניתנות מספר משפטים חדשים כקלט. תוכנת החיינה הצליחה להשיג ציון שזהה לתוכנית ה-GPT המקורית של OpenAI מ-2018, בעזרת 20% פחות פעולות חישוב -- "ההרכב הראשון ללא תשומת לב, ממהפך ארכיטקטוני כדי להתאים לאיכות של GPT" בפחות פעולות, כפי שכתבו המחקרים.

בשלב הבא, המחברים בדקו את התוכנה על משימות חשיבה מכונות שנקראות SuperGLUE, שהושגו בשנת 2019 על ידי חוקרים באוניברסיטת ניו יורק, מחקר הבינה המלאכותית של Facebook, יחידת DeepMind של Google ואוניברסיטת וושינגטון.

לדוגמה, כאשר ניתן למשפט "הגוף שלי הוטס צל על הדשא", ושתי אלטרנטיבות לגורם, "השמש עולה" או "הדשא נחתך", ונשאל לבחור אחת מהן, התוכנה צריכה ליצור "השמש עולה" כפלט המתאים.

במשימות מרובות, תוכנת החיינה השיגה ציונים שקרובים או דומים לגרסה של GPT ובמקביל הוכשרה על פחות מחצי כמות הנתונים הדלקת.

גם: איך להשתמש בניווט החדש של Bing (ואיך הוא שונה מ-ChatGPT)

עוד דבר מעניין היה לראות מה קרה כשהמחברים הביאו את אורך המשפטים ששימשו כקלט: ככל שהיה יותר מילים במשפט, השיפור בביצועים היה איכותי יותר. ב-2,048 "טוקנים", שאתה יכול לחשוב עליהם כמילים, מערך היאנה צריך פחות זמן להשלמת משימה שפתיתית מהשימוש במתודת התשומת לב.

ב-64,000 טוקנים, המחברים מתייחסים, "שיפורי מהירות ינשוף מגיעים ל-100 פעמים מהירות מקורית" - שיפור ביצועים בגורם של מאה פעמים.

פולי והצוות טוענים שהם לא פשוט ניסו גישה שונה עם היאנה, הם "שוברים את המחסום הריבועי", ויוצרים שינוי איכותי ביכולת של התוכנה לחשב תוצאות.

הם מציעים גם שינויי איכות פוטנציאליים משמעותיים בדרך למטה: "שבירת המחסום הריבועי היא צעד מרכזי לקיום אפשרויות חדשות ללמידת עמוקה, כגון שימוש בספרי לימוד שלמים כהקשר, ליצור מוזיקה באורך מרשים או לעבד תמונות במידה של ג'יגאפיקסל," הם כותבים.

היכולת של היענה להשתמש במסנן שמתרחב בצורה יעילה יותר על אלפי כמים וכמים של מילים, כתבו המחברים, אומרת שכמעט אין גבול ל "מסגרת" של שאילתה לתוכנת שפה. במופע של דבר, היא יכולה לזכור אלמנטים בטקסטים או שיחות קודמות הרחוקות מאוד מתחום השיח הנוכחי - בדיוק כמו היאנות הצודות במרחקים רבים.

גם: הצ'אטבוטים הטובים ביותר בתחום הבינה מלאכותית: ChatGPT ואלטרנטיבות מעניינות נוספות לנסות

"מפעילי היינה יש להם הקשר בלתי מוגבל", הם כותבים. "כלומר, הם אינם מוגבלים באופן מלאכותי על ידי כלשהו, כמו לוקליות, ויכולים ללמוד התלות הארוכה מרחק בין אחד מרכיבי [קלט] לשני."

בנוסף, כמו גם מילים, ניתן להחיל את התוכנה על נתונים מודליים שונים, כמו תמונות ואולי וידאו וקולות.

חשוב לציין כי תוכנת החיינה שמוצגת במאמר זה קטנה בגודל בהשוואה ל-GPT-4 או ל-GPT-3. בעוד ש-GPT-3 כולל 175 מיליארד פרמטרים או משקלים, הגרסה הגדולה ביותר של החיינה כוללת רק 1.3 מיליארד פרמטרים. לכן, יש לראות כיצד החיינה יתפס בהשוואה מקיפה עם GPT-3 או 4.

אך, אם היעילות שהושגה תמיד נמשכת בגרסאות גדולות יותר של התוכנית היאנה, היא יכולה להיות פרדיגמה חדשה שכה נפוצה כמו התשומת לב הייתה בעשור האחרון.

כפי שמסיקים פולי והצוות: "עיצובים פשוטים מתת-רבודרטיים כמו היינה, שמודרשת להם עקרונות הולכי-פשוט ושיקולים בבחינת יישור על בנצחוניות בדיקות שטח חזותית, עשויים להכשיל בסיס למודלים גדולים יעילים."

טכנולוגיה חדשה זו עשויה להפתיע את GPT-4 וכל מה שדומה לו

כתבות קשורות