כיצד פועל סימן המים של ChatGPT ומדוע ניתן להביס אותו

ה-ChatGPT של OpenAI הציג דרך ליצור תוכן באופן אוטומטי, אך מתכנן להציג תכונה של סימון מים כדי להקל על זיהויו גורם לאנשים מסוימים לעצבן. כך פועל סימון המים של ChatGPT ומדוע ייתכן שיש דרך להביס אותו.

ChatGPT הוא כלי מדהים שמפרסמים מקוונים, שותפים ואנשי קידום אתרים אוהבים ומפחדים בו זמנית.

יש משווקים שאוהבים את זה כי הם מגלים דרכים חדשות להשתמש בו כדי ליצור תקצירי תוכן, קווי מתאר ומאמרים מורכבים.

מפרסמים מקוונים חוששים מהסיכוי שתוכן בינה מלאכותית יציף את תוצאות החיפוש, ויחליף מאמרי מומחים שנכתבו על ידי בני אדם.

כתוצאה מכך, חדשות על תכונת סימון מים הפותחת זיהוי של תוכן שכתב ChatGPT צפויות גם הן בחרדה ובתקווה.

סימן מים קריפטוגרפי

סימן מים הוא סימן חצי שקוף (לוגו או טקסט) המוטבע על גבי תמונה. סימן המים מסמן מיהו המחבר המקורי של העבודה.

זה נראה בעיקר בצילומים ויותר ויותר בסרטונים.

טקסט סימון מים ב-ChatGPT כרוך בהצפנה בצורה של הטמעת דפוס של מילים, אותיות וסימני פיסוק בצורה של קוד סודי.

סקוט אהרונסון ו-ChatGPT Watermarking

מדען מחשבים משפיע בשם סקוט אהרונסון נשכר על ידי OpenAI ביוני 2022 לעבוד על בטיחות ויישור בינה מלאכותית.

בטיחות בינה מלאכותית היא תחום מחקר העוסק בחקר דרכים שבהן בינה מלאכותית עשויה להזיק לבני אדם ויצירת דרכים למנוע סוג זה של הפרעה שלילית.

כתב העת המדעי Distill, המציג מחברים המזוהים עם OpenAI, מגדיר בטיחות בינה מלאכותית כך:

"המטרה של בטיחות בינה מלאכותית (AI) ארוכת טווח היא להבטיח שמערכות בינה מלאכותית מתקדמות מתואמות באופן מהימן לערכים האנושיים - שהן עושות בצורה מהימנה דברים שאנשים רוצים שהם יעשו."

יישור בינה מלאכותית הוא תחום הבינה המלאכותית שמטרתו לוודא שה-AI מיושר עם המטרות המיועדות.

ניתן להשתמש במודל שפה גדול (LLM) כמו ChatGPT באופן שעשוי להיות בניגוד למטרות של AI Alignment כפי שהוגדרו על ידי OpenAI, כלומר ליצור AI שמועיל לאנושות.

בהתאם לכך, הסיבה לסימון מים היא מניעת שימוש לרעה ב-AI באופן שפוגע באנושות.

אהרונסון הסביר את הסיבה לסימון פלט ChatGPT:

"זה יכול להיות מועיל למניעת פלגיאט אקדמי, כמובן, אבל גם, למשל, יצירת תעמולה המוני..."

כיצד פועל סימון מים של ChatGPT?

סימון מים של ChatGPT היא מערכת המטביעה דפוס סטטיסטי, קוד, בבחירות של מילים ואפילו סימני פיסוק.

תוכן שנוצר על ידי בינה מלאכותית נוצר עם דפוס די צפוי של בחירת מילים.

המילים שנכתבו על ידי בני אדם ובינה מלאכותית עוקבות אחר דפוס סטטיסטי.

שינוי דפוס המילים המשמשות בתוכן שנוצר הוא דרך "לסמן" את הטקסט כדי להקל על מערכת לזהות אם זה היה תוצר של מחולל טקסט בינה מלאכותית.

הטריק שהופך את סימון המים של תוכן בינה מלאכותית לבלתי ניתן לזיהוי הוא שלתפלגות המילים יש עדיין מראה אקראי הדומה לטקסט רגיל שנוצר בינה מלאכותית.

זה מכונה הפצה פסאודו אקראית של מילים.

פסאודורנדומליות היא סדרה אקראית סטטיסטית של מילים או מספרים שאינם למעשה אקראיים.

סימון מים של ChatGPT אינו בשימוש כעת. עם זאת, סקוט אהרונסון ב-OpenAI נמצא ברשומות ומציין שזה מתוכנן.

כרגע ChatGPT נמצא בתצוגה מקדימה, מה שמאפשר ל-OpenAI לגלות "חוסר התאמה" באמצעות שימוש בעולם האמיתי.

ככל הנראה סימן מים עשוי להיות מוצג בגרסה הסופית של ChatGPT או מוקדם יותר.

סקוט אהרונסון כתב על אופן הפעולה של סימון מים:

"הפרויקט העיקרי שלי עד כה היה כלי לסימון מים סטטיסטי של הפלטים של מודל טקסט כמו GPT.
בעיקרון, בכל פעם ש-GPT מייצר טקסט ארוך, אנחנו רוצים שיהיה אות סודי שלא ניתן להבחין בו בבחירות המילים שלו, שבו אתה יכול להשתמש כדי להוכיח מאוחר יותר שכן, זה הגיע מ-GPT."

אהרונסון הסביר עוד כיצד סימון מים ChatGPT עובד. אבל קודם כל, חשוב להבין את המושג טוקניזציה.

טוקניזציה היא שלב המתרחש בעיבוד שפה טבעית שבו המכונה לוקחת את המילים במסמך ומפרקת אותן ליחידות סמנטיות כמו מילים ומשפטים.

טוקניזציה משנה טקסט לצורה מובנית שניתן להשתמש בה בלמידת מכונה.

תהליך יצירת הטקסט הוא המכונה המנחשת איזה אסימון מגיע הבא על סמך האסימון הקודם.

זה נעשה עם פונקציה מתמטית שקובעת את ההסתברות מה יהיה האסימון הבא, מה שנקרא התפלגות הסתברות.

המילה הבאה צפויה אבל היא אקראית.

סימון המים עצמו הוא מה שאהרון מתאר כפסאודורנדום, בכך שיש סיבה מתמטית לכך שמילה מסוימת או סימן פיסוק נמצאים שם, אבל היא עדיין אקראית סטטיסטית.

להלן ההסבר הטכני של סימון מים GPT:

"עבור GPT, כל קלט ופלט הם מחרוזת של אסימונים, שיכולים להיות מילים אבל גם סימני פיסוק, חלקי מילים או יותר - יש בערך 100,000 אסימונים בסך הכל.
בבסיסו, GPT מייצר כל הזמן התפלגות הסתברות על האסימון הבא שייצר, מותנה במחרוזת האסימונים הקודמים.
לאחר שהרשת העצבית מייצרת את ההפצה, שרת OpenAI דוגם למעשה אסימון בהתאם להפצה זו - או גרסה שונה של ההתפלגות, בהתאם לפרמטר שנקרא 'טמפרטורה'.
עם זאת, כל עוד הטמפרטורה אינה אפס, בדרך כלל תהיה אקראיות מסוימת בבחירת האסימון הבא: אתה יכול לרוץ שוב ושוב עם אותה הנחיה, ולקבל השלמה שונה (כלומר, מחרוזת של אסימוני פלט) בכל פעם .
אז לסימן מים, במקום לבחור באקראי את האסימון הבא, הרעיון יהיה לבחור אותו בצורה פסאודו-אקראית, באמצעות פונקציית פסאודורנדום קריפטוגרפית, שהמפתח שלה ידוע רק ל-OpenAI."

סימן המים נראה טבעי לחלוטין לאלו שקוראים את הטקסט מכיוון שבחירת המילים מחקה את האקראיות של כל המילים האחרות.

זה ההסבר הטכני:

"כדי להמחיש, במקרה המיוחד של-GPT היו חבורה של אסימונים אפשריים שהיא העריכה סבירים באותה מידה, אתה יכול פשוט לבחור באיזה אסימון היה g. הבחירה תיראה אקראית אחידה למישהו שלא הכיר את המפתח, אבל מי שכן ידע את המפתח יוכל מאוחר יותר לסכם g על כל n-גרם ולראות שהוא גדול בצורה חריגה".

סימון מים הוא פתרון ראשון בפרטיות

ראיתי דיונים במדיה החברתית שבהם כמה אנשים הציעו ש-OpenAI תוכל לשמור תיעוד של כל פלט שהוא מייצר ולהשתמש בזה לזיהוי.

סקוט אהרונסון מאשר ש-OpenAI יכולה לעשות זאת, אבל זה מהווה בעיית פרטיות. החריג האפשרי הוא מצב אכיפת החוק, שהוא לא פירט עליו.

כיצד לזהות סימון מים של ChatGPT או GPT

משהו מעניין שנראה שעדיין לא ידוע הוא שסקוט אהרונסון ציין שיש דרך להביס את סימן המים.

הוא לא אמר שאפשר להביס את סימן המים, הוא אמר שאפשר להביס אותו.

"עכשיו, אפשר להביס את כל זה במאמץ מספיק.
לדוגמה, אם השתמשת ב-AI אחר כדי לפרפראזה את הפלט של GPT - טוב אוקיי, אנחנו לא נוכל לזהות את זה."

נראה שניתן להביס את סימן המים, לפחות מנובמבר, כאשר ההצהרות לעיל נאמרו.

אין שום אינדיקציה שסימון המים נמצא כעת בשימוש. אבל כאשר הוא נכנס לשימוש, ייתכן שלא ידוע אם הפרצה הזו נסגרה.

צִיטָטָה

קרא את הפוסט בבלוג של סקוט אהרונסון כאן.