סיווג ורגרסיה על בסיס יער

איור תהליך עבודה של סיווג ורגרסיה על בסיס יער


יוצר מודלים ומפיק תחזיות תוך שימוש באלגוריתם היער האקראי של Leo Breiman, שזו שיטת למידת מכונה מפוקחת. ניתן לבצע חיזויים עבור משתנים קטגוריים (סיווג) ומשתנים רציפים (רגרסיה). משתנים מסבירים הם שדות בטבלת המאפיינים של ישויות האימון. ניתן להריץ את הכלי כדי להפיק מודל להערכת ביצועים, או להפיק מודל ולחזות תוצאות לסטים נתונים אחרים.

סוג ניתוח


מציין את אופן הפעולה של הכלי. ניתן להריץ את הכלי כדי לאמן מודל להערכת ביצועים בלבד, או לאמן מודל ולחזות תוצאות לישויות. להלן סוגי החיזויים:

  • אימון מודל להערכת ביצועי מודל - מודל יאומן, ויותאם לנתוני הקלט. השתמש באפשרות זו כדי להעריך את מידת הדיוק של המודל לפני הפקת חיזויים על סט נתונים חדש. הפלט של אפשרות זו יהיה שירות ישויות של נתוני האימון המותאמים, אבחוני מודל וטבלה אופציונלית של חשיבות משתנים.
  • אימון מודל וחיזוי ערכים - חיזויים או סיווגים יופקו עבור ישויות. יש לספק משתנים מסבירים הן עבור ישויות האימון והן עבור הישויות שיש לחזות. הפלט של אפשרות זו יהיה שירות ישויות של הנתונים החזויים, אבחוני מודל וטבלה אופציונלית של חשיבות משתנים.

אימון המודל לצורך הערכת ביצועי המודל


השתמש במצב זה אם ברצונך להתאים מודל, ולחקור את ההתאמה.

בעת בחירה באפשרות זו, אימון המודל יתבצע תוך שימוש בשכבת קלט. השתמש באפשרות זו כדי להעריך את מידת הדיוק של המודל לפני הפקת חיזויים על סט נתונים חדש. הפלט של אפשרות זו יהיה אבחוני מודל בחלון ההודעות והמודל יוחל על נתוני האימון.

אימון מודל וחיזוי ערכים


השתמש במצב זה אם ברצונך להתאים מודל, ולהחיל את המודל על סט נתונים להפקת תחזיות.

חיזויים או סיווגים יופקו עבור ישויות. הפלט של אפשרות זו יהיה שירות ישויות, אבחוני מודל וטבלה אופציונלית של חשיבות משתנים.

בחר שכבה לאימון


שכבת הישויות שמכילה את המשתנה לחיזוי ואת השדות שבהם יעשה שימוש להפקת החיזוי.

בנוסף לבחירת שכבה מהמפה שלך, באפשרותך לבחור באפשרות בחר שכבת ניתוח בתחתית הרשימה הנפתחת כדי לדפדף לתכנים שלך עבור סט נתוני שיתוף קובץ Big Data או שכבת ישויות. באפשרותך אופציונלית להחיל מסנן על שכבת הקלט או להחיל בחירה על שכבות מתארחות שנוספו למפה שלך. מסננים ובחירות מוחלים רק עבור ניתוח.

בחר שכבה לחיזוי ערכים


שכבת ישויות שמייצגת מיקומים שבהם יעשו חיזויים. שכבת ישויות זו חייבת להכיל גם את כל המשתנים המסבירים שסופקו כשדות אשר תואמים לאלה שבהם נעשה שימוש מישויות האימון.

בנוסף לבחירת שכבה מהמפה שלך, באפשרותך לבחור באפשרות בחר שכבת ניתוח בתחתית הרשימה הנפתחת כדי לדפדף לתכנים שלך עבור סט נתוני שיתוף קובץ Big Data או שכבת ישויות. באפשרותך אופציונלית להחיל מסנן על שכבת הקלט או להחיל בחירה על שכבות מתארחות שנוספו למפה שלך. מסננים ובחירות מוחלים רק עבור ניתוח.

בחר את השדה לחיזוי


השדה מישויות האימון שמכיל את הערכים שבהם יעשה שימוש לאימון המודל. שזה זה מכיל ערכים ידועים (אימון) של המשתנה שבו יעשה שימוש לחיזוי במיקומים לא ידועים. אם הערכים הם קטגוריים (לדוגמה אדר, אורן, אלון) בחר את תיבת הסימון קטגורי.

בחר משתנה מסביר אחד או יותר


שדה אחד או יותר שמייצגים את המשתנים המסבירים (שדות) שעוזרים לחזות את הערך או הקטגוריה של משתנה לחיזוי. השתמש בתיבת הסימון 'קטגורי' עבור כל משתנה שמייצג מחלקות או קטגוריות (כגון כיסויי קרקע או הימצאות או היעדרות). ציין את המשתנים כ'true' עבור כל אחד שמייצג מחלקות או קטגוריות כגון כיסויי קרקע או הימצאות או היעדרות, וכ'false' אם המשתנה הוא רציף.

מספר העצים


מספר העצים שיש ליצור במודל. מספר עצים גדול יותר בדרך כלל יפיק חיזוי מודל מדויק יותר, אבל חישוב המודל יימשך זמן רב יותר. מספר ברירת המחדל של עצים הוא 100.

גודל עלה מינימלי


המספר המינימלי של של תצפיות שנדרש כדי לשמור עלה (כלומר, צומת המסוף על עץ ללא פיצולים נוספים). ברירת המחדל למינימום עבור רגרסיה היא 5, ועבור סיווגים היא 1. עבור נתונים גדולים מאוד, הגדלת מספרים אלה תקצר את זמן הריצה של הכלי.

עומק עץ מקסימלי


המספר המקסימלי של פיצולים שיתבצעו במורד עץ. בעת שימוש בעומק מקסימלי גדול, יותר פיצולים ייווצרו, מה שעשוי להגביר את הסיכויים להתאמת יתר של המודל. ברירת המחדל היא לפי הנתונים ותלויה במספר העצים שנוצרו ובמספר המשתנים שנכללו.

הנתונים הזמינים לכל עץ (%)


מציין את אחוז הישויות בשכבת האימון המשמשים עבור כל עץ החלטה. ברירת המחדל היא 100 אחוז מהנתונים. דגימות עבור כל עץ נלקחות באקראיות מתוך שני-שלישים של הנתונים שצוינו.

כל עץ החלטה ביער נוצר באמצעות דגימה אקראית או ערכת משנה (כשני-שליש) של נתוני האימון הזמינים. שימוש באחוזים נמוכים יותר של נתוני הקלט עבור כל עץ החלטה מגביר את מהירות הכלי עבור סטים גדולים מאוד של נתונים.

מספר אקראי של משתני דגימה


מציין את מספר המשתנים המסבירים אשר משמשים ליצירת כל עץ החלטה.

כל עץ החלטה ביער נוצר באמצעות ערכת משנה אקראית של המשתנים המסבירים שצוינו. הגדלת מספר המשתנים אשר משמשים בכל עץ החלטה תגדיל את הסיכויים להתאמת יתר של המודל, במיוחד אם יש משתנה דומיננטי או מספר משתנים דומיננטיים. אופן פעולה נפוץ הוא להשתמש בשורש ריבועי של המסר הכולל של משתנים מסבירים, אם המשתנה לחיזוי הוא מספרי, או לחלק את המספר הכולל של משתנים מסבירים ב-3, אם המשתנה לחיזוי הוא קטגורי.

בחר את אופן התאמת השדות המסבירים


כיצד משתנים תואמים בשכבת האימון יותאמו למשתנים בשכבת החיזוי. רק המשתנים אשר משמשים באימון ייכללו בטבלה.

מספר ריצות לאימות


מציין את האחוז (בין 0 אחוז ל-50 אחוז) של ישויות בשכבת האימון שיש לשמור כסט נתוני הבדיקה עבור אימות. המודל יאומן ללא ערכת משנה זו של נתונים, והערכים הנצפים עבור ישויות אלה יושוו לערך החזוי. ברירת המחדל היא 10 אחוז.

שם שכבת התוצאה


זהו השם של השכבה שתיווצר ב התוכן שלי ותתווסף למפה. שם ברירת המחדל מבוסס על שם הכלי ושם שכבת הקלט. אם שם השכבה כבר קיים, תתבקש לספק שם אחר.

התוצאות שיוחזרו יהיו תלויות בסוג הניתוח. אם אתה מאמן להערכת התאמת מודל, התוצאות יכילו שכבה של נתוני אימון המותאמים למודל ופרטי תוצאה שמעריכים את התאמת המודל. אם אתה מאמן ומבצע חיזוי, התוצאות יכילו שכבה של נתוני האימון שמותאמים למודל, שכבה של תוצאות חזויות ופרטי תוצאה שמעריכים את התאמת המודל.

בעזרת התפריט הנפתח שמור תוצאה ב, באפשרותך לציין את שם התיקייה ב תוכן שלי שבה התוצאה תישמר.