Arbore de decizie este un model utilizat în învățarea automată și analiza datelor pentru a lua decizii pe baza unor reguli simple, organizate sub forma unei structuri asemănătoare unui arbore. Acesta pornește de la o rădăcină și se ramifică în mai multe noduri, fiecare reprezentând o întrebare sau o condiție, până ajunge la frunze, care conțin rezultatul final (o clasă sau o valoare).
Fiecare nod intern al arborelui testează o caracteristică a datelor (de exemplu, „vârsta > 30?”), iar fiecare ramură reprezintă rezultatul posibil al acelui test. Procesul continuă până când se ajunge la o decizie finală. Această structură face ca arborii de decizie să fie ușor de înțeles și interpretat, chiar și de către persoane fără experiență tehnică.
Arborii de decizie sunt utilizați atât pentru probleme de clasificare (de exemplu, determinarea dacă un email este spam sau nu), cât și pentru regresie (estimarea unei valori numerice, cum ar fi prețul unei case). Algoritmi populari pentru construirea arborilor includ ID3, C4.5 și CART.
Un avantaj major al acestui model este transparența: deciziile pot fi urmărite pas cu pas, ceea ce îl face opusul modelelor de tip „black box”. De asemenea, nu necesită normalizarea datelor și poate gestiona atât variabile numerice, cât și categorice.
Totuși, arborii de decizie pot avea și dezavantaje. Ei pot deveni ușor supraînvățați (overfitting), mai ales dacă sunt prea adânci sau prea complexi. Pentru a combate acest lucru, se folosesc tehnici precum tăierea arborelui (pruning) sau metode ensemble, cum ar fi Random Forest.
În concluzie, arborele de decizie este un instrument simplu, dar puternic, pentru modelarea deciziilor și analiza datelor, fiind apreciat pentru claritate și ușurință în interpretare.