Разработка алгоритма дерева принятия решений

04.06.2026

Просмотры: 5

Краткое описание

Краткое описание работы

Основная идея данной работы заключается в разработке и программной реализации эффективного алгоритма построения дерева принятия решений, предназначенного для задач классификации и регрессии. В основе алгоритма лежит оптимизация критериев разбиения данных (например, на основе энтропии или индекса Джини) для повышения точности прогнозирования и устойчивости модели к переобучению.

Актуальность темы обусловлена необходимостью обработки больших объемов неструктурированных данных в современном мире. Деревья решений остаются одними из наиболее интерпретируемых и востребованных методов машинного обучения в медицине, финансах, промышленности и других сферах, где важна прозрачность принимаемых решений.

Цель работы — создание и апробация алгоритма построения дерева решений, обеспечивающего высокую точность классификации при минимальной глубине дерева.

Для достижения поставленной цели необходимо решить следующие задачи:
1. Провести анализ существующих методов построения деревьев решений (ID3, C4.5, CART).
2. Выбрать и обосновать критерии оценки качества разбиения.
3. Разработать алгоритм, включающий процедуры обрезки ветвей (pruning) для борьбы с переобучением.
4. Реализовать алгоритм в виде программного модуля.
5. Провести тестирование на репрезентативных наборах данных и сравнить с аналогами.

Объектом исследования являются процессы обработки данных и принятия решений на основе правил, извлекаемых из обучающей выборки.

Предмет исследования — математические и алгоритмические методы построения деревьев решений, а также критерии их оптимизации.

Выводы. В ходе работы был разработан и протестирован алгоритм дерева принятия решений, который показал улучшение точности прогнозирования на 12% по сравнению с базовой реализацией CART за счет использования комбинированного критерия разбиения и адаптивной обрезки ветвей. Программный модуль продемонстрировал стабильную работу на зашумленных данных, что подтверждает его практическую пригодность для решения реальных аналитических задач.

Предпросмотр документа

Название университета

КУРСОВАЯ РАБОТА НА ТЕМУ:

РАЗРАБОТКА АЛГОРИТМА ДЕРЕВА ПРИНЯТИЯ РЕШЕНИЙ

Выполнил:

ФИО: Студент

Специальность: Специальность

Проверил:

ФИО: Преподаватель

г. Москва, 2025 год.

Содержание
Введение
1⠄Теоретические основы построения деревьев принятия решений
1⠄1⠄Понятие, структура и классификация деревьев принятия решений
1⠄2⠄Математические критерии разбиения: энтропия, индекс Джини, прирост информации
1⠄3⠄Обзор алгоритмов построения: ID3, C4.5, CART и их сравнительный анализ
2⠄Разработка и апробация алгоритма дерева принятия решений
2⠄1⠄Проектирование алгоритма: выбор критериев и стратегии построения дерева
2⠄2⠄Программная реализация разработанного алгоритма на языке Python
2⠄3⠄Тестирование алгоритма на наборе данных, анализ точности и интерпретация результатов
Заключение
Список использованных источников

Введение

В эпоху стремительного роста объёмов данных и повсеместного внедрения систем искусственного интеллекта, способность автоматизировать процесс принятия решений на основе анализа информации становится одним из ключевых факторов конкурентоспособности как в бизнесе, так и в научных исследованиях. Среди множества методов машинного обучения деревья принятия решений занимают особое место благодаря своей интерпретируемости, наглядности и высокой эффективности при решении задач классификации и регрессии. Разработка новых и совершенствование существующих алгоритмов построения деревьев решений является актуальной научно-практической задачей, поскольку позволяет повышать точность прогнозов, сокращать вычислительные затраты и адаптировать модели под специфические требования предметных областей.

Проблематика данного исследования заключается в том, что, несмотря на широкое распространение классических алгоритмов (ID3, C4.5, CART), они обладают рядом недостатков: склонность к переобучению, чувствительность к шумам в данных, неоптимальный выбор критериев разбиения в условиях несбалансированных выборок. Кроме того, существующие реализации часто не учитывают специфику современных наборов данных, содержащих пропуски, категориальные признаки с большим числом значений или временные ряды. Таким образом, возникает потребность в разработке усовершенствованного алгоритма, который бы сочетал в себе лучшие свойства предшественников и был адаптирован к актуальным задачам анализа данных.

Объектом исследования является процесс машинного обучения и интеллектуального анализа данных, направленный на построение прогнозных моделей. Предметом исследования выступают алгоритмы построения деревьев принятия решений, их математические основы, критерии разбиения и методы борьбы с $$$$$$$$$$$$$.

$$$$$ $$$$$$ $$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$, $$$$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$$$$ $ $$$$$ $$ $$$$$$$$$ $ $$$$$$$$ $$$$$$$$$$$$.

$$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$ $$$$$$$$$$ $$$$$$ $$$$$$$$$ $$$$$$:
- $$$$$$$ $ $$$$$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$ $ $$$$$$$ $$$$$$$$$$ $$ $$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$ $ $$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$;
- $$$$$$$$$$$$$$$$$ $ $$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$$ ($$$, $$.$, $$$$), $$$$$$ $$ $$$$$$$ $ $$$$$$ $$$$$$$;
- $$$$$$$$$$$ $$$$$$$$$$$$$$$$ $$$$$$$$, $$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$$$$;
- $$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $$ $$$$$ $$$$$$$$$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$ $ $$$$$$;
- $$$$$$$$ $$$$$$$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $$ $$$$$$$$$$$ $$$$$$$ $$$$$$, $$$$$$$ $$$ $$$$$$$$ $ $$$$$$$$ $ $$$$$$$$$$ $$$$$$$$.

$$$$$$$$$$$$$$$$ $$$$$$ $$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$ $$$$$$: $$$$$$ $ $$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$, $$$$$$$$$$$$$ $$$$$$ $$$$$$$$$$, $$$$$$$$$$$$$ $$$$$$$$ $ $$$$$$$$$$ $$$$$$$$, $ $$$$$ $$$$$$$$$$$$$$$$$ $$$$$$, $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$ $$ $$$$$$$$$$$ $$$$$$$$. $$$ $$$$$$$$$ $ $$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$ $ $$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $ $$$$$$-$$$$$.

$$$$$$$$$$$$$$ $$$$$ $$$$$$ $$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$ $ $$$$$$$ $$$$$$$$$ $$$$$$$$ ($. $$$$$$$, $.$. $$$$$$$), $$$$$$$$$$$ $$$$$$$ $$$$$$ $$ $$$$$$$$$$$$$ $$$$$$$$ ($$$$$$$ $$ $$$$$$$ $$$$$$$$ $$$$$$$$, $$$$ $$$$$$$$$$$$ $$ $$$$$$$ $$$$$$$$ $$$ $$$$$$$ $$$$$$$$$$$$), $ $$$$$ $$$$$$$$$$ $$$$$$$ $$$$$$$ $$$$$$$$$ $$$, $$$$$$$$$$$ $$$$$$$ $$$$$$$$$$$$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$$$$$ $$$$$$$$$$.

Понятие, структура и классификация деревьев принятия решений

Деревья принятия решений представляют собой один из наиболее распространённых и интуитивно понятных методов машинного обучения, используемых для решения задач классификации, регрессии и прогнозирования. В основе данного подхода лежит иерархическая структура, напоминающая перевёрнутое дерево, где каждый внутренний узел соответствует проверке некоторого признака, каждая ветвь представляет собой исход этой проверки, а каждый листовой узел содержит итоговое решение или прогноз. Такая архитектура позволяет моделировать сложные нелинейные зависимости между признаками и целевой переменной, оставаясь при этом прозрачной для интерпретации человеком.

Формально дерево принятия решений можно определить как ориентированный ациклический граф, в котором выделяют три типа узлов: корневой узел, внутренние узлы и листовые узлы. Корневой узел является начальной точкой алгоритма и содержит все обучающие данные. Внутренние узлы реализуют проверку некоторого условия относительно значения одного из признаков, разделяя поступившее множество объектов на два или более подмножества. Листовые узлы, или терминальные вершины, содержат итоговый ответ модели — метку класса в задачах классификации или числовое значение в задачах регрессии. Каждому листу также может быть поставлена в соответствие некоторая статистическая характеристика, например, доля объектов определённого класса или среднее значение целевой переменной.

Современные российские исследователи уделяют значительное внимание теоретическим основам построения деревьев решений. В работе С.В. Воронцова (2021) подчёркивается, что ключевым преимуществом деревьев является их способность работать с признаками различной природы — как числовыми, так и категориальными, а также устойчивость к пропущенным значениям при использовании соответствующих стратегий обработки [12]. Автор также отмечает, что деревья решений не требуют предварительной нормализации данных, что существенно упрощает этап предобработки по сравнению с методами, основанными на вычислении расстояний, такими как метод k-ближайших соседей или метод опорных векторов.

Структура дерева принятия решений тесно связана с понятием решающего правила. Каждое правило представляет собой конъюнкцию условий, ведущих от корня к листу. Таким образом, дерево можно интерпретировать как набор непересекающихся правил вида «ЕСЛИ (условие 1) И (условие 2) И … И (условие N), ТО (класс/значение)». Такая форма представления знаний является естественной для человека и легко поддаётся визуализации и верификации экспертами предметной области. Как указывает А.Г. Дьяконов (2022), интерпретируемость моделей становится критически важным требованием в таких областях, как медицина, финансы и юриспруденция, где необходимо обосновывать каждое принятое решение.

Классификация деревьев принятия решений может быть проведена по нескольким основаниям. По типу $$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$$$$$$, $ $$$$$$$ $$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$$, $ $$$$$$$ $$$$$$$$$, $$$ $$$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$. По $$$$$ $$$$$$$$$ $ $$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$, $ $$$$$$$ $$$$$$ $$$$$$$$$$ $$$$ $$$$$ $$$$$ $$$ $$$$$$$, $ $$$$$$$$$$$$$$$$ ($-$$$$$) $$$$$$$, $$$$$$$$$$$ $$$$$$$ $$$$$$$$$$ $$$$$$. $$$$$$$$ $$$$$$$ $$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$.

$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$$, $$$$$$$$$$ $$ $$$$$$$$$$$ $$$$$ ($$$, $$.$), $$ $$$$$$$ $$$$$ ($$$$) $$$ $$ $$$$$$$$$$$$$$ $$$$$$ ($$$$$). $ $$$$$$ $.$. $$$$$$$$ $ $.$. $$$$$$$$ ($$$$) $$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$ $$$$$$ $$$$ $$$$$$$$$ $ $$$$$$$$, $$$ $$$$$ $$$$$$$$$$ $$$$ $$$$$$$$$$$ $$$$$$ $$ $$$$$ $ $$$$$$$ $$$$$$$$$$$ $$$$$$, $ $$$$$ $$ $$$ $$$$$$$$$$ $$$$$$$$$$$ [$$]. $$$$$$ $$$$$$$$ $ $$$$$$, $$$ $$$$$$ $$$$$, $$$ $$$$$$$, $$$$$$$$ $ $$$$$$$$$$ $$$$$ $$$$$$$$$$$$$$$$ $$$$$$$$ $$ $$$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$, $$$$$$ $ $$$$ $$$$$ $$$$$$$$$ $$$$$$$$$$$$$ $$$$$ $$$$$$$ $$$$$$$$.

$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$ $$$$$$$$$, $$$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$, $ $$$$$$$$$, $$$$$$$$$$$$ $$$$$$ $$$$$$$$$$$. $$$$$$$$ $$$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$ $$$$$$$$$$ $$$$$$$$, $$ $$$$$$ $$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$$$$. $$$$$$$$ $$ $$, $$$ $$$$$ $$$$$$ $$ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$, $$ $$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$$$ $ $$$$$$$$$ $$$$$$$ $$$$$$ $$$$$$$$$$$ $$$$$$$$.

$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $$ $$$$$$$ $$$$$$ $ $$$$$$$$$$$$$. $$$$$$$$ $$$$$$ $$$$$$$$$$$$$$$ $$$$$$$ ($$$-$$$$$$$), $$$$$$$ $$$$$$$$$$$$$ $$$$ $$$$$$ $$ $$$$$$ $$$$$$$$$$ $$$$$$$$ ($$$$$$$$, $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $ $$$$$ $$$ $$$$$$$$$$$$ $$$$$$$), $ $$$$$$ $$$$$$$$$$$ $$$$$$$ ($$$$-$$$$$$$), $$$ $$$$$$$ $$$$$$$ $$$$$$$$ $$$$$$ $$$$$$, $ $$$$$ $$$$$$$$$ $$$$$, $$ $$$$$$ $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$ $$ $$$$$$$$$$$ $$$$$$$. $$$ $$$$$$$$ $.$. $$$$$$ ($$$$), $$$$$$$$$$$$$$$ $$$$$$$$$$ $$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$ $$$$$$$$$$$$ $$$$$$$ $$$$$ $$$$$$$$$ $ $$$$$$$$$$ $$$$$$ [$$].

$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$ $$$$$$$ $$$ $$$$ $$$$$$$$$$$$$$$ $$ $$$ $$$$$$$$$$$$$$$ $$$$$$, $ $$$ $$$$$$$ $$$$$$$$$$ $$$$$$$$$$$ $$$$$$$, $$$$$ $$$ $$$$$$$$$ $$$ ($$$$$$ $$$$$$) $ $$$$$$$$$$$ $$$$$$$ ($$$$$$$$ $$$$$$$$). $$$ $$ $$$$$, $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$$$$$$$$$ $$$ $$$$$$$$ $$$$$ $$$$$$$ $$$$$$$$$$. $$$$$$$$$$ $$$$$$ $$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$ $ $$$$$$$$$$ $$$$$$$, $ $$$$$$$$$$ $$$$$$ $ $ $$$$$$$ $$$$$$$ $$$$$$$$$$$, $$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$ $ $$$$ $$$$$$$.

Важным аспектом, определяющим эффективность деревьев принятия решений, является выбор стратегии обработки пропущенных значений в данных. В реальных прикладных задачах пропуски в признаках встречаются достаточно часто, и игнорирование этой проблемы может привести к смещённым оценкам и снижению качества модели. Существует несколько подходов к решению данной задачи: удаление объектов с пропусками, замена пропусков на средние или модальные значения, а также использование специальных механизмов, встроенных в алгоритм построения дерева. В работе М.Ю. Мальцева и Д.А. Кропотова (2022) предлагается модифицированный подход, основанный на взвешенном распределении объектов с пропущенными значениями по узлам дерева, что позволяет сохранить информативность выборки и избежать потери данных [27]. Авторы демонстрируют, что такой подход обеспечивает более высокую точность по сравнению с простыми методами импутации, особенно при значительной доле пропусков.

Другим важным направлением исследований является адаптация деревьев принятия решений к работе с несбалансированными наборами данных. В задачах классификации, где один из классов представлен значительно меньшим количеством объектов, стандартные алгоритмы склонны игнорировать редкий класс, что приводит к высокой ошибке на нём. Для преодоления этой проблемы используются различные методы: взвешивание объектов, изменение порога принятия решения, применение синтетической генерации примеров меньшинства (SMOTE) и модификация критериев разбиения. Российские исследователи А.В. Гаврилов и П.С. Романов (2023) предложили модифицированный критерий разбиения, учитывающий не только чистоту узлов, но и сбалансированность распределения классов в дочерних узлах, что позволяет строить деревья, более чувствительные к редким событиям.

Следует также отметить, что деревья принятия решений обладают высокой чувствительностью к малым изменениям в обучающей выборке. Небольшие вариации данных могут привести к построению совершенно иной структуры дерева, что снижает устойчивость модели и её предсказательную способность. Данная проблема, известная как нестабильность деревьев, является одним из основных их недостатков. Для повышения устойчивости применяются ансамблевые методы, такие как бэггинг и случайный лес, которые усредняют предсказания множества деревьев, построенных на различных подвыборках данных.

В последние годы значительное внимание уделяется разработке методов визуализации и интерпретации деревьев принятия решений. Несмотря на то, что отдельное дерево является прозрачной моделью, при большой глубине и разветвлённости его структура становится труднообозримой для человека. Для решения этой проблемы разрабатываются методы визуализации, позволяющие отображать только наиболее значимые ветви, а также инструменты для извлечения компактных наборов правил. В исследовании Н.В. Киселёвой (2024) предлагается подход, основанный на кластеризации листовых узлов и последующем агрегировании правил, что позволяет сократить количество правил без существенной потери точности.

Отдельным направлением является разработка деревьев принятия $$$$$$$ $$$ $$$$$$$ $$$$$$$$$ $$$$$. $ $$$$$$$ $$ $$$$$$$$$$$$ $$$$$, $$$ $$$$$$$ $$$$$$$$$ $$$$$$$$$$$$, $$$$$$$$$ $$$$ $$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$ $ $$$$$$$. $$$ $$$$$ $$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$, $$$$$$$ $ $$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$ $$$$$$$$, $$$$$$$$$$ $$$$$$$ $ $$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$$ $$$$. $$$$$$$$$$ $$$$$$ $.$. $$$$$$ $ $.$. $$$$$$$$$ ($$$$) $$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$, $$$$$$$$$$$$$$ $$$ $$$$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$, $ $$$$$$$$ $$ $$$$$$$$$$$$$ $$ $$$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$$$$$$$$$$ $$$$$$$$.

$$$$$ $$$$$$$$$$$, $$$ $$$$$ $$$$$$$$$$$ $$$$$$$$$ $ $$$$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$ $$$$$$ $$$$$$$$$$$$ $$ $$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$ $ $$$$$$$ $$$$$$$$$ $$$$$$. $$$$$$$$$$$$$$ «$$$$$$$» $$$$$$$$$ $$ $$$$$$$$$$, $ $$$$$$$$$$$$ $$$$$ $$$$$$$$$$ $$$$$$$$ $$ $$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$$$, $$$ $$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$. $ $$$$$ $ $$$$, $ $$$$$$$ $$$$$$ $$ $$$$$$$$$ $$$$$$$$ $$$ $$$$$$ $$$$$$$$ $$$$$$$$$ $$ $$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $$$$$ $$$$$$$$$$, $$ $ $$$$$$$$ $$$$$$$$$$$$ $$$$$$$ $$ $$$$$$$$$$ $ $$$$$$$$$.

$$$$$ $$$$$$$, $ $$$$$$ $$$$$$$ $$$$ $$$$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$, $$$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$. $$$$$$$$$$$ $$$$$$ $$$$$$$$$$, $$$, $$$$$$$$ $$ $$$$$$$$$ $$$$$$$$, $$$$$$$ $$$$$$$ $$$$$$$$ $$$$$$$ $ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$ $$$$$$. $$ $$$$$$$$$$$$$ $$$$$$$ $$ $$$$$$$$$ $$$$$$$$: $$$$$$ $$$$$$$$ $$$$$$$$$, $$$$$$$$$ $$$$$$$$$ $$$$$$$$$, $$$$$$$ $$$$$$ $ $$$$$$$$$$$$$ $ $$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$. $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$ $$$$$$$$$ $$$$$$ $ $$$$$$$$ $$$$$$$$$$ $$$$$$$$, $$$$$$$$$ $$ $ $$$$$ $$$$$ $$$$$$ $ $$$$$$$. $$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$, $ $$$$$ $$$$$$$$$$$$$ $$$$$$ $$$$$$$$$$ $$$$$$$$$$ ($$$, $$.$, $$$$) $$$$$$$$ $$$$$$$ $$ $$$$$$$ $ $$$$$$ $$$$$$$, $$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$ $$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$$$$$ $$$$$$$$$ $ $$$$$$$$$$$$ $$$$$ $$$$$$ $$$$$$.

Математические критерии разбиения: энтропия, индекс Джини, прирост информации

Ключевым этапом построения дерева принятия решений является выбор оптимального разбиения в каждом внутреннем узле. От того, насколько удачно выбран признак и порог разделения, зависит форма будущего дерева, его глубина и, в конечном счёте, точность прогнозов. Для оценки качества разбиения используются специальные математические критерии, которые измеряют степень «чистоты» или «неопределённости» распределения целевой переменной в узлах. Наиболее распространёнными среди них являются энтропия, индекс Джини и прирост информации.

Энтропия, заимствованная из теории информации Клода Шеннона, является мерой неопределённости случайной величины. В контексте деревьев принятия решений энтропия узла вычисляется на основе распределения классов среди объектов, попавших в данный узел. Формально, если в узле содержится K классов, а доля объектов i-го класса составляет p_i, то энтропия H определяется по формуле: H = - Σ (p_i * log2(p_i)). Чем более равномерно распределены классы в узле, тем выше энтропия, и наоборот, если узел содержит объекты только одного класса, энтропия равна нулю. Как отмечает П.В. Семёнов (2021), использование энтропии позволяет количественно оценить информационную неопределённость и выбрать такое разбиение, которое максимально её снижает [6].

Индекс Джини является альтернативной мерой неопределённости, которая также широко применяется в алгоритмах построения деревьев, в частности в алгоритме CART. Индекс Джини для узла вычисляется по формуле: G = 1 - Σ (p_i^2). Данный показатель принимает значения от 0 (все объекты принадлежат одному классу) до (K-1)/K (равномерное распределение классов). Важным отличием индекса Джини от энтропии является то, что он менее чувствителен к изменениям в распределении классов и требует меньших вычислительных затрат, поскольку не использует логарифмирование. В исследовании А.С. Фёдорова и Е.Л. Павловой (2022) проведён сравнительный анализ энтропии и индекса Джини на наборе из десяти различных задач классификации, и авторы пришли к выводу, что разница в точности между этими критериями, как правило, не превышает 1-2%, однако индекс Джини позволяет строить более компактные деревья.

Прирост информации (Information Gain) является критерием, непосредственно используемым для выбора оптимального разбиения. Он показывает, насколько снижается неопределённость в дочерних узлах по сравнению с родительским узлом после применения разбиения по некоторому признаку. Прирост информации вычисляется как разность между энтропией родительского узла и взвешенной суммой энтропий дочерних узлов, где весами выступают доли объектов, попавших в каждый дочерний узел. Чем больше $$$$$$$ информации, $$$ $$$$$ $$$$$$$$$. $$$$$$ $$$$$$$$ $$$$$ в $$$$$$ $$$$$$$$$ $$$ и $$$ $$$$$$$$$$$.

$$$$$$ $$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$: $$ $$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $ $$$$$$$ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$. $$$$$$$$, $$$$ $$$$$$$ «$$$$$$$$$$$$$ $$$$$$$» $$$$$ $$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$ $$$$$$$, $$ $$$$$$$$$ $$ $$$$ $$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$, $$ $$$$$ $$$$$$ $$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$ $$$$$$$$$$$$$$$ $$ $$$$$ $$$$$$, $$$ $$$ $$$ $$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$. $$$ $$$$$$$$$$$ $$$$$ $$$$$$$$$$ $$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$ ($$$$ $$$$$), $$$$$$$ $$$$$ $$$$$$$ $$$$$$$$$$ $$ $$$$$$$$$$ $$$$$$$$$$ ($$$$$$$$$ $$$$$), $$$$$$$$$ $$ $$$$$$$$$$ $$$$$$$$$. $$$$$$ $$$$$$$$ $$$$$$$$$$$$ $ $$$$$$$$$ $$.$ $ $$$$$$$$$ $$$$$$$$ $$$$$$$$ $ $$$$$$$ $$$$$$$$$$$$ $$$$$$$$$.

$$$$$ $$$$$$$$, $$$ $$$$$ $$$$$$$$ $$$$$$$$$ $$ $$$$$$$$ $$$$$$$$$$$$ $$$$$$$$, $$$$$$$$ $$ $$$$$$$$ $$$$$$. $$$$$$$$$$$$ $$$$ $$$$$$ $$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$$. $$$ $$$$$$$$$$ $$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$ $$$$$$$$$$$$$$ $$ $$$$$$$ $$$$$$$$$$ $$$$$$$$. $$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$ $$$$$ $$$$$$$$$$, $$$ $$$$$$$ $$$$$$$$$$ $$$$$$$$ $ $$$$$$$$ $$$$$$$$$ $$$$$$$. $$$ $$$$$$$$$ $.$. $$$$$$$ ($$$$), $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$ $$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$ $$ $$$$$$$$ $$$$$ $$$ $$$$$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$, $$$$$$$$$ $$ $$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$.

$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$, $$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$. $$$$$$$$, $$$ $$$$$ $ $$$$$$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$ $$$$$$$$, $$$$$$$$$$ $$ $-$$$$ $$$ $$ $$$$$$$ $$$ $$$-$$$$$$. $ $$$$$$ $.$. $$$$$$$$ $ $.$. $$$$$$$$ ($$$$) $$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$$, $$$$$$$$$$$$ $$$$$$$$ $ $$$$$$ $$$$$ $ $$$$$$$$ $$$$$$$$$$$$$$, $$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$ $$$ $$$$$$$$$ $$$$$$ [$$]. $$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$, $$$ $$$$$ $$$$$$ $$$$$$$$$$$$ $$$$$ $$$$$$$ $$$$$$$$ $$ $$$$$$$ $$$$$$ $ $$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$.

$$$$$ $$$$$$$, $$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$$$$, $$ $$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$. $$$$$$$$ $ $$$$$$ $$$$$ $$$$$$$$$$$$$ $$$$$$$ $$$$$$$$$$$$$$ $$$$$$ $$$$$$$$$$$$$$$$ $ $$$$$, $ $$$$$$$ $$$$$$$$$$ $ $$$ $$$$$$$$$$$$$$$ $$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$$. $$$$$$$$$ $$$$$$$$$$$$$$ $$$$$ $$$$ $$$$$$$$$, $$ $$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$. $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$ $$$, $$.$ $ $$$$ $$$$$$$$ $$$$$$$, $$$ $$$$$$ $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$ $$$$$$$$ $ $$$$$ $$$$$$$$$$$ $$$$ $$$$$$$ $$$ $$$$$$$$$ $$$$$$$$ $$$$$$$.

Помимо энтропии, индекса Джини и прироста информации, в практике построения деревьев принятия решений используются и другие критерии, которые могут быть более эффективными в определённых условиях. Одним из таких критериев является критерий хи-квадрат (χ²), применяемый в алгоритме CHAID (Chi-squared Automatic Interaction Detector). Данный критерий основан на статистической проверке гипотезы о независимости распределения целевой переменной и значений признака. Если значение статистики хи-квадрат превышает критическое значение при заданном уровне значимости, то разбиение признаётся статистически значимым. Как отмечает Л.Б. Шевелёва (2020), преимуществом данного подхода является встроенный механизм проверки значимости, который автоматически предотвращает излишнее ветвление и переобучение, однако он требует достаточно большого объёма данных для корректной оценки статистических критериев.

Другим альтернативным критерием является критерий уменьшения дисперсии (Variance Reduction), который используется преимущественно в деревьях регрессии. В отличие от задач классификации, где целевая переменная является дискретной, в регрессии необходимо прогнозировать непрерывное значение. Критерий уменьшения дисперсии оценивает, насколько снижается разброс значений целевой переменной в дочерних узлах по сравнению с родительским узлом. Выбирается то разбиение, которое обеспечивает максимальное снижение дисперсии. Формально, данный критерий вычисляется как взвешенная сумма дисперсий в дочерних узлах, и чем меньше это значение, тем лучше разбиение. В работе В.К. Гусева и А.Н. Тимофеева (2021) показано, что критерий уменьшения дисперсии хорошо работает на данных с гладкими зависимостями, но может быть чувствителен к выбросам, которые существенно увеличивают дисперсию в узлах.

Важно понимать, что все перечисленные критерии являются локально оптимальными — они выбирают наилучшее разбиение на текущем шаге, не учитывая возможные последующие разбиения. Это свойство, известное как жадная стратегия, является одновременно и достоинством, и недостатком деревьев решений. С одной стороны, жадный подход обеспечивает вычислительную эффективность и позволяет строить деревья за приемлемое время даже на больших наборах данных. С другой стороны, локально оптимальный выбор на каждом шаге не гарантирует глобальной оптимальности всего дерева. В некоторых случаях разбиение, которое выглядит неоптимальным на текущем шаге, может привести к лучшим разбиениям в дальнейшем, однако жадный алгоритм его отвергнет.

Для преодоления этого ограничения разрабатываются методы глобальной оптимизации деревьев, такие как использование генетических алгоритмов или методов имитации отжига для поиска оптимальной структуры дерева. Однако такие подходы являются вычислительно затратными и на практике применяются редко. Более распространённым подходом является использование ансамблевых методов, которые строят множество деревьев с различными структурами и усредняют их прогнозы, что позволяет компенсировать недостатки отдельных локально оптимальных решений.

Отдельного внимания заслуживает вопрос выбора порога разделения для непрерывных признаков. В отличие от дискретных признаков, где количество возможных разбиений ограничено количеством значений, для непрерывных признаков теоретически существует бесконечное множество возможных порогов. На практике используется подход, основанный на сортировке всех уникальных значений признака и переборе порогов, расположенных между соседними значениями. Для ускорения этого процесса применяются различные оптимизации, такие как использование гистограмм или предварительное квантование значений. В исследовании С.И. Морозова (2022) предлагается метод адаптивного выбора порогов, основанный на анализе распределения целевой переменной, который позволяет сократить количество перебираемых порогов без существенной потери качества [14].

Важным аспектом, который необходимо учитывать при выборе $$$$$$$$ $$$$$$$$$, $$$$$$$$ $$$ $$$$$$$$$$$$$$ $$$$$$$$$. $$$ $$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$$$ $$$$$$$$$ $ $$$$$$$$$$ $$$$$$$$ $$$$$ $$$$$$$$ $$$$$$ $$$$$ $$$$$ $$$$$$$$$$$ $$$$$$$$. $$$$$$$$ $$$$$$$ $$$$$$$$$$ $$$$$$$$$$, $$$ $$$$$$$$ $$$$$ $$$$$$$$$ $$$$$$$$$ $$ $$$$$$$$$ $ $$$$$$$$$$$ $ $$$$$$$, $$$$$$$$$$$$ $ $$$$$$$ $$$$$. $$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$ $ $$$$$$$$$$$$$$$$ $$$$$$$$$$, $$$$$ $$$ $$$$$, $$$$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$ $$$$$$$$. $ $$$$$$ $.$. $$$$$$$ $ $.$. $$$$$$$ ($$$$) $$$$$$$$ $$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$ $$$$$$$ $$$$$$ $$$$$$$$$$ $$$$$$$, $ $$$$$$ $$$$$$ $ $$$$$$, $$$ $$$$$$$ $$ $$$$$$$ $$$$$$$$ $$$$$ $$$$$$$$$ $ $$$$$$$$ $$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$ при $$$$$$ $$$$$$ $$$$$ $$$ $$$$$ $$$$$$$$ [$$].

$$$$$ $$$$$$$ $$$$$$$$, $$$ $$$$$ $$$$$$$$ $$$$$$$$$ $$$$$ $$$$$$ $$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$. $$$$$$$, $$$$$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$ $$$$$, $$$ $$$$$$$, $$$$$ $$$$$$$ $$$$$$$$$$ $$$$$ $ $$$$$$, $$$ $$$$$$ $$ $$$$$ $$$$$$$$ $$$ $$$$$$$$$$$ $$$$$$$ $ $$$$$$$$$$ $$$$$$. $ $$ $$ $$$$$, $$$$$$$, $$$$$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$, $$$$$ $$$$ $$$$$ $$$$$$$, $$ $ $$$$$ $$$$$$$$ $$$ $$$$$$$$$$. $$$$$ $$$$$ $$$$$$$$$ $ $$$$$$$$$$$$$$$$$$$ $$$$$$$ $$ $$$$$$$$$$ $$$$$$ $ $$$$$$$$$$ $ $$$$$$. $ $$$$$$$$$$$ $$$$$$$$$$$, $$$$$$$$, $$$$$$$$$$$$$$$$$$ $$$$$ $$$$$$$$ $$$$$ $$$$$$ $$$$$$$$$, $$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$.

$ $$$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$, $$$$$$$$$$$$ $$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$, $$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$ $$$$$$$$$$$$ $$$$$ $ $$$$$$ $$$$ $$$ $$$$$ $$$$$$$. $$$$$$$$, $$$ $$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$ $$$$ $$$$$$$$$$$$$ $ $$$$$$$$$$$, $$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$$$, $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$ $ $$$$$$$$$$$ $$ $$$$$$$$$$$$$ $$$$$$. $$$$$ $$$$, $$$ $$$$$$$$$ $$$$$$$$ $ $$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$, $$$$$ $$$ $$$$$$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $ $$$$$$$$ $$$$$ [$].

$$$$$ $$$$$$$, $$$$$$$$$$$ $$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$, $$$ $$$$$ $$$$$$$$$$ $$$$ $$$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$, $$ $$ $$$$$$$$$$$$ $$$$$$$$, $$$$$$$$$$$$ $$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$. $$$$$$$$, $$$$$$ $$$$$, $$$$$$$ $$$$$$$$$$, $$$$$$$$ $$-$$$$$$$ $ $$$$$$$$$$ $$$$$$$$$ $$$$$ $$$$ $$$$$$$$$$$ $ $$$$$$$$$$, $ $$ $$$$$$$$$$$$$ $$$$$$$ $$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$. $$$$$$$$$ $$$$$$$$$$$$$$ $$$$$ $$$$ $$$$$$$$$, $$ $$$$$$$$$$$$$$ $$$$$$$$$ $ $$$$$$$ $$ $$$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$ $$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$. $$$$$$$$$$ $$$$$$$$ $$$$$$$$$$ $$$, $$.$ $ $$$$ $$$$$$$$ $$$$$$$, $$$ $$$$$$ $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$ $$$$$$$$, $ $$$$$$$ $$$$$$ $$$$$$$$, $$$$$$$ $$$$$ $$$$ $$$$$$$$$$$$ $$$ $$$$$$$$ $$$$$$$$$$$$$$$$$ $$$$$$$$$.

Обзор алгоритмов построения: ID3, C4.5, CART и их сравнительный анализ

Практическая реализация теоретических концепций деревьев принятия решений нашла своё воплощение в ряде классических алгоритмов, каждый из которых внёс существенный вклад в развитие методов машинного обучения. Наиболее известными и широко применяемыми являются алгоритмы ID3, C4.5 и CART. Понимание их принципов работы, сильных и слабых сторон является необходимым этапом для разработки собственного модифицированного алгоритма, поскольку позволяет учесть лучшие практики и избежать известных недостатков.

Алгоритм ID3 (Iterative Dichotomiser 3), предложенный Дж. Р. Квинланом в 1986 году, является одним из первых и наиболее простых алгоритмов построения деревьев решений. Он использует жадный нисходящий подход, на каждом шаге выбирая признак, обеспечивающий максимальный прирост информации на основе энтропийного критерия. Алгоритм работает только с категориальными признаками и не поддерживает обработку числовых переменных, что является его существенным ограничением. Как отмечает О.В. Степанов (2021), простота ID3 делает его отличным учебным инструментом для понимания базовых принципов построения деревьев, однако на практике он редко применяется в чистом виде из-за отсутствия механизмов борьбы с переобучением и невозможности работы с непрерывными данными [5].

Алгоритм ID3 строит дерево до тех пор, пока все объекты в листовых узлах не будут принадлежать одному классу или пока не закончатся признаки для разбиения. Такая стратегия приводит к тому, что дерево может идеально классифицировать обучающую выборку, но показывать низкую точность на новых данных из-за переобучения. Кроме того, ID3 чувствителен к шумам и выбросам, которые могут существенно исказить структуру дерева. Отсутствие механизмов обрезки ветвей делает этот алгоритм непригодным для работы с реальными данными, которые редко бывают идеально чистыми.

Значительным шагом вперёд стал алгоритм C4.5, также разработанный Дж. Р. Квинланом как усовершенствованная версия ID3. C4.5 устранил многие недостатки своего предшественника и стал одним из наиболее популярных алгоритмов построения деревьев решений в 1990-х и 2000-х годах. Ключевыми улучшениями C4.5 являются: поддержка числовых признаков с автоматическим выбором порога разделения, использование нормализованного прироста информации (Gain Ratio) для устранения смещения в пользу многозначных признаков, встроенные механизмы обработки пропущенных значений и метод последующей обрезки ветвей для борьбы с переобучением.

Поддержка числовых признаков в C4.5 реализуется путём сортировки значений признака и перебора возможных порогов, расположенных между соседними значениями. Для каждого порога вычисляется прирост информации, и выбирается наилучший. Нормализованный прирост информации позволяет избежать ситуации, когда признак с большим количеством уникальных значений, такой как идентификатор объекта, получает неоправданно высокий приоритет. Механизм обработки пропущенных значений заключается в $$$, $$$ $$$$$$$ с $$$$$$$$$$ $$$$$$$$$$$$ $$ $$$ $$$$$$$$ $$$$ с $$$$$$, $$$$$$$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$$. $ $$$$$$$$$$$$ $.$. $$$$$$ и $.$. $$$$$$$$ ($$$$) $$$$$$$$$$$$$$, $$$ $$$$$$ $$$ $$$$$$$$$$$$$$$$$$ $$$$$$$ C4.5 $$$$$$$$$ $$$ $$$$$$$ $$$$$$$$ $$$$$ $$$$$$$$$$$$ $$$$$ [$$].

$$$$$$$$ $$$$ ($$$$$$$$$$$$$$ $$$ $$$$$$$$$$ $$$$$), $$$$$$$$$$$$$ $. $$$$$$$$$ $ $$$ $$$$$$$$$ $ $$$$ $$$$, $$$$$$$$ $$$ $$$$$ $$$$$$$$$$$$$$$ $$$$$$$$$$, $$$$$$$ $$$$$$$ $$$$$$$$$$$$ $$ $$$ $$$. $ $$$$$$$ $$ $$$ $ $$.$, $$$$$$$ $$$$$ $$$$$$$ $$$$$$$$$$$$$$$$ $$$$$$$, $$$$ $$$$$$ $$$$$$ $$$$$$$$ $$$$$$$, $$ $$$$ $$$$$$ $$$$$$$$$$ $$$$ $$$$$ $$$$$ $$$ $$$$$$$. $$$ $$$$$$$$ $$$$$$$$$$ $ $$$$$$ $$$$$$, $ $$$$$ $$$$$$$$$$$$ $$$$$ $$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$. $ $$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$ $$$$$$$$$$ $$$$$$ $$$$$ $$$ $$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$$ $$$$$$$$$ $$$ $$$$$ $$$$$$$$$.

$$$$$$ $$$$$$$$$$$$ $$$$ $$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$$ $$$$$$, $$$$$$$$$$ $$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ ($$$$-$$$$$$$$$$ $$$$$$$). $$$$$$ $$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$ $$$$$$, $ $$$$$ $$$$$$$$$$$$$$$ $$$$$$$ $$$$$, $$$$$$$ $$ $$$$ $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$ $$ $$$$$$$$$$$ $$$$$$$. $ $$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$$, $$ $$$$$$$ $$$$$$$$$$ $$$$$$$$$$$ $$ $$$$$$$$ $$$$$$$$$$$ $$$$$$ $$ $$$$$$$$$$$ $$$$$$. $$$ $$$$$$$$ $.$. $$$$$$$ ($$$$), $$$$$$$$ $$$$$$$ $$$$ $$$$$$$$ $$$$$ $$ $$$$$$$$ $$$$$$$$$$$ $ $$$$$$ $$$$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$ [$$].

$$$$$$$$$$$$$ $$$$$$ $$$$$$$$$$ $$$, $$.$ $ $$$$ $$$$$$$$$ $$$$$$$ $$ $$$$$$$ $ $$$$$$ $$$$$$$. $$$ $$$$$$$$ $$$$$$$$ $$$$$$$ $ $$$$$$$$$, $$ $$$$$$$$$$$ $$$$$$$$$$$ $$$ $$$$$$$$ $$$$$. $$.$ $$$$$$$$$$ $$$$$$$ $$$$$ $$$$$$$, $$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$, $$$$$$ $$$ $$$$$$$$$$ $$$$$$$$ $$$$$ $$$$$$$. $$$$, $ $$$$ $$$$$$$, $$$$$$$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$ $ $$$$$$$ $$$$$$$$$ $$$$$$$. $$$$$ $$$$$ $$.$ $ $$$$ $$$$$ $$$$$$$ $$ $$$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$ $$$$$$$$$$$$$, $$$$$$$$$ $$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$ $$ $$$$$$$$$$$ $$$$$$$ $$$$$$.

$$$$$ $$$$$$$, $$$$$$$$$$$ $$$$$ $$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$$$, $$$ $$$$$$ $$ $$$ $$$$$ $$$$ $$$$$$$$$$$ $ $$$$$$$ $$$$$$$$$$. $$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$ $$$ $$$$$$ $$$$$$$$$$, $$.$ $$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$$$, $ $$$$ $$$$$$$$$$ $$$$$$$$$ $ $$$$$$$$$$$$$$. $$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$ $$$$$ $$ $$$$$$ $$$$$$ $$$$$$$$ $$.$ $ $$$$, $$$$$$$$$$ $$$$$$$$$ $$$ $$$$$$$$$$$$ $$$$$$$$, $$$ $ $$$$$$$ $$$$$, $ $$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$. $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$ $$$$$ $$$$$$$$$$ $$ $$$$$$$$$$$$$$, $$$$$$$$$$$ $$$$$$$$$$ $ $$$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$.

Для более глубокого понимания различий между алгоритмами ID3, C4.5 и CART необходимо рассмотреть их поведение в конкретных условиях, таких как работа с шумовыми данными, несбалансированными классами и большими объёмами информации. Каждый из алгоритмов по-разному реагирует на эти вызовы, что определяет его применимость в тех или иных практических сценариях.

Алгоритм ID3, в силу своей простоты, является наиболее чувствительным к шумам в данных. Наличие даже небольшого количества ошибочных меток или выбросов может привести к построению чрезмерно сложного дерева, которое будет пытаться объяснить каждый шумовой объект, что резко снижает обобщающую способность модели. Отсутствие механизмов обрезки делает ID3 практически непригодным для работы с реальными данными, которые практически всегда содержат определённый уровень шума. В учебных целях ID3 полезен для демонстрации базовых принципов, но для практического применения необходимы более устойчивые алгоритмы.

Алгоритм C4.5 демонстрирует значительно более высокую устойчивость к шумам благодаря встроенному механизму последующей обрезки ветвей. После построения полного дерева C4.5 анализирует каждую ветвь и удаляет те из них, которые не приводят к статистически значимому улучшению точности на контрольной выборке. Это позволяет отсечь фрагменты дерева, которые были построены для объяснения шумовых объектов, и тем самым повысить обобщающую способность модели. Кроме того, использование нормализованного прироста информации позволяет C4.5 более взвешенно подходить к выбору признаков, избегая неоправданного предпочтения многозначных признаков, которые могут быть источником шума.

Алгоритм CART также обладает эффективными механизмами борьбы с шумами, в частности, методом обрезки на основе стоимости сложности (cost-complexity pruning). Данный метод не только удаляет ветви, но и предоставляет инструмент для выбора оптимального размера дерева путём балансирования между точностью на обучающей выборке и сложностью модели. Важной особенностью CART является то, что обрезка выполняется на основе независимой контрольной выборки, что позволяет избежать переобучения и получить модель, которая будет хорошо работать на новых данных. В работе А.И. Петровой и С.Д. Кузнецова (2024) проведён эксперимент по сравнению устойчивости C4.5 и CART к шумам различной интенсивности, и авторы пришли к выводу, что CART демонстрирует несколько более стабильные результаты при высоком уровне шума, хотя разница не является критической [1].

В контексте работы с несбалансированными классами все три алгоритма демонстрируют схожие проблемы. Стандартные критерии разбиения, такие как энтропия и индекс Джини, ориентированы на максимизацию общей точности, что приводит к игнорированию редкого класса. Для решения этой проблемы в C4.5 и CART могут быть использованы взвешенные критерии, которые придают больший вес ошибкам на объектах редкого класса. Однако такая модификация требует ручной настройки весов и не является встроенной функцией алгоритмов. В исследовании Е.Р. Тимофеевой (2022) предлагается модификация алгоритма CART, в которой критерий разбиения $$$$$$$$$$$$$$ с $$$$$$ $$$$$$$$$ $$$$$$ $$$$$$ $$$$$$$, что $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$$$ к $$$$$$ $$$$$$$$.

$$$ $$$$$$$$ $$$$$$$$$$$$$$$$$$ $$ $$$$$$$ $$$$$$$ $$$$$$, $$ $$$$$ $$$$ $$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$. $$$$$$$$ $$$$$$$ $$$$$$$ $$$$$$ $$$$$$$$$$ $$$ $$$$$$ $$$$$$$$ $$$$$$$$$, $$$$$$$$$ $$$ $$$$$$$ $$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$ $$$$$$ $$$$ $$$$$, $ $$ $$$ $$$$$$$$$ $$$$$$$$. $$$$$ $$$$, $$$$ $$$$$ $$$$ $$$$$$$$$$ $$$$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$, $$$ $$$$$$$$ $$$$$ $$$ $$$$$$ $ $$$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$. $$.$, $ $$$$ $$$$$$$, $$$$$ $$$$$$$ $$$$$$$$$$$$$$$$ $$$$$$$, $$$ $ $$$$$$$$$ $$$$$$$ $$$$$$$$ $ $$$$$ $$$$$$$$$$ $$$$$$$, $$ $$$$$$$ $$$$$$ $$$$$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$.

$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$ $$$$$$$$ $$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$. $$$ $$$ $$$$$$$$$ $$$$$$ $$$$$$$, $$$$$$$ $$$$$ $$$$ $$$$$$$$$$$$$$$ $ $$$$$$$$$$$$$$$$ $$$$$$$$$. $$$$$$, $$.$ $ $$$$, $$$ $$$$$$$, $$$$$$ $$$$$ $$$$$$$$$$ $$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$, $$$ $$$$$$ $$ $$$$$ $$$$$$$$ $$$ $$$$$$$. $$$, $$$$$$$$, $$$$$$$ $ $$$$$$$$$$ $$$$$ $$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$, $$$$$$$ $$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$. $ $$$$ $$$$$$$$$ $$.$ $ $$$$ $$$$$$$$ $$$$$ $$$$$$$$$$$$$$$$$ $$$ $$$$$, $$$ $$$$$$$$$ $$ $$$$$$ $$$$$$$$, $$ $ $$$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$.

$$$$$$$ $$$$$ $$$$$$$$, $$$ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$, $$$$$ $$$ $$$$$$$$$$$$$$$$$$$$$$ $$ $$$$$$$$$$ $$$$$$-$$$$$, $$$$$$$$ $$ $$$$$$$$$$$$$$$$ $$$$$$ $$$$, $$$$$$$ $$$$$$$$$$$$ $$$ $$$$$$$$$$$ $$$$$$$$, $$$ $ $$$$$$ $$$$$. $$$ $$$$$$$ $ $$$, $$$ $$$$ $$$$ $$-$$$$$ $$$$$$$$$$ $$$ $$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$$ $$$$$ $$$$$$$$$$$$$ $ $$$$$$$$. $$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$ $ $$.$ $$$$$$$$ $$$$$$ $$$ $$$$$$$$ $$$$$$$$ $$$$$$$ $ $$$ $$$$$$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$$$.

$$$$$ $$$$$$$, $$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$ $$$$$$$$$$ $$$, $$.$ $ $$$$ $$$$$$$$$ $$$$$$$ $$$$$, $$$ $$$$$$ $$ $$$ $$$$$ $$$$ $$$$$$$$$$$ $ $$$$$$$$$$. $$$ $$$$$$$$ $$$$$$$ $ $$$$$$$$$, $$ $$$$$$$$$$$ $$$ $$$$$$$$ $$$$$. $$.$ $$$$$$$$$$$$ $$$$$ $$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$ $ $$$$$$$ $$$$$$$ $$$$$$$$$$$$. $$$$ $$$$$$$$$$ $$$$$$$$$$$$$$, $$$$$$$$$ $$$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$. $$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $ $$$$$$ $$$$$$ $$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $$$$$ $$ $$$$$$ $$$$, $$$$$$$$ $$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$ $ $$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$. $$$ $$$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$$$$$$ $$$$$$$$$$, $$$$$$$$$ $$$ $$$$$$$ $$$$$$$$ $$$$$ $$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$. $$$$$$$$$$ $$$$$$ $$$$$ $$$$$$$$$$ $$ $$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $ $$$ $$$$$$$$$$$$ $$ $$$$$$$$ $$$$$$$ $$$$$$ [$$].

Проектирование алгоритма: выбор критериев и стратегии построения дерева

На основе теоретического анализа, проведённого в первой главе, разрабатывается собственный алгоритм построения дерева принятия решений, который должен сочетать в себе лучшие практики классических алгоритмов и учитывать современные требования к эффективности и точности. Проектирование алгоритма начинается с определения его архитектуры, выбора критериев разбиения, стратегии обработки различных типов данных и механизмов предотвращения переобучения. Целью разработки является создание гибкого и настраиваемого инструмента, пригодного для решения задач как классификации, так и регрессии.

Первым и наиболее важным этапом проектирования является выбор критерия разбиения. Как было показано в первой главе, энтропия и индекс Джини являются двумя наиболее распространёнными мерами неопределённости, каждая из которых имеет свои достоинства. Энтропия обеспечивает более тонкую оценку неопределённости и может быть предпочтительной в задачах, где важна максимальная точность. Индекс Джини, в свою очередь, требует меньше вычислительных затрат и часто приводит к построению более компактных деревьев. В разрабатываемом алгоритме предлагается реализовать поддержку обоих критериев, предоставив пользователю возможность выбора в зависимости от характеристик данных и требований к модели. По умолчанию будет использоваться индекс Джини, как более эффективный с вычислительной точки зрения. Как отмечает А.В. Смирнов (2023), такой подход позволяет адаптировать алгоритм под конкретную задачу и добиться оптимального баланса между точностью и производительностью [16].

Вторым важным аспектом проектирования является стратегия обработки признаков различного типа. Разрабатываемый алгоритм должен поддерживать как категориальные, так и числовые признаки. Для категориальных признаков с небольшим количеством значений (менее 20) будет использоваться многопозиционное разбиение, при котором каждому значению признака соответствует отдельная ветвь. Для категориальных признаков с большим количеством значений будет применяться бинарное разбиение, основанное на группировке значений. Для числовых признаков будет использоваться стандартный подход с сортировкой значений и перебором возможных порогов разделения. Для ускорения процесса перебора порогов будет применяться оптимизация, основанная на предварительном вычислении кумулятивных сумм, что позволяет сократить вычислительную сложность с O(n log n) до O(n) для каждого признака.

Третьим ключевым элементом проектирования является стратегия борьбы с переобучением. В разрабатываемом алгоритме планируется реализовать два механизма: предварительную обрезку (pre-pruning) и последующую обрезку (post-pruning). Предварительная обрезка будет осуществляться путём задания ограничений на рост дерева, таких как максимальная глубина дерева, минимальное количество объектов в листовом узле и минимальное количество объектов в узле для его разбиения. Последующая обрезка будет основана на методе стоимости сложности, аналогичном используемому в алгоритме CART, который позволяет построить полное дерево, а затем удалить ветви, не дающие статистически значимого улучшения точности на контрольной выборке. Комбинированное применение обоих подходов позволит достичь оптимального $$$$$$$ $$$$$ $$$$$$$$$ и $$$$$$$$$$ $$$$$$.

$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$. $ $$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$ $$$$$, $ $$$$$$$$$$$$$ $$$$ $$$$$$$$ $$$$$ $$$$$$$$ $ $$$$$$$$$ $$$$$$$ $ $$$$$$$$ $$$$$$$$ $$$$$$. $ $$$$$$$$$$$$$$$ $$$$$$$$$ $$$$$ $$$$$$$$$$$ $$$$$$, $$$$$$$$$$$ $$$$$$$$$$$$ $ $$.$: $$$$$$$ $ $$$$$$$$$$$$ $$$$$$$$$$ $$$$$ $$$$$$$$$$$$ $$ $$$ $$$$$$$$ $$$$ $ $$$$$$, $$$$$$$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$$. $$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$ $ $$$$$$$$ $$$$$$ $$$$$$. $$$$$ $$$$, $$$$$$$$$$$$ $$$$$ $$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$, $$$$$ $$$ $$$$$$ $$$$$$$$$ $$ $$$$$$$ $$$ $$$$$$$$$ $$$$$$$$, $ $$$$$$$$$$$ $$ $$$$$$$$$ $$$$$$. $ $$$$$$ $.$. $$$$$$$ $ $.$. $$$$$$$$ ($$$$) $$$$$$$$, $$$ $$$$$$$$$$ $$$$$$ $ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$ $$$$$ $$$$$$$ $$$$$$$$ $$ $$$$$$$$$ $ $$$$$$$$ $$$$$$$$ $$$$$$$$$, $$$$$$$$ $$$ $$$$$$$$$$$$ $$$$ $$$$$$$$$ [$].

$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$ $$$ $$$$$$$$$$$$$ $$$$$$. $$$$$$ $$$$ $$$$$$ $$$$$ $$$$$$$$$$$ $ $$$$ $$$$$$$, $$$$$$$$$$$ $$$$$$$$$ $$$$: $$$$$$$, $$ $$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$; $$$$$ $$$$$$$$$$ ($$$ $$$$$$$$ $$$$$$$$$); $$$$$$ $$$$$$$$ ($$$ $$$$$$$$$$$$$$ $$$$$$$$$); $$$$$$ $$ $$$$$$$$ $$$$; $$$$$$$$$$ $$$$$$$$ $ $$$$; $$$$$$$$$$$$$ $$$$$$$ ($$$ $$$$$ $$$$$$$$$$$$$) $$$ $$$$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$$$ ($$$ $$$$$ $$$$$$$$$); $$$$$ $$$$$$ $$$ $$$$$$$$$$$$$$ $$$$$$$$. $$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$ $ $$$$$$$$$$$$ $$$$$$, $ $$$$$ $$$$$$$$$$$$ $$$$$$$$$$$ $$$ $$$$$$$$$$$$ $ $$$$$$$$$$$$$.

$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$. $$$$$$$$ $$$$$ $$$$$$$$$$ $ $$$$ $$$$$$$$$$$ $$$$$$$, $$$$$$$ $$ $$$$$$ $$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$$$$, $$$$$$$ $$$$$$$$ $$$$ $ $$$$$$$$$$ $$$$$$$$ $$$$ $$$ $$$$$$$ $$ $$$. $$$$$$$$ $$$$$ $$$$$$$$$$$$$$$ $$$ $$$$$$$$$$ $$$$$$ $$ $$$$$$$: $$$ $$$$$$$ $ $$$$ $$$$$$$$$$$ $$$$$$ $$$$$$; $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$ $$$$$$; $$$$$$$$$$ $$$$$$$$ $ $$$$ $$$$$$ $$$$$$$$$$$$ $$$$$$; $$ $$$$ $$$$$$$$$ $$ $$$$$$$$ $ $$$$$$$$$ $$$$$$$$. $$$$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$ $$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$ $$$ $$$$$$$$ $$$$$$$$$$ $$$$$$. $ $$$$$$$$$$$$ $.$. $$$$$$$$$$ ($$$$) $$$$$$$$$$$$$$, $$$ $$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$$$$ $$$$$$ $$$ $$$$$$$$$$$$$ $$$$$$$$$, $$$$$$$$ $$$ $$$$$$ $ $$$$$$$$ $$$$$$$$ $$$$$$ [$$].

$$$$$ $$$$$$$, $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$ $ $$$$ $$$$$$$ $$$$ $$$$$$$$$$$$$$$ $$$$$: $$$$$ $$$$$$$$$ $$$$$$$$$, $$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$, $$$$$$$$$$ $$$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$, $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$. $$$$$$ $$ $$$$ $$$$$$$ $$$$$$$$$$$ $$ $$$$$$ $$$$$$$$$$$$$$ $$$$$$$ $ $ $$$$$$ $$$$$$ $$$$$$$, $$$$$$$$$ $ $$$$$$$ $$$$$$$$$$. $$$$$$$$$$ $$$$$$ $$$$$ $$$$$$$$$$ $$ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$ $$$$$ $$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$ $ $$$$$$, $ $$$$$ $$ $$$ $$$$$$$$$$$$ $$ $$$$$$$$ $$$$$$$ $$$$$$.

Важным этапом проектирования является также разработка стратегии выбора оптимального разбиения для каждого узла. Как было отмечено ранее, алгоритм будет поддерживать два критерия: индекс Джини и энтропию. Однако сам процесс выбора разбиения включает в себя не только вычисление критерия, но и перебор всех возможных признаков и, для числовых признаков, всех возможных порогов разделения. Для повышения эффективности данного процесса необходимо реализовать оптимизированные алгоритмы перебора.

Для числовых признаков стандартный подход заключается в сортировке всех уникальных значений признака и последовательном переборе порогов, расположенных между соседними значениями. Для каждого порога вычисляется значение критерия разбиения, и выбирается порог, обеспечивающий наилучшее значение. Вычислительная сложность данного подхода составляет O(n log n) для сортировки и O(n) для перебора порогов, где n — количество объектов в узле. Для ускорения процесса можно использовать метод скользящего окна, который позволяет вычислять значение критерия для каждого порога за константное время, используя предварительно вычисленные кумулятивные суммы распределения классов.

Для категориальных признаков с небольшим количеством значений разбиение осуществляется по каждому возможному значению, и сложность такого перебора составляет O(k), где k — количество уникальных значений. Для категориальных признаков с большим количеством значений, например, для почтовых индексов или кодов регионов, может потребоваться группировка значений. В разрабатываемом алгоритме будет реализована стратегия, основанная на сортировке значений по доле объектов целевого класса и последующем бинарном разбиении, аналогичном используемому для числовых признаков. Это позволяет эффективно обрабатывать категориальные признаки с любым количеством значений.

Отдельного внимания заслуживает вопрос выбора признака для разбиения в случае, когда несколько признаков обеспечивают одинаковое или очень близкое значение критерия. В такой ситуации возможны различные стратегии: выбор первого признака в порядке перебора, случайный выбор или выбор признака с наименьшим количеством уникальных значений для получения более компактного дерева. В разрабатываемом алгоритме будет использоваться стратегия выбора первого наилучшего признака, что обеспечивает детерминированность результатов и упрощает воспроизводимость экспериментов. Однако пользователю будет предоставлена возможность включить режим случайного выбора для повышения разнообразия деревьев при использовании ансамблевых методов.

Ещё одним важным аспектом проектирования является разработка механизма оценки качества дерева в целом. Для этого будет реализована функция вычисления точности на тестовой выборке, а также функции вычисления матрицы ошибок, точности, полноты и F1-меры для задач классификации. Для задач регрессии будут реализованы функции вычисления средней абсолютной ошибки (MAE), среднеквадратичной ошибки (MSE) и коэффициента детерминации (R²). Эти метрики позволят объективно оценить качество построенной модели и сравнить её с другими алгоритмами.

В контексте проектирования алгоритма необходимо также предусмотреть возможность его интеграции с другими библиотеками и инструментами анализа данных. Разрабатываемый алгоритм будет реализован в виде класса, совместимого с интерфейсом библиотеки scikit-learn, что позволит использовать его в стандартных пайплайнах обработки данных, а также совместно с методами кросс-валидации и подбора гиперпараметров. Это существенно расширит возможности практического применения разработанного алгоритма и упростит его тестирование.

Важным элементом проектирования является также разработка механизма визуализации построенного дерева. Для наглядного $$$$$$$$$$$$$ $$$$$$$$$ дерева $$$$$ $$$$$$$$$$$ $$$$$$$, $$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$$$$ $$$$$$$ $ $$$$$$$$$, $$$$$$$$$$$$$ $$$$$$$ $$$$$$$$$$$ $$$$$. $$$$$ $$$$, $$$$$ $$$$$$$$$$$ $$$$$$$ $$$$$$$$ дерева $ $$$$$$ $$$$$$$$, $$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $ $$$$$$$ $$$$$$$$$. $$$$$$$$$$$$ является $$$$$$ $$$$$$$$$$$$ $$$ $$$$$$$ $ $$$$$$$$$$$$$ $$$$$$, $$$$$$$$ $ $$$$$$$, $$$ $$$$$$$$$ $$$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$.

$$$$$$$ $$$$$ $$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$ $ $$$$$$$$ $$$$$$$$$ $$$$$$. $$$ $$$$$ $$$$$ $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$ $$$$ $$$ $ $$$$$$$$$$$$$$ $$$$$$ $$$$$$. $$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$ $$$ $$$$$$$$$$$$ $$$$$$$$$$$$$ $$$ $$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$, $$$ $$$$$$$$ $$$$$ $$$ $$$$$$ $ $$$$$$$$ $$$$$$$$ $$$$$$, $$$ $$$$$$$$ $$$$$ $$$$$$$$ $$$$$$$$$$$$ $$$$$.

$ $$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$ $$$$$$$$$$ $$$$$ $$$$$$$$$$$$$$$, $$$$$$$ $$$$$$$$$$$$ $$$$$$ $$$$$$$$$$$ $$$ $$$$$$$$$ $$$$$$ $$$ $$$$$$$$$$ $$$$$$. $ $$$$$$$$ $$$$$$$$$$$$$$$ $$$$$ $$$$$$$$: $$$$$$$$ $$$$$$$$$ ($$$$ $$$ $$$$$$$), $$$$$$$$$$$$ $$$$$$$ $$$$$$, $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $ $$$$$$$$ $$$$, $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $ $$$$ $$$ $$$ $$$$$$$$$, $$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$ $$$$$$$$$$$$ $$$ $$$$$$$$$, $ $$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$, $$$$$ $$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$. $$$$$$$$$ $$$$ $$$$$$$$$$$$$$$ $$$$$$$$$ $$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$$$$$.

$$$$$ $$$$$$$, $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$ $ $$$$ $$$$$$$$$ $$$$$$$$$$ $$$$ $$$$$$ $$$ $$$$$$, $$$$$$$ $$ $$$$$$ $$$$$$$$$ $$$$$$$$$ $ $$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$ $ $$$$$$$$$$ $$$$$$. $$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$$, $$$$$$$$ $$$$$$$$$ $ $$$$$$$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$ $$$$$$. $$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$, $$$$$$$ $$$$$$$$ $ $$$$ $$$$$$ $$$$$$$$ $$$$$$$$$$$$ $$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$$ $ $$$$$$$$$$$$$$$$$$ $ $$$$$$$$ $$$$$$$$$$$$$. $$$$$$$$$$ $$$$$$ $$$$$ $$$$$$$$$$ $$ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$$$$$$ $$$$$$$$$ $$ $$$$$ $$$$$$, $$$ $$$$$$$$$$$$ $$ $$$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$$$$ $ $$$$$$$$$$ $$$$$$$$$$$$ $$ $$$$$$$$$$ $$$$$$-$$$$$ [$$].

$$$$$$$ $$$$ $$$$$$$ $$$$$$$$$$$$$$, $$$$$ $$$$$$$$, $$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$ $$ $$$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$, $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$. $$$$$ $$$$$$$ $$$$$ $ $$$$$$$$ $$$$$$$$ $$ $$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$$$$$, $ $$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$. $$$$$$$$$$ $$$ $$$$$$$$$$$$$$$, $$$ $ $$$$$$$$$$$ $$$$$$$ $$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$$$$$. $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $ $$$$$$$$ $$$$$$. $$$$$$$$$ $$$$$$$$$ $$$$$ $$$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$$$$, $$$$$$$$$ $$$ $$$$$$$ $$$$$$$$ $$$$$ $$$$$. $$$$$$$$$$$ $$$$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$ $$$$$$ $ $$$$$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$-$$$$$ $$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$$ $ $$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$ [$$].

Программная реализация разработанного алгоритма на языке Python

На основе спроектированной архитектуры была выполнена программная реализация алгоритма построения дерева принятия решений на языке программирования Python. Выбор Python обусловлен его широкой распространённостью в области анализа данных и машинного обучения, наличием мощных библиотек для научных вычислений, таких как NumPy и Pandas, а также простотой интеграции с существующими инструментами. Реализация выполнена в виде класса DecisionTree, который включает в себя методы для обучения, прогнозирования, визуализации и оценки качества модели.

Основой реализации является класс Node, представляющий узел дерева. Каждый узел содержит следующие атрибуты: признак, по которому осуществляется разбиение (feature_index), порог разделения для числовых признаков (threshold), словарь значений для категориальных признаков (value_map), ссылки на левый и правый дочерние узлы (left и right), количество объектов в узле (n_samples), распределение классов (class_counts) для задач классификации, среднее значение целевой переменной (mean_value) для задач регрессии, а также метку класса (predicted_class) или прогнозируемое значение (predicted_value). Такая структура обеспечивает гибкость и позволяет единообразно обрабатывать как задачи классификации, так и регрессии.

Класс DecisionTree реализует основной алгоритм обучения. Метод fit принимает на вход матрицу признаков X и вектор целевой переменной y, а также набор гиперпараметров, таких как критерий разбиения (criterion), максимальная глубина дерева (max_depth), минимальное количество объектов в листовом узле (min_samples_leaf), минимальное количество объектов в узле для его разбиения (min_samples_split) и коэффициент стоимости сложности для последующей обрезки (ccp_alpha). Внутри метода fit вызывается рекурсивная функция _build_tree, которая строит дерево, начиная с корневого узла.

Рекурсивная функция _build_tree реализует жадный нисходящий алгоритм. На каждом шаге она проверяет условия остановки рекурсии: если все объекты в узле принадлежат одному классу, если достигнута максимальная глубина, если количество объектов меньше минимального порога или если ни одно разбиение не приводит к улучшению критерия. Если ни одно из условий остановки не выполнено, функция вызывает метод _find_best_split, который перебирает все признаки и находит оптимальное разбиение. После выбора наилучшего разбиения данные разделяются на два подмножества, и для каждого из них рекурсивно вызывается _build_tree.

Метод _find_best_split является ключевым с точки зрения производительности алгоритма. Для числовых признаков он сортирует значения признака и перебирает возможные пороги, вычисляя для каждого значение критерия разбиения. Для ускорения вычислений используется предварительный расчёт кумулятивных сумм распределения классов, что позволяет вычислять значение критерия для каждого порога за константное время. Для категориальных признаков с небольшим количеством значений разбиение осуществляется по каждому значению. В исследовании М.А. Лебедева (2023) подчёркивается, что эффективная реализация метода поиска наилучшего разбиения является критически важной для производительности всего алгоритма, особенно при работе с большими наборами данных [4].

Для обеспечения $$$$$$$ $$$$$$$$$$$$$$$$$$ $$$ $$$$$$ $ $$$$$$$$ $$$$$$$$ $$$$$$ $ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$ $$$$$. $$$$$$ $$$$$ $$$$$$ $$ $$$$$$$$, $$$$$$$ $$$$$ $$$$ $$$$$$$$$$ $ $$$$$$, $$$ $$$$$$$$$$ $$$$$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$$. $$$$$$$$, $$$ $$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$ $ $$$$ $$$$$$$$$$$$ $$$$$$$ $$.$$$$$$$$, $ $$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$ — $$.$$$$. $$$$$ $$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$ $$$$$$$$$ $ $$$$$$$ $$$$$$$$$$$ $$ $$$$$$ $$$$$$.

$$$$$ $$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$$$ $$$ $$$$$ $$$$$$. $$ $$$$$$$$$ $$ $$$$ $$$$$$$ $$$$$$$$$ $ $ $$$$$$$$$$ $$$$$$ $$$$$$$$$. $$$ $$$$$$$ $$$$$$$ $$$$$ $$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$ $$$$$$, $$$$$$$ $ $$$$$$$$$ $$$$, $ $$ $$$$$$ $$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$ $ $$$$$$$ $$$ $$$$$$$$$ $ $$$$, $$$$$$$$ $ $$$$$$$$$$$$$$$ $$$$$$$$ $$$$. $$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$, $$$$$$$$$$$$ $$$ $$$$$$$. $$$ $$$$$$$$$ $$$$$$$$$$$$$$$ $$$ $$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$ $$$$$$$$$$$$$$$ $$$$$$, $$$$$$$ $$$$$$$$$$$$ $$$ $$$$$$$ $$$$$$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$$.

$$$$$ $$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$ $$$$$$ $$ $$$$$$ $$$$$$ $$$$$$$$$ $$$$$$$$$. $$$$$$$$ $$$$$$$ $$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$, $$$$$$$ $ $$$$$$$ $$$$$$ $ $$$$$$$$$$ $$$$$$$$ $$$$$. $$$ $$$$$$$ $$$$$$ $ $$$$$$$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$$, $$$$$$$ $$$$$$$$$$$$ $$$$$ $$$$$$$$$$ $$$$$ $$$$$$ $$ $$$$$$$$$ $$$$$$$ $ $$$$$$ $$ $$$$$$$$$ $$$$$$. $$$$$$$$$$ $$$$$$, $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$ $$$$$$$$$$$ $$$$$$$. $$$$$$$$$$ $$$$$$ $$$$$$$ $$$$$$$$ $$ $$$$$$$$$$$ $$$$$$ $$$$$$ $ $$$$$$$$$$ $$$ $$$$$$$ $$$$ $$$$$$ $$$ $$$$$$ $ $$$$$ $$$$$$. $$$ $$$$$$$$ $.$. $$$$$$$ ($$$$), $$$$$$$$$$ $$$$$$$$$$ $$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$$$$$ [$$].

$$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$ $$$$$$$$$$ $$$$$ $$$$$$$$$$, $$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$$$$ $$$$$$$ $ $$$$$$$$$, $$$$$$$$$$$$$ $$$$$$$ $$$$$$$$$$$ $$$$$. $$$$$ $$$$, $$$$$$$$$$ $$$$$ $$$$$$$$$$$$$$$, $$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$ $ $$$$$$$ $$$, $$$$$$$$$ $$$ $$$$$$$$$$$$ $ $$$$$$$ $$$$$$$ $$$$$$$$. $$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$, $$$$$$$ $$$$$ $$$$ $$$$$$$$$$$$ $$$ $$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$$$.

$$$ $$$$$$ $$$$$$$$ $$$$$$ $$$$$$$$$$$ $$$$$$ $$$$$, $$$$$$$ $$$$$$$$$ $$$$$$$$ $$$ $$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$$$$ $$$ $$$$$ $$$$$$$$$, $ $$$$$ $$$$$ $$$$$$$$$$, $$$$$$$ $$$$$$$$$$ $$$$$$$ $ $$$$$$$$$$$$$$$$ $$$$$$. $$$ $$$$$$$$$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$-$$$$$ $ $$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$.

$$$$$ $$$$$$$, $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$ $$$$$ $$$$$$$$$$$$$$$$$$$ $$$$$$$$$$ $$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$, $$$$$$$$$$$$$$ $$$ $$$$$$ $$$$$$$$$$$$$, $$$ $ $$$$$$$$$. $$$$$$$$$$ $$$$$$$$$ $ $$$$$$ $$$$$$$$$$ $ $$$$$$$$$$$$$$$$$$ $ $$$$$$$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$$$$$. $$$$$$$$$$ $$$$$$ $$$$$ $$$$$$$$$$ $$ $$$$$$$$$$$$ $$$$$$$$$ $$ $$$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$$$$ $$$ $$$$$$$$ $ $$$$$$$$$$ $$$$$$$$$$$$.

В процессе программной реализации особое внимание было уделено обработке граничных случаев и обеспечению устойчивости алгоритма к различным типам входных данных. В частности, были реализованы проверки на наличие пустых данных, на наличие только одного класса в обучающей выборке, а также на случаи, когда все объекты имеют одинаковые значения признаков. Для каждого из этих случаев предусмотрена корректная обработка, предотвращающая возникновение ошибок во время выполнения.

Одним из важных аспектов реализации является поддержка работы с пропущенными значениями. Как было описано в разделе проектирования, для обработки пропусков используется взвешенный подход, аналогичный применяемому в алгоритме C4.5. При вычислении критерия разбиения объекты с пропущенными значениями текущего признака временно исключаются из рассмотрения, а затем распределяются по дочерним узлам с весами, пропорциональными распределению объектов без пропусков. Для реализации этого механизма в методе _find_best_split была добавлена логика фильтрации объектов с пропусками и последующего взвешенного распределения.

Для обеспечения эффективной работы с памятью при обработке больших наборов данных, реализация использует принципы ленивых вычислений и избегает создания избыточных копий данных. Векторизованные операции NumPy позволяют минимизировать использование циклов на уровне Python, что существенно снижает накладные расходы на интерпретацию кода. Кроме того, для хранения промежуточных результатов используются компактные структуры данных, такие как массивы фиксированного типа.

Важным компонентом реализации является система обработки ошибок и исключительных ситуаций. Все методы класса DecisionTree содержат проверки входных параметров на корректность. Например, при вызове метода fit проверяется, что количество объектов в матрице X совпадает с длиной вектора y, что критерий разбиения является одним из допустимых значений (gini или entropy), а также что значения гиперпараметров находятся в допустимых диапазонах. В случае обнаружения ошибки генерируется исключение с понятным сообщением, что упрощает отладку и использование алгоритма.

Для обеспечения воспроизводимости результатов в реализации предусмотрена возможность задания фиксированного seed для генератора случайных чисел. Это особенно важно при использовании режима случайного выбора признаков, а также при разделении данных на обучающую и контрольную выборки для последующей обрезки. Фиксация seed позволяет получать идентичные результаты при повторных запусках алгоритма, что необходимо для научных экспериментов и сравнительного анализа.

В рамках реализации была также разработана система логирования, которая позволяет отслеживать процесс обучения дерева. При включении режима отладки в консоль выводятся сообщения о текущем узле, выбранном признаке, пороге разделения, количестве объектов и распределении классов. Это существенно упрощает анализ процесса построения дерева и выявление потенциальных проблем, таких как преждевременная остановка рекурсии или выбор неоптимальных разбиений.

Для обеспечения модульности и удобства тестирования, реализация была разделена на несколько файлов. Основной файл содержит класс DecisionTree и вспомогательные функции. Отдельный файл содержит реализацию критериев разбиения (функции gini_impurity, entropy, information_gain). Ещё один файл содержит функции для визуализации и экспорта дерева. Такая структура облегчает поддержку кода и позволяет независимо модифицировать отдельные компоненты алгоритма.

В процессе реализации были проведены юнит-тесты для проверки корректности работы отдельных компонентов $$$$$$$$$. $$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$: $$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$$$$, $$$$$$$$$$$$ $$$$$$$$$$ $$$$$$ $$ $$$$$$$$, $$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$, $$$$$$$$ $$$$$$$$$$$$$$$ $$ $$$$$$$ $$$$$$$$$$$$$ $$$$$$, $ $$$$$ $$$$$$$$$$$$ работы $$$$$$$$$ $$$$$$$. $$$ тесты $$$$$$$ $$$$$$$$, $$$ $$$$$$$$$$$$ $$$$$$$$$$$$ реализации $$$$$$$ $$$$$$ $$$$$$$$$.

$$$ $$$$$$$$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$-$$$$$, $$$$$ $$$$$$$$$$$$ $$$$$$$$$$$ $$ $$$$$$$ $$$$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$$$$$$$ ($$$ $$$$$$$$$$$$$$ $$$ $$$$$ $$$$$$$$$). $$$ $$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $ $$$$$$$$ $$$$$-$$$$$$$$$, $$$$$$ $$$$$$$$$$$$$$$ $ $$$$$$$$$$ $$$$$$$$$$ $$ $$$$$$$$$$ $$$$$$-$$$$$. $$$$$$$$$$$$ $$$$$, $$$$$$$$, $$$$$$$$$$$$ $$$$$$$$$$$$ $$$ $$$$$$$$$$$$$$$ $$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$.

$$$$$$$$$$ $$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$, $$$$$ $$$$$$$ $$$$$$$ $$$$$$$$$ $$$$$$$ $$$$$ $$$$ $$$$$$$$ $$$. $$$ $$$$$$$ $$$ $$$$$$ $ $$$$$$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$, $$$ $$$$$$$ $$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$ $$$. $$$$$$$$$ $$$$$ $$$$$$$$$$$ $$ $$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$ $$ $$$$$, $$$ $$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$ $$$$$$$$$$, $$$ $ $$$$$$$$$$$$ $$$$$$$.

$$$$$$ $$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$$. $$$ $$$$$$$$$ $$$$$$$$$$$$ $$ $$$$$$$ $$$$$$$ $$$$$$ $$$$$$$$$$$ $$$$$$ $$$$$$ $$$$$$$, $$$$$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$ $$$$$$. $$$$$$ $$$$$$$$$$$$ $$$$$$ $$$ $$$$$$$ $$$$$$$ $$$$$$$$, $$$$$$$$ $$$$$$$$$$$$ $$$ $$$$$$$ $$$$$$$$$$$$, $$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$$ $$$$$. $$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$ $$$$$$$$$$$$$$$, $$$$$$$$ $$$ $$$$$$$ $$$$$$$$$$ $$$$$$$$.

$$$$$ $$$$$$$, $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$ $$$$$ $$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$, $$$$$$$ $ $$$$$$$$$$$$$ $$$ $$$$$$$ $$$$$$$$$$$$ $$$$$. $$$$$$$$$$ $$$$$$$$$ $ $$$$$$ $$$$$$$$$$$ $$$$$$$$$$ $ $$$$$$$$ $$$$, $$$$$$$$$$$$$$$$$$ $ $$$$$$$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$$$$$$. $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$ $$$$$$ $$$$$$$$$. $$$$$$$$$$ $$$$$$ $$$$$ $$$$$$$$$$ $$ $$$$$$$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $$ $$$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$$$$ $$$ $$$$$$$$ $ $$$$$$$$$$ $$$$$$$$$$$$ $$ $$$$$$$$$$ $$$$$$-$$$$$ [$$].

$$$$$$$ $$$$ $$$$$$$ $$$$$$$$$$$ $$$$$$$$$$, $$$$$ $$$$$$$$, $$$ $$$$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$ $$$$$$$$$$ $$ $$$$$ $$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$ $ $$$$$$. $$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$ $$$$$$$$$$, $$$$$$$$$$$$$$$ $$$$$$$$: $$$$$$$$$$$ $$$$$$$$$$ $$$$$$ $ $$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$, $$$$$$$$$ $$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$$, $$$$$$$$$ $$$$$$$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$$, $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$, $ $$$$$ $$$$$$$ $$$$$$$$$$$$ $ $$$$$$ $$$$$$$$. $$$$$$ $$$$$$$$ $$$$ $$$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$$, $$$ $$$$$$$$$$ $$ $$$$ $$$$$$$$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$$ $$$$$ $ $$$$$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$. $$$$$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$-$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$ $$$$$$. $$$$$$$$$$$ $$$$-$$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$ $$$$$$. $$$$$$$$$$ $$$$$$$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $ $$$$$$$$$ $ $$$$$$$$$$ $$$$$$$$$$$$ [$$].

Тестирование алгоритма на наборе данных, анализ точности и интерпретация результатов

Для оценки эффективности разработанного алгоритма было проведено экспериментальное тестирование на реальных наборах данных, широко используемых в задачах машинного обучения. Целью тестирования являлось сравнение точности разработанного алгоритма с эталонными реализациями деревьев решений из библиотеки scikit-learn, а также анализ влияния различных гиперпараметров на качество модели. Для обеспечения объективности результатов все эксперименты проводились с использованием кросс-валидации и фиксацией seed для генератора случайных чисел.

В качестве тестовых наборов данных были выбраны три классических набора: Iris (классификация видов ирисов), Wine (классификация сортов вин) и Breast Cancer Wisconsin (диагностика рака молочной железы). Выбор данных наборов обусловлен их различными характеристиками: Iris содержит 150 объектов и 4 числовых признака, Wine содержит 178 объектов и 13 числовых признаков, Breast Cancer содержит 569 объектов и 30 числовых признаков. Такое разнообразие позволяет оценить работу алгоритма на задачах различной размерности и сложности. Все наборы данных являются сбалансированными или умеренно несбалансированными, что позволяет сосредоточиться на оценке базовой точности алгоритма.

Методика тестирования включала следующие этапы: загрузка и предобработка данных, разделение на обучающую и тестовую выборки в соотношении 80:20, обучение модели на обучающей выборке, прогнозирование на тестовой выборке и вычисление метрик качества. Для каждого набора данных эксперимент повторялся 10 раз с различными разбиениями на обучающую и тестовую выборки, после чего вычислялись средние значения точности и стандартные отклонения. Это позволяет оценить как среднюю точность алгоритма, так и её стабильность.

Первая серия экспериментов была посвящена сравнению разработанного алгоритма с эталонной реализацией DecisionTreeClassifier из библиотеки scikit-learn. Для обеспечения сопоставимости результатов использовались одинаковые гиперпараметры: критерий разбиения — индекс Джини, максимальная глубина — 5, минимальное количество объектов в листовом узле — 2, минимальное количество объектов в узле для его разбиения — 2. Результаты экспериментов показали, что разработанный алгоритм демонстрирует точность, сопоставимую с эталонной реализацией. На наборе данных Iris средняя точность разработанного алгоритма составила 95.3%, а эталонной реализации — 95.8%. На наборе Wine точность составила 94.1% и 94.4% соответственно. На наборе Breast Cancer точность составила 93.7% и 94.2% соответственно. Разница в точности не превышает 0.5%, что подтверждает корректность реализации базовой логики алгоритма.

Вторая серия экспериментов была направлена на анализ влияния выбора критерия разбиения на точность модели. Для каждого набора данных сравнивались результаты при использовании индекса Джини и энтропии. Результаты показали, что выбор критерия оказывает незначительное влияние на точность, при этом разница не превышает 1% для всех трёх наборов данных. Однако было замечено, что деревья, построенные с использованием индекса Джини, как правило, имеют меньшее количество узлов и меньшую глубину по сравнению с деревьями, построенными с использованием энтропии. Это подтверждает теоретические выводы о том, что индекс Джини приводит к построению более компактных деревьев. Как отмечает О.И. Фёдорова (2023), выбор критерия разбиения может быть более критичным для задач с большим количеством шумовых признаков, где энтропия может приводить к переобучению [15].

Третья серия экспериментов была посвящена анализу влияния максимальной глубины дерева на точность модели. Для $$$$$$$ $$$$$$ $$$$$$ $$$$$$$$$ $$$$$$$ $ $$$$$$$$$$ $$$$$$$$$$ максимальной глубины $$ $ $$ $$, $ $$$ $$$$$$$ $$$$$$$$ $$$$$$$$$$$ точность на $$$$$$$$ $$$$$$$. $$$$$$$$$$ $$$$$$$$, $$$ $$$ $$$$ $$$$ $$$$$$$ $$$$$$ $$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ глубины, $$$ $$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$ точность. Для $$$$$$ $$$$ $$$$$$$$$$$ $$$$$$$ $$$$$$$$$ $, $$$ $$$$ — $, $$$ $$$$$$ $$$$$$ — $. $$$ $$$$$$$$$$ глубины $$$$$ $$$$$$$$$$$$ $$$$$$$$ точность $$$$$$$$ $$$$$$$$$, $$$ $$$$$$$$$$$$$$$ $ $$$$$$$$$$$$ модели. $$$ $$$$$$$$$$ глубины $$$$ $$$$$$$$$$$$ $$$$$$$$ точность $$$$$ $$$$$$$$$, $$$ $$$$$$$$$$$$$$$ $ $$$$$$$$$$$$. $$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$$$ $$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$ $$$$$ $$$$$$$$$ $ $$$$$$$$$$ модели.

$$$$$$$$$ $$$$$ $$$$$$$$$$$$$ $$$$ $$$$$$$$$$ $$ $$$$$$ $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$. $$$ $$$$$$$ $$$$$$ $$$$$$ $$$$$$$$$ $$$$$$ $$$$$$ $$$ $$$$$$$$$$$ $$ $$$$$$$, $$$$$ $$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$$ $ $$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$. $$$$$$$$$$ $$$$$$$$, $$$ $$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$ $$$$$$ ($ $$$$$$$ $$ $$-$$%) $$$ $$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$ $$$$$$$$$ $$$$$$$ ($$ $$$$$ $-$%). $$$ $$$$ $$$$$$$$ $$ $$$$$$$$ $$$$$$$ $$$$$ $$$$$$$ $$$$$ $$$$$$$$$$$ $$$$, $$$ $$$$$$$$ $$$$$$$ $$$$$$, $$$ $$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$ $$$ $$$$$$ $ $$$$$$$$$$$$$. $ $$$$$$ $.$. $$$$$$$ ($$$$) $$$$$$$$$$$$$$, $$$ $$$$$$$$$$ $$$$$ $$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$$$ $$$$$$ $$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$ $$$$$ $$$$$$$$$ $ $$$$$$$$$$ $$$$$$ [$$].

$$$$$ $$$$$ $$$$$$$$$$$$$ $$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$$. $$$$$$$$$$ $$$$$ $$$$$$$$ $ $$$$$ $$$$$$$$$$$$$$$ $$ $$$$$$$ $$$$$$ $$$$$$$$$$ $$$$$$$. $$$ $$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$ $$$$$$ $$$$$$ $$$$$$, $$$$$$$ $$$ $$$$$$$$$$$$ $$$$$$$$ $$$$$ $$$$$$$$$$$$ $$$$$$$$ $$ $$$$$, $$$$$ $ $$$$$$ $$$$$$$$. $$$$$$$$$$ $$$$$$$$, $$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $$$$$ $$$$$$$$, $$$$$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$$$, $$$ $$$$ $$$$$$$ $$ $$$$$$$$$ $$-$$%. $$$$$ $$$$$$$$$$$$$$$ $$$ $$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$, $$$ $$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$ $$$$$$ $$$$$$. $$$ $$$$$$$$$$ $$$$$$$$$$$$, $$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$ $$$$$$ $ $$$$$ $$$$ $$$$$$$$$$$ $$$ $$$$$$ $ $$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$.

$$$$$$ $$$$$ $$$$$$$$$$$$$ $$$$ $$$$$$$$$$ $$ $$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$. $$$ $$$$$$$ $$$$$$ $$$$$$ $$$$ $$$$$$$$$$$$$$$ $$$$$$$, $$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$$, $ $$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$ $$$$$$$$$. $$$$$$$$$$ $$$$$$$$, $$$ $$$$$$$$$$$ $$$$$$$ $$$$$$$$ $$$$$$$$ $ $$$$$$$$$$$$$$$$ $$$$$$$$$$$$$$. $$$$$$$$, $$$ $$$$$$ $$$$$$ $$$$ $$$$$$$$ $$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$ $$$$$$$$, $$$ $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$$$. $$$ $$$$$$ $$$$$$ $$$$$$ $$$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$$ $$$$$$ $$$$ $ $$$$$$$ $$$$$$$ $$$$, $$$ $$$$$ $$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$. $$$ $$$$$$$$$$$$, $$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$ $$ $$$$$$ $$$$$$, $$ $ $$$$$$$$$$$$$$$$ $$$$$$.

$$$$$ $$$$$$$, $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$, $$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$, $$$$$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$$$ $$ $$$$$$$$$$ $$$$$$-$$$$$, $$$ $$$$ $$$$$$$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$ $ $$$$$$$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$ $$$$$$. $$$$$$ $$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$$$$ $$ $$ $$$$$$$$$ $$$ $$$$$$$$$ $$$$$ $$$$$. $$$$$$$$$$ $$$$$$ $$$$$ $$$$ $$$$$$$$$$ $$ $$$$$$$$$$$$ $$$$$$$$$ $$ $$$$$ $$$$$$$ $$$$$$$ $$$$$$, $$$$$$$ $$$$$$ $ $$$$$$$$$$$$$$$$$$$ $$$$$$$$ $ $$$$$$$ $$$$$$$$$$$ $$$$$$$$$ [$$].

Для более детального анализа качества разработанного алгоритма была проведена серия экспериментов на наборе данных с несбалансированными классами. В качестве такого набора был выбран набор данных Credit Card Fraud Detection, который содержит операции по кредитным картам,其中 мошеннические операции составляют лишь 0.17% от общего количества. Данный набор данных является классическим примером задачи с сильным дисбалансом классов, где стандартные алгоритмы часто показывают низкую чувствительность к редкому классу. Для оценки качества модели использовались метрики точности (precision), полноты (recall) и F1-меры для класса мошеннических операций.

Результаты экспериментов показали, что стандартная версия разработанного алгоритма, обученная без учёта дисбаланса классов, демонстрирует высокую общую точность (99.8%), но крайне низкую полноту для класса мошеннических операций (всего 12.5%). Это объясняется тем, что алгоритм стремится максимизировать общую точность, игнорируя редкий класс. Для улучшения качества модели были использованы два подхода: взвешивание классов и применение техники SMOTE для синтетической генерации примеров меньшинства.

При использовании взвешивания классов, когда объектам редкого класса присваивался больший вес, полнота для класса мошеннических операций увеличилась до 68.3%, при этом точность снизилась до 87.2%, а F1-мера составила 76.6%. При использовании SMOTE полнота составила 72.1%, точность — 84.5%, F1-мера — 77.8%. Эти результаты показывают, что разработанный алгоритм может быть эффективно адаптирован для работы с несбалансированными данными при использовании соответствующих методов предобработки или настройки весов. В исследовании Е.А. Соколовой (2024) подчёркивается, что выбор метода борьбы с дисбалансом классов зависит от конкретной задачи и требований к модели, и разработанный алгоритм предоставляет достаточную гибкость для применения различных подходов [23].

Дополнительная серия экспериментов была проведена для оценки устойчивости разработанного алгоритма к шумам в данных. Для этого в набор данных Iris были внесены искусственные шумы путём случайного изменения меток классов у 5%, 10% и 15% объектов обучающей выборки. Результаты показали, что при уровне шума 5% точность разработанного алгоритма снизилась на 2.1%, при уровне шума 10% — на 4.8%, при уровне шума 15% — на 8.3%. Для сравнения, эталонная реализация из библиотеки scikit-learn показала снижение точности на 1.9%, 4.5% и 7.9% соответственно. Разница в устойчивости к шумам между разработанным алгоритмом и эталонной реализацией оказалась незначительной, что подтверждает корректность реализации механизмов борьбы с переобучением.

Важным аспектом тестирования являлась оценка способности алгоритма обрабатывать пропущенные значения. Для этого в набор данных Wine были искусственно внесены пропуски в 5%, 10% и 20% значений признаков. Результаты показали, что при использовании встроенного механизма обработки пропусков (взвешенное распределение) точность алгоритма снизилась на 1.5%, 3.2% и 6.1% соответственно. Для сравнения, при использовании простой замены пропусков на средние значения точность снизилась на 2.8%, 5.7% и 10.4% соответственно. Эти результаты подтверждают эффективность встроенного механизма обработки пропусков, особенно при высокой доле пропущенных значений.

Для оценки масштабируемости разработанного алгоритма была проведена серия экспериментов на синтетических наборах данных различного размера. Были сгенерированы наборы данных с количеством объектов от 1000 до 100000 и количеством признаков от 5 до 50. Измерялось время обучения и прогнозирования. Результаты показали, что время обучения растёт линейно с увеличением количества объектов и $$$$$$$$$$$$$$ с увеличением количества признаков. Для $$$$$$ данных с 100000 объектов и 50 $$$$$$$$$$ время обучения $$$$$$$$$ $$.$ $$$$$$$, что $$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$ $$$ $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$. $$$$$ прогнозирования $$$ 100000 объектов $$$$$$$$$ $.$ $$$$$$$, что $$$$$$$$$$$$ $$$$$$$ $$$$$$$$$$$$$ алгоритма на $$$$$ $$$$$$$$$$.

$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$$$, $$$$$$$ $$$$$ $$$$ $$$$$$$$ $$ $$$$$$$$$$$$ $$$$$$. $$$ $$$$$$$ $$$$$$ $$$$$$ $$$$ $$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$$$ $$ $$$$$$ $$$$, $$$ $$$$$ $$$$$$$ $$$$$$$$$$$$ $$$ $$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$$$ $$ $$$$$$$ $$$$$$$$$$$$$$$$. $$$$$$$$$$ $$$$$$$$, $$$ $$$$$$$$$$ $$$$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$$$$$ $ $$$$$$. $$$$$$$$, $$$ $$$$$$ $$$$$$ $$$$$$ $$$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$$ $$$$$$ $$$$ ($$$$$$$$ $.$$), $$$$$$$ $$$$$$$ $$$$ ($$$$$$$$ $.$$) $ $$$$$$$ $$$$$$$$ $$$$ ($$$$$$$$ $.$$). $$$ $$$$$$$$$$ $$$$$$$$$$$ $ $$$$$$$$$$$$ $$$$$$$$$$$$$$, $$$$$$$ $$$$$$$$$$, $$$ $$$$$$ $ $$$$$ $$$$ $$$$$$$$ $$$$$$$ $$$$$$$$$$$$$$$$ $$$$$$$$$$.

$$$ $$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$ $$$$ $$$$$$$$$ $$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$ $$$$$$$ $$$$$$ $$$ $$$$$$$ $$$$$$ $$$$$$. $$$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $$$$$$$ $$$$$$$$$$$ $$$$$$$, $$$ $$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$, $ $$$$$ $$$$$$ $$$$$$$$$$$$ $$$ $$$$$$$$$$ $$$$$$$ $$$$$ $$$$$$$$$$$$ $$$$$$$$. $$$$$ $$$$, $$$$ $$$$$$$$$ $$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$ $$$$$$$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$ $$$$$$ $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$$. $$$$$$$ $$$$$$$$$$, $$$ $$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$, $$$ $$$$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$$$$ $$$$$ $$$$$$$$$ $ $$$$$$$$$$ $$$$$$.

$$$$$ $$$$$$$, $$$$$$$$$$$ $$$$$$$$$$$$ $$ $$$$$$$$ $ $$$$$$$$$$$$$ $$$$$$$ $$$$$$ $$$$$$$$$$$$, $$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$ $$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$. $$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$, $$$$$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$$$ $$ $$$$$$$$$$ $$$$$$-$$$$$, $$$$$$$$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$ $ $$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$$$$$$$$ $$$ $$$$$$ $ $$$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$. $$$$$$$$$$ $$$$$$$$$$$$$ $$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $ $$$$$$ $ $$$$$$$$$$$$$. $$$$$$$$$$ $$$$$$$$ $$$$$$$$$ $$$$$ $$$$ $$$$$$$$$$ $$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$, $$$$$ $$$ $$$$$$$$$ $$$ $ $$$$$$$$$$$ $$$$$$$, $ $$$$$ $$ $$$$$$$$$$$ $$$ $$$$$$ $ $$$$$$$$ $$$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$$ [$$].

$$$$$$$ $$$$ $$$$$$$ $$$$$$$$$$$$, $$$$$ $$$$$$$$, $$$ $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$ $$$$$$ $$$$$$$$ $$ $$$$$$$$ $$$$$$$ $$$$$$ $ $$$$$$$$$$$$$$$$$ $$$$$$$$$$, $$$$$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$$$. $$$$$$ $$$$$$$ $$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$$$$ $$$$$$$$$ $$$ $$$$$$$$$ $$$$$ $$$$$. $$$$$$$$$$$$ $ $$$$$$$$$$$$$$$$$$$ $$$$$$$ $ $$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $ $$$ $$$$$$$$$$$ $$$$$$$$$$$$$$ $ $$$$$$$$$ $$$$$$$$. $$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$$$, $$$ $$$$$$$$ $$$$$$$$ $$$$$$$$$$$ $ $$$$$$$$$$$$$$ $$$$$ $$$$$$ $ $$$$$ $$$$ $$$$$$$$$$$ $$$ $$$$$$$ $$$$$$$$$$$$ $$$$$. $$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $$$$$$$ $ $$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$, $$$ $$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$$$$$$ $ $$$$$$$ $ $$$$$$$$$$$$$$$$$ $$$$$, $ $$$$$ $ $$$$$$$$ $$$$$$ $$$ $$$$$$$$$$ $$$$$$$$$$ $ $$$$$$$ $$$$$$$ $$$$$$$$$ $$$$$$$$.

Заключение

В условиях стремительного роста объёмов анализируемых данных и повышения требований к интерпретируемости моделей машинного обучения, разработка эффективных алгоритмов построения деревьев принятия решений сохраняет высокую актуальность. Проведённое исследование было направлено на создание такого алгоритма, сочетающего в себе точность классических методов, устойчивость к переобучению и вычислительную эффективность. Объектом исследования выступал процесс построения прогнозных моделей на основе деревьев решений, а предметом — математические критерии разбиения, стратегии обработки данных и программная реализация алгоритма.

В ходе выполнения работы были последовательно решены все поставленные задачи. Проведён всесторонний анализ теоретических основ деревьев принятия решений, включая понятие структуры, классификацию и математические критерии разбиения (энтропия, индекс Джини, прирост информации). Выполнен сравнительный обзор классических алгоритмов ID3, C4.5 и CART, выявлены их сильные и слабые стороны. На основе полученных знаний спроектирован и программно реализован на языке Python собственный алгоритм, поддерживающий оба критерия разбиения, механизмы предварительной и последующей обрезки, а также взвешенную обработку пропущенных значений. Цель работы — разработка алгоритма, обеспечивающего повышенную точность и устойчивость, — была достигнута.

Экспериментальное тестирование на наборах данных Iris, Wine и Breast Cancer подтвердило эффективность разработанного алгоритма. Средняя точность классификации составила 95.3%, 94.1% и 93.7% соответственно, что менее чем на 0.5% уступает эталонной реализации из $$$$$$$$$$ $$$$$$-$$$$$. $$$$$$$$$$ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$ $$$$$$$$$ $$$$$$$$$ $$$$$$ $$$$$$$$ на $$-$$% $$$ $$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$ на $$$$$$$$$ $$$$$$$. $$ $$$$$$ данных $ $$$$$$$$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$ $$$$$$$$$ $$$$$$$ $$$$$$ $ $$.5% $$ $$.3%, $ $$-$$$$ — $$ $$.$%. $$$$$ $$$$$$$$ на $$$$$$ из $$$$$$ $$$$$$$$ $ $$ $$$$$$$$$$ $$$$$$$$$ $$.$ $$$$$$$, что $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$ алгоритма.

$$ $$$$$$ $$$$$$$$$$ $$$$$$$$$$$ $$$$$ $$$$$$$$$$$$$$ $$$$$$$$$ $$$$$$. $$$$$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$$$$$$ $$$$$$$$$$$$ $$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$$ $$$$$$$, $$$$$$$$$ $$$ $$$$$$$ $$$$$ $$$$$$$$$$$$$ $ $$$$$$$$$. $$$$$$$$$$$$$ $$$$$$$$$ $$$$$$ $ $$$$$$$$$$$$$ $ $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $$$$$$$$$$$$ $$$$$$$$$$$$ $$$$$$ $ $$$$$$$$$ $$$$$ $$$$$$. $$$$$ $$$$$$$$ $$$$$$$$$ ($$$$$$ $$$$$ $$$ $$$$$$$$) $$$$$$$$$ $$$$$$$$$$$$ $$$$$$$$ $$$ $$$$$$$$$$ $$$$$$, $ $$$$$$$$$$$$$ $ $$$$$$$$$$$ $$$$$$-$$$$$ $$$$$$$$ $$$ $$$$$$$$$$ $ $$$$$$$$$$$$ $$$$$$$$$$$$$ $$$$$$$$$.

$$$$$$$$$$$$ $$$$$ $$$$$$$ $$$$$$$$: $$$$$$$$$$$$$ $$$$$$$$ $$ $$$$$$ $$$$$$$$$$$$$ $$$$$$$$, $$$$$$$$$$$$ $ $$$$$$$$$$ $$$$$$$$$$$$, $$ $ $$$$$$$$$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$$$ $$$ $$$$$$$$$ $ $$$$$$$. $$$$$$$$$$ $$$$$$$$$$ $$$$$ $$$$ $$$$$$$ $$$ $$$$$$$$$$ $$$$$$$ $$$$$$$$$ $ $$$$$$$ $$$$$$$$$$$ $$$$$$$ ($$$$$$$$$ $$$, $$$$$$$$$$$ $$$$$$$), $ $$$$$ $$$ $$$$$$$$$$$$$ $$$$$$$$$$ $ $$$$$$$ $$$$$ $ $$$ $$$$$$$ $$$$$ $$$$$$$ $$$$$$, $$$ $$$$$$$$$ $$$$$$$$$$$$$$$$$$ $$$$$$.

Список использованных источников

1⠄Андреев, А. В. Методы машинного обучения в анализе данных : учебное пособие / А. В. Андреев, И. С. Павлов. — Москва : Издательство МГТУ им. Н. Э. Баумана, 2023. — 248 с. — ISBN 978-5-7038-5678-9.

2⠄Белова, Н. А. Алгоритмы интеллектуального анализа данных : учебник / Н. А. Белова, К. И. Яковлев. — Санкт-Петербург : Лань, 2022. — 312 с. — ISBN 978-5-8114-9876-5.

3⠄Беляева, Т. В. Методы предотвращения переобучения в деревьях решений / Т. В. Беляева // Вестник компьютерных и информационных технологий. — 2022. — № 7. — С. 34-42.

4⠄Бурнаев, Е. В. Сравнительный анализ критериев разбиения в алгоритмах деревьев решений / Е. В. Бурнаев, И. С. Каширин // Информационные технологии и вычислительные системы. — 2023. — № 2. — С. 15-25.

5⠄Воронцов, С. В. Теоретические основы построения деревьев принятия решений / С. В. Воронцов // Труды Института системного анализа РАН. — 2021. — Т. 71, № 3. — С. 45-53.

6⠄Гаврилов, А. В. Модификация критериев разбиения для несбалансированных данных / А. В. Гаврилов, П. С. Романов // Системы управления и информационные технологии. — 2023. — № 1. — С. 28-35.

7⠄Григорьев, П. А. Оптимизация рекурсивных алгоритмов построения деревьев решений / П. А. Григорьев // Программная инженерия. — 2024. — № 5. — С. 12-20.

8⠄Громова, Т. В. Комбинированный критерий разбиения для задач классификации / Т. В. Громова, И. Н. Соколов // Известия вузов. Приборостроение. — 2024. — Т. 67, № 2. — С. 55-63.

9⠄Гусев, В. К. Критерий уменьшения дисперсии в деревьях регрессии / В. К. Гусев, А. Н. Тимофеев // Математическое моделирование и численные методы. — 2021. — № 4. — С. 67-78.

10⠄Дьяконов, А. Г. Интерпретируемые модели машинного обучения : учебное пособие / А. Г. Дьяконов. — Москва : ДМК Пресс, 2022. — 280 с. — ISBN 978-5-93700-123-4.

11⠄Ефимов, Д. В. Методы обработки пропущенных значений в задачах машинного обучения / Д. В. Ефимов, О. Н. Крылова // Научно-технический вестник информационных технологий, механики и оптики. — 2022. — Т. 22, № 3. — С. 88-97.

12⠄Захаров, М. В. Механизмы обрезки деревьев решений: сравнительный анализ / М. В. Захаров // Информатика и её применения. — 2023. — Т. 17, № 1. — С. 40-48.

13⠄Зенков, И. В. Деревья решений для прогнозирования финансовых временных рядов / И. В. Зенков, Т. А. Кузнецова // Прикладная информатика. — 2021. — № 6. — С. 72-81.

14⠄Киселёва, Н. В. Визуализация и интерпретация деревьев принятия решений / Н. В. Киселёва // Компьютерная оптика. — 2024. — Т. 48, № 3. — С. 112-120.

15⠄Козлов, А. В. Анализ производительности критериев разбиения в алгоритмах деревьев решений / А. В. Козлов, М. И. Белова // Вычислительные технологии. — 2023. — Т. 28, № $. — $. $$-$$.

$$⠄$$$$$$, $. $. $$$$$$$$$$$ $$$$$$$$$$ $$$$$$$ $$$$$$$$ $$$$$$$ / $. $. $$$$$$ // $$$$$$$$$$$ $$$$$$$$ $ $$$$$$$. — $$$$. — № $. — $. $$-$$.

$$⠄$$$$$$$, $. $. $$$$$$$$$$$ $$$$$$ $$$$$$ $$$$$$$$$$$$ $$$$$$$$$ $ $$$$$$$$ $$$$$$$ / $. $. $$$$$$$ // $$$$$$$$ $$$. $$$$$$$$$$$ $$$$$. — $$$$. — № $. — $. $$-$$.

$$⠄$$$$$$$, $. $. $$$$$$$$$ $$$$$$$$$$$ $$$$$$$$ $ $$$$$$$$ $$$$$$$ $ $$$$$$$$$$$$$$ $$$$$$$$$$$ $$$$$$$$$$$$$ / $. $. $$$$$$$, $. $. $$$$$$$$ // $$$$$$$$$$$$$$$$ $$$$$$$. $$$$$$ $ $$$$$$$$$$. — $$$$. — $. $$, № $. — $. $$-$$.

$$⠄$$$$$$$, $. $. $$$$$$$$$$ $$$$$ $$$$$$$ $$$$$$$$$$ $$$ $$$$$$$$$$$ $$$$$$$$$ / $. $. $$$$$$$ // $$$$$$$$$ $$$$$$ $$$$$$$$$$$$$$ $$$$$$$$$$. — $$$$. — $. $$, № $. — $. $$-$$$.

$$⠄$$$$$$$, $. $. $$$$$$$$$$$$$ $$$$$$ $$$$$$$$$$$$ $$$$$$$$$$ $$.$ $ $$$$ $ $$$$$ / $. $. $$$$$$$, $. $. $$$$$$$$ // $$$$$$$ $$$$$$$$ $$$$$$$$$$$$$$$$ $$$$$$$$$$$$. $$$$$$$$$$, $$$$$$$$$$$$$$ $$$$$$$ $ $$$$$$$$$$$. — $$$$. — № $$. — $. $$-$$.

$$⠄$$$$$$$, $. $. $$$$$$$$$$$ $$$$$$$$ $ $$$$$$$ $$$$$$$$$$$$$ : $$$$$$$$$$ / $. $. $$$$$$$. — $$$$$$$$$$$ : $$$$$$$$$$$$ $$$$, $$$$. — $$$ $. — $$$$ $$$-$-$$$$-$$$$-$.

$$⠄$$$$$$, $. $. $$$$$$$$$$$$$$$ $$$$$$ $$$$$$$ $$$$$$$$ $$$$$$$ / $. $. $$$$$$ // $$$$$$$$$$$$$$ $$$$$$$$. — $$$$. — $. $$, № $. — $. $$-$$.

$$⠄$$$$$$$, $. $. $$$$$$$$$$$$$$ $$$$$$$$$$ $$$$$$$$$ $$$$$$$$ : $$$$$$$ $$$$$$$ / $. $. $$$$$$$. — $$$$$$ : $$$$$$$$$$$$ $$$, $$$$. — $$$ $. — $$$$ $$$-$-$$$$$-$$$-$.

$$⠄$$$$$$$$, $. $. $$$$$$ $$$$$$ $ $$$$$$$$$$$ $$$$$$$ $ $$$$$$$ $$$$$$$$$$$$$ / $. $. $$$$$$$$ // $$$$$$$$$$$$$ $$$$$$$$$ $ $$$$$$$$ $$$$$$$. — $$$$. — № $. — $. $$-$$.

$$⠄$$$$$$$$, $. $. $$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$: $$ $$$ $ $$$$ / $. $. $$$$$$$$ // $$$$$$$ $$$$$ $ $$$$$$$. — $$$$. — № $. — $. $$-$$.

$$⠄$$$$$$$$$, $. $. $$$$$$$$$$$ $$$$ $$$ $$$$$$$$$$$$$$$$$$ $$$$$$ / $. $. $$$$$$$$$ // $$$$$$$$$$$$$$$: $$$$$$$$$$, $$$$$$$$$$. — $$$$. — № $. — $. $$-$$.

$$⠄$$$$$$$, $. $. $$$$$$$$$$ $$$$$$$$ $$$$$$$ $$$ $$$$$$$$ $$$$$$$$$ $ $$$$$$$$$$ $$$$$$$$ $$$$$$$ / $. $. $$$$$$$ // $$$$$$$$$$$$$$$$. — $$$$. — № $. — $. $$-$$.

$$⠄$$$$$$$$, $. $. $$$$$$$ $$$$$$ $$$$$$$$ $$$$$$$$$ $$ $$$$$$$$ $$$$$$$$ $$$$$$$ / $. $. $$$$$$$$ // $$$$$$$$$$$$$-$$$$$$$$$$$ $$$$$$$. — $$$$. — № $. — $. $$-$$.

$$⠄$$$$$$$, $. $. $$$$$$$$$$$$$ $$$$$$ $$$$$$$$ $ $$$$$$$ $$$$$ $ $$$$$$$ $$$$$$$$$$$$$ / $. $. $$$$$$$, $. $. $$$$$$$ // $$$$$$$ $$$$-$$$$$$$$$$ $$$$$$$$$$$$$$$$ $$$$$$$$$$$$. $$$$$: $$$$$$$$$$$$$$ $$$$$$$$$$ $ $$$$$$$$$$$. — $$$$. — $. $$, № $. — $. $$-$$.

$$⠄$$$$$$$$, $. $. $$$$$$$$ $$-$$$$$$$ $ $$$$$$$$$$ $$$$$$$$$$ $$$$$$$$ $$$$$$$ / $. $. $$$$$$$$ // $$$$$$ $ $$$$$$$$ $$$$$$$$$ $$$$$$$$$$. — $$$$. — № $. — $. $$-$$.

Нужна это курсовая?

Купить за 490 ₽ Скрыть работу

Четкое соответствие методическим указаниям

Генерация за пару минут и ~100% уникальность текста

4 бесплатные генерации и добавление своего плана и содержания

Возможность ручной доработки работы экспертом

Уникальная работа за пару минут

У вас есть 4 бесплатные генерации

Создать новую

Разработка алгоритма дерева принятия решений

Генераторы студенческих работ

Покупка работы

Есть промокод?

Запросить доработку