• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Ученые представили новый метод для работы с несбалансированными данными

Ученые представили новый метод для работы с несбалансированными данными

© iStock

Специалисты факультета компьютерных наук НИУ ВШЭ и Лаборатории искусственного интеллекта Сбера разработали геометрический метод расширения данных — Simplicial SMOTE. Тесты на разных наборах данных показали, что он значительно улучшает качество работы AI. Метод особенно полезен в ситуациях, когда редкие случаи очень важны, например в борьбе с мошенничеством или при диагностике редких болезней. Результаты исследования доступны в открытом архиве Arxiv.org и будут представлены на Международной конференции по обнаружению знаний и анализу данных (KDD) летом 2025 года в Торонто.

Проблема несбалансированных данных становится все более актуальной в различных областях, в том числе в банковском секторе и медицине. Традиционные методы — случайное дублирование или глобальное семплирование — часто дают низкокачественную выборку или плохо моделируют данные редких классов.

Предложенный учеными из НИУ ВШЭ и Сбера новый метод — Simplicial SMOTE (Synthetic Minority Oversampling Technique) — решает эти проблемы: обеспечивает более точное моделирование сложных топологических структур данных и увеличивает качество классификаторов на несбалансированных наборах данных.

Он помогает создавать новые примеры редкого класса, используя информацию из нескольких близких примеров («симплекса»), а не только из двух близких точек, как в исходной версии SMOTE и его известных аналогах. Это позволяет лучше понимать данные и улучшать работу AI. Метод помогает усовершенствовать обучение искусственного интеллекта на несбалансированных данных, то есть в таких ситуациях,  когда есть много примеров одного класса (например, нормальных транзакций), но мало примеров другого (например, мошенничества).

Исследователи экспериментально показали на большом количестве тестовых датасетов, что предложенный подход значимо повышает метрики качества (F1-мера, коэффициент корреляции Matthews) как базового SMOTE, так и его модификаций. В том числе зафиксировано улучшение и для градиентного бустинга — часто используемого на практике классификатора.

Андрей Савченко

«Наш метод особенно эффективен в задачах, где распространены несбалансированные данные и где редкий класс более значим. Банки могут использовать Simplicial SMOTE, чтобы лучше выявлять мошенничество, а медицинские центры — чтобы диагностировать редкие заболевания», — комментирует один из авторов статьи Андрей Савченко, ведущий научный сотрудник Лаборатории теоретических основ моделей искусственного интеллекта Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ.

Новый метод можно интегрировать в существующие алгоритмы оверсемплинга (Borderline-SMOTE, Safe-level-SMOTE и ADASYN), повысив их точность без существенного роста вычислительной сложности. Исследователи считают, что разработанный подход может способствовать развитию более точных и надежных моделей машинного обучения и, следовательно, повышению качества аналитики.

Исследование выполнено при поддержке Программы фундаментальных исследований НИУ ВШЭ.

Вам также может быть интересно:

ФКН ВШЭ расширяет линейку образовательных программ по ИИ для руководителей

Центр непрерывного образования факультета компьютерных наук НИУ ВШЭ (ЦНО ФКН ВШЭ) развивает уникальную линейку образовательных продуктов для топ-менеджмента, где передовая компьютерная наука соединяется с реальными задачами бизнеса. Цель этого направления — помогать развивать бизнес в России через внедрение технологий искусственного интеллекта.

AI AWARDS 2026: аналитическую основу премии формирует iFORA НИУ ВШЭ

Высшая школа экономики вошла в число партнеров премии AI AWARDS 2026, которая пройдет 29 апреля в Москве. Проект, реализуемый командой «Билайн Big Data & AI», посвящен практическому применению искусственного интеллекта и объединяет компании, технологии и команды, которые уже сегодня влияют на развитие новой цифровой экономики. Вклад номинантов AI AWARDS в развитие ИИ анализируется на основе данных, поэтому качество аналитической базы и прозрачность методологии становятся для рынка принципиально важными.

Будущее кардиогенетики — с искусственным интеллектом

Исследователи Института искусственного интеллекта и цифровых наук ФКН НИУ ВШЭ (Институт ИИиЦН) создали программу, которая способна анализировать участки генома человека, ранее недоступные для точной интерпретации при генетическом тестировании. Программа адаптирует большие генеративные модели (ГенИИ) под задачи кардиогенетики, чтобы предсказывать, как мутация влияет на работу конкретного гена.

НИУ ВШЭ и Альфа-Банк запускают исследовательские проекты в сфере искусственного интеллекта

НИУ ВШЭ и Альфа-Банк объявили о старте трех совместных проектов в области искусственного интеллекта. Они направлены на развитие аналитических инструментов для банковских сервисов — от более точных прогнозов до новых подходов к управлению рисками и персонализации клиентского опыта.

Участники «Я — профессионал» разработают ИИ-агентов для бизнеса на Весенней экономической школе Вышки и Сбера

На площадке СберУниверситета стартовала Весенняя экономическая школа, организованная Высшей школой экономики и Сбером для участников Всероссийской олимпиады студентов «Я — профессионал» Президентской платформы «Россия — страна возможностей». С 22 по 24 апреля студенты будут работать над созданием ИИ-агента для бизнеса — от идеи и научной гипотезы до прототипа, готового к защите перед экспертами.

Уже не выбор, а реальность: трансформация мира под влиянием ИИ

Искусственный интеллект уже не воспринимается как технология будущего: он стремительно меняет процессы принятия решений, рынок труда и социальные практики. Вместе с тем он несет с собой не только новые грандиозные возможности, но и системные риски, связанные с ростом зависимости от данных, трансформацией профессий и изменением человеческого поведения. В НИУ ВШЭ создали семантическую карту разломов, которая показала ключевые тренды в развитии технологий.

Почему искусственный интеллект не способен поработить человечество

1 апреля на факультете математики НИУ ВШЭ встретили российского ученого, преподавателя и специалиста по информационной безопасности Андрея Масаловича, известного как КиберДед. Он представил студентам Вышки свои «Двадцать вопросов искусственному интеллекту» и поделился ответами, раскрывающими суть проблем в сфере развития ИИ, а также рассказал, почему тот никогда не сможет захватить человечество.

Ученые Вышки научили нейросеть «слышать» неисправности в электродвигателях

Ученые  Института искусственного интеллекта и цифровых наук (ИИиЦН) факультета компьютерных наук НИУ ВШЭ разработали метод Signature-Guided Data Augmentation (SGDA), который способен с точностью 99% определять неисправность двигателей и с точностью 86% классифицировать типы возникших поломок. Применение этой разработки может снизить расходы на ремонт промышленного оборудования, уменьшить простои и сделать производство безопаснее. Результаты исследования опубликованы в журнале Engineering Applications of Artificial Intelligence.

«Подготовка инженеров нового поколения невозможна без интеграции инструментов ИИ в отраслевые ОП»

26 февраля в Уфе на площадке Межвузовского студенческого кампуса Евразийского научно-образовательного центра прошла защита итоговых проектов пилотного курса образовательной программы «ИИ-инженерия в нефтегазовой отрасли». Эксперты НИУ ВШЭ оценили студенческие проекты в сфере искусственного интеллекта, выполненные для «Газпрома» в рамках федерального проекта «Экономика данных и цифровая трансформация государства».

Стартует набор на онлайн-программу повышения квалификации «Основы ИИ-агентов для автоматизации процессов»

В Центре непрерывного образования факультета компьютерных наук НИУ ВШЭ открыт набор на новую онлайн-программу повышения квалификации «Основы ИИ-агентов для автоматизации процессов». Программа разработана для тех, кто стремится перейти от базового использования нейросетей в формате чат-ботов к созданию прикладных интеллектуальных инструментов для автоматизации бизнес-задач. Курс ориентирован на слушателей, заинтересованных в практическом освоении современных подходов к разработке автономных ИИ-агентов на базе больших языковых моделей и их внедрении в рабочие процессы.