Эпизод 39. Что такое датасет?
Датасет — это специально собранный и описанный набор примеров из вашего производства, который служит «учебником и задачником» для искусственного интеллекта (ИИ) и аналитики. Это не просто «все данные из цеха», а тщательно подобранные данные, подходящие под конкретную бизнес-задачу и имеющие «паспорт качества».
Что входит в качественный датасет:
Цель и границы: Датасет создается под одну конкретную задачу, например, «обнаружение микротрещин на кромке профиля».
Схема данных (data contract): Определяет список полей и форматов, чтобы все источники данных «говорили» на одном языке (например, партия, смена, станок, параметры процесса, метки качества).
Единое время и связность: Важна синхронизация по времени (NTP/PTP) и сквозные идентификаторы для партий/изделий, чтобы фотографии, телеметрия и результаты контроля качества (ОТК) стыковались без ручных догадок.
Правда/разметка: Включает правила разметки данных (например, «ОК/дефект/отказ»), контроль спорных случаев и «золотой набор» эталонных примеров для регрессионных тестов. Например, датасет BIKED включает метки классов велосипедов, хотя они могут быть субъективными.
Качество данных: Автоматические проверки полноты, наличия дубликатов, соответствия диапазонам и задержек по времени.
Версионирование и воспроизводимость: Каждая версия датасета (v1, v2 и т.д.) должна быть зафиксирована, чтобы можно было воспроизвести результаты обучения модели даже спустя долгое время. Указывается, что добавлено или удалено, из каких партий собраны данные.
Доступы и безопасность: Определяются роли, права доступа и правила выноса данных за периметр компании (интеллектуальная собственность, персональные данные, экспорт).
Интеграция в контур: Описывается путь данных от источников до обучения, валидации и продуктивного использования, а также мониторинг «дрейфа» модели и данных.
Чем датасет отличается от «просто данных»:
Назначение: «Просто данные» — это часто «свалка» телеметрии или фото, тогда как датасет — это набор, собранный под конкретную задачу.
Качество: В датасете качество данных проверено, описано и размечено, в отличие от неизвестного качества «просто данных».
Воспроизводимость: Датасет обеспечивает воспроизводимость результатов благодаря версионированию и протоколам, что сомнительно для «просто данных».
Ценность: Датасет имеет прямую ценность, поскольку позволяет обучать и внедрять алгоритмы для достижения бизнес-эффекта, в то время как ценность «просто данных» низка или скрыта.
Как создание датасетов помогает развить производственный бизнес:
Создание качественных датасетов является критически важным шагом для внедрения машинного обучения в инженерии и производстве, что значительно ускоряет и улучшает процессы. Это позволяет достигать следующих бизнес-эффектов:
Визуальный контроль качества (камера + ИИ):
Задача: Обнаружение дефектов, таких как сколы, трещины, царапины или неправильная сборка.
Пример: Для этой задачи собираются изображения «OK/DEFECT» с разметкой дефектов. Использование ИИ может сократить время инспекции на 50–80% и уменьшить количество повторных переделок на 20–40%, увеличивая пропускную способность линии на 5–15%. Для обучения требуется 2–10 тысяч изображений на класс.
BIKED как пример: Датасет BIKED, содержащий 4500 моделей велосипедов с изображениями сборки и компонентов, а также параметрическими данными, может быть использован для разработки методов дата-ориентированного дизайна. Например, он позволяет исследовать условия, при которых машины могут «понимать» дизайн велосипеда через классификацию. Изображения в BIKED используются для задач классификации, позволяя алгоритмам понимать дизайн.
Предиктивное обслуживание (PdM):
Задача: Заблаговременное выявление неисправностей оборудования (например, подшипников, насосов) до отказа.
Пример: Собираются данные о вибрациях, токах, температурах за месяцы работы, с метками событий «до отказа». Это может снизить незапланированные простои на 20–50% и затраты на запчасти на 10–30%.
Оптимизация режимов и параметров процесса:
Задача: Снижение разброса качества продукции и уменьшение брака/переделок.
Пример: Собираются табличные или временные ряды параметров (скорости, температуры, подачи, рецептуры) вместе с результатами контроля качества. Это может сократить брак/скрап на 10–20% и энергозатраты на 5–10%.
Ускорение и автоматизация дизайна и инженерии:
AI Design Agents: Концепция «Design Agents» интегрирует ИИ-агентов в традиционный инженерный процесс, особенно в автомобильный дизайн. Эти агенты автоматизируют такие задачи, как концептуальное эскизирование, стилистические улучшения, поиск 3D-форм, генеративное моделирование, генерация CFD-сеток и аэродинамические симуляции. Это позволяет сократить время от недель до минут.
DrivAerNet++: Использование масштабных высококачественных датасетов, таких как DrivAerNet++ (8000 стандартных автомобильных дизайнов), позволяет моделям ИИ быстро и точно предсказывать результаты симуляций, что ведет к более информированной оптимизации и исследованию дизайна.
Применение в автомобильном дизайне: Датасеты, содержащие 3D-модели, сетки, облака точек, карты глубины и аннотации частей, используются для задач поиска, 3D-реконструкции, стилизации и аэродинамических симуляций.
Генерация новых дизайнов: Модели, обученные на датасетах, могут синтезировать новые дизайны. Например, BIKED позволяет машинам учиться синтезировать новые дизайны велосипедов путем изучения существующих. CAD Agent, используя DeepSDF, может генерировать новые 3D-формы и интерполировать между существующими моделями, обеспечивая плавные переходы между различными конфигурациями автомобилей.
Склад/планирование и снабжение:
Задача: Прогнозирование потребления и оптимизация уровня запасов.
Пример: Собирается история продаж/производства/времени выполнения заказа (Lead time) и календарные факторы. Это может сократить оборотный капитал в запасах на 10–25% и затраты на экспресс-логистику на 5–15%.
Жизненный цикл датасета на производстве включает:
Формулировку задачи и KPI.
Сбор целевых примеров, включая редкие дефекты, и синхронизацию с событиями в MES/QMS.
Разметку и контроль качества разметки.
Версионирование.
Обучение/валидацию моделей.
Внедрение в производственный контур.
Мониторинг «дрейфа» и досбор данных при изменениях.
Типовые ошибки, которых следует избегать:
Недостаток или "мусорность" данных: Сбор всех подряд данных без строгой постановки задачи ведет к "мусору". Важно целенаправленно собирать данные, особенно для редких классов (например, дефектов), чтобы избежать перекоса классов, когда модель "слепнет" и все помечает как "ОК".
Асинхронность источников: Разные часы у камер, PLC или весов приводят к "битым" парам "причина-следствие".
Некачественная разметка: Обучение на плохо размеченных данных может привести к тому, что модель будет пропускать брак. Решение – двойная разметка и "золотой набор" эталонных примеров.
Отсутствие версионирования: Невозможность воспроизвести результат спустя время.
Таким образом, качественные датасеты — это ключевой элемент для внедрения ИИ в производство, позволяющий автоматизировать и оптимизировать процессы, сокращать затраты, улучшать качество продукции и ускорять циклы разработки новых дизайнов.