Нейросеть (Artificial Neural Network, ANN) — это математическая модель, вдохновлённая биологическими нейронами.
Она состоит из входного слоя, одного или нескольких скрытых слоев и выходного слоя. Каждый слой содержит нейроны, которые принимают входные данные, выполняют линейные преобразования и применяют функцию активации для передачи сигнала дальше.
Нейросеть сама по себе не является ИИ, а лишь инструмент обработки данных. В Арктикаходе она используется для обработки изображений с камер, построения карт глубины, распознавания объектов и планирования маршрута.
Машинное и глубокое обучение — методы анализа данных. Машинное обучение учится на примерах и выявляет закономерности, а глубокое обучение использует многослойные нейросети для работы с изображениями и 3D-картами. В Арктикаходе это помогает камерам строить карту глубины для ориентации.
U-Net — архитектура нейросети для сегментации изображений. Encoder (сжимающая часть) использует свёрточные слои и pooling, чтобы извлекать признаки и уменьшать размер изображения. Bottleneck (центральная часть) хранит высокоуровневые признаки. Decoder (восстанавливающая часть) использует транспонированные свёртки (upsampling) для восстановления исходного размера изображения. Skip connections соединяют соответствующие слои encoder и decoder для передачи низкоуровневой информации напрямую.
ViT (Vision Transformer) — модель для обработки изображений с помощью трансформеров. Изображение делится на патчи, каждый патч преобразуется в вектор признаков. Positional encoding добавляет информацию о позиции патча. Transformer blocks используют self-attention для выявления взаимосвязей между патчами и feed-forward слои с residual connections для стабильного обучения. Выходной слой объединяет информацию для классификации или сегментации.