1400 РИСК - Компания Weifang Die Cutting Machine Co., Ltd.

Компания Untether AI в Канаде разработала устройство искусственного интеллекта с более чем 1400 процессорами RISC-V под названием Boqueria для вычислений «в памяти».

Boqueria, обсуждаемый сегодня на конференции HotChips, построен по 7-нм техпроцессу TSMC с 238 МБ SRAM. Устройство имеет производительность 2 петафлопс для 8-битных типов данных AI FP8 и показатель мощности 30 терафлопс/Вт, что достигается за счет приближения обработки к ядрам AI с 729 двойными банками памяти RISC-V.

Поскольку вычисления в памяти значительно более энергоэффективны, чем традиционные архитектуры фон Неймана, при заданном диапазоне мощности можно выполнить больше терафлопс. С появлением в 2020 году устройств runAI компания Untether AI достигла уровня энергоэффективности 8 TOP/Вт для типа данных INT8.

Архитектура SpeedAI, используемая в Boqueria, улучшает этот показатель, обеспечивая производительность 30 терафлопс/Вт. Такая энергоэффективность является результатом архитектуры вычислений в памяти второго поколения, более 1400 оптимизированных процессоров RISC-V со специальными инструкциями, энергоэффективного потока данных и принятия нового типа данных FP8, все это помогает повысить эффективность в четыре раза по сравнению с предыдущим поколением. Устройство runAI предыдущего поколения.

Каждый банк памяти архитектуры SpeedAI имеет 512 процессорных элементов с прямым подключением к выделенному SRAM. Эти элементы обработки поддерживают типы данных INT4, FP8, INT8 и BF16, а также схему обнаружения нуля для энергосбережения и поддержки структурированной разреженности 2:1.

Расположенные в 8 рядах по 64 обрабатывающих элемента, каждый ряд имеет собственный выделенный контроллер рядов и аппаратную функцию сокращения, обеспечивающую гибкость в программировании и эффективное вычисление функций трансформаторной сети, таких как Softmax и LayerNorm. Строки управляются двумя процессорами RISC-V с более чем 20 специальными инструкциями, предназначенными для ускорения вывода. Гибкость банка памяти позволяет ему адаптироваться к различным архитектурам нейронных сетей, включая сверточные, трансформаторные и рекомендательные сети, а также модели линейной алгебры.

Первый член семейства, SpeedAI240, обеспечивает 2 петафлопс производительности FP8 и 1 петафлопс производительности BF16. Это приводит к более высокой производительности, например, при использовании платформы BERT со скоростью более 750 запросов в секунду на ватт (qps/w), что в 15 раз превышает текущий уровень развития ведущих графических процессоров.

Исследование Untether AI показало, что два разных формата FP8 обеспечивают наилучшее сочетание точности, дальности и эффективности. Версия с 4 мантиссами (FP8p для «точности») и версия с 3 мантиссами (FP8r для «диапазона») обеспечила наилучшую точность и пропускную способность для вывода в различных сетях. Как для сверточных сетей, таких как ResNet-50, так и для сетей трансформаторов, таких как BERT-Base, реализация FP8 в Untether AI приводит к потере точности менее 1/10 процента по сравнению с использованием типов данных BF16, с четырехкратным увеличением пропускной способности и энергоэффективности. .

Устройство SpeedAI240 предназначено для масштабирования до крупных моделей. Архитектура памяти является многоуровневой: 238 МБ SRAM выделено для процессорных элементов, обеспечивая пропускную способность памяти 1 ПБ/с, четыре блокнота по 1 МБ и два 64-битных порта LPDDR5, обеспечивающие до 32 ГБ внешней DRAM.

Имеется 16 линий PCIe Gen5 для подключения хоста со скоростью 63 ГБ/с и три порта PCIe Gen5 x8 для соединения между чипами и картами, каждый из которых обеспечивает скорость 31,5 ГБ/с.

«Преимущества вычислений в памяти были доказаны с помощью устройства runAI первого поколения, а архитектура SpeedAI второго поколения повышает энергоэффективность, пропускную способность, точность и масштабируемость нашего предложения», — сказал Арун Айенгар, генеральный директор Untether AI. «Устройства SpeedAI предлагают возможности, не имеющие себе равных среди других предложений на рынке».

У Untether AI есть комплект разработки программного обеспечения (SDK) под названием imAIgine, который обеспечивает возможность запуска сетей с высокой производительностью, с квантованием, оптимизацией, физическим распределением и многочиповым разделением по нажатию кнопки. ImAIgine SDK также предоставляет обширный набор инструментов для визуализации, симулятор с точностью до цикла и легко интегрируемый API среды выполнения, который доступен уже сейчас.