Процессор для ИИ от IBM прорыв который может решить проблему высокого энергопотребления, характерную для больших языковых моделей, таких как ChatGPT.
Большие языковые модели — технология искусственного интеллекта, лежащая в основе таких вещей, как ChatGPT, — именно то, что следует из их названия: большие. Часто они состоят из миллиардов отдельных вычислительных узлов и огромного количества связей между ними. Все это означает множество обращений к памяти и обратно, а также большое количество потребляемой энергии. И эта проблема, скорее всего, будет усугубляться.
Один из способов потенциально избежать этого — смешать память и обработку. Компании IBM и Intel создали чипы, оснащающие отдельные нейроны всей памятью, необходимой для выполнения их функций. Альтернативным вариантом является выполнение операций в памяти — такой подход был продемонстрирован на примере фазово-сменной памяти.
Теперь компания IBM в развитие своей предыдущей демонстрации создала чип с фазовой памятью, который гораздо ближе к функциональному процессору искусственного интеллекта. В статье, опубликованной в среду в журнале Nature, компания показывает, что ее аппаратное обеспечение может выполнять распознавание речи с приемлемой точностью и гораздо меньшим энергопотреблением.
Фазово-пассивная память разрабатывается уже давно. Она обладает стойкостью флэш-памяти, но по производительности гораздо ближе к существующей энергозависимой оперативной памяти. Она работает за счет нагрева небольшого участка материала и последующего управления скоростью его охлаждения. При медленном охлаждении материал образует упорядоченный кристалл, достаточно хорошо проводящий электричество. При быстром охлаждении образуется неупорядоченный беспорядок, обладающий гораздо большим сопротивлением. Разница между этими двумя состояниями может хранить бит, который будет храниться до тех пор, пока не будет приложено напряжение, достаточное для повторного расплавления материала.
Оказалось, что такое поведение прекрасно подходит и для нейронных сетей. В нейронных сетях каждый узел получает входной сигнал и, исходя из своего состояния, определяет, какую часть этого сигнала направить последующим узлам. Обычно это рассматривается как сила связей между отдельными нейронами в сети. Благодаря поведению фазовой памяти эта сила также может быть представлена отдельным битом памяти, работающим в аналоговом режиме.
При хранении цифровых битов разница между включенным и выключенным состояниями фазосменной памяти максимально увеличивается для ограничения ошибок. Однако вполне возможно установить сопротивление бита в значения, находящиеся в промежутке между его включенным и выключенным состояниями, обеспечив аналоговое поведение. Такой плавный градиент значений потенциала может быть использован для представления силы связей между узлами — можно получить эквивалент поведения узла нейронной сети, просто пропуская ток через бит фазовой памяти.
Как уже упоминалось выше, компания IBM уже продемонстрировала, что это может работать. Однако описанный сегодня чип гораздо ближе к функциональному процессору, содержащему все аппаратные средства, необходимые для подключения отдельных узлов. При этом он имеет масштабы, гораздо более близкие к тем, которые необходимы для работы с большими языковыми моделями.
Основным компонентом нового чипа является так называемая «плитка» (tile), представляющая собой поперечную решетку из отдельных фазообменных битов шириной 512 единиц и глубиной 2 048 единиц. Каждый чип содержит 34 таких плитки, что означает около 35 млн. фазообменных битов. В чипе также есть все необходимое для высокоскоростного обмена данными между битами, в том числе и между разными плитками, причем это может происходить без аналого-цифрового преобразования. Традиционные вычислительные блоки на борту в сочетании с некоторым количеством статической оперативной памяти помогают управлять потоком этой связи и осуществляют трансляцию между аналоговой и цифровой частями чипа.
Система также является гибкой, поскольку позволяет удерживать силу любого соединения переменным количеством битов. Кроме того, возможна связь между чипами, что позволяет разделять большие задачи и распределять их между несколькими чипами. В наиболее крупной из продемонстрированных здесь работ было задействовано 140 млн. фазообменных битов, распределенных по пяти чипам.
Для того чтобы заставить ее работать, исследователи начали с существующей системы искусственного интеллекта и установили соответствие между состояниями фазосменных битов. После этого анализ можно было проводить многократно, при этом фазообменная часть чипа не требовала дополнительной энергии.
Исследователи использовали это оборудование для демонстрации распознавания речи в двух задачах. Более простая из них включала в себя определение небольшого количества ключевых слов в речи, что может потребоваться для работы с сообщениями, поступающими в автоматическую телефонную систему. Вторая задача заключалась в распознавании речи общего характера, хотя и с несколько сокращенным словарным запасом. В обоих случаях аппаратное обеспечение было способно сравниться по производительности с аналогичной системой искусственного интеллекта, работающей на традиционных процессорах.
В результате чип смог выполнить 12,4 триллиона операций на каждый ватт потребляемой мощности при максимальной производительности. Это во много раз меньше, чем потребляет традиционный процессор для выполнения аналогичных операций.
Важно отметить, что это не универсальный процессор искусственного интеллекта. Он работает только с определенным типом нейронных сетей, и не каждая задача может быть решена с помощью такой нейронной сети. Обещанная экономия энергии также основана на том, что сеть остается статичной. Решение любых задач, требующих изменения конфигурации связей между узлами, предполагает сброс состояния битов фазового перехода, а это требует значительно больших затрат энергии.
Это также означает, что чип малопригоден для обучения ИИ. Фактически, процесс обучения, использованный для разработки нейронной сети, выполненной на них, должен был быть адаптирован таким образом, чтобы результаты можно было перенести на фазообменный чип.
Тем не менее, при правильном подходе к решению задачи чип потенциально может обеспечить значительное снижение энергопотребления. И в этом отношении он может стать гораздо лучше. Чип был изготовлен по 14-нанометровому техпроцессу, что является далеко не самым передовым, и исследователи полагают, что они ничего не сделали для оптимизации энергопотребления тех частей процессора, которые предназначены для связи и цифро-аналоговых преобразований.