Группа компьютерных ученых из Нанкинского университета и Университета Сиднея объявила о создании системы идентификации уязвимостей на базе искусственного интеллекта (ИИ), получившей название A2. Эта система предназначена для эмуляции работы человеческих охотников за уязвимостями и обнаружения недостатков в приложениях для Android. В недавно опубликованной предварительной работе подробно описывается A2, которая является продвинутой версией A1, разработанной для эксплойтов в смарт-контрактах. Нововведением версии A2 является автоматизированный валидатор.
Согласно авторам, A2 достигает 78,3% покрытия на тестовом наборе данных, что сильно превосходит показатели статических анализаторов, таких как APKHunt, которые достигают только 30,0%. Применение A2 к 169 реальным APK выявило 104 уязвимости нулевого дня, из которых 57 были независимо подтверждены автоматически сгенерированными доказательствами концепции. Одной из таких уязвимостей оказался перенос намерения средней серьезности в приложении с более чем 10 миллионами установок. Это уязвимость возникает, когда приложение отправляет намерение без проверки его назначения, позволяя вредоносному приложению изменить цель намерения.
Механика работы A2
Система A2 объединяет несколько крупных языковых моделей (LLM), включая OpenAI o3, Gemini 2.5 Pro, Gemini 2.5 Flash и GPT oss, в три роли: планировщик (разрабатывает атаки), исполнитель (выполняет задачи) и валидатор (создает тесты и проверяет результаты). Особенности валидатора обеспечивают конкретные проверки, которые сокращают количество ложных срабатываний по сравнению с инструментами, производящими множество низкосигнальных предупреждений.
В исследовании A2 продемонстрирована на примере задачи из набора данных Ghera: задача 1 — выявление закодированного AES-ключа в res/values/strings.xml; задача 2 — использование этого ключа для создания токена сброса пароля (AES-ECB, затем Base64); задача 3 — запуск активности сброса с созданным токеном и подтверждение, что приложение отображает ожидаемую электронную почту, доказывая обход аутентификации. Весь процесс автоматически валидируется агентом.
Авторы утверждают, что A2 охватывает множество классов уязвимостей и превосходит традиционные инструменты, используя мощные коммерческие модели и API. Затраты на обнаружение уязвимости зависят от модели, например, o3: $0.003–0.029; GPT oss-120b: $0.0004–0.001; варианты Gemini: $0.002–0.014. Полная валидация и агрегирование увеличивают стоимость: смешанный LLM-пайплайн стоит $0.59–4.23 за уязвимость (медиана $1.77); использование исключительно gemini-2.5-pro увеличивает расходы ($4.81–26.85, медиана $8.94).
Авторы подчеркивают, что выгоды от баунти-программ могут стать стимулом для автоматизированного обнаружения, так как выплаты за уязвимости средней сложности могут достигать нескольких сотен и тысяч долларов. Однако, поскольку баунти-программы охватывают лишь малую часть приложений, сохраняются стимулы для атакующих. Исследователи ожидают рост как оборонительных исследований, так и наступательной деятельности.
Внешний комментарий от Адама Бойнтона из компании Jamf отмечает, что система A2 переводит процесс обнаружения уязвимостей от нескончаемых оповещений к проверкам с доказательной базой, что позволяет сократить количество ложных срабатываний и ускорить исправления. Исходный код и артефакты A2 ограничены для использования только официально заявленными исследователями с целью обеспечения баланса между открытым исследованием и ответственным раскрытием информации.