В наборе данных для обучения ИИ нашли 12 000 ключей API - «Новости» » Интернет технологии
sitename
Новый способ подтверждения прав на домен в Яндекс Вебмастере — «Блог для вебмастеров»
Новый способ подтверждения прав на домен в Яндекс Вебмастере — «Блог для вебмастеров»
Форензик-инструмент Velociraptor применяется для развертывания вымогателей LockBit и Babuk - «Новости»
Форензик-инструмент Velociraptor применяется для развертывания вымогателей LockBit и Babuk - «Новости»
ФБР закрыло очередную версию BreachForums - «Новости»
ФБР закрыло очередную версию BreachForums - «Новости»
Xakep.ru снова доступен в Казахстане! - «Новости»
Xakep.ru снова доступен в Казахстане! - «Новости»
Apple предлагает до 2 млн долларов за уязвимости в своих продуктах - «Новости»
Apple предлагает до 2 млн долларов за уязвимости в своих продуктах - «Новости»
Microsoft предупреждает о хак-группе, которая ворует зарплаты сотрудников вузов - «Новости»
Microsoft предупреждает о хак-группе, которая ворует зарплаты сотрудников вузов - «Новости»
Арест за арестом: причиной возгорания в правительственном ЦОД Южной Кореи могло стать не отключенное вовремя резервное питание - «Новости сети»
Арест за арестом: причиной возгорания в правительственном ЦОД Южной Кореи могло стать не отключенное вовремя резервное питание - «Новости сети»
Вложи $5 млн — получи $75 млн: NVIDIA похвасталась новыми рекордами в комплексном бенчмарке InferenceMAX v1 - «Новости сети»
Вложи $5 млн — получи $75 млн: NVIDIA похвасталась новыми рекордами в комплексном бенчмарке InferenceMAX v1 - «Новости сети»
Тайвань заявил, что не зависит от китайских редкоземельных металлов - «Новости сети»
Тайвань заявил, что не зависит от китайских редкоземельных металлов - «Новости сети»
Apple планирует представить на этой неделе три новых продукта - «Новости сети»
Apple планирует представить на этой неделе три новых продукта - «Новости сети»
Как заработать денег, не выходя из дома, мы вам поможем с этим разобраться » Новости » В наборе данных для обучения ИИ нашли 12 000 ключей API - «Новости»

В наборе данных Common Crawl, который используется для обучения множества ИИ-моделей, обнаружили около 12 000 секретов, в том числе пароли и ключи API.


Common Crawl это некоммерческая организация, поддерживающая крупный опенсорсный репозиторий, содержащий петабайты веб-данных, собираемых с 2008 года. Репозиторий бесплатен для всех желающих.


Многие ИИ-проекты, включая продукцию таких крупных игроков как OpenAI, DeepSeek, Google, Anthropic и Stability, используют этот огромный цифровой архив для обучения своих больших языковых моделей (LLM).


Специалисты компании Truffle Security проверили около 400 терабайт данных, собранных с 2,67 млрд страниц, в архиве Common Crawl за декабрь 2024 года и обнаружили среди данных множество различных секретов.


Суммарно исследователи нашли 11 908 аутентификационных секретов, которые были забыты в коде разработчиками. К примеру, анализ выявил действительные API-ключи для Amazon Web Services (AWS), MailChimp и WalkScore.


В общей сложности было обнаружено 219 различных типов секретов, наиболее распространенными среди которых оказались API-ключи MailChimp (1500 уникальных API-ключей, жестко закодированные во front-end HTML и jаvascript).


Исследователи объясняют, что ошибка разработчиков заключалась в том, что они жестко закодировали секреты в HTML-формах и сниппетах jаvascript и не использовали переменные окружения на стороне сервера.






Эксперты отмечают, что это свидетельствует о том, что LLM могут обучаться на небезопасном коде. Обычно данные для обучения LLM не используются в исходном виде и проходят стадию предварительной обработки (включая очистку и фильтрацию ненужного контента, например, нерелевантных данных, дублей, вредной или конфиденциальной информации). Однако удалить все конфиденциальные данные бывает довольно сложно.


К тому же злоумышленники могут использовать такие ключи для вредоносных действий, включая фишинговые кампании и для маскировки под некий бренд. Также утечка секретов может в итоге привести к утечке данных.


В своем отчете специалисты Truffle Security подчеркивают и другой момент: 63% обнаруженных секретов использовались повторно и присутствовали сразу на нескольких страницах. Например, один API-ключ WalkScore был обнаружен 57 029 раз на 1871 поддомене.


В другом случае была обнаружена одна страница, содержащая сразу 17 уникальных веб-хуков Slack, которые следует держать в секрете, поскольку они позволяют приложениям отправлять сообщения в Slack.


После проведенного исследования специалисты связались с пострадавшими от утечек вендорами и помогли им отозвать скомпрометированные ключи. «Мы успешно помогли организациям отозвать несколько тысяч ключей», — подытожили эксперты.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

В наборе данных Common Crawl, который используется для обучения множества ИИ-моделей, обнаружили около 12 000 секретов, в том числе пароли и ключи API. Common Crawl это некоммерческая организация, поддерживающая крупный опенсорсный репозиторий, содержащий петабайты веб-данных, собираемых с 2008 года. Репозиторий бесплатен для всех желающих. Многие ИИ-проекты, включая продукцию таких крупных игроков как OpenAI, DeepSeek, Google, Anthropic и Stability, используют этот огромный цифровой архив для обучения своих больших языковых моделей (LLM). Специалисты компании Truffle Security проверили около 400 терабайт данных, собранных с 2,67 млрд страниц, в архиве Common Crawl за декабрь 2024 года и обнаружили среди данных множество различных секретов. Суммарно исследователи нашли 11 908 аутентификационных секретов, которые были забыты в коде разработчиками. К примеру, анализ выявил действительные API-ключи для Amazon Web Services (AWS), MailChimp и WalkScore. В общей сложности было обнаружено 219 различных типов секретов, наиболее распространенными среди которых оказались API-ключи MailChimp (1500 уникальных API-ключей, жестко закодированные во front-end HTML и jаvascript). Исследователи объясняют, что ошибка разработчиков заключалась в том, что они жестко закодировали секреты в HTML-формах и сниппетах jаvascript и не использовали переменные окружения на стороне сервера. Эксперты отмечают, что это свидетельствует о том, что LLM могут обучаться на небезопасном коде. Обычно данные для обучения LLM не используются в исходном виде и проходят стадию предварительной обработки (включая очистку и фильтрацию ненужного контента, например, нерелевантных данных, дублей, вредной или конфиденциальной информации). Однако удалить все конфиденциальные данные бывает довольно сложно. К тому же злоумышленники могут использовать такие ключи для вредоносных действий, включая фишинговые кампании и для маскировки под некий бренд. Также утечка секретов может в итоге привести к утечке данных. В своем отчете специалисты Truffle Security подчеркивают и другой момент: 63% обнаруженных секретов использовались повторно и присутствовали сразу на нескольких страницах. Например, один API-ключ WalkScore был обнаружен 57 029 раз на 1871 поддомене. В другом случае была обнаружена одна страница, содержащая сразу 17 уникальных веб-хуков Slack, которые следует держать в секрете, поскольку они позволяют приложениям отправлять сообщения в Slack. После проведенного исследования специалисты связались с пострадавшими от утечек вендорами и помогли им отозвать скомпрометированные ключи. «Мы успешно помогли организациям отозвать несколько тысяч ключей», — подытожили эксперты.
CSS
запостил(а)
Walkman
Вернуться назад

Смотрите также


А что там на главной? )))



Комментарии )))



Войти через: