В наборе данных для обучения ИИ нашли 12 000 ключей API - «Новости» » Интернет технологии
sitename
Realme представила тонкий аккумулятор на 15 000 мА·ч и первый в мире смартфон с термоэлектрическим кулером - «Новости сети»
Realme представила тонкий аккумулятор на 15 000 мА·ч и первый в мире смартфон с термоэлектрическим кулером - «Новости сети»
Phison сняла с себя ответственность за сбои SSD после обновления Windows 11 - «Новости сети»
Phison сняла с себя ответственность за сбои SSD после обновления Windows 11 - «Новости сети»
MSI показала OLED-монитор, который непрерывно работал 533 дня и «почти не выгорел» - «Новости сети»
MSI показала OLED-монитор, который непрерывно работал 533 дня и «почти не выгорел» - «Новости сети»
Сюжетные дополнения к S.T.A.L.K.E.R. 2: Heart of Chornobyl выйдут из тени в «ближайшем будущем» — первое уже в активной разработке - «Новости сети»
Сюжетные дополнения к S.T.A.L.K.E.R. 2: Heart of Chornobyl выйдут из тени в «ближайшем будущем» — первое уже в активной разработке - «Новости сети»
Хакер сделал конкурента ChatGPT соучастником вымогательской кампании: ИИ искал уязвимости и писал угрозы - «Новости сети»
Хакер сделал конкурента ChatGPT соучастником вымогательской кампании: ИИ искал уязвимости и писал угрозы - «Новости сети»
Разработчики Flipper объяснили, что «секретной прошивки» для взлома авто не существует - «Новости»
Разработчики Flipper объяснили, что «секретной прошивки» для взлома авто не существует - «Новости»
МВД РФ: мошенники стали использовать Google Meet, FaceTime и Max - «Новости»
МВД РФ: мошенники стали использовать Google Meet, FaceTime и Max - «Новости»
Positive Technologies изучила инструментарий APT-группировки Goffee - «Новости»
Positive Technologies изучила инструментарий APT-группировки Goffee - «Новости»
Разработчик получил 4 года тюрьмы за создание «рубильника» в системах бывшего работодателя - «Новости»
Разработчик получил 4 года тюрьмы за создание «рубильника» в системах бывшего работодателя - «Новости»
В России будут проверять сотовые номера, привязанные к «Госуслугам» - «Новости»
В России будут проверять сотовые номера, привязанные к «Госуслугам» - «Новости»
Как заработать денег, не выходя из дома, мы вам поможем с этим разобраться » Новости » В наборе данных для обучения ИИ нашли 12 000 ключей API - «Новости»

В наборе данных Common Crawl, который используется для обучения множества ИИ-моделей, обнаружили около 12 000 секретов, в том числе пароли и ключи API.


Common Crawl это некоммерческая организация, поддерживающая крупный опенсорсный репозиторий, содержащий петабайты веб-данных, собираемых с 2008 года. Репозиторий бесплатен для всех желающих.


Многие ИИ-проекты, включая продукцию таких крупных игроков как OpenAI, DeepSeek, Google, Anthropic и Stability, используют этот огромный цифровой архив для обучения своих больших языковых моделей (LLM).


Специалисты компании Truffle Security проверили около 400 терабайт данных, собранных с 2,67 млрд страниц, в архиве Common Crawl за декабрь 2024 года и обнаружили среди данных множество различных секретов.


Суммарно исследователи нашли 11 908 аутентификационных секретов, которые были забыты в коде разработчиками. К примеру, анализ выявил действительные API-ключи для Amazon Web Services (AWS), MailChimp и WalkScore.


В общей сложности было обнаружено 219 различных типов секретов, наиболее распространенными среди которых оказались API-ключи MailChimp (1500 уникальных API-ключей, жестко закодированные во front-end HTML и jаvascript).


Исследователи объясняют, что ошибка разработчиков заключалась в том, что они жестко закодировали секреты в HTML-формах и сниппетах jаvascript и не использовали переменные окружения на стороне сервера.






Эксперты отмечают, что это свидетельствует о том, что LLM могут обучаться на небезопасном коде. Обычно данные для обучения LLM не используются в исходном виде и проходят стадию предварительной обработки (включая очистку и фильтрацию ненужного контента, например, нерелевантных данных, дублей, вредной или конфиденциальной информации). Однако удалить все конфиденциальные данные бывает довольно сложно.


К тому же злоумышленники могут использовать такие ключи для вредоносных действий, включая фишинговые кампании и для маскировки под некий бренд. Также утечка секретов может в итоге привести к утечке данных.


В своем отчете специалисты Truffle Security подчеркивают и другой момент: 63% обнаруженных секретов использовались повторно и присутствовали сразу на нескольких страницах. Например, один API-ключ WalkScore был обнаружен 57 029 раз на 1871 поддомене.


В другом случае была обнаружена одна страница, содержащая сразу 17 уникальных веб-хуков Slack, которые следует держать в секрете, поскольку они позволяют приложениям отправлять сообщения в Slack.


После проведенного исследования специалисты связались с пострадавшими от утечек вендорами и помогли им отозвать скомпрометированные ключи. «Мы успешно помогли организациям отозвать несколько тысяч ключей», — подытожили эксперты.

Цитирование статьи, картинки - фото скриншот - Rambler News Service.
Иллюстрация к статье - Яндекс. Картинки.
Есть вопросы. Напишите нам.
Общие правила  поведения на сайте.

В наборе данных Common Crawl, который используется для обучения множества ИИ-моделей, обнаружили около 12 000 секретов, в том числе пароли и ключи API. Common Crawl это некоммерческая организация, поддерживающая крупный опенсорсный репозиторий, содержащий петабайты веб-данных, собираемых с 2008 года. Репозиторий бесплатен для всех желающих. Многие ИИ-проекты, включая продукцию таких крупных игроков как OpenAI, DeepSeek, Google, Anthropic и Stability, используют этот огромный цифровой архив для обучения своих больших языковых моделей (LLM). Специалисты компании Truffle Security проверили около 400 терабайт данных, собранных с 2,67 млрд страниц, в архиве Common Crawl за декабрь 2024 года и обнаружили среди данных множество различных секретов. Суммарно исследователи нашли 11 908 аутентификационных секретов, которые были забыты в коде разработчиками. К примеру, анализ выявил действительные API-ключи для Amazon Web Services (AWS), MailChimp и WalkScore. В общей сложности было обнаружено 219 различных типов секретов, наиболее распространенными среди которых оказались API-ключи MailChimp (1500 уникальных API-ключей, жестко закодированные во front-end HTML и jаvascript). Исследователи объясняют, что ошибка разработчиков заключалась в том, что они жестко закодировали секреты в HTML-формах и сниппетах jаvascript и не использовали переменные окружения на стороне сервера. Эксперты отмечают, что это свидетельствует о том, что LLM могут обучаться на небезопасном коде. Обычно данные для обучения LLM не используются в исходном виде и проходят стадию предварительной обработки (включая очистку и фильтрацию ненужного контента, например, нерелевантных данных, дублей, вредной или конфиденциальной информации). Однако удалить все конфиденциальные данные бывает довольно сложно. К тому же злоумышленники могут использовать такие ключи для вредоносных действий, включая фишинговые кампании и для маскировки под некий бренд. Также утечка секретов может в итоге привести к утечке данных. В своем отчете специалисты Truffle Security подчеркивают и другой момент: 63% обнаруженных секретов использовались повторно и присутствовали сразу на нескольких страницах. Например, один API-ключ WalkScore был обнаружен 57 029 раз на 1871 поддомене. В другом случае была обнаружена одна страница, содержащая сразу 17 уникальных веб-хуков Slack, которые следует держать в секрете, поскольку они позволяют приложениям отправлять сообщения в Slack. После проведенного исследования специалисты связались с пострадавшими от утечек вендорами и помогли им отозвать скомпрометированные ключи. «Мы успешно помогли организациям отозвать несколько тысяч ключей», — подытожили эксперты.
CSS
запостил(а)
Walkman
Вернуться назад

Смотрите также


А что там на главной? )))



Комментарии )))



Войти через: