← Блог

Як навчити ШІ шукати загрози в Dark Web: досвід Panoptic

Keyword matching пропускає 70% реальних загроз і генерує сотні хибних спрацьовувань. Розповідаємо, як ми навчили мовну модель розуміти контекст Dark Web — від дистиляції Claude до локального Qwen3-8B.

OSINT · 2026-04-07T15:00:00


Щодня у Dark Web з'являються тисячі нових постів, paste-записів та повідомлень на форумах. Знайти серед цього потоку реальну загрозу для вашої компанії — все одно що шукати голку в стозі сіна. Але що, якщо навчити ШІ робити це за вас?

Вступ: чому keyword matching — це вчорашній день

Більшість систем моніторингу Dark Web працюють за простим принципом: шукають ключові слова. Ввели домен компанії, email адміністратора, назву бренду — і чекаєте на алерт.

Проблема в тому, що це працює погано. Ось реальний приклад:

Хибний алерт (false positive): > "I forgot my password for the forum, can someone help? My email is admin@example.com"

Keyword matching бачить "password" + "admin@example.com" і б'є тривогу. Але це просто користувач форуму, який забув пароль. Жодної загрози немає.

Пропущена загроза (false negative): > "Fresh corporate access, UA company, 500+ endpoints, domain admin included. DM for price."

Жодного ключового слова з вашого watchlist тут немає. Але це реальний продаж доступу до українського підприємства. Keyword matching це пропустить.

Ми в Panoptic зіткнулися з цією проблемою, коли почали обробляти тисячі записів щодня. Кількість хибних спрацьовувань зростала, а реальні загрози губилися серед шуму. Стало зрозуміло: потрібен інструмент, який розуміє контекст, а не просто шукає слова.


Які задачі вирішує ШІ в Dark Web розвідці

Мовна модель (LLM) — це не магічна кулька, а конкретний інструмент для конкретних задач. Ось що ми від неї хочемо:

1. Витягування сутностей (Entity Extraction)

Із сирого тексту paste-запису чи форумного поста модель витягує структуровані дані: email-адреси, домени, IP-адреси, криптогаманці, згадки компаній. Це перетворює хаотичний текст на дані, з якими можна працювати.

2. Класифікація загроз

Не кожен пост у Dark Web — це загроза. Модель автоматично визначає тип контенту: ransomware-жертва, продаж доступу, витік credentials, дамп бази даних або просто шум. Це дозволяє аналітику фокусуватися на справді важливому.

3. NER для українських компаній

Розпізнавання іменованих сутностей (Named Entity Recognition) українською мовою — окрема задача. Модель повинна розуміти, що "ТОВ Альфа Груп" — це організація, а "Київська область" — це локація, навіть у контексті Dark Web.

4. Аналіз paste-контенту

Коли на Pastebin з'являється новий paste з підозрілим вмістом, модель аналізує його та визначає: це реальний витік чи ні? Якщо так — наскільки він критичний? Які організації постраждали?

5. Генерація звітів українською

Результати аналізу потрібно подати у зручній формі. Модель генерує аналітичні звіти українською мовою для клієнтів — замість того, щоб аналітик витрачав на це годину.


Наш підхід: дистиляція від великої моделі

Тут ми підходимо до найцікавішого. Як навчити невелику модель робити те, що вміє велика?

Підхід називається дистиляція знань (knowledge distillation), і працює він приблизно так:

1. Беремо потужну модель (у нашому випадку Claude від Anthropic) і показуємо їй реальні дані з Dark Web 2. Claude аналізує кожен запис і дає якісну відповідь: витягує сутності, класифікує загрозу, оцінює ризик 3. Зберігаємо пари "вхідний текст → відповідь Claude" як навчальні дані 4. Навчаємо компактну модель (Qwen3-8B) відтворювати такі самі відповіді

Уявіть це як навчання молодшого аналітика: досвідчений спеціаліст (Claude) показує, як правильно аналізувати дані, а молодший (Qwen3-8B) вчиться робити те саме самостійно.

Після навчання компактна модель працює локально, без інтернету, без API-ключів, без щомісячних платежів. І головне — без відправки чутливих даних Dark Web на зовнішні сервери.

Ось як виглядає процес:

~~~ Claude API (вчитель) Qwen3-8B (учень) │ │ │ 1. Аналізує 5000 │ │ реальних записів │ │ │ │ │ ▼ │ │ 2. Генерує якісні │ │ відповіді │ │ │ │ │ ▼ │ │ 3. Збираємо пари ──► 4. Навчаємо на │ вхід/вихід цих парах (QLoRA) │ │ │ ▼ │ 5. Модель працює │ локально! ~~~


Чому Qwen3-8B

Вибір базової моделі для fine-tuning — критичне рішення. Ми обрали Qwen3-8B від Alibaba, і ось чому:

Мовне покриття

Qwen3-8B підтримує 119 мов, включаючи українську та російську. Це критично для Dark Web розвідки: контент може бути англійською, російською, українською або сумішшю мов в одному пості.

Ліцензія

Apache 2.0 — повністю відкрита ліцензія для комерційного використання. Жодних обмежень, жодних royalty. Для продукту, як Panoptic, це принципово.

Розмір та продуктивність

8 мільярдів параметрів — це "золота середина":

  • Достатньо розумна для наших задач
  • Достатньо компактна, щоб працювати на одній GPU
  • У 4-bit квантизації займає лише ~6 ГБ відеопам'яті
  • Порівняння з альтернативами

    | Критерій | Qwen3-8B | Llama 3.1 8B | Mistral 7B | GPT-4o mini (API) | |----------|----------|-------------|------------|-------------------| | Українська мова | Добре | Посередньо | Слабко | Добре | | Ліцензія | Apache 2.0 | Обмежена | Apache 2.0 | Тільки API | | Локальний запуск | Так | Так | Так | Ні | | Контекстне вікно | 128K | 128K | 32K | 128K | | JSON-генерація | Відмінно | Добре | Добре | Відмінно | | Вартість | $0 (локально) | $0 (локально) | $0 (локально) | $0.15-0.60/1M токенів |

    Qwen3 перемагає за сукупністю факторів: найкраща підтримка мультимовності, відкрита ліцензія, сильна JSON-генерація.


    Lapa LLM — українська мовна модель

    Окрема увага — моделі Lapa LLM, розробленій в Українському Католицькому Університеті (УКУ).

    Lapa — це мовна модель, оптимізована саме для української мови. На відміну від мультимовних моделей, де українська — одна зі 100+ мов, Lapa "думає" українською як рідною.

    Ми розглядаємо Lapa для задачі генерації звітів українською мовою, де якість та природність тексту критично важливі.

    Варто зазначити, що Україна активно працює над створенням національної суверенної мовної моделі. Це стратегічно важливий напрямок: мовна модель, яка глибоко розуміє український контекст, культуру та специфіку, стане потужним інструментом для багатьох індустрій, включаючи кібербезпеку.

    Для Panoptic це означає, що в майбутньому ми зможемо використовувати ще якіснішу українську модель для аналітичних звітів та комунікації з клієнтами.


    Результати: що це дає на практиці

    Від keyword matching до контекстного аналізу

    Замість того, щоб шукати слово "password" і отримувати сотні хибних спрацьовувань, модель розуміє контекст:

  • "Reset your password" → шум, ігноруємо
  • "Dumped 50K accounts with passwords from company.ua" → критична загроза, алерт
  • Це кардинально змінює якість моніторингу. Аналітик отримує менше алертів, але кожен з них — справді важливий.

    Автоматичні звіти українською

    Раніше аналітик витрачав 30-60 хвилин на написання звіту про виявлену загрозу. Тепер модель генерує чернетку за секунди. Аналітик перевіряє, редагує за 5 хвилин — і звіт готовий.

    Alert Triage

    При 10,000+ нових записів щодня модель автоматично пріоритизує: що потребує негайної уваги, що може зачекати, а що є шумом. Це означає, що критичні загрози виявляються за хвилини, а не за години.

    Економія

    Після переходу з повністю API-підходу на локальну модель щомісячна вартість LLM-інференсу знижується з сотень доларів до десятків. При масштабуванні кількості клієнтів ця різниця стає принциповою.


    Висновок: ШІ як інструмент, а не заміна аналітика

    Важливо розуміти: мовна модель не замінює аналітика кіберрозвідки. Вона його підсилює.

    Модель бере на себе рутину: переглядає тисячі записів, витягує структуровані дані, класифікує загрози, генерує чернетки звітів. Аналітик фокусується на тому, що робить найкраще: приймає рішення, бачить патерни, розуміє ширший контекст.

    У Panoptic ми інтегруємо LLM як ще один інструмент у арсеналі розвідки — поряд з Tor Fleet, DuckDB-індексом, моніторингом paste-сайтів та іншими каналами збору. Кожен компонент робить свою частину роботи, а разом вони створюють систему, яка бачить те, що не бачать інші.

    Розвідка, що захищає бізнес.

    > Той, хто контролює інформацію — контролює ситуацію. ШІ допомагає контролювати інформацію в масштабі, недосяжному для людини.


    Panoptic — panoptic.com.ua

    Запустити OSINT-розвідку компанії →

    Теги: #AI, #LLM, #Dark Web, #Machine Learning, #Fine-tuning, #NLP

    Схожі статті

    Повернутися до блогу | Panoptic