Овај велики језички модел је обучен на мрачном вебу за процену претњи сајбер безбедности. Ево шта треба да знате.

Популарност великих језичких модела (ЛЛМ) расте, а нови континуирано ступају на сцену. Ови модели, као што је ЦхатГПТ, обично се обучавају на различитим интернет изворима, укључујући чланке, веб локације, књиге и друштвене медије.

У потезу без преседана, тим јужнокорејских истраживача развио је ДаркБЕРТ, ЛЛМ обучен за скупове података преузетих искључиво са мрачног веба. Њихов циљ је био да створе АИ алат који надмашује постојеће језичке моделе и помаже истраживачима претњи, органима за спровођење закона и професионалцима за сајбер безбедност у борби против сајбер претњи.

Шта је ДаркБЕРТ?

ДаркБЕРТ је модел енкодера заснован на трансформатору заснован на РоБЕРТа архитектури. ЛЛМ је био обучен на милионима мрачних веб страница, укључујући податке са форума за хакерисање, веб-сајтова за преваре и других онлајн извора повезаних са незаконитим активностима.

Термин „дарк веб“ се односи на скривени интернет део

instagram viewer
недоступан преко стандардних веб претраживача. Пододељак је познат по скривању анонимних веб локација и пијаца које су злогласне по незаконитим активностима, као што је трговина украденим подацима, дрогом и оружјем.

Да би обучили ДаркБЕРТ, истраживачи су добили приступ мрачној мрежи преко мреже Тор и прикупљених сирових података. Они су пажљиво филтрирали ове податке користећи технике као што су дедупликација, балансирање категорија и претходна обрада креирајте рафинирану тамну веб базу података, која је затим достављена РоБЕРТа током отприлике 15 дана да би се креирала ДаркБЕРТ.

Могуће употребе ДаркБЕРТ-а у сајбер безбедности

ДаркБЕРТ има изванредно разумевање језика сајбер-криминалаца и истиче се у уочавању конкретних потенцијалних претњи. Може да истражује мрачни веб и успешно идентификује и означи претње сајбер безбедности као што су цурење података и рансомваре, што га чини потенцијално корисним алатом за борбу против сајбер претњи.

Да би проценили ефикасност ДаркБЕРТ-а, истраживачи су га упоредили са два позната НЛП модела, БЕРТ и РоБЕРТа, процењујући њихов учинак у три кључна случаја употребе у вези са сајбер-безбедношћу, истраживање, Објављено аркив.орг, указује.

1. Пратите мрачне веб форуме за потенцијално штетне теме

Надгледање мрачних веб форума, који се обично користе за размену недозвољених информација, кључно је за идентификацију потенцијално опасних тема. Међутим, ручно прегледавање ових података може бити дуготрајно, што аутоматизацију процеса чини корисним за стручњаке за безбедност.

Истраживачи су се фокусирали на потенцијално штетне активности у хакерским форумима, осмишљавајући смернице за напомене за вредне теме, укључујући дељење поверљивих података и дистрибуцију критичног малвера или рањивости.

ДаркБЕРТ је надмашио друге језичке моделе у погледу прецизности, присећања и Ф1 резултата, појавивши се као супериоран избор за идентификацију тема вредних пажње на мрачном вебу.

2. Откријте сајтове на којима се налазе поверљиве информације

Хакери и групе за рансомваре користе мрачну мрежу за креирање сајтова за цурење података, на којима објављују поверљиве податке украдене од организација које одбијају да се повинују захтевима за откупнином. Други сајбер криминалци само постављају процуреле осетљиве податке, попут лозинки и финансијских информација, на мрачну мрежу са намером да их продају.

У својој студији, истраживачи су прикупили податке од озлоглашене групе за рансомваре и анализирали сајтове за цурење рансомваре-а који објављују приватне податке организација. ДаркБЕРТ је надмашио друге језичке моделе у идентификацији и класификацији таквих сајтова, показујући своје разумевање језика који се користи у подземним хакерским форумима на мрачном вебу.

ДаркБЕРТ користи функцију маске за попуњавање, инхерентну карактеристику модела језика породице БЕРТ, да прецизно идентификује кључне речи повезане са илегалним активностима, укључујући продају дроге на мрачном вебу.

Када је реч „МДМА“ била маскирана на страници за продају лекова, ДаркБЕРТ је генерисао речи у вези са дрогом, док су други модели предлагали опште речи и термине који нису повезани са дрогом, попут разних професија.

ДаркБЕРТ-ова способност да идентификује кључне речи у вези са недозвољеним активностима може бити драгоцена у праћењу и решавању нових сајбер претњи.

Да ли је ДаркБЕРТ доступан широј јавности?

ДаркБЕРТ је тренутно недоступан јавности, али истраживачи су отворени за захтеве да га користе у академске сврхе.

Искористите моћ вештачке интелигенције за откривање и превенцију претњи

ДаркБЕРТ је претходно обучен за податке о мрачном вебу и надмашује постојеће језичке моделе у више случајева коришћења сајбер безбедности, позиционирајући се као кључно средство за унапређење истраживања мрачног веба.

АИ обучена за тамни веб има потенцијал да се користи за различите задатке сајбер безбедности, укључујући идентификацију веб локација које продају процуреле поверљиве податке, надгледање мрачних веб форума да би се открило незаконито дељење информација и идентификовање кључних речи у вези са сајбер претње.

Али увек треба да запамтите да је, као и други ЛЛМ, ДаркБЕРТ рад у току, а његове перформансе се могу побољшати кроз континуирану обуку и фино подешавање.