Шта су непријатељски напади на АИ моделе и како их можете зауставити?

АИ модели су добри онолико колико су добри подаци који улазе у њих. То чини ове податке потенцијалном метом за нападе.

Напредак у вештачкој интелигенцији имао је значајан утицај на различите области. Ово је дало разлог за забринутост великом броју технолошких ентузијаста. Како се ове технологије шире у различите апликације, могу довести до пораста непријатељских напада.

Шта су непријатељски напади у вештачкој интелигенцији?

Адверсариал напади искоришћавају спецификације и рањивости унутар АИ модела. Они кваре податке из којих су АИ модели научили и узрокују да ови модели генеришу нетачне резултате.

Замислите да шаљивџија мења плочице за гребање које су распоређене као ананас да постану „јабука“. Ово је слично ономе што се дешава у непријатељским нападима.

Пре неколико година, добијање неколико нетачних одговора или излаза од АИ модела је била норма. Сада је обрнуто, јер су нетачности постале изузетак, а корисници вештачке интелигенције очекују скоро савршене резултате.

Када се ови модели вештачке интелигенције примењују на сценарије из стварног света, непрецизности могу бити фаталне, чинећи непријатељске нападе веома опасним. На пример, налепнице на саобраћајним знацима могу збунити аутономно возило које се самостално вози и довести до његовог покретања у саобраћај или директно у препреку.

instagram viewer

Врсте непријатељских напада

Постоје различити облици непријатељских напада. Са повећање интеграције АИ у свакодневне апликације, ови напади ће вероватно постати гори и сложенији.

Без обзира на то, можемо грубо класификовати непријатељске нападе у два типа на основу тога колико актер претње зна о АИ моделу.

1. Вхите Бок Аттацкс

Ин напади беле кутије, актери претњи имају потпуно знање о унутрашњем раду АИ модела. Они познају његове спецификације, податке о обуци, технике обраде и параметре. Ово знање им омогућава да изграде непријатељски напад посебно за модел.

Први корак у нападу на белу кутију је промена оригиналних података о обуци, кварећи их на најмањи могући начин. Измењени подаци ће и даље бити веома слични оригиналним, али довољно значајни да изазову АИ модел да даје нетачне резултате.

То није све. Након напада, актер претње процењује ефикасност модела дајући му супротстављене примере –изобличени улази дизајнирани да узрокују грешке у моделу—и анализира резултате. Што је резултат непрецизнији, напад је успешнији.

2. Напади на црну кутију

За разлику од напада на белу кутију, где актер претње зна за унутрашње деловање АИ модела, починиоци напади на црну кутију немам појма како модел функционише. Они једноставно посматрају модел из мртве тачке, пратећи његове улазне и излазне вредности.

Први корак у нападу црне кутије је одабир улазне мете коју АИ модел жели да класификује. Актер претње затим креира злонамерну верзију уноса додавањем пажљиво израђене буке, пертурбације података невидљивих људском оку, али способне да изазову АИ модел да квар.

Злонамерна верзија се уноси у модел, а излаз се посматра. Резултати које даје модел помажу актеру претње да настави да модификује верзију све док не буде довољно сигуран да би погрешно класификовао све податке који су у њу унесени.

Технике које се користе у непријатељским нападима

Злонамерни ентитети могу да користе различите технике за извођење непријатељских напада. Ево неких од ових техника.

1. Тровање

Нападачи могу да манипулишу (отровају) малим делом улазних података АИ модела како би угрозили његове скупове података за обуку и тачност.

Постоји неколико облика тровања. Једно од уобичајених назива се тровање у позадини, где је погођено врло мало података о обуци. АИ модел наставља да даје врло прецизне резултате све док се не „активира“ да не функционише након контакта са одређеним окидачима.

2. Евасион

Ова техника је прилично смртоносна, јер избегава откривање тако што иде за безбедносним системом АИ.

Већина АИ модела је опремљена системима за откривање аномалија. Технике избегавања користе супротстављене примере који директно прате ове системе.

Ова техника може бити посебно опасна против клиничких система као што су аутономни аутомобили или модели медицинске дијагностике. То су области у којима непрецизности могу имати тешке последице.

3. Преносивост

Актерима претњи који користе ову технику није потребно претходно знање о параметрима АИ модела. Они користе непријатељске нападе који су у прошлости били успешни против других верзија модела.

На пример, ако противнички напад доведе до тога да модел класификатора слика погреши корњачу за пушку, тачан напад би могао да доведе до тога да други модели класификатора слика направе исту грешку. Други модели су могли бити обучени на другом скупу података, па чак и да имају другачију архитектуру, али би и даље могли постати жртва напада.

4. Сурогатно мајчинство

Уместо да прати безбедносне системе модела користећи технике избегавања или раније успешне нападе, актер претње би могао да користи сурогат модел.

Овом техником, актер претње ствара идентичну верзију циљног модела, сурогат модел. Резултати, параметри и понашање сурогата морају бити идентични оригиналном моделу који је копиран.

Сурогат ће сада бити подвргнут разним непријатељским нападима све док неко не доведе до тога да произведе нетачан исход или изврши погрешну класификацију. Затим ће се овај напад користити на оригиналној циљној АИ.

Како зауставити непријатељске нападе

Одбрана од непријатељских напада може бити сложена и дуготрајна јер актери претњи користе различите облике и технике. Међутим, следећи кораци могу спречити и зауставити непријатељске нападе.

1. Адверсариал Траининг

Најефикаснији корак који може спречити непријатељске нападе је акузаторска обука, обука АИ модела и машина користећи супротстављене примере. Ово побољшава робусност модела и омогућава му да буде отпоран на најмање улазне пертурбације.

2. Редовна ревизија

Неопходно је редовно проверавати слабости у систему детекције аномалија АИ модела. Ово укључује намерно храњење модела супротстављеним примерима и праћење понашања модела до злонамерног уноса.

3. Санитизација података

Овај метод укључује проверу да ли се злонамерни инпути уносе у модел. Након што их идентификујете, морају се одмах уклонити.

Ови подаци се могу идентификовати коришћењем валидације уноса, која укључује проверу података за обрасце или потписе претходно познатих супротстављених примера.

4. Безбедносна ажурирања

Било би тешко погрешити са безбедносним ажурирањима и закрпама. Вишеслојна безбедност као што су заштитни зидови, програми против малвера и системи за откривање и превенцију упада може помоћи у блокирању спољних сметњи од актера претњи који желе да отрују АИ модел.

Супарнички напади могу бити достојан противник

Концепт адверсарних напада представља проблем за напредно учење и машинско учење.

Као резултат тога, модели вештачке интелигенције треба да буду наоружани одбрамбеним функцијама као што су супротстављена обука, редовна ревизија, санитизација података и релевантна безбедносна ажурирања.

About Technology - denizatm.com