Развијте и упоредите алгоритме учења уз помоћ овог алата.
Ако не можете да направите модел машинског учења од нуле или вам недостаје инфраструктура, само повезивање ваше апликације са моделом који ради поправља јаз.
Вештачка интелигенција је ту да сви користе на овај или онај начин. Што се тиче ОпенАИ Гим-а, постоји много терена за обуку који се могу истражити за храњење ваших агената за учење појачања.
Шта је ОпенАИ Гим, како функционише и шта можете да направите користећи га?
Шта је ОпенАИ Гим?
ОпенАИ Гим је Питхониц АПИ који обезбеђује симулирана окружења за обуку за агенте за учење са појачањем да делују на основу посматрања животне средине; свака акција долази са позитивном или негативном наградом, која се акумулира у сваком временском кораку. Док агент има за циљ да максимизира награду, бива кажњен за сваку неочекивану одлуку.
Временски корак је дискретни временски тик за окружење да пређе у друго стање. Он се додаје како акције агента мењају стање окружења.
Како ради ОпенАИ Гим?
Окружење ОпенАИ Гим засновано је на Марковљевом процесу одлучивања (МДП), динамичком моделу доношења одлука који се користи у учењу уз помоћ. Дакле, следи да награде долазе само када окружење промени стање. А догађаји у следећем стању зависе само од садашњег стања, пошто МДП не узима у обзир прошле догађаје.
Пре него што наставимо, хајде да заронимо у пример за брзо разумевање примене ОпенАИ Гим-а у учењу са појачањем.
Под претпоставком да намеравате да тренирате аутомобил у тркачкој игри, можете да покренете тркачку стазу у ОпенАИ Гим-у. У учењу појачања, ако возило скрене десно уместо лево, може добити негативну награду од -1. Тркачка стаза се мења у сваком временском кораку и може постати компликованија у наредним стањима.
Негативне награде или казне нису лоше за агента у учењу појачања. У неким случајевима то га подстиче да брже постигне свој циљ. Дакле, аутомобил временом учи о стази и савладава своју навигацију користећи низове награда.
На пример, ми смо покренули ФрозенЛаке-в1 окружење, где агент бива кажњен због пада у ледене рупе, али је награђен за враћање поклон кутије.
Наша прва вожња је генерисала мање казни без награда:
Међутим, трећа итерација је произвела сложеније окружење. Али агент је добио неколико награда:
Горе наведени исход не значи да ће се агент побољшати у следећој итерацији. Иако следећи пут може успешно да избегне више рупа, можда неће добити награду. Али измена неколико параметара може побољшати брзину учења.
Компоненте ОпенАИ теретане
ОпенАИ Гим АПИ се врти око следећих компоненти:
- Тхе окружења где обучавате агента. Можете га покренути користећи теретана.направити методом. ОпенАИ Гим такође подржава окружења са више агената.
- Тхе омоти за модификацију постојећег окружења. Иако је свако основно окружење подразумевано унапред упаковано, можете да га промените са параметрима као што су мак_ацтионс, мин_ацтионс и максималне награде.
- Ан поступак; дефинише шта агент ради док посматра промене у свом окружењу. Свака акција у окружењу је корак који дефинише одговор агента на запажања. Завршетак корака враћа запажање, награду, информације и скраћену или прекинуту вредност.
- Тхе посматрање; дефинише искуство агента у окружењу. Када постоји запажање, следи радња са својим информацијама. Параметар инфо је дневник извршавања који је згодан за отклањање грешака. Када се корак заврши, окружење се ресетује н пута, у зависности од броја специфицираних итерација.
Шта можете да направите са ОпенАИ теретаном?
Пошто вам ОпенАИ Гим омогућава да покренете прилагођена окружења за учење, ево неколико начина да га користите у стварном животу.
1. Симулација игре
Можете да искористите окружење за игре ОпенАИ Гим-а да наградите жељено понашање, креирате награде за игре и повећате сложеност по нивоу игре.
2. Имаге Рецогнитион
Тамо где постоји ограничена количина података, ресурса и времена, ОпенАИ Гим може бити згодан за развој система за препознавање слика. На дубљем нивоу, можете га скалирати да бисте изградили систем за препознавање лица, који награђује агента за исправну идентификацију лица.
3. Обука робота
ОпенАИ Гим такође нуди интуитивне моделе окружења за 3Д и 2Д симулације, где можете имплементирати жељена понашања у роботе. Робосцхоол је пример скалираног софтвера за симулацију робота направљеног помоћу ОпенАИ Гим-а.
4. Маркетинг
Такође можете да направите маркетиншка решења као што су сервери за огласе, ботови за трговање акцијама, ботови за предвиђање продаје, системи за препоруке производа и још много тога користећи ОпенАИ Гим. На пример, можете да направите прилагођени ОпенАИ Гим модел који кажњава огласе на основу броја приказа и кликова.
5. Обрада природног језика
Неки начини примене ОпенАИ Гим-а обрада природног језика су питања са више одговора која укључују допуну реченице или изградња класификатора нежељене поште. На пример, можете да обучите агента да научи варијације реченица како бисте избегли пристрасност док обележавате учеснике.
Како да почнете са ОпенАИ теретаном
ОпенАИ Гим подржава Питхон 3.7 и новије верзије. Да бисте подесили окружење ОпенАИ Гим, инсталираћете гимназија, рачваста континуирано подржана верзија теретане:
пип инсталирати гимназију
Затим отворите окружење. Међутим, можете креирати прилагођено окружење. Али почните тако што ћете се играти са постојећим да бисте савладали концепт ОпенАИ Гим-а.
Код испод врти ФрозенЛаке-в1. Тхе енв.ресет метода бележи почетно запажање:
увоз гимназија као Теретана
енв = гим.маке('ФрозенЛаке-в1', рендер_моде="људски")
запажање, инфо = енв.ресет()
Нека окружења захтевају додатне библиотеке за рад. Ако треба да инсталирате другу библиотеку, Питхон је препоручује преко поруке о изузетку.
На пример, инсталираћете додатну библиотеку (гимназија[играчка-текст]) за покретање ФрозенЛаке-в1 Животна средина.
Изградите снагу ОпенАИ Гим-а
Једна од препрека развоју вештачке интелигенције и машинског учења је недостатак инфраструктуре и скупова података за обуку. Али док тражите да интегришете моделе машинског учења у своје апликације или уређаје, сада је све лакше са готовим АИ моделима који лете по интернету. Док су неки од ових алата јефтини, други, укључујући ОпенАИ Гим, су бесплатни и отвореног кода.