8 кључних фактора које треба узети у обзир приликом тестирања АИ четботова на тачност

Можете тестирати различите АИ цхат ботове да бисте утврдили који најбоље функционише. Али како то треба да урадите? Ево неколико кључних фактора које треба узети у обзир.

АИ је прешао дуг пут од производње ирелевантног, некохерентног резултата. Модерни цхат ботови користе напредне језичке моделе који одговарају на питања општег знања, састављају дугачке есеје и пишу код, између осталих сложених задатака.

Упркос овом напретку, имајте на уму да чак и најсофистициранији системи имају ограничења. АИ и даље прави грешке. Да бисте утврдили који цхатботови су најмање склони халуцинацијама, тестирајте њихову тачност на основу ових фактора.

1. Нумераци

Покрените математичке једначине преко цхат робота. Они ће тестирати способност платформе да анализира проблеме са речима, преводи математичке концепте и примењује исправне формуле. Само неколико модела показује поуздане нумеричке вредности. У ствари, један од Најгори проблеми ЦхатГПТ-а током његови први месеци били су ужасно разумевање математике.

На слици испод приказано је да ЦхатГПТ не успе у основној статистици.

instagram viewer

ЦхатГПТ је показао побољшање након ОпенАИ је објавио своја ажурирања у мају 2023. Али с обзиром на његове ограничене скупове података, и даље ћете имати проблема са средњим до напредним математичким прорачунима.

У међувремену, Бинг Цхат и Гоогле Бард показују боље рачунање. Они покрећу упите кроз своје одговарајуће претраживаче, омогућавајући им да извуку формуле и листове за одговоре.

Покушајте да преформулишете своје проблеме са речима. Избегавајте дугачке реченице и замените слабе глаголе; у супротном, цхатботови могу погрешно разумети ваша питања.

2. Разумевање

Модерни системи вештачке интелигенције могу да преузму више задатака. Напредни ЛЛМ им омогућавају да задрже претходна упутства и одговоре на упите по одељцима, док старији системи обрађују појединачне команде. На пример, Сири одговара на једно по једно питање.

Укључите цхатботове три до пет задатака истовремено да бисте тестирали колико добро анализирају сложене упите. Мање софистицирани модели не могу обрадити толико информација. Слика испод приказује неисправност ХуггингЦхат-а у три корака — зауставља се у првом кораку и одступа од теме.

Последњи редови ХуггингЦхат-а су већ некохерентни.

ЦхатГПТ брзо завршава исти упит, генеришући интелигентне одговоре без грешака на сваком кораку.

Бинг Цхат пружа сажет одговор на три корака. Његова крута ограничења забрањују непотребно дуге излазе који троше снагу обраде.

3. Правовременост

Пошто обука АИ кошта огромне ресурсе, већина програмера ограничава скупове података на одређене периоде. Узмите ЦхатГПТ као пример. Има ограничење знања од септембра 2021. - не можете тражити ажурирања времена, вести или недавна дешавања. Ево ЦхатГПТ који каже да нема приступ информацијама у реалном времену.

Бард има приступ интернету. Повлачи податке из Гоогле СЕРП-а, тако да можете поставити шири спектар питања, на пример, недавни догађаји, вести и предвиђања.

Исто тако, Бинг Цхат извлачи информације у реалном времену из свог претраживача.

Бинг Цхат и Бард пружају правовремене, ажурне информације, али овај други пружа детаљније одговоре. Бинг само представља податке какве јесу. Приметићете да се његови резултати често дословно подударају са фразом и тоном повезаних извора.

4. Релевантност

Чет-ботови морају да обезбеде релевантне резултате. Они треба да узму у обзир дословно и контекстуално значење ваших упита када одговарају. Узмите овај разговор као пример. Нашој личности је потребан нови телефон, али има само 1.000 УСД—ЦхатГПТ не прелази буџет.

Када тестирате релевантност, покушајте да направите дугачка упутства. Мање софистицирани цхат ботови имају тенденцију да оду на тангенту када добију збуњујуће инструкције. На пример, ХуггингЦхат може да саставља измишљене приче. Али може да одступи од главне теме ако поставите превише правила и смерница.

5. Контекстуална меморија

Контекстуална меморија помаже вештачкој интелигенцији да произведе тачан и поуздан излаз. Уместо да ваша питања узимају као номиналну вредност, они спајају детаље које помињете. Узмите овај разговор као пример. Бинг Цхат повезује две одвојене поруке како би формирао користан, концизан одговор.

Исто тако, контекстуална меморија омогућава чет-ботовима да памте упутства. Ова слика приказује ЦхатГПТ који опонаша начин на који измишљени лик говори током неколико ћаскања.

Тестирајте ову функцију сами тако што ћете се доследно позивати на претходне изјаве. Наведите четботе разним информацијама, а затим их присилите да их се присете у каснијим одговорима.

Контекстуална меморија је ограничена. Бинг Цхат покреће нове разговоре сваких 20 пута, док ЦхатГПТ не може да обради упите преко 3.000 токена.

6. Безбедносна ограничења

АИ не ради увек како је предвиђено. Погрешна обука може узроковати технологије машинског учења да се праве различите грешке, од мањих математичких грешака до проблематичних коментара. Узми Мицрософт Таи као пример. Корисници Твитера су искористили његов модел учења без надзора и условили га да изговара расне увреде.

Срећом, глобални технолошки лидери су научили из Мицрософтове грешке. Иако је исплативо и практично, учење без надзора чини системе вештачке интелигенције подложним обманама. Стога се програмери данас првенствено ослањају на надгледано учење. Цхатботс лике ЦхатГПТ и даље учи из разговора, али њихови тренери прво филтрирају информације.

Очекујте различите смернице од АИ компанија. Мање строга ограничења ЦхатГПТ-а прихватају шири спектар задатака, али су слаба против експлоатације. У међувремену, Бинг Цхат прати строжа ограничења. Иако помажу у борби против покушаја експлоатације, они такође ометају функционалност. Бинг аутоматски искључује потенцијално штетне разговоре.

7. АИ Биасес

АИ је инхерентно неутралан. Његов недостатак преференција и емоција чини га неспособним за формирање мишљења - он само представља информације које зна. Ево како ЦхатГПТ реагује на субјективне теме.

Упркос овој неутралности, АИ пристрасности још увек настају. Они потичу из образаца, скупова података, алгоритама и модела које програмери користе. АИ би могао бити непристрасан, али људи нису.

На пример, Тхе Броокингс Институтион тврди да ЦхатГПТ показује левичарске политичке пристрасности. ОпенАИ, наравно, пориче ове оптужбе. Али да би избегао сличне проблеме са новијим моделима, ЦхатГПТ у потпуности избегава тврдње.

Исто тако, Бинг Цхат избегава осетљиве, субјективне ствари.

Процените пристрасност АИ постављајући отворена питања заснована на мишљењу. Разговарајте о темама без тачног или погрешног одговора—мање софистицирани цхат ботови ће вероватно приказати неосноване преференције према одређеним групама.

8. Референце

АИ ретко двапут проверава чињенице. Он само извлачи информације из својих скупова података и преформулише их кроз језичке моделе. Нажалост, ограничена обука изазива АИ халуцинације. И даље можете да користите генеративне АИ алате за истраживање, али будите сигурни да сами проверите чињенице. Узмите резултат са резервом.

Бинг Цхат поједностављује процес провере чињеница наводећи своје референце након сваког излаза.

Бард АИ не наводи своје изворе, али генерише ажурирана, детаљна објашњења покретањем Гоогле упита за претрагу. Добићете главне тачке из СЕРП-а.

ЦхатГПТ је склон нетачностима. Његово ограничење знања за 2021. спречава га да одговори на питања о недавним догађајима и инцидентима.

Креирајте нове начине за тестирање тачности чет-бота

АИ није све и крајња технологија. Док софистицирани системи вештачке интелигенције и језички модели постижу импресивне подвиге, они такође праве грешке и недоследности. Гледајте цхатботе са скептицизмом. Платформе вођене вештачком интелигенцијом можете да користите само ако разумете њихове функције и ограничења.

Иако постоји на десетине цхатботова на различитим платформама, њихова поузданост и прецизност могу вас разочарати. Само ћете губити време тестирајући их. Да бисмо обезбедили квалитетне резултате, предлажемо да се фокусирате на три најснажнија модела на тржишту: ЦхатГПТ, Бинг АИ и Гоогле Бард.

About Technology - denizatm.com

8 кључних фактора које треба узети у обзир приликом тестирања АИ четботова на тачност

1. Нумераци

2. Разумевање

3. Правовременост

4. Релевантност

5. Контекстуална меморија

6. Безбедносна ограничења

7. АИ Биасес

8. Референце

Креирајте нове начине за тестирање тачности чет-бота

Категорије

Recent Post

5 ствари које треба испробати када се Мицрософт Едге не ажурира на Виндовс 11

7 савета за сајбер безбедност за дигиталне номаде

6 здравијих начина да проведете време на мрежи уместо да користите друштвене медије