Откривање фраза је само део процеса.
Викање „Ок Гоогле“ са друге стране собе да бисте променили музику или угасили светла у просторији је сигурно невероватно, али овај наизглед једноставан процес покреће компликована мрежа технологија које раде иза сцене.
Скоро сваки велики виртуелни асистент на тржишту има позивну фразу коју користите да пробудите помоћника и разговарате. Али како гласовни асистенти знају када разговарате са њима?
Како функционише откривање фраза?
Као што је горе поменуто, сваки гласовни асистент има „фразу окидача“ или реч за буђење коју користите да пробудите помоћника и дате даље команде. Процес откривања ове фразе је мање-више исти код свих помоћника, осим малих нијанси. Ипак, ове нијансе могу значити разлику између опуштеног изговарања команде за буђење и вишеструког извикивања пута само да би асистент наставио да спава, нешто што понекад може бити стварно досадно, посебно ако сте ви користећи свој гласовни асистент да се смирите.
Уопштено говорећи, већина „паметних“ звучника има мало коло чији је једини задатак да открије команду за буђење и затим покрене остатак хардвера. Већина обраде се обавља у облаку, али откривање фразе је на уређају из очигледних разлога приватности. Детекција фраза на телефонима ради мање-више на исти начин.
Специфичности су углавном скривене, али ови системи за детекцију користе машинско учење и дубоке неуронске мреже (ДНН) да обуче АИ моделе да открију ваш глас и формирају кључ. Овај кључ се затим користи за верификацију када сте изговорили одређену фразу, а све остало се шаље у облак на даљу обраду.
Гоогле помоћник
Телефони који подржавају откривање „ОК Гоогле“ обично долазе са системом за откривање кључних речи (КВС) који детектује фразу, а затим закрпи остатак вашег упита у облак. Пошто мобилни уређаји имају ограничену рачунарску снагу, као и ограничења трајања батерије, ови системи обично нису тако добри као они које бисте нашли на Гоогле Нест звучницима.
Овај КВС систем на уређају непрекидно преузима звук са микрофона уређаја и покреће везу са сервером када открије фразу окидача. Гоогле такође користи контекстуално аутоматско препознавање говора (АСР) на страни сервера да побољша укупну тачност свог КВС система. Више о томе можете прочитати у Гуглов истраживачки рад [ПДФ].
Сири
Сири ради исто као Гоогле помоћник у вези са откривањем „Хеј Сири“. Аппле је био изненађујуће отворен о томе како систем функционише, што укључује „веома мали“ препознавач говора који ради у позадини и слуша само те две речи. Овај детектор користи ДНН да конвертује акустични образац вашег гласа снимљеног преко сваке инстанце у дистрибуцију вероватноће преко звукова говора, у суштини стварајући резултат поузданости.
Ваш иПхоне или Аппле Ватцх то раде тако што ваш глас мењају у ток узорака таласног облика брзином од 16.000 у секунди. Ово се затим сече на низ кадрова који покривају звучни спектар од око 0,01 секунде. Затим се укупно 20 ових оквира уноси у модел детекције, који ове обрасце претвара у вероватноћу.
Ако систем са довољно самопоуздања утврди да сте рекли „Хеј Сири“, Сири се буди и шаље остатак упита у облак, где се одвија даља анализа и добија се свака радња коју сте тражили изведена.
Ту су, наравно, додане додатне мере како би се осигурала ефикасност меморије и батерије. Алваис Он процесор (АОП) вашег иПхоне-а има приступ микрофонима уређаја (на иПхоне 6С и новијим) управо из тог разлога, а мали део његове процесорске снаге је резервисан за покретање ДНН-а. Аппле дубоко зарони у цео систем на својој веб локацији за машинско учење, машинско учење.јабука.
Алека
Слично као и Гоогле Ассистант и Сири, Алека такође не садржи већину своје процесорске снаге ни на једном од Ецхо звучника које можете купити. Уместо тога, говорници користе оно што Амазон назива аутоматским препознавањем говора (АСР) које у суштини претвара изговорене речи у текст, омогућавајући основном систему да их тумачи и делује у складу са тим.
АСР чини основну основу како Алека функционише. Још једном, постоји уграђени систем који слуша будне речи, у овом случају, „Алека“, „Амазон,“ „Ецхо“ или „Цомпутер“ и покреће остатак система када је реч за буђење коју је унапред одредио корисник откривен. Можете чак пробудите свој Алека уређај користећи „Хеј Дизни“ ако желиш.
Као и Гоогле помоћник, можете да обучите Алекин основни АИ модел да боље детектује ваш глас. Овај процес укључује креирање основног „кључа“ са којим се упоређује изговорена реч буђења, а када се пронађе подударање, уређај одговара у складу са тим.
Да ли гласовни асистенти увек слушају?
Као што вероватно већ можете да претпоставите, да, јесу. Нема шансе да иначе открију будне речи. Међутим, још увек не морате да избаците све своје паметне звучнике због забринутости за приватност.
Слушање свега што корисници кажу, слање назад на удаљени сервер и анализирање (или складиштење) захтева огромна хардверска и финансијска средства до тачке у којој то практично нема смисла перспектива. Додајте овоме огромне бриге о приватности са којима се компаније попут Гоогле-а, Аппле-а и Амазона већ баве, и идеја нема смисла.
Ово такође значајно утиче на перформансе телефона и трајање батерије са функцијама за откривање речи у будном стању, пре свега Гоогле Пикелс и иПхоне. Ако ваш телефон непрекидно слуша шта говорите и шаље тај звук назад на удаљени сервер, он ће напунити батерију и утицати на перформансе уређаја.
Ко има најефикасније откривање фраза и зашто?
Није лако објективно упоредити који виртуелни асистент има најбољу детекцију фраза објективно јер сви користе мало различите имплементације истог укупног концепта. Међутим, чини се да Гоогле има конзистентније откривање фраза захваљујући Гоогле Ассистант-у у односу на Сири и Алека.
Упркос томе што апликације које користе велике језичке моделе (ЛЛМ) као што су ЦхатГПТ и Бинг Цхат постају мејнстрим, Гоогле помоћник одржава своју позицију једног од популарни виртуелни асистенти једноставно зато што је на додир на сваком Андроид уређају, од паметних телевизора до стерео система за аутомобиле и, наравно, паметних телефона.
Сири и Алека морају нешто да надокнаде у том одељењу, али што се тиче откривања фраза, нису тако далеко. Ипак, имаћете веће шансе да пробудите Гоогле помоћника на свом Пикел-у са друге стране собе него са Сири на иПхоне-у, иако можете појачајте Сири-јеве могућности помоћу режима Супер Сири. Пошто се Алека углавном користи на Амазоновој Ецхо линији звучника, овде има малу предност, с обзиром на то да су ови звучници дизајнирани да могу да чују глас корисника.
АИ је сабласан колико је и згодан
Позивање вашег АИ асистента само вашим гласом може бити веома корисно. За функцију која се неприметно интегрише у наше животе, много тога се дешава иза кулиса о чему већина нас често не размишља.
Ипак, ова погодност са собом носи и нелагодност вашег уређаја да увек слуша шта говорите. До сада, препознавања говора на уређају и речи за буђење стоје између онога што ваш виртуелни асистент чује и онога што кажете.