Реклама
Сада можемо разговарати са скоро свим нашим уређајима, али како то заправо функционише? Када питате "Која је ово песма?" или реците "Зови мама", догађа се чудо савремене технологије. И док се чини као да је на врхунској ивици, ова идеја разговора са уређајима сеже деценијама - готово што се тиче јетпацкс научне фантастике!
Данас је већина пажње која се поклања гласовном рачунању управо на паметним телефонима. Аппле, Амазон, Мицрософт и Гоогле налазе се на врху ланца од којих сваки нуди свој начин разговора са електроником. Знате ко су они: Сири, Алека, Цортана и безимено „Ок, Гоогле“. Што поставља велико питање ...
Како уређај узима изговорене речи и претвара их у команде које он може разумети? У суштини, своди се на усклађивање образаца и предвиђања на основу тих образаца. Прецизније, препознавање гласа је сложен задатак који потиче Акустично моделирање и Лангуаге Моделинг.
Акустично моделирање: таласни облици и телефони
Акустичко моделирање је процес узимања таласног облика говора и његове анализе помоћу статистичких модела. Најчешћи метод за то је
Скривено моделирање Маркова, која се користи у тзв моделирање изговора да разбијете говор на саставне делове који се зову телефони (да се не мешају са стварним телефонским уређајима). Мицрософт је дуги низ година водећи истраживач у овој области.Скривено Марковљево моделирање: Вероватна стања
Скривено Марков моделирање је математички предиктивни модел где се тренутно стање утврђује анализом излаза. Википедиа има сјајан пример коришћења два пријатеља.
Замислите два пријатеља - локалног пријатеља и удаљеног пријатеља - који живе у различитим градовима. Локални пријатељ жели да схвати какво је време где Ремоте Фриенд живи, али Ремоте Фриенд само жели да разговара о ономе што је радио тог дана: шетњу, продавницу или чишћење. Вероватноћа сваке активности у зависности од временског времена.
Претварајте се да су то једине доступне информације. Уз то, Лоцал Фриенд може пронаћи трендове у томе како се време мењало из дана у дан и користећи те трендове, она могу почети да образују нагађања о томе какво ће данашње време бити засновано на јучерашњим активностима њене пријатељице. (Дијаграм система можете видети горе.)
Ако желите сложенији пример, погледајте овај пример на Матлабу. У препознавању гласа, овај модел у основи упоређује сваки део таласног облика са оним што долази пре и са оним што следи и са речником таласних облика како би се схватило шта се каже.
У суштини, ако направите „тх“ звук, проверит ћете тај звук у односу на највероватније звуке који обично долазе пре и после њега. Можда то значи провера звука „е“, звука „ат“, и тако даље. Кад се образац правилно подудара, тада имате целу реч. Ово је превише поједностављење, али можете видети Овде је Мицрософтово потпуно објашњење.
Језичко моделирање: Више од звука
Акустично моделирање помаже вашем рачунару да вас разуме, али шта је са хомонимима и регионалним варијацијама у изговору? Ту се појављује језичко моделирање. Гоогле је покренуо мноштво истраживања у овој области, углавном коришћењем Н-грам моделирање.
Када Гоогле покушава да разуме ваш говор, то чини на основу модела произашлих из његове огромне банке гласовне претраге и ИоуТубе пријеписа. Сви ти урнебесно погрешни натписи су заправо помогли Гооглеу да развије своје речнике. Такође, користили су одлазеће ГООГ-411 за прикупљање информација о томе како људи говоре.
Сва ова језичка збирка створила је велику палету изговора и дијалеката, што је створило робустан речник речи и начин на који звуче. То омогућава утакмице које имају знатно смањену стопу грешака од подударања грубе силе на основу сирових вероватноћа. Можете прочитати кратки рад описујући њихове методе овде.
Иако је Гоогле лидер у овом пољу, постоје и други математички модели који укључују континуирани простор модели и модели положаја језика, што су напредније технике рођене истраживањем вештачке интелигенције. Ове методе заснивају се на понављању врсте размишљања које људи слушају једни друге. Они су много напреднији како у погледу технологије која стоји иза њих, али и математике и програмирања потребних за мапирање ових модела.
Н-Грам моделирање: Вероватноћа испуњава меморију
Н-грам моделирање ради на основу вероватноћа, али користи постојећи речник речи да би створио разгранато дрво могућности, које се затим изглађује ради ефикасности. На неки начин то значи да Н-грам моделирање уклања много неизвесности у горе поменутом Скривеном Марковом моделирању.
Као што је горе поменуто, снага ове методе потиче из великог речника речи и употреба, не само примитивно звуци. То даје програму могућност да каже разлику између хомофона, попут „беат“ и „беет“. Контекстуална је, што значи да, када говорите о синоћњим резултатима, програм не вуче речи о боршу.
Али ови модели заправо нису најбољи за језик, углавном због проблема са вероватноћом речи у дужим фразама. Док додате више речи у реченицу, овај модел мало отпада, јер је вероватно да су ваше ране речи напуниле све што је потребно за вашу комплетну мисао.
Међутим, то је једноставно и лако је имплементирати, што га чини одличним подударношћу за компанију попут Гооглеа која ужива у бацању сервера на рачунске проблеме. Можете прочитати даље и Н-грам Моделиенг на Универзитет у Вашингтонуили можете да гледате предавање на Цоурсера.
Викање у облацима: Апликације и уређаји
Свако ко користи Сири познаје фрустрацију споре мрежне везе. То је зато што се ваше наредбе за Сири шаљу преко мреже да би их Аппле декодирао. Цортана за Виндовс телефон захтева и мрежно повезивање да би правилно функционисало. Насупрот томе, Амазонов Ецхо је само Блуетоотх звучник без икаквог Интернета.
Зашто разлика? Зато што су Сири и Цортана потребни деловни сервери за декодирање вашег говора. Да ли се то може учинити на вашем телефону или таблету? Наравно, али убили бисте перформансе и радни век батерије током поступка. Само има смисла пребацивати обраду на наменске машине.
Размислите на овај начин: ваша наредба је аутомобил заглављен у блату. Вероватно бисте га могли сами избацити са довољно времена и труда, али проћи ће сатима и оставити вас исцрпљене. Уместо тога, назовите помоћ на путу и они ће вам извући аутомобил за само неколико минута. Лоша страна је да морате назвати и чекати их, али то је и даље брже и мање опорезујете.
Десктоп модели попут Нуанцеа имају тенденцију да користе локалне ресурсе због моћнијег хардвера. На крају крајева, по ријечима Стевеа Јобса десктоп је камион. (Због чега је ОС Кс помало блесав сервери за његову обраду.) Дакле, када требате да обрађујете језик и глас, он је већ довољно добро опремљен да га можете самостално обрадити.
Са друге стране, Андроид омогућава програмерима да у своје апликације укључе препознавање говора ван мреже. Гоогле воли да напредује у технологији, а можете се кладити да ће друге платформе стећи ту способност јер њихов хардвер постаје све моћнији. Нитко га не воли када лоша покривеност или лош пријем лоботомизира њихов уређај.
Започните са употребом гласовних наредби одмах
Сада када знате основне појмове, требало би да се играте са различитим уређајима. Испробајте ново гласно куцање у Гоогле документима Како је гласовно куцање нова најбоља функција Гоогле докуменатаПрепознавање гласа се побољшало скоковима и границама последњих година. Раније ове недеље, Гоогле је коначно увео унос текста гласа у Гоогле документе. Али да ли је то добро? Хајде да сазнамо! Опширније . Као да пакет веб канцеларија није већ довољно моћан, гласовна контрола вам омогућава да у потпуности диктирате и форматирате своје документе. Ово се проширује на моћну технологију коју су већ дизајнирали за Цхроме и Андроид.
Остале идеје укључују постављање вашег Мац да користи гласовне команде Како се користе говорне команде на вашем Мац-у Опширније и подешавање вашег Амазон Ецхо са аутоматским одјавом Како Амазон Ецхо може учинити ваш дом паметним домомПаметна кућна технологија још је у раним данима, али нови производ из Амазона под називом „Ецхо“ можда ће помоћи да се он уведе у главни ток. Опширније . Уживајте у будућности и загрлите разговарајући са својим гадгетима - чак и ако само наручујете више папирних пешкира. Ако сте зависник од паметних телефона, добили смо и туторијале за Сири 8 ствари које вероватно нисте схватили да би Сири могао да урадиСири је постала једна од најважнијих функција иПхонеа, али за многе људе то није увек и најкорисније. Иако је нешто од тога ограничено у препознавању гласа, необичности коришћења ... Опширније , Цортана 6 најслађих ствари које можете контролисати помоћу Цортане у оперативном систему Виндовс 10Цортана вам може помоћи да преузмете хандсфрее на Виндовс 10. Можете јој дозволити да претражује ваше датотеке и веб, израчунава или подиже временску прогнозу. Овде смо покрили неке од њених вештина хладњака. Опширније , и Андроид ОК, Гоогле: 20 корисних ствари које можете да кажете свом Андроид телефонуГоогле Ассистант вам може помоћи да постигнете доста посла на свом телефону. Ево гомиле основних, али корисних ОК Гоогле наредби које треба испробати. Опширније .
Која је ваша омиљена употреба гласовне контроле? Јавите нам у коментарима.
Имаге Цредитс: Т-флек преко Схуттерстоцка, Теренцехонлес преко Викимедиа Фоундатион, Аризона Стате, Дизајн Циенпиес преко Схуттерстоцка
Мицхаел није користио Мац када су били осуђени, али може да кодира у Апплесцрипт. Дипломирао је информатику и енглески језик; већ неко време пише о Мацу, иОС-у и видео играма; а он је свакодневни ИТ мајмун више од деценије, специјализован за сценаристе и виртуализацију.