Направити апликацију за транскрипцију са три клика за коришћење, али веома прецизну, звучи тешко, али није. Хајде да представимо Вхиспер АутоХоткеи-у.

ОпенАИ-јев шапат је једно од најмоћнијих решења за претварање вашег гласа у текст. Међутим, Вхиспер такође може бити неугодан за коришћење, јер морате да укуцате команде да бисте преписали аудио датотеку у текст. Али зашто то радити када имамо АутоХоткеи?

Уз АутоХоткеи, можемо без напора да креирамо основни ГУИ за апликације на командној линији као што је Вхиспер. Дакле, хајде да урадимо то и видимо како можете да креирате сопствену апликацију за транскрипцију комбиновањем АутоХоткеи-јевих супермоћи за прављење ГУИ-ја са ОпенАИ-јевим Вхиспером као „мозаком“ иза дугмади.

Постављање темеља за Вхиспер и АутоХоткеи

Можете да правите сјајне скрипте помоћу АутоХоткеи-а, али то није све што може. За овај пројекат, користићемо АутоХоткеи да креирамо ГУИ за Вхиспер. Ово ће нам омогућити да користимо ОпенАИ-ов АИ алат за препознавање гласа кликом на дугмад и прилагођавањем његове функционалности помоћу менија уместо куцања команди.

instagram viewer

Међутим, то значи да ћете морати да имате инсталиране и АутоХоткеи и Вхиспер да бисте пратили.

За први део једначине можете преузмите АутоХоткеи са његовог званичног сајта, затим покрените његов инсталатер и пратите представљене кораке.

Имајте на уму да ћемо користити старију „в1“ верзију скриптног језика, а не нову в2. То је важно јер две верзије користе нешто другачију синтаксу. Оно што ћемо овде видети можда неће радити ако користите нови в2.

Други део је компликованији, али можете научити како да то урадите тако што ћете проверити наш чланак о како претворити свој глас у текст помоћу ОпенАИ-овог Вхиспер-а за Виндовс.

Са оба инсталирана, наш план акције је следећи:

  1. Направите ГУИ са елементима за Вхиспер-ове променљиве и вредности.
  2. Креирајте функције за преузимање вредности из интерфејса, бирање датотека и фасцикли и састављање свега у употребљиву команду Вхиспер.
  3. Покрените команду Вхиспер да бисте произвели резултате.

Наравно, увек можете да користите Виндовс уграђену подршку за куцање гласом, као што смо видели у нашем чланку о како да покренете куцање гласом у оперативном систему Виндовс 11. Ипак, као што ћете видети док га користите, Вхиспер је много прецизнији (али и спорији).

Личније речено, требало би да објасним да ја нисам програмер, а овај пројекат је „ремикс“ решења направљеног за личну употребу.

Како направити нову АутоХоткеи скрипту

Први корак је креирање нове празне датотеке скрипте. Чувајте га у сопственој фасцикли, само у случају да одлучите да га прилагодите или надоградите, креирајући још датотека.

  1. Покрените свој омиљени менаџер датотека (или притисните Виндовс кључ + Е да покренете Виндовс Екплорер) и направите фасциклу за своју апликацију за транскрипцију где год желите.
  2. Кликните десним тастером миша на празно место прозора и изаберите Нова > АутоХоткеи Сцрипт да креирате празну датотеку скрипте.
  3. Схифт + десни клик на датотеку да бисте приступили целом контекстуалном менију и изаберите да је отворите својим омиљеним кодом или уређивачем текста. Виндовсов сопствени Нотепад ће учинити.
  4. Упркос томе што је „празна скрипта“, ваша АХК датотека ће већ бити унапред попуњена неким „стварима“. То су корисне АутоХоткеи променљиве и заставице које дефинишу како би требало да функционише на вашој радној површини. Игноришите их, оставите их онаквима какви јесу и све своје будуће куцање радите испод њих.

Упознавање са Вхиспер'с Флагс

Пошто правимо ГУИ за апликацију командне линије, згодно је имати референцу на њене главне варијабле и заставице које ћемо користити у нашем пројекту. Можете их проверити читањем Вхисперове документације, посетом његова званична Гитхуб страница, и покренути га у свом терминалу.

Навешћемо оне које ћемо користити у овом пројекту ради практичности. Предлажемо да их додате у своју скрипту као коментаре (у одвојеним редовима, од којих сваки почиње знаком „;“ иза којег следи размак).

; Вхиспер Флагс:; --инитиал_промпт ПРОМПТ_ТЕКСТ; --оутпут_формат ткт; -о ОУТПУТ_ФОЛДЕР; --модел МОДЕЛ_ТО_УСЕ; --задатак ТРАНСЦРИБЕ/ТРАНСЛАТЕ; --језик ЕН/ЕЛ

Креирање ГУИ помоћу АутоХоткеи-а

Предлажемо да своју скрипту поделите на одељке користећи коментаре као што смо ми урадили да би била организована. Почећемо тако што ћемо дефинисати неке променљиве, наставити на стварни ГУИ и завршити дефинисањем његових функција.

Почињемо са одељком у којем ћемо дефинисати променљиве које бисмо можда желели да променимо у будућности, али не тако често да бисмо желели да их изложимо преко ГУИ-а, превише га компликујући. Можете да откуцате „Вариабле_Наме = Садржај или вредност променљиве“ са једним паром променљиве и вредности по реду.

За овај пројекат смо дефинисали а Излазни формат променљиву коју постављамо на "ткт„вредност и а ВхисперЕкецутабле променљиво навођење Име Вхисперове извршне датотеке. На овај начин, ако желимо да користимо исто решење у будућности за креирање датотека СРТ титлова уместо ТКСТ докумената или за надоградњу Шапутајте/пребаците се на алтернативну апликацију, можемо да прилагодимо вредности тих варијабли на том једном месту уместо на целом скрипта.

ОутпутФормат = тктВхисперЕкецутабле = шапат

Подешавање корисничких опција

Када користите Вхиспер на командној линији, три његове заставице вам омогућавају да дефинишете:

  • Ако радите превод или транскрипција
  • Аудио фајл је Језик
  • Језик модел које желите да користите (доступне су различите величине, од којих свака утиче на перформансе и квалитет резултата).

Најлакши начин да понудите исту функционалност кроз ГУИ је кроз испробане и тестиране падајуће листе. Синтакса за додавање падајуће листе у АутоХоткеи ГУИ је следећа:

Гуи, Адд, ДропДовнЛист, кПоситион иПоситион вВидтх хХеигхт вВариабле_тхат_вилл_холд_селецтед_валуе, оптионА|оптионБ|дефаулт_оптионЦ||оптионД|

На основу тога, додајмо три падајуће листе нашој скрипти за избор Вхисперовог језика (између енглески/ен и грчки/ел), модел (мали, основни, мали, средњи, велики) и тип задатка (транскрибуј или превести).

Гуи, Адд, ДропДовнЛист, к5 и5 в165 х50 вСелецтедЛангуаге, ен||ел
Гуи, Адд, ДропДовнЛист, к175 и5 в165 х100 вСелецтедМодел, тини|басе|смалл||медиум|ларге|
Гуи, Адд, ДропДовнЛист, к345 и5 в165 х100 вТаскТипе, транссцрибе||транслате|

Да бисте поставили опцију као подразумевани избор, користите симбол двоструке цеви ("|") иза ње. Можете видети да смо, у нашем примеру, поставили наш језик на ен, СелецтедМодел то мали, и ТаскТипе до преписати.

Како водити шапат

Пошто је Вхиспер заснован на вештачкој интелигенцији, не постоји начин да имате апсолутну контролу над начином на који Вхиспер транскрибује звук. Слободно је изабрати оно што сматра оптималним.

Међутим, као и друга АИ решења, Вхиспер може прихватити корисничке упите. Прављењем упита можете да „водите“ како транскрибује ваш звук.

Да ли решење које правимо није успело да нешто исправно транскрибује? Можете покушати да „објасните“ Шапту „о чему се ради у гласовној датотеци“, укључујући синтаксу речи, акронима и фраза у вашем упиту онако како желите да се појављују у транскрипцији. За то ћемо додати поље за уређивање текста АутоХоткеи.

Синтакса се не разликује превише од оне коју смо користили за додавање падајућих листа изнад:

Гуи, додавање, уређивање, к5 в505 х400 вПромптТект, %ПромптТект%

„%ПромптТект%“ на крају „каже“ АХК-у да прикаже садржај променљиве ПромптТект (ако јој је већ додељена вредност) унутар текстуалног поља. Неће показати ништа у скрипти коју правимо, али сматрајте је чуваром места када евентуално у будућности прилагодите скрипту и да бисте сачували и учитали упите!

Да ли бисте радије доделили унапред дефинисану вредност ПромптТект променљива? Додајте нешто попут следећег на Променљиве део сценарија. Не заборавите да замените „Ваше име“ својим стварним именом.

ПромптТект = Транскрипција белешки вашег имена

Подешавање акционих дугмади

За бирање датотека, фасцикли и покретање Вхиспера након што смо све подесили, боље је користити дугмад. Можете додати дугмад у интерфејс направљен од АХК користећи следеће:

Гуи, Адд, Буттон, кПоситион иПоситион вширина хВисина гФунцтион_То_Перформ, Буттон Тект

Приметите да за разлику од променљивих у ГУИ елементима, које почињу словом "в", имена функција почињу са "г", за "Иди (до овог места скрипте)".

Једно дугме АХК интерфејса се такође може сматрати „подразумеваним“, које ће се активирати ако нигде не кликнете на ГУИ и притиснете Ентер. Ово се дефинише додавањем "Уобичајено" у одељку координате и функције, као што ћете приметити на нашем дугмету "ОК":

Гуи, Адд, Буттон, к5 в505 х50 гСелецтФиле, Учитај ФилеГуи, Додати, Дугме, к5 в505 х50 гСелецтФолдер, ИзабериИзлаз Фолдер
Гуи, Додај, Дугме, Уобичајено к5 в505 х50 гБуттонСубмит, ОК

Са горе наведеним, дефинишемо три дугмета:

  • Један са ознаком "Учитај датотеку" који ће, када се кликне, покренути Изаберите фајл функција.
  • Један са ознаком "Изаберите Излазни фолдер“, који ће покренути Изабери фасциклу функција.
  • Један са ознаком "У реду", подразумевано изабрано, "позивање" БуттонСубмит функција.

Како показати свој ГУИ

Наш ГУИ је спреман, али се неће појавити на нашем екрану јер нисмо „рекли“ АутоХоткеи-у да га прикаже или шта свако дугме треба да ради.

За то додајте следећа два реда испод оних који дефинишу ваш ГУИ:

Гуи, СховРетурн

Први ред "каже" АХК-у да прикаже прозор ГУИ, док други означава крај одељка.

Функције и функционалност наше апликације

Иако смо завршили одељак ГУИ, ако покушате да покренете скрипту, она ће се срушити. То је зато што се у њему позивамо на непостојеће функције. Дакле, наш следећи потез је да креирамо те функције.

Три функције које желимо су:

  • Изаберите улазну датотеку.
  • Изаберите излазну фасциклу у којој ће се чувати транскрибована датотека.
  • Направите команду која ће "саставити" све варијабле у употребљиву Вхиспер команду, слично ономе што бисмо сами уписали у терминал, а затим је покренули.

Избор улазне датотеке

Прва функција, коју смо већ назвали "Изаберите фајл" када смо додали његово дугме у ГУИ, је:

Изаберите фајл:ФилеСелецтФиле, СелецтедФилеРетурн

ФилеСелецтФиле је функција АутоХоткеи која приказује типичан захтев за датотеке, омогућавајући кориснику да изабере датотеку. СелецтедФиле је променљива у нашој скрипти која ће "држати" путању до датотеке коју је корисник изабрао.

Међутим, као што ћете видети на нашим снимцима екрана, додали смо и следећи ред одмах изнад „повратка“ који завршава функцију:

МсгБок, %СелецтедФиле%

Ово ће имати АХК схов а Мессаге Бок са изабраном датотеком након што је одаберемо, што је корисно при решавању проблема са скриптом. Ако овај оквир за поруку приказује путању и назив ваше изабране датотеке, то није дугме за избор датотеке или функција коју треба поправити.

Избор излазне фасцикле

Функција за избор фасцикле је скоро идентична, само се мења име команде и променљива, да би се показало да имамо посла са фасциклама уместо датотекама:

СелецтФолдер: ФилеСелецтФолдер, СелецтедФолдерМсгБок, %СелецтедФолдер%Повратак

Коначна функција

Коначна функција ће бити најкомпликованија. Пресликано на дугме ОК, ово ће „сакупити“ све вредности променљивих из ГУИ-а, претворити их у употребљиву команду, а затим је покренути.

Почињемо тако што ћемо навести почетак и крај функције:

БуттонСубмит:Повратак

Да бисте "зграбили" све вредности ГУИ, додајте следеће испод БуттонСубмит линија:

Гуи Субмит, нохиде

Следећи ред креира нову променљиву под називом "ВхисперФлагс". Затим му додаје све варијабле ГУИ-ја као ознаке за команду Вхиспер.

ВхисперФлагс = --инитиал_промпт „%ПромптТект%“ --таск %ТаскТипе% --модел %СелецтедМодел% --лангуаге %СелецтедЛангуаге% --оутпут_формат %ОутпутФормат% -о „%СелецтедФолдер%“„%СелецтедФиле%“

Затим ћемо „рећи“ АХК-у да користи подразумевани терминал (ЦМД.еке) за покретање Вхисперовог извршног фајла (који смо дефинисали помоћу ВхисперЕкецутабле променљива) са варијаблама ГУИ (које су сада „састављене“ у сингл ВхисперФлагс променљива).

РунВаит, цмд.еке /ц %ВхисперЕкецутабле% %ВхисперФлагс%

За још лакше решавање проблема додали смо и мсгбок, као и раније, али и следећи ред:

Цлипбоард = %ВхисперЕкецутабле% %ВхисперФлагс%

Ово ће се копирати у Цлипбоард комплетна команда издата ЦМД-у. Дакле, ако нешто не успе, уместо да видите команду само у једном од оквира за поруке АХК-а, биће вам доступна и у међуспремнику.

Отворите терминал, налепите команду из међуспремника и проверите грешке које се појављују да бисте лоцирали потенцијалне проблеме.

На пример, док сам радио на скрипти, у почетку сам заборавио да промпт ставим под наводнике. Дакле, команда није успела, пошто је Вхиспер покушао да рашчлани промпт као заставице.

Тестирање и коначна подешавања

То је било то – управо смо креирали апликацију за транскрипцију користећи АутоХоткеи-јеве могућности за прављење ГУИ-а и решење за АИ транскрипцију спремно за употребу.

Покушајте да покренете своју скрипту (двапут кликните на њену датотеку) и требало би да видите свој ГУИ на екрану.

  • Промените подешавања Вхиспер-а користећи падајуће листе на врху.
  • Унесите кратак опис своје транскрипције (и неких термина) у Промпт поље.
  • Кликните Учитај датотеку дугме и изаберите аудио датотеку коју желите да транскрибујете.
  • Кликните Изаберите Излазни фолдер дугме и изаберите где треба да се чува произведена текстуална датотека.
  • Кликните на У реду да бисте ослободили Вхиспер, како је конфигурисао ваш ГУИ, на изабраној аудио датотеци и сачували њену транскрипцију као текстуалну датотеку у фасцикли коју сте изабрали.

Ако је све функционисало, вратите се на своју скрипту и или избришите или оставите коментар (додавањем „;“ на њихов почетак) све функције за решавање проблема (кутије за поруке и линије за копирање у међуспремник).

Даље шапат помоћу АутоХоткеи-а

Исправним подешавањем подразумеваних вредности вашег ГУИ-а и можда додавањем генеричког упита, можете претворити Вхиспер у Решење са три клика за транскрипцију: нема плаћања за комерцијална решења, услуге трећих страна, петљање са компликованим интерфејсима или куцајући у терминалу.