Читаоци попут вас помажу у подршци МУО. Када обавите куповину користећи везе на нашем сајту, можда ћемо зарадити провизију за партнере. Опширније.

ОпенАИ'с Вхиспер је ново решење засновано на вештачкој интелигенцији које може да претвори ваш глас у текст. Најбоље од свега, долази са нултом ценом.

Међутим, постоји квака: теже га је инсталирати и користити од просечног Виндовс услужног програма. Нарочито ако желите да користите Тенсор језгра свог Нвидиа ГПУ-а да бисте му дали добар подстицај.

Не брини, ипак. Зато смо овде! Читајте даље да бисте сазнали како да га инсталирате и користите, али такође, ако га поседујете, да Вхиспер искористи предности вашег Нвидиа ГПУ-а.

Шта је ОпенАИ-јев шапат?

ЦхатГПТ је данас у моди, а то смо већ видели како можете да користите ЦхатГПТ од ОпенАИ. Па ипак, то није једини занимљив пројекат ОпенАИ.

Покренут дубоким учењем и неуронским мрежама, Вхиспер је систем за обраду природног језика који може да "разуме" говор и транскрибује га у текст. Али то је такође своје, налази се на месту међу свим сличним решењима:

instagram viewer
  • Вхиспер је АИ решење "обучено" на природном језику. Дакле, боље разуме "нормалан" људски говор него старија решења.
  • Вхиспер не долази са интерфејсом, нити може да снима звук. Може узети само постојеће аудио датотеке и излазне текстуалне датотеке.
  • Пошто је добар у „имању смисла за језик“, Вхиспер такође има супермоћ аутоматског превођења у једном кораку.
  • Вхиспер није онлајн услуга и може да ради у потпуности ван мреже.
  • Ако имате релативно модеран Нвидиа ГПУ (ГТКС970 или новији), Вхиспер може да ради у „хардверском убрзаном режиму“ да би повећао своју брзину.
  • Нема потребе да се региструјете, купите лиценцу или претплату.

Зашто АМД ГПУ-ови нису подржани?

Да би ГПУ били корисни за више од графике, морали би да делују као процесори који се могу потпуно програмирати. Зато је Нвидиа креирала ЦУДА, која се званично сматра „паралелном рачунарском платформом и моделом програмирања“. Да бисте сазнали више о ЦУДА-и и повезаном хардверу („ЦУДА језгра“), прочитајте наш чланак о шта су ЦУДА језгра и како побољшавају ПЦ игре.

ЦУДА је власничка Нвидиа технологија, компатибилна само са Нвидиа ГПУ-овима. Најближе алтернативе за АМД-ов хардвер су ОпенЦЛ и Радеон Цомпуте Платформ. Да бисте сазнали више о томе како се решења сваке компаније упоређују, погледајте наш чланак о АМД рачунарске јединице вс. Нвидиа ЦУДА језгра.

У поређењу са алтернативама, ЦУДА се сматра зрелијим, ефикаснијим и лакшим за употребу. Дакле, већина програмера циља само на ЦУДА, што, заузврат, значи да њихов софтвер користи само предности хардверских карактеристика на Нвидиа ГПУ-овима. А то укључује и Шапат.

Како преузети и инсталирати Вхиспер

Нажалост, Вхиспер није самостална апликација коју можете преузети, инсталирати и покренути. Ослања се на други софтвер, који такође мора бити инсталиран.

За Виндовс, да би овај водич био једноставан, користићемо Цхоцолатеи у великој мери за инсталирање већине потребних софтверских делова. Проверите наш водич најбржи начин за инсталирање Виндовс софтвера за више информација о Чоколади.

За Линук и Мац рачунаре, процес инсталације (искључујући променљиву путање за Виндовс и скупне датотеке које се лако користе) требало би да буде сличан.

  1. Да бисте инсталирали и користили Вхиспер, морате имати Питхон и његове ПИП алат инсталиран и додат у Виндовс променљиву „Путања“. За информације о томе, погледајте наш чланак о како да инсталирате Питхон ПИП на Виндовс, Мац и Линук.
  2. Инсталирај ФФМПЕГ кроз Цхоцолатеи са овом командом:
    цхоцо инсталирај ффмпег
    Такође, инсталирајте његову Питхон верзију са:
    пип3 инсталирај питхон-ффмпег
  3. Коначно, инсталирајте Вхиспер са његове Гитхуб странице са:
    пип3 инсталирај гит+хттпс://github.com/openai/whisper.git

Преузимање Вхисперове верзије са ЦУДА-ом

Иако Вхиспер не користи Нвидиа ГПУ, бакља пакет на који се ослања нуди ЦУДА-убрзану верзију. Коришћење ове уместо „обичне“ верзије може помоћи Вхисперу да заврши своје транскрипције много брже уз помоћ вашег Нвидиа ГПУ-а.

Да би Вхиспер користио ЦУДА језгра вашег Нвидиа ГПУ-а:

  1. Ако већ имате инсталирану "ванилу" верзију торцх-а, деинсталирајте и очистите остатке са:
    пип3 деинсталирати бакља
    Када се заврши, пратите то са:
    пип цацхечистка
  2. Инсталирајте верзију бакље са ЦУДА-ом са:
    пип3 инсталирај торцх торцхвисион торцхаудио --ектра-индек-урл https://download.pytorch.org/whl/cu117
  3. Да бисте проверили да ли Вхиспер може да користи ваш Нвидиа ГПУ, користите:
    шапутати --помоћ | финдстр -и питорцх
    Требало би да видите (подразумевано: цуда) уместо (подразумевано: процесор).

Шта учинити ако бакља не успе да се инсталира

Ако наиђете на грешку „но версион фоунд“ док инсталирате торцх, можда ћете морати да инсталирате старију верзију Питхона паралелно са вашом тренутном.

Користите ову команду да то урадите:

цхоцо инсталирај питхон --верзија СТАРИЈА_ВЕРЗИЈА --упоредо

Замените „ОЛДЕР_ВЕРСИОН“ верзијом, на пример 3.10.

Затим користите путању секундарне верзије за све „генеричке“ команде Вхиспер-а (нпр. „ц:\Питхон310\Сцриптс\пип.еке“ уместо само „пип“).

Како снимити свој глас

Можете користити било коју апликацију за снимање звука да свој глас претворите у ВАВ или МП3 датотеку. Виндовс укључује такву апликацију - за више информација о томе погледајте како да користите Виндовс 10 апликацију за снимање гласа.

За потпунију опцију, покушајте Аудацити. Научите како то да урадите са укљученим нашим водичем како користити Аудацити за снимање звука на Виндовс-у и Мац-у.

Како започети транскрипцију шапатом

Иако Вхиспер не долази са корисничким корисничким интерфејсом, његова употреба је изузетно једноставна.

Рецимо да имамо фајл ЛатестНоте.мп3 који садржи говор на грчком, у фасцикли ц:\МиАудиоФилес, и желите да га преведете на енглески и препишете у текстуалну датотеку.

  1. Почињемо трчањем Командна линија или ПоверСхелл.
  2. Овом командом „мењамо директоријум“ у коме се чува аудио датотека:
    цд Ц:\МиАудиоФилес
  3. Отварамо Вхиспер на фајлу са:
    шапутати--моделбаза--Језикгр--задатакпревестиЛатестНоте.мп3

Једном обрађена, текстуална датотека (названа "ЛатестНоте.мп3.ткт") ће се појавити у истој фасцикли. Отворите га у уређивачу текста као што је Нотепад да видите преведени текст.

Користили смо пример превода јер је енглеска транскрипција још једноставнија: морате само да „изгубите“ ознаке „--лангуаге“ и „-таск“. Дакле, за једноставну транскрипцију, горња команда би била:

шапутати--моделбазаЛатестНоте.мп3

Ознака "модел" је неопходна јер Вхиспер користи једну од различитих опција. Хајде да их проширимо како бисмо вам помогли да одаберете најбоље за своје потребе.

Који модел изабрати?

Вхиспер нуди различите језичке моделе. Што је модел већи, то је већа његова прецизност, али и већи хардверски захтеви. Су:

  1. Тини.
  2. База.
  3. Мала.
  4. Средње.
  5. Велики.

Већина говорника енглеског матерњег језика требало би да буде у реду са сићушан или база модели. Говорници енглеског који нису матерњи могу да виде боље резултате са већим моделима, нпр мали и средње.

Имајте на уму, међутим, да средњи и велики модели захтевају преко 8 ГБ ВРАМ-а (односно „меморије вашег ГПУ-а“).

Да бисте изабрали један од њих, наведите модел након прекидача "--модел" у команди:

шапутати --модел мали/мали/средњи/велики [фајл]

На пример:

шапутати--моделмалиМи_Воице_Ноте.мп3

Како да поједноставите своју транскрипцију

Морате да укуцате целу команду Вхиспер сваки пут када желите да транскрибујете неки аудио запис може брзо да постане досадан. Хајде да направимо глобално приступачну батцх датотеку да бисмо поједноставили процес.

  1. Трцати Виндовс Екплорер и посетите свој Ц: диск.
  2. Направите фасциклу за своје скрипте и копирајте њену путању у међуспремник.
  3. У Виндовс Старт менију потражите „путања“ и изаберите Уредите променљиве системског окружења.
  4. Финд тхе Пут променљива под Корисничке променљиве за ИОУР_УСЕРНАМЕ. Двапут кликните на њега да бисте га уредили. Кликните на Нова, и налепите путању до фасцикле са скриптама. Кликните на У реду да прихвати промене.
  5. Вратите се у фасциклу са скриптама у Виндовс Екплорер-у. Тамо направите нову батцх датотеку под називом "вхт.бат". "Унутар" ставите ову команду:
    шапутати --модел тини --лангуаге ен %1
  6. Направите још две батцх датотеке, "вхс" и "вхм".
  7. Поставите ово унутар прве скрипте:
    шапутати --модел смалл --лангуаге ен %1
  8. Ставите ово унутар другог:
    шапутати --модел медиум --лангуаге ен %1

Честитамо, сада имате три скрипте за лако коришћење малих, малих и средњих модела Вхиспер са својим аудио датотекама! Да бисте преписали било коју аудио датотеку у текст:

  1. Пронађите датотеку са Виндовс Филе Екплорер.
  2. Десни клик на празном месту и изабери Отворите у терминалу.
  3. Откуцајте ову команду, замењујући „вхт“ са „вхс“ или „вхм“ да бисте користили моделе малих или средњих језика:
    вхтИОУР_АУДИО_ФИЛЕ.мп3

Куцање брзином звука шапатом

Чак и најбржи дактилографи не могу да парирају брзином којом говоримо. Међутим, донедавно, разговор уместо куцања није био оптималан за креирање докумената.

Већина решења за претварање гласа у текст дала је осредње резултате. Могли бисте пронаћи неколико решења вредних покушаја, али су била компликована за коришћење или скупа. Срећом, Вхиспер је све то променио.

Након горе наведених корака, требало би да будете спремни да транскрибујете или преведете свој глас са великом прецизношћу, користећи само једну команду.