АСЦИИ и Уницоде су стандарди који се односе на дигитално представљање текста, посебно знакова који чине текст. Међутим, ова два стандарда се значајно разликују, а многа својства одражавају њихов редослед настанка.

Америка наспрам свемира

Амерички стандардни код за размену информација (АСЦИИ), што није изненађујуће, удовољава америчкој публици, пишући на енглеском алфабету. Бави се ненаглашеним словима, попут А-З и а-з, као и малим бројем интерпункцијских симбола и контролних знакова.

Конкретно, не постоји начин представљања позајмљених речи усвојених из других језика, као нпр цафе у АСЦИИ, без да их англизирају заменом наглашених знакова (нпр. кафе). Локализована проширења АСЦИИ развијена су како би удовољила потребама различитих језика, али ови напори су учинили интероперабилност незгодном и очигледно су проширили могућности АСЦИИ.

Супротно томе, Универзални кодирани скуп знакова (Уницоде) лежи на супротном крају скале амбиција. Уницоде покушава да задовољи што више светских система писања до те мере да покрива древне језике и свима омиљени скуп изражајних симбола, емоџија.

instagram viewer

Скуп знакова или кодирање знакова?

Једноставно речено, скуп знакова је одабир знакова (нпр. А-З) док је знак кодирање је мапирање између скупа знакова и вредности која се може дигитално представити (нпр. А = 1, Б = 2).

АСЦИИ стандард је ефикасно и једно и друго: дефинише скуп знакова које представља и метод мапирања сваког знака у нумеричку вредност.

Супротно томе, реч Уницоде се користи у неколико различитих контекста да значи различите ствари. Можете га сматрати свеобухватним појмом, попут АСЦИИ, који се односи на скуп знакова и бројне кодирања. Али, с обзиром на то да постоји неколико кодирања, термин Уницоде се често користи да се односи на целокупан скуп знакова, а не на то како су мапирани.

Величина

Због свог опсега, Уницоде представља много више знакова од АСЦИИ. Стандардни АСЦИИ користи 7-битни опсег за кодирање 128 различитих ликова. С друге стране, Уницоде је толико велик да морамо да користимо другачију терминологију само да бисмо разговарали о томе!

Уницоде се може адресирати на 1,111,998 кодне тачке. Шифра је приближно аналогна простору резервисаном за лик, али ситуација је много сложенија од оне када почнете да се упуштате у детаље!

Корисније поређење је колико скрипти (или система за писање) је тренутно подржано. Наравно, АСЦИИ обрађује само енглеску абецеду, у суштини латинично или римско писмо. Верзија Уницоде-а произведена 2020. иде много даље: укључује подршку за укупно 154 скрипте.

Складиште

АСЦИИ-ов 7-битни опсег значи да се сваки знак чува у једном 8-битном бајту; резервни бит се не користи у стандардном АСЦИИ. Ово чини прорачуне величине тривијалним: дужина текста, у знаковима, је величина датотеке у бајтовима.

То можете потврдити следећим низом басх наредби. Прво креирамо датотеку која садржи 12 слова текста:

$ ецхо -н 'Здраво, свете'> фоо

Да бисмо проверили да ли је текст у АСЦИИ кодирању, можемо користити датотека наредба:

$ филе фоо
фоо: АСЦИИ текст, без завршних линија

Коначно, да бисмо добили тачан број бајтова које датотека заузима, користимо стат наредба:

$ стат -ф% з фоо
12

Пошто се Уницоде стандард бави далеко већим опсегом знакова, Уницоде датотека природно заузима више простора за складиштење. Тачно колико зависи од кодирања.

Понављање истог низа наредби од раније, користећи знак који не може бити представљен у АСЦИИ, даје следеће:

$ ецхо -н '€'> фоо
$ филе фоо
фоо: УТФ-8 Уницоде текст, без завршних линија
$ стат -ф% з фоо
3

Тај појединачни знак заузима 3 бајта у Уницоде датотеци. Имајте на уму да је басх аутоматски креирао УТФ-8 датотеку јер АСЦИИ датотека не може да сачува изабрани знак (€). УТФ-8 је далеко најчешће кодирање знакова за Уницоде; УТФ-16 и УТФ-32 су два алтернативна кодирања, али се користе много мање.

УТФ-8 је кодирање променљиве ширине, што значи да користи различите количине меморије за различите кодне тачке. Свака тачка кода заузимаће између једног и четири бајта, са намером да заједнички знакови захтевају мање простора, пружајући врсту уграђене компресије. Недостатак је што одређивање захтева за дужином или величином датог дела текста постаје много сложеније.

АСЦИИ је Уницоде, али Уницоде није АСЦИИ

За повратну компатибилност, првих 128 Уницоде кодних тачака представљају еквивалентне АСЦИИ знакове. Будући да УТФ-8 кодира сваки од ових знакова једним бајтом, било који АСЦИИ текст је уједно и УТФ-8 текст. Уницоде је суперсет АСЦИИ.

Међутим, као што је приказано горе, многе Уницоде датотеке не могу се користити у АСЦИИ контексту. Било који знак који је ван граница приказаће се на неочекиван начин, често са замењеним знаковима који се потпуно разликују од оних који су намењени.

Савремена употреба

За већину сврха, АСЦИИ се углавном сматра наслеђеним стандардом. Чак и у ситуацијама које подржавају само латинично писмо - где је пуна подршка за сложеност Уницоде-а непотребно, на пример - обично је погодније користити УТФ-8 и искористити његов АСЦИИ компатибилност.

Конкретно, веб странице треба чувати и преносити помоћу УТФ-8, што је подразумевано за ХТМЛ5. Ово је у супротности са ранијом мрежом која се подразумевано бавила АСЦИИ-ом пре него што је замењена латиницом 1.

Стандард који се мења

Последња ревизија АСЦИИ догодила се 1986. године.

Супротно томе, Уницоде се и даље ажурира сваке године. Редовно се додају нове скрипте, знакови и, посебно, нови емоџији. Са само малим делом ових додељених, целокупни скуп знакова вероватно ће расти и расти у догледној будућности.

Повезан: 100 најпопуларнијих објашњених емоџија

100 најпопуларнијих објашњених емоџија

Има толико емоји-а, може бити тешко знати шта све они значе. Овде су објашњени најпопуларнији емоџији.

АСЦИИ Версус Уницоде

АСЦИИ је служио својој сврси много деценија, али Уницоде га је сада ефикасно заменио за све практичне сврхе, осим за старе системе. Уницоде је већи и, према томе, изражајнији. Представља светске напоре за сарадњу и нуди далеко већу флексибилност, иако на штету неке сложености.

Емаил
Шта је АСЦИИ текст и како се користи?

АСЦИИ текст делује тајно, али на Интернету се користи много.

Повезане теме
  • Објашњена технологија
  • Емојис
  • Жаргон
  • Веб Цултуре
  • Уницоде
О аутору
Бобби Јацк (Објављено 23 чланка)

Бобби је технолошки ентузијаст који је радио као програмер већину две деценије. Заљубљен је у игре на срећу, радећи као уредник рецензија у часопису Свитцх Плаиер, и уживан је у свим аспектима објављивања на мрежи и веб развоја.

Још од Бобби Јацк-а

Претплатите се на наш билтен

Придружите се нашем билтену за техничке савете, прегледе, бесплатне е-књиге и ексклузивне понуде!

Још један корак…!

Потврдите своју адресу е-поште у е-поруци коју смо вам управо послали.

.