Да бисте анализирали скуп података, прво морате да разумете податке. Понекад можда немате претходно знање о скупу података, што вас спречава да извучете максимум из њега. Као аналитичар података, можете користити истраживачку анализу података (ЕДА) да бисте стекли знање о свом скупу података пре дубинске анализе.

Истраживачка анализа података (ЕДА) истражује скуп података да би стекла смислене увиде. Процес извођења ЕДА укључује испитивање информација о структури и садржају скупа података.

Инсталирање Гота пакета

Гота пакет је најпопуларнији за Анализа података ин Го; то је као Питхон Пандас пакет али за Го. Гота пакет садржи многе методе за анализу скупова података и читање ЈСОН, ЦСВ и ХТМЛ формата.

Покрените ову команду на свом терминалу у директоријуму где сте иницијализовали датотеку Го модула:

иди гет -у гитхуб.цом/иди-гота/гота

Команда ће инсталирати Гота у локални директоријум, спреман да увезете пакет да бисте га користили.

Баш као и Панде, Гота подржава операције серија и оквира података. У Гота пакету постоје два подпакета: серија и пакет података. Можете да увезете један или оба, у зависности од ваших потреба.

instagram viewer

увоз (
"гитхуб.цом/иди-гота/гота/сериес"
"гитхуб.цом/иди-гота/гота/датафраме"
)

Читање скупа података помоћу Гота пакета

Можете користити било коју ЦСВ датотеку коју желите, али следећи примери показују резултате из скуп података Каггле, који садржи податке о цени лаптопа.

Гота вам омогућава да читате ЦСВ, ЈСОН и ХТМЛ формате датотека да бисте креирали оквире података користећи РеадЦСВ, РеадЈСОН, и РеадХТМЛ методе. Ево како учитавате ЦСВ датотеку у објекат оквира података:

фајл, грешка := ос. Опен("/путања/до/цсв-филе.цсв")

ако ерр != нула {
фмт. Принтлн("грешка при отварању датотеке")
}

датаФраме := оквир података. Прочитај ЦСВ (датотека)
фмт. Принтлн (датаФраме)

Можете користити Отвори методом ос пакет за отварање ЦСВ датотеке. РеадЦСВ метода чита објекат датотеке и враћа објекат оквира података.

Када одштампате овај објекат, излаз је у табеларном формату. Можете даље манипулисати објектом оквира података користећи различите методе које Гота пружа.

Објекат ће штампати само неке колоне ако скуп података има више од постављене вредности.

Преузимање димензије скупа података

Димензије оквира података су број редова и колона које садржи. Ове димензије можете преузети помоћу Димс метод објекта оквира података.

вар редови, колоне = оквир података. Димс()

Замените једну од променљивих доњом цртом да бисте преузели само другу димензију. Такође можете појединачно да упитате број редова и колона, користећи Нров и Нцол методе.

вар ровс = датаФраме. Нров()
вар колоне = оквир података. Нцол()

Преузимање типова података колона

Мораћете да знате композитне типове података у колонама скупа података да бисте га анализирали. Можете их преузети помоћу Врсте метод вашег објекта оквира података:

вар типови = оквир података. Врсте()
фмт. Принтлн (типови)

Метод Типес враћа исечак који садржи типове података колоне:

Преузимање имена колона

Биће вам потребна имена колона да бисте изабрали одређене колоне за операције. Можете користити Имена начин да их преузмете.

вар цолумнНамес := датаФраме. имена()
фмт. Принтлн (имена колона)

Метода Намес враћа део имена колона.

Провера вредности које недостају

Можда имате скуп података који садржи нулте или ненумеричке вредности. Такве вредности можете проверити помоћу ХасНаН и ИсНаН методе серијског објекта:

аЦол := датаФраме. Цол("дисплаи_сизе")
вар хасНулл = аЦол. ХасНаН()
вар исНотНумбер = аЦол. ИсНаН()

ХасНан проверава да ли колона садржи нулте елементе. ИсНаН враћа исечак логичких вредности које представљају да ли је свака вредност у колони број.

Извођење дескриптивне статистичке анализе

Дескриптивна статистичка анализа помаже вам да разумете дистрибуцију нумеричких колона. Помоћу Опишите методом, можете да генеришете дескриптивну статистичку анализу вашег скупа података:

опис := датаФраме. опиши()
фмт. Принтлн (опис)

Метода Десцрибе враћа метрике као што су средња вредност, стандардна девијација и максималне вредности колона у скупу података. Он их сумира у табеларном формату.

Такође можете бити конкретни и фокусирати се на колоне и показатеље тако што ћете изабрати одређену колону, а затим поставити упит за метрику коју желите. Прво би требало да преузмете серију која представља одређену колону, а затим да користите њене методе на следећи начин:

аЦол := датаФраме. Цол("дисплаи_сизе")
вар средња вредност = аЦол. Значити()
вар медијана = аЦол. средња вредност()
вар минимум = аЦол. мин()
вар стандардДевиатион = аЦол. СтдДев()
вар максимум = аЦол. Макс()
вар квантили25 = аЦол. квантил(25.0)

Ове методе одражавају резултате дескриптивне статистичке анализе коју Десцрибе изводи.

Преузимање елемената у колони

Један од последњих задатака који ћете желети да извршите је да проверите вредности у колони за општи преглед. Можете користити Рецордс метод за преглед вредности колоне.

аЦол := датаФраме. Цол("бренд")
фмт. Принтлн (аЦол. Записи())

Овај метод враћа део низова који садрже вредности у изабраној колони:

Извоз Гота оквира података у датотеку

Ако одлучите да идете даље и користите Гота пакет за потпуну анализу података, мораћете да сачувате податке у датотекама. Можете користити ВритеЦСВ и ВритеЈСОН методе оквира података за извоз датотека. Методе преузимају датотеку коју ћете креирати користећи ос пакета Креирај методом.

Ево како можете да извезете оквир података користећи Гота пакет.

датаФраме := оквир података. Прочитај ЦСВ (датотека)
оутпутФиле, ерр := ос. Креирај("оутпут.цсв")

ако ерр != нула {
Пријава. Фатално (грешка)
}

ерр = датаФраме. ВритеЦСВ(оутпутФиле)

ако ерр != нула {
Пријава. Фаталлн("Дошло је до грешке при писању садржаја оквира података у датотеку")
}

Тхе оквир података променљива је репрезентација оквира података. Када користите Креирај методом ос пакет, креира нову, празну датотеку са наведеним именом и враћа датотеку. Метода ВритеЦСВ преузима инстанцу датотеке и враћа грешку или нула ако нема грешке.

Истраживачка анализа података је важна

Разумевање података и скупова података је од суштинског значаја за аналитичаре података и стручњаке за машинско учење. То је критична операција у њиховом радном циклусу, а истраживачка анализа података је једна од техника које користе да то постигну.

Има још тога у пакету Гота. Можете га користити за различите функције преговарања података на исти начин на који бисте користили Питхон Пандас библиотеку за анализу података. Међутим, Гота не подржава толико функционалности као Панде.