Реклама
Шта бисте рекли да вам кажем да имате на располагању алате за истраживање револуционарних и земљаних? Па, знаш, и показаћу ти како.
Владе, академске институције и непрофитне истраживачке организације објављују табеле пуне података у јавном домену. Без да нико користи ове информације, његова права вредност никада неће бити позната. Нажалост, мало људи има увид, вештине или алате за узимање података и успостављање занимљивих корелација између наизглед неповезаних информација.
Позадина
Много истраживања која радим за свој блог укључују копање онога што је познато као невидљиви веб 12 најбољих претраживача за истраживање невидљивог вебаГоогле или Бинг не могу да претраже све. Да бисте истражили невидљиви веб, требате користити ове посебне претраживаче. Опширније , за откривање података који су објављени у јавности, али скривени од претраживачи Пет најнапреднијих претраживача на вебу Опширније унутар интернетске базе података. Ово је дубоки веб ТорСеарцх жели бити Гоогле за дубински веб Тор је скривена услуга и део Дееп Веба. ТорСеарцх је нови анонимни претраживач који његов оснивач Цхрис МацНаугхтон жели да направи „Гоогле оф Тор“. Опширније и она је богата вредним подацима. Врло често наилазим на веб странице које су само напуњене неким од највреднијих података о темама које покрећу спектар података од пописа становништва до епидемиолошких студија о ретким болестима. Стално имам нове идеје како да испробам и повежем оне различите изворе података користећи разне алате - а један од највреднијих алата који сам пронашао је Веб упит унутар Мицрософта Екцел.
Проналажење занимљивих корелација података
Оно што ћу вам данас показати је пример како можете користити Екцел Веб Куериес за повлачење података из различитих веб локација и цртајте их један до другог како би претражили потенцијалне корелације између података.
Начин за започињање вежбе попут ове је излажење на занимљиву хипотезу. На пример - да ствари овде остану занимљиве - случајно ћу постулирати тако брзе стопе аутизма у Сједињеним Државама настају или инокулацијом вакцине или све већим присуством електромагнетних поља у деци и око ње, као што је ћелија телефони. То је луда хипотеза коју ћете наћи на веб локацијама теорије завере, али то је оно што чини ову забаву. Па кренимо, зар не?
Прво отворите Екцел, пређите на ставку менија података и пронађите икону "Фром Веб" на врпци менија.
Ово ћете користити за увоз различитих табела података са многих веб локација које су их објавиле.
Увоз веб података у Екцел
Дакле, у стара времена бисте морали да покушате да копирате податке из те табеле на веб страницу, да их залепите у Екцел, а затим да се бавите свим лудим проблемима обликовања који су повезани са тим поступком. Тотална гњаважа, а пуно пута то само не вреди главобоље. Па, са Екцел веб упитима ти дани пролазе. Наравно, пре него што будете могли да увезете податке, мораћете да вам Гоогле обилази Интернет како бисте пронашли потребне податке у формату табеле. У мом случају пронашао сам веб страницу која је објавила статистику Одељења за образовање о броју ученика америчке јавне школе који су идентификовани као да имају аутизам. Леп сто је имао бројеве од 1994. до 2006. године.
Дакле, само кликните на „Од веба“, залепите УРЛ веб странице у поље адресе упита, а затим се помичите према доле све док не видите жуту стрелицу поред табеле са подацима које желите да увезете.
Кликните стрелицу тако да постане зелена квачица.
На крају, реците Екцел-у у које поље желите да залепите податке табеле у нову табелу.
Онда - Воила! Подаци се аутоматски прелијевају директно у вашу табелу.
Дакле, са трендом постојања аутизма у јавним школама од 1996. до 2006. године, време је да се крене у потрагу за вакцинисањем и трендовима коришћења мобитела.
Срећом, брзо сам пронашао трендове за претплатнике мобилних телефона у Сједињеним Државама од 1985. до 2012. године. Одлични подаци за ову студију. Опет сам користио алатку Екцел Веб Куери да бих увео ту табелу.
Увозио сам тај сто у чист, нови лим. Затим сам открио трендове вакцинације за проценат школске деце вакцинисане против различитих болести. Увезио сам ту таблицу помоћу алата Веб Куери у трећи лист. И коначно, имао сам три листа са три табеле испуњене наизглед неповезаним подацима које сам открио на Интернету.
Следећи корак је коришћење Екцела за анализу података и покушавање идентификације евентуалних корелација. Ту се појављује један од мојих најдражих алата за анализу података - ПивотТабле.
Анализа података у Екцел-у помоћу окретне таблице
Најбоље је да направите ПивотТабле на потпуно новом, празном листу. Желите да користите чаробњака за оно што ћете радити. Да бисте омогућили чаробњака за окретни сто у програму Екцел, морате истовремено притиснути Алт-Д док се не појави прозор са обавештењима. Затим пустите те тастере и притисните тастер „П”. Затим ћете видети чаробњака како ће се појавити.
На првом прозору чаробњака желите да одаберете "Вишеструки опсег консолидације", што вам омогућава да одаберете податке са свих листа које сте увели. Радећи ово, можете објединити све те наизглед неповезане податке у једну, снажну окретну таблицу. У неким ће случајевима можда требати масирати неке податке. На пример, морао сам да поправим поље „Година“ у табели са аутизмом, тако да уместо тога показује „1994“ „1994-95“ - што је боље усклађивање са табелама на осталим листовима, које су такође имале основну годину поље.
То заједничко поље између података је оно што вам је потребно да бисте испробали и повезали информације, па то имајте на уму када ловите Веб за својим подацима.
Једном када је стожерна табела завршена и у једној табели добијете све различите вредности података, време је да урадите визуелну анализу како бисте видели да ли постоји нека очигледна веза која искаче из вас.
Визуализација података је кључна
Имати гомилу бројева у табели одлично је ако сте економиста, али најбржи и најлакши начин да имате тај "аха!" тренутак када покушавате да пронађете везу попут игле у сену сена, је преко графикона и графови. Једном када поставите ПивотЦхарт са свим скупима података које сте прикупили, време је да направите свој графикон. Обично је најбољи графикон најбољи, али то зависи од података. Постоје случајеви када бар-карта делује много боље. Покушајте да схватите које податке гледате и која поређења облика најбоље делују.
У овом случају гледам податке током времена, тако да је линијски граф заиста најбољи начин да се виде трендови током година. Израчунавање стопе аутизма (зелено) према смањеним стопама вакцинације (тамноплаво), вакцине против козице (светло плава) и употреба мобитела (љубичаста), ненадна корелација се изненада појавила у овом узорку података који сам репродуцирао са.
Зачудо, тренд употребе мобитела од 1994. до 2006. године готово се савршено подударао са порастом броја аутизма у истом временском периоду. Иако је образац био потпуно неочекиван, то је савршен пример како повезивање занимљивих података може открити фасцинантне потезе - пружа вам већи увид и мотивацију за наставак гурања напријед и тражење додатних података који би вас могли додатно ојачати хипотеза.
Једна корелација попут ове горе не доказује ништа. Постоји доста трендова који се временом повећавају - образац би могао бити случајност, али то би могао бити и важан траг у вашој трајној потрази за више података на Интернету. Срећом, имате моћан алат зван Екцел Веб Куериес који ће тај задатак олакшати тек мало лакше.
Фото кредит: Кевин Доолеи виа фотопинцц
Риан је дипломирао електротехнику. Радио је 13 година у инжењерству аутоматизације, 5 година у ИТ-у, а сада је Аппс инжењер. Бивши главни уредник МакеУсеОф-а, говорио је на националним конференцијама о визуализацији података и био је приказан на националној телевизији и радију.