Недостатак података често је један од главних застоја у већини пројеката науке о подацима. Међутим, знати како прикупити податке за било који пројекат у који желите да кренете је важна вештина коју требате стећи као научник података.
Научници података и инжењери машинског учења сада користе савремене технике прикупљања података како би прикупили више података за алгоритме обуке. Ако планирате да се упустите у свој први пројекат науке о подацима или машинског учења, морате да будете у могућности и да добијете податке.
Како себи можете олакшати поступак? Погледајмо неке модерне технике које можете користити за прикупљање података.
Зашто вам је потребно више података за ваш пројекат науке о подацима
Алгоритми машинског учења зависе од података да би постали тачнији, прецизнији и предвиђајући. Ови алгоритми су обучени користећи скупове података. Процес обуке је помало налик подучавању малишана имену предмета по први пут, а затим му омогућава да га сами препознају када га следећи пут виде.
Људским бићима је потребно само неколико примера да би препознали нови објекат. То није случај за машину, јер су јој потребне стотине или хиљаде сличних примера да би се упознао са објектом.
Ови примери или објекти за обуку морају да буду у облику података. Наменски алгоритам машинског учења затим пролази кроз тај скуп података који се назива сет тренинга - и сазнаје више о њему да би постао тачнији.
То значи да ако не доставите довољно података за обуку алгоритма, можда нећете добити прави резултат на крају пројекта, јер машина нема довољно података за учење.
Дакле, неопходно је добити одговарајуће податке да бисте побољшали тачност резултата. Погледајмо неке модерне стратегије које можете користити да бисте то постигли у наставку.
1. Стругање података директно са веб странице
Веб стругање је аутоматизовани начин за добијање података са веба. У свом најосновнијем облику, стругање Веба може подразумевати копирање и лепљење елемената са веб локације у локалну датотеку.
Међутим, стругање веба такође укључује писање посебних скрипти или коришћење наменских алата за директно стругање података са веб странице. Такође би могло укључивати детаљније прикупљање података коришћењем Интерфејси за апликационо програмирање (АПИ-ји) попут Серпстацк-а.
Помоћу АПИ-ја за серпстацк лако можете да прикупљате информације са страница резултата Гоогле-а и других претраживача.
Иако неки људи верују да би стругање са интернета могло довести до губитка интелектуалне својине, то се може догодити само када људи то учине злонамерно. Веб стругање је легално и помаже предузећима да донесу боље одлуке прикупљањем јавних информација о својим купцима и конкурентима.
Повезан: Шта је Веб стругање? Како прикупити податке са веб локација
На пример, можете написати скрипту за прикупљање података из Интернет продавница ради поређења цена и доступности. Иако је можда мало техничкији, необрађене медије попут аудио датотека и слика можете сакупљати и преко Веба.
Погледајте пример кода у наставку да бисте увидели стругање Веба помоћу Питхона беаутифулсоуп4 ХТМЛ парсер библиотека.
из бс4 увоза БеаутифулСоуп
фром урллиб.рекуест увоз урлопен
урл = "Овде унесите пуни УРЛ циљне веб странице"
таргетПаге = урлопен (урл)
хтмлРеадер = таргетПаге.реад (). децоде ("утф-8")
вебДата = БеаутифулСоуп (хтмлРеадер, "хтмл.парсер")
испис (вебДата.гет_тект ())
Пре покретања примера кода, мораћете да инсталирате библиотеку. Створите виртуелно окружење из командне линије и инсталирајте библиотеку покретањем пип инсталл беаутифулсоуп4.
2. Преко веб образаца
Такође можете користити мрежне обрасце за прикупљање података. Ово је најкорисније када имате циљну групу људи од којих желите да прикупљате податке.
Недостатак слања веб образаца је тај што можда нећете сакупљати онолико података колико желите. Прилично је згодно за мале научне пројекте или водиче, али можда ћете наићи на ограничења покушавајући да досегнете велики број анонимних људи.
Иако постоје услуге мрежног прикупљања података које се плаћају, оне се не препоручују појединцима, јер су углавном прескупе - осим ако вам не смета да потрошите нешто новца на пројекат.
Постоје разни веб обрасци за прикупљање података од људи. Један од њих су Гоогле обрасци којима можете приступити ако одете на формс.гоогле.цом. Можете користите Гоогле обрасце за прикупљање података о контактима, демографски подаци и други лични детаљи.
Једном када направите образац, све што требате је да упутите везу циљаној публици путем поште, СМС-а или било којим другим доступним средствима.
Међутим, Гоогле обрасци су само један пример популарних веб образаца. Постоји много алтернатива које такође обављају изврсне послове прикупљања података.
Податке такође можете прикупљати путем друштвених мрежа попут Фејсбука, ЛинкедИна, Инстаграма и Твитера. Добијање података са друштвених медија је мало техничко од било које друге методе. Потпуно је аутоматизован и укључује употребу различитих АПИ алата.
Из друштвених медија може бити тешко извући податке, јер су релативно неорганизовани и има их огромна количина. Правилно организован, овај тип скупа података може бити користан у пројектима науке о подацима који укључују анализу расположења на мрежи, анализу тржишних трендова и брендирање на мрежи.
На пример, Твиттер је пример извора података на друштвеним мрежама где помоћу њега можете прикупити велику количину скупова података твеепи Питхон АПИ пакет, који можете инсталирати помоћу пип инсталл твеепи команда.
Као основни пример, блок кода за издвајање Твитова са почетне странице Твиттер-а изгледа овако:
импорт твеепи
увоз ре
миАутх = твеепи. ОАутхХандлер (овде налепите кључ_потрошача, овде налепите кључ_потрошача)
аутх.сет_аццесс_токен (овде залепите аццесс_токен, овде залепите аццесс_токен_сецрет)
аутентификација = твеепи. АПИ (миАутх)
таргет_твеет = апи.хоме_тимелине ()
за циљеве у таргет_твеет:
испис (таргетс.тект)
Можете посетити доцс.твеепи.орг веб страници за приступ твеепи документацију за више детаља о начину коришћења. Да бисте користили Твиттер-ов АПИ, потребно је да се пријавите за налог програмера тако што ћете отићи на девелопер.твиттер.цом веб сајт.
Фацебоок је још једна моћна платформа за друштвене медије за прикупљање података. Користи посебну АПИ крајњу тачку која се назива Фацебоок Грапх АПИ. Овај АПИ омогућава програмерима да прикупљају податке о понашању одређених корисника на Фацебоок платформи. Документацији Фацебоок Грапх АПИ можете приступити на девелоперс.фацебоок.цом да бисте сазнали више о томе.
Детаљно објашњење прикупљања података на друштвеним мрежама помоћу АПИ-а превазилази опсег овог чланка. Ако сте заинтересовани да сазнате више, можете погледати документацију сваке платформе за детаљно знање о њима.
Поред писања скрипти за повезивање на крајњу тачку АПИ-ја, подаци о друштвеним мрежама прикупљају независне алате попут Стручњак за стругање а доступни су и многи други. Међутим, већина ових веб алата има своју цену.
4. Прикупљање постојећих скупова података из званичних извора
Већ постојеће скупове података можете сакупљати и из меродавних извора. Овај метод укључује посету службеним банкама података и преузимање верификованих скупова података из њих. За разлику од стругања по интернету и других опција, ова опција је бржа и захтева мало или нимало техничког знања.
Скупови података о овим врстама извора обично су доступни у ЦСВ, ЈСОН, ХТМЛ или Екцел форматима. Неки примери меродавних извора података су Светска банка, УНдатаи неколико других.
Неки извори података могу тренутне податке учинити приватним како би спречили јавност да им приступи. Међутим, њихове архиве су често доступне за преузимање.
Још званичних извора података за ваш пројекат машинског учења
Ова листа треба да вам пружи добру полазну основу за добијање различитих врста података са којима можете радити у својим пројектима.
- ЕУ портал за отворене податке
- Каггле скупови података
- Гоогле претрага скупа података
- Дата Хуб
- Регистар отворених података на АВС-у
- Европска владина агенција - подаци и мапе
- Мицрософт Ресеарцх Опен Дата
- Сјајно јавно складиште скупова података на ГитХуб-у
- Подаци. Влада: Дом отворених података америчке владе
Постоји много више извора од овог, а пажљиво претраживање наградиће вас подацима савршеним за ваше сопствене пројекте науке о подацима.
Комбинујте ове модерне технике за боље резултате
Прикупљање података може бити заморно када су доступни алати за задатак ограничени или их је тешко схватити. Иако старије и конвенционалне методе још увек добро функционишу и у неким случајевима су неизбежне, савремене методе су брже и поузданије.
Међутим, уместо да се ослањају на једну методу, комбинација ових савремених начина прикупљања података може дати боље резултате.
Желите да се бавите аналитиком података? Ево неколико алата које бисте требали научити.
- Програмирање
- Питхон
- Велики података
- Машинско учење
- Прикупљање података
- Анализа података
Идову је страствен у вези са свим паметним технологијама и продуктивношћу. У слободно време игра се са кодирањем и пребацује се на шаховску таблу када му је досадно, али такође воли да се повремено отргне од рутине. Његова страст да људима покаже пут око модерне технологије мотивише га да пише више.
Претплатите се на наш билтен
Придружите се нашем билтену за техничке савете, прегледе, бесплатне е-књиге и ексклузивне понуде!
Још један корак…!
Потврдите своју адресу е-поште у е-поруци коју смо вам управо послали.