Веб стругање укључује прикупљање информација у облику података са веб локација или страница. Иако ваш поступак можда није свестан, и ви сте на овај или онај начин стругали мрежу док сте прикупљали информације. Али то је обично суптилно.
Веб стругање или стругање екрана је обично сврсисходан чин, а професионалци аутоматизују дизајн како би добили огромне податке. Било ручним копирањем текстова на веб локацији, коришћењем наменских алата или писањем скрипти за стругање на мрежи, веб стругачи понекад ударају на веб локацији постављањем више захтева одједном.
Али док многа предузећа сада користе стругање преко Интернета како би подстакла конкурентску предност, да ли је то заправо легално?
Које веб странице треба и не бисте требали стругати?
Интернет је скуп информација који људима омогућава приступ старим подацима и подацима у стварном времену. Веб стругање или стругање екрана постоји већ неко време. Али колико треба да га користите и које веб странице можете да стружете?
Неке веб странице су строге са пописивачима или стругачима екрана и у потпуности их блокирају. Дакле, очигледно је очигледно да не бисте требали стругати такве веб локације. Али људи то и даље раде.
На жалост, такве веб локације тешко могу још нешто да учине да зауставе осим крпања својих рупа.
Пре него што остружете веб локацију, идеално би било да проверите да ли дозвољава пузање или не. Обично то можете сазнати провером датотеке роботс.ткт на веб локацији. То можете учинити тако што ћете откуцати „[УРЛ веб локације] /роботс.ткт“.
Роботс.ткт обично поставља правила за различите алатке за индексирање или корисничке агенте. Међутим, ова правила се разликују, у зависности од веб локације која је у питању. Иако неке веб локације дозвољавају пописивање на свим страницама, неке одређују странице које бот може да попише, а неке потпуно блокирају пописивање.
Веб локација која блокира пописивање свих страница свим корисничким агентима обично поставља следећа правила:
кориснички агент: *
Дисаллов: /
Датотека роботс.ткт која блокира све роботе да претражују одређене директоријуме или странице обично изгледа овако:
кориснички агент: *
Забранити: / УРЛ до странице 1
Забранити: / УРЛ на страницу 2
Ако роботс.ткт не забрани страницу коју желите да попишете, онда је вероватно можете стругати. У супротном, требало би да се повучете или потражите сагласност администратора. Они вам могу одобрити приступ.
Поред тога, неке веб странице изричито наводе да ли дозвољавају пузање или не у својим условима коришћења. Неки ово чак наводе и на врху свог роботс.ткт. Увек и то проверите како бисте били сигурни да радите исправно.
Како се злоупотребљава веб гребање
Дакле, ако сте добијали нежељену пошту или СМС-ове од веб локација или људи којима никада нисте доставили личне податке, онда сте вероватно негде огребани. И углавном, то је путем једне од ваших ручица на друштвеним мрежама.
То је рекло да је стругање са интернета понекад више од пуког прикупљања података који се приказују на предњем крају. Ако се користи злонамерно, може довести до цурења личних и поверљивих података.
Иако се већина платформи друштвених медија мрзи на то, пузећи ботови и даље приступају профилима људи, а њихови подаци о контактима прокишњавају и стружу.
На пример, пријављено је да Фацебоок има рањивости које су у прошлости пропуштале контакт информације корисника, иако их корисници држе приватним.
Слично томе, ЛинкедИн је недавно претрпео безбедносну повреду која је резултирала цурењем личних података који припадају преко 500 милиона рачуна. Због тога је та рањивост резултирала дељењем многих адреса е-поште и бројева телефона без пристанка власника профила.
Да ли је незаконито стругати веб локацију?
Никада није дошло до закључка о легалности стругања са Интернета. Уместо тога, фокус је на томе како пописивач ради од случаја до случаја и шта користе прикупљени подаци да би постигли.
Дакле, уместо да се закључи о његовој законитости, стругање је, ако се изврши злонамерно, незаконито. Али ако се то учини разумно, то није незаконито.
Али као што се очекивало, чини се да постоји строжа политика о стругању и употреби података на друштвеним мрежама, јер је приватност корисника толико важна. Међутим, све се и даље своди на то како људи стружу податке.
Тхе Блог о закону о Интернету и друштвеним медијима анализирао је случај хиК Лабс, компаније за стругање података која је победила у парници против ЛинкедИна 2019. године након што је покушала да блокира хиК Лабс од стругања јавно доступних података корисника ЛинкедИн-а.
Пошто хиК Лабс тврде да Закон о рачунарским преварама и злоупотребама (ЦФАА) забрањује само неовлашћени приступ, пресуда је потврдила да су подаци ЛинкедИна јавно доступни, па их је свако ко их је стругао, учинио зато што јесу приступачан.
Поред тога, хиК Лабс користили су само стругане податке како би компанијама пружили решења за аналитику - тако да могу доносити боље одлуке о запошљавању.
Супротно томе, Фацебоок је недавно тужио програмере Цхроме додатака који су стругали профиле корисника Фејсбука без њиховог пристанка.
Слично томе, а сајт цопицат тужио је Фацебоок за стругање података о профилу неколико корисника Инстаграма, а затим њихово коришћење за стварање клонова. Према том извештају, Фејсбук је потом отишао даље да би тражио судску забрану против починиоца.
Ово је неколико случајева када су људи можда илегално користили стругање по мрежи. Наведене компаније прикупљале су податке корисника Фацебоок-а на лажљив начин, без пристанка својих корисника. Дакле, прекршио је политике приватности.
Дакле, иако би стругање са интернета могло фрустрирати веб локацију са које добија податке, ниједно опште правило тренутно не спречава људе да добију оно што желе, све док не крше интернет законе.
Да ли је стругање по интернету синоним за хаковање?
Постоји неколико митова око стругања веба. Једно од њих је уверење да стругање веб странице значи да сте је хаковали. Иако хаковање на крају може довести до стругања података, тврдња да сам појам значи хаковање веб странице није тачна.
Веб стругање може подразумевати употребу наменски алати за пузање или стругање, Интерфејси за апликационо програмирање (АПИ-ји) или скрипте за стругање веба за добијање података са веб локације. За разлику од хаковања, он не угрожава веб страницу коју струже нити нарушава искуство својих корисника.
Повезан: Шта је стругање по мрежи? Како прикупити податке са веб локација
Дакле, иако хаковање укључује неовлашћени приступ, обично у базу података веб локације, стругање веба циља само оне податке који су већ видљиви на предњој страни. Иако људи могу злонамерно да користе стругање по мрежи, то још увек није синоним за хаковање.
Уз то, за разлику од стругања по мрежи, намерно и неетично хаковање је незаконито.
Који су позитивни елементи стругања са Интернета?
Веб стругање има много позитивних страна, па чак и неке технолошке компаније сада нуде своје податке путем АПИ-ја. Те информације обично нису довољне за процену пословних трендова и доношење одлука.
Тако компаније сада добијају више података стругањем веба како би побољшале праксе и подстакле продају. Поред тога, научници података напајају алгоритме машинског учења подацима прикупљеним стругањем екрана.
Такви подаци могу бити слике које се користе за препознавање слика, обични текстови за анализу расположења или директни подаци о производима за тржишну интелигенцију и анализу понашања потрошача.
Повезан: Јединствени начини за добијање скупова података за ваш пројекат машинског учења
Дакле, стругање са интернета је још корисније јер ако имате приступ информацијама које ваш конкурент нема, можете их победити.
Иако се неке веб локације мрште на веб стругачима, неке, чак и услуге е-трговине, није брига да ли стружете њихове податке или не. Веб гиганти попут еБаи и Салесфорце започели су свој АПИ 2000. године, нудећи програмерима приступ јавним подацима по први пут.
Да ли бисте заправо требали стругати мрежу?
Утврдили смо да стругање са интернета није незаконито када се ради на прави начин. Али оно што радите са подацима које стружете такође је забрињавајуће. Уместо да ово злоупотребљавате, користите га да бисте стекли више увида који помажу вама и другима да доносите утемељене одлуке.
Међутим, стругање веба као вештина омогућава вам приступ великим деловима Интернет података, који могу помоћи вама или вашој компанији да останете изнад пословне нише. Као научник података, он чак проширује ваш опсег и побољшава ваше кодирање и техничке вештине.
На пример, Питхон је један од програмских језика који вам помаже да лако састружете веб локацију помоћу своје библиотеке Беаутифул Соуп или оквира Сцрапи.
Занима вас стругање са Интернета? Ево како можете са библиотеке Беаутифул Соуп Питхон избрисати веб локацију за садржај и још много тога.
Прочитајте следеће
- Сигурност
- Програмирање
- Безбедност на мрежи
- Веб стругање
Идову је страствен у вези са свим паметним технологијама и продуктивношћу. У слободно време игра се са кодирањем и пребацује се на шаховску таблу кад му је досадно, али такође воли да се повремено отргне од рутине. Његова страст да људима покаже пут око модерне технологије мотивише га да пише више.
Претплатите се на наш билтен
Придружите се нашем билтену за техничке савете, прегледе, бесплатне е-књиге и ексклузивне понуде!
Још један корак…!
Молимо потврдите своју адресу е-поште у е-поруци коју смо вам управо послали.