Ако често преузимате податке са веб локација, вероватно бисте требали размислити о аутоматизацији процеса. Понекад се назива и „сцрапинг на вебу“, процес је уобичајен за сајтове који не пружају формални АПИ или фид. Наравно, нећете стићи нигде ако сајт који покушавате да преузмете није доступан.
Ако имате сопствену веб локацију, вероватно сте раније морали да се носите са застојима. То може бити фрустрирајуће, узрокујући да изгубите посетиоце и да ометате било коју активност за коју је ваш сајт одговоран. У таквим околностима, исплати се бити у могућности да лако проверите доступност ваше веб локације.
Питхон је одличан језик за писање скриптова, а његова концизна, али читљива синтакса чини имплементацију провере сајтова једноставним задатком.
Креирање персонализоване провере веб локација
Провера веб локација је скројена за прилагођавање више веб локација одједном. Ово вам омогућава да лако замените сајтове до којих више не бринете или почнете да проверавате сајтове које ћете покренути у будућности. Цхецкер је идеална „костурна апликација“ на којој бисте могли даље да градите, али показује основни приступ преузимању веб података.
Увезите библиотеке у Питхон-у
Да бисте покренули пројекат, морате да увезете захтева библиотека у Питхон-у са увоз функција.
увоз захтева
Библиотека Захтеви је корисна за комуникацију са веб локацијама. Можете га користити за слање ХТТП захтева и примање података о одговорима.
Сачувајте УРЛ-ове веб локација на листи
Када увезете библиотеку, требало би да дефинишете и сачувате УРЛ-ове веб локација на листи. Овај корак вам омогућава да задржите више УРЛ адреса, које можете проверити помоћу провере веб локација.
увоз захтева
вебсите_урл = [
" https://www.google.co.ин",
" https://www.yahoo.com",
" https://www.amazon.co.ин",
" https://www.pipsnacks.com/404",
" http://the-internet.herokuapp.com/status_codes/301",
" http://the-internet.herokuapp.com/status_codes/500"
]
Променљива Вебсите УРЛ чува листу УРЛ адреса. Унутар листе дефинишите сваки УРЛ који желите да проверите као појединачни стринг. Можете да користите примере УРЛ-ова у коду за тестирање или да их замените да бисте одмах почели да проверавате сопствене сајтове.
Затим сачувајте поруке за заједничке ХТТП кодови одговора. Можете их чувати у речнику и индексирати сваку поруку према њеном одговарајућем статусном коду. Ваш програм тада може да користи ове поруке уместо статусних кодова ради боље читљивости.
статуси = {
200: "Веб локација доступна",
301: "Трајно преусмеравање",
302: "Привремено преусмеравање",
404: "Није пронађен",
500: „Интерна грешка сервера“,
503: "Услуга није доступна"
}
Креирање петље за проверу статуса веб локације
Желите да проверите сваки УРЛ редом проћи кроз листу веб-сајтова. Унутар петље проверите статус сваке локације слањем захтева преко библиотеке захтева.
за урл ин Вебсите УРЛ:
покушати:
веб_респонсе = рекуестс.гет (урл)
штампа (урл, статуси[веб_респонсе.статус_цоде])
осим:
штампа (урл, статуси[веб_респонсе.статус_цоде])
Где:
- за урл...прелази преко листе УРЛ адреса.
- урл је променљива којој петља фор додељује сваки УРЛ.
- покушати/осимобрађује све изузетке који могу настати.
- веб_респонсе је променљива која обезбеђује својство са статусним кодом одговора
Цео исечак кода
Ако више волите да прегледате цео код у једном потезу, ево комплетне листе кодова за референцу.
увоз захтева
вебсите_урл = [
" https://www.google.co.ин",
" https://www.yahoo.com",
" https://www.amazon.co.ин",
" https://www.pipsnacks.com/404",
" http://the-internet.herokuapp.com/status_codes/301",
" http://the-internet.herokuapp.com/status_codes/500"
]статуси = {
200: "Веб локација доступна",
301: "Трајно преусмеравање",
302: "Привремено преусмеравање",
404: "Није пронађен",
500: „Интерна грешка сервера“,
503: "Услуга није доступна"
}за урл ин Вебсите УРЛ:
покушати:
веб_респонсе = рекуестс.гет (урл)
штампа (урл, статуси[веб_респонсе.статус_цоде])
осим:
штампа (урл, статуси[веб_респонсе.статус_цоде])
А ево примера покретања кода:
Питхон-ове могућности кодирања у Веб Сцрапинг-у
Питхон-ове библиотеке независних произвођача су идеалне за задатке као што су веб стругање и преузимање података путем ХТТП-а.
Можете да шаљете аутоматизоване захтеве веб локацијама за обављање различитих врста задатака. То може укључивати читање наслова вести, преузимање слика и аутоматско слање е-поште.