Читаоци попут вас помажу у подршци МУО. Када обавите куповину користећи везе на нашем сајту, можда ћемо зарадити провизију за партнере.

Од стране Саи Ашиш Кончада
ОбјавиТвеетОбјавиЕмаил

Резање ХТМЛ-а може бити незгодно, па се уверите да разумете овај процес уз мало Питхон праксе.

Твитер је једна од најутицајнијих платформи друштвених медија која је икада постојала. Милиони људи, укључујући врхунске политичаре, познате личности и извршне директоре, користе платформу да деле своја размишљања сваки дан.

Картица у тренду је једно од најбољих места за откривање вести у реалном времену и расположења друштвених медија. Можете анализирати и користити ове податке за планирање реклама бренда, покретање кампања и повећање продаје на преклоп. Али како можете да добијете десет најпопуларнијих хасхтагова на Твиттеру?

Процес изградње алгоритма

Први корак у изградњи било ког програма је да забележите и разумете кораке потребне за прављење Твиттер стругача. Су:

  1. Отворите Гоогле Цхроме.
  2. instagram viewer
  3. Посетите Твиттер-ову страницу у тренду.
  4. Прикупите хасхтагове и везу до њихове странице.
  5. Сачувајте податке у табели.

Ово служи као алгоритам изјаве проблема.

Разумевање Твиттер веб странице

Морате знати како веб страница означава своје податке пре него што их можете издвојити. Много помаже ако добро разумете основе ХТМЛ-а и ЦСС.

Пратите ове кораке да бисте сазнали како Твиттер представља популарни хасхтаг и његов УРЛ:

  1. Посетите Твиттер-ова страница у тренду. Такође можете да се крећете до Твиттер.цомИстражитеУ тренду да га погледате.
  2. Прегледајте главну колону користећи Цхроме алатке за програмере. Иди на Мени (3 тачке)>Још алата >Алати за програмере и задржите показивач миша преко алатке за бирање елемената изнад области тренда.
  3. Временска линија трендова је а див са арија-ознака атрибут чија је вредност „Хронологија: истражуј“. Пређите курсором преко ознаке у Елементи панел за боље разумевање структуре странице. Други див чува популарни хасхтаг/тему. Користите овај див као бројач и поновите до свих дивова на страници која садржи тему/хаштаг у тренду. Садржај се чува у оквиру а спан или пар елемената распона. Посматрајте отворену картицу и забележите хијерархију. Ово можете користити за конструисање КСПатх израза. КСПатх израз за овај специфични елемент је:
    '//div[@aria-label="Временска линија: Истражите"]/див[1]/див[3]/див[1]/див[1]/див[1]/див[1]/див[2]/спан[1]'
    Итерирајте и циљајте див[3], див[4], див[5] итд. За првих десет хасхтагова, бројач је од 3 до 13. Генерализовани КСПатх постаје:
    //div[@aria-label="Временска линија: Истражите"]/див[1]/див[{и}]/див[1]/див[1]/див[1]/див[1]/див[2]/спан[1]'
  4. Кликните на било који хасхтаг да бисте разумели УРЛ његових страница. Ако упоредите УРЛ адресе, требало би да приметите да се само параметар упита мења да би одговарао имену хештега. Можете користити овај увид за прављење УРЛ-ова, а да их заправо не издвајате.

Овај пројекат користи следеће Питхон модуле и алате:

1. Пандас Модуле

Можете користите Пандас ДатаФраме класу да ускладиштите хасхтагове и њихове одговарајуће везе у табеларном формату. Ово ће бити од помоћи када је у питању додавање ових садржаја у ЦСВ датотеку коју можете да делите споља.

2. Временски модул

Користите модул Време да додате кашњење у Питхон програм како бисте омогућили да се садржај странице у потпуности учита. Овај пример користи кашњење од 15 секунди, али можете експериментисати и одабрати одговарајуће одлагање за своје околности.

3. Селениум Модуле

Селен може да аутоматизује процес интеракције са вебом. Можете га користити да контролишете инстанцу веб прегледача, отворите страницу у тренду и померите је надоле. Да бисте инсталирали Селениум у своје Питхон окружење, отворите свој Терминал и извршитипип инсталл селен.

4. Веб Дривер

Користите веб драјвер у комбинацији са Селеном за интеракцију са прегледачем. Доступни су различити веб драјвери на основу прегледача који желите да аутоматизујете. За ову верзију користите популарни прегледач Гоогле Цхроме. Да бисте инсталирали веб драјвер за Цхроме:

  1. Проверите верзију прегледача који користите тако што ћете посетити Мени (3 тачке) > Помоћ>О Гоогле Цхроме-у.
  2. Обратите пажњу на верзију претраживача; у овом случају, то је 106.0.5249.62.
  3. Иди на своју Терминал и тип пип инсталл цхромедривер-бинари==број_верзије:
    пип инсталирај цхромедривер-бинарни==106.0.5249.62
    Ако не постоји одговарајућа верзија, пип ће вам показати листу доступних; изаберите онај који је најближи вашој верзији Цхроме-а.

Како направити Твиттер Сцрапер

Пратите ове кораке да бисте направили свој програм и добили хештегове у тренду у реалном времену. Овде можете пронаћи комплетан изворни код ГитХуб репозиторијум.

  1. Увезите потребне модуле у Питхон окружење.
    # увоз потребних модула
    из селен увоз вебдривер
    изселен.вебдривер.заједнички.од странеувозОд стране
    увоз цхромедривер_бинари
    увоз време
    увоз панде као пд
  2. Направите објекат да бисте иницијализовали ЦхромеДривер и покрените прегледач Гоогле Цхроме помоћу вебдривер. Хром() функција.
    # отворите претраживач Гоогле Цхроме
    претраживач = вебдривер. Хром()
  3. Отворите страницу у тренду Твиттер-а тако што ћете проследити њен УРЛ на добити() функција.
    # отворите страницу у тренду Твитера
    бровсер.гет('https://twitter.com/explore/tabs/trending')
  4. Примените одлагање тако да се садржај странице учита у потпуности.
    # кашњење за учитавање садржаја странице
    време.слееп(15)
  5. Направите празну листу за складиштење хасхтагова и прогласите петљу која се креће од 3 до 13 да би се поклапала са променљивом у КСПатх изразу од раније.
    # иницијализујте листу за чување трендовских тема и хасхтагова
    трендинг_топиц_цонтент=[]

    # прикупља теме и хасхтагове на Твиттер-овој страници у тренду
    за и у опсегу (3,13):

  6. Користити финд_елемент() функцију и проследите КСПатх селектор да бисте добили актуелне теме и хасхтагове на Твиттер-у:
    кпатх = ф'//div[@aria-label="Временска линија: Истражите"]/див[1]/див[{и}]/див[1]/див[1]/див[1]/див[1]/див[2]/спан[1]'
    трендинг_топиц = бровсер.финд_елемент (према. КСПАТХ, кпатх)
    трендинг_топиц_цонтент.додати(трендинг_топиц.текст)
  7. Направите празну листу за чување свих УРЛ-ова и прогласите петљу која пролази кроз све хасхтагове.
    # креирајте УРЛ-ове користећи прикупљене хасхтагове
    урлс=[]
    за мене у трендинг_топиц_цонтент:
    Користите оператор пресека да бисте изоставили хасхтаг да бисте креирали његову УРЛ адресу и замените размаке са УРЛ кодирањем, %20. Додајте везе на листу.
    ако и.почиње са("#"):
    и = и[1:]
    урл='https://twitter.com/search? к=%23' + и + '&срц=тренд_цлицк'
    друго:
    урл = 'https://twitter.com/search? к=' + и + '&срц=тренд_цлицк'
    урл = урл.реплаце("", "%20")
    урлс.додати(урл)
  8. Направите пар кључ/вредност Речник са кључевима као хештеговима и вредностима као њиховим УРЛ адресама.
    # направите речник који има и хештег и УРЛ адресе
    диц={'Хаштег':трендинг_топиц_цонтент,'УРЛ':урлс}
  9. Претворите неструктурирани речник у табеларни ДатаФраме.
    # претворите речник у оквир података у пандама
    дф=пд. ДатаФраме (диц)
    принт(дф)
  10. Сачувајте ДатаФраме у ЦСВ датотеку коју можете погледати у Мицрософт Екцел-у или даље обрадити.
    # конвертујте оквир података у формат вредности одвојених зарезима без серијских бројева
    дф.то_цсв("Твиттер_ХасхТагс.цсв",индек=Фалсе)

Стекните вредне увиде користећи Веб Сцрапинг

Веб сцрапинг је моћан метод за добијање жељених података и њихову анализу да бисте донели одлуке. Беаутифул Соуп је импресивна библиотека коју можете да инсталирате и користите за гребање података из било које ХТМЛ или КСМЛ датотеке користећи Питхон.

Помоћу овога можете претраживати интернет да бисте добили наслове вести у реалном времену, цене производа, спортске резултате, вредност акција и још много тога.

Очистите веб локацију помоћу овог прелепог водича за соуп Питхон

Реад Нект

ОбјавиТвеетОбјавиЕмаил

Повезане теме

  • Програмирање
  • Програмирање
  • Питхон
  • Веб Девелопмент
  • Веб Сцрапинг
  • Твиттер

О аутору

Саи Ашиш Кончада (Објављена 3 чланка)

Саи Асхисх је Фулл Стацк програмер са индустријским искуством у изградњи веб локација и веб апликација. Воли да прави иновативне производе и пише проницљиве чланке о програмирању.

Више од Саи Асхисх Концхада

Коментар

Претплатите се на наш билтен

Придружите се нашем билтену за техничке савете, рецензије, бесплатне е-књиге и ексклузивне понуде!

Кликните овде да бисте се претплатили

Он Тхе Вире

у тренду сада