Back to Question Center
0

Semalt - si të kapni faqet e internetit?

1 answers:
(8)

Supë e bukur është një bibliotekë Python përdorur gjerësisht për të gërshet faqet e internetit duke krijuar një pemë shqyrtim nga dokumentet XML dhe HTML. Rrjetimi i uebit, një teknikë e nxjerrjes së të dhënave nga faqet e internetit dhe faqet, përdoret gjerësisht në fushën e analizës së të dhënave dhe menaxhimit. Në shumicën e rasteve, gjuha programore Python është një parakusht në shkencën e të dhënave.

Python 3 ka mjete të scraping dhe module që mund të aplikoni në projektin e menaxhimit të të dhënave. Aktualisht funksionon si Supë e Bukur 4, ky modul është i pajtueshëm me Python 3 dhe Python 2 - cec software pc. 7. Modeli i Beautiful Soup 4 është gjithashtu i aftë për të krijuar një pemë të analizës për supë të pa-mbyllur tag. Në këtë tutorial, do të mësosh se si të hallosh faqen dhe të shkruash të dhënat e skrapuara në një skedar CSV. Fillimi

Për të filluar, krijoni një server ose mjedis kodues me bazë në Python në kompjuterin tuaj. Ju gjithashtu duhet të instaloni modulin e bukur supë dhe kërkesa në makinën tuaj. Njohja e punës me të dy modulet është gjithashtu një parakusht i domosdoshëm. Njohja me etiketimin dhe strukturën HTML është gjithashtu një avantazh i shtuar.

Në këtë kontekst, të dhëna reale nga Galeria Kombëtare e Artit do të përdoren për t'ju ndihmuar të kuptoni se si të përdorni Supë e Bukur 4. Galeria Kombëtare e Artit përbëhet nga 120,000 copë që janë bërë nga një përafërsisht 13,000 artistë. Arti bazohet në Uashington D. C, Shtetet e Bashkuara.

Ekstraktimi i të dhënave në internet me Supë të Bukur nuk është aq e komplikuar. Për shembull, nëse fokusoheni në letrën Z, shënoni dhe shënoni emrin e parë në listë. Në këtë rast, emri i parë është Zabaglia, Niccola. Për konsistencë, tregoni numrin e faqeve dhe emrin e artistit të fundit në atë faqe.

Për importimin e bibliotekave, aktivizoni mjedisin tuaj programues Python 3. Kontrolloni për t'u siguruar që jeni në të njëjtën direktorium me mjedisin tuaj të programimit. Kryeni komandën e mëposhtme për të filluar. my_env / bin / Activate.

Krijoni një skedar të ri dhe filloni të importoheni Libraritë e Bukura dhe Kërkesat. Biblioteka e Kërkesave do t'ju lejojë të përdorni HTTP brenda programeve tuaja Python në formate të lexueshme. Supë e bukur, në anën tjetër, punon për të copëzuar faqet shpejt. Përdorni bs4 për të importuar supë të bukur.

Si të mblidhni dhe analizoni një faqe interneti

Duke përdorur Kërkesat grumbulloni URL të faqes tuaj të parë. URL-ja e faqes së parë do të caktohet në faqen e ndryshueshme. Ndërtoni një objekt BeautifulSoup nga Kërkesat dhe analizoni objektin nga parser i Python-it.

Në këtë tutorial, qëllimi është mbledhja e lidhjeve dhe emrave të artistëve. Për shembull, ju mund të mbledhni datat dhe kombësitë e artistëve. Për përdoruesit e Windows, klikoni me të djathtën mbi emrin e parë të artistit. Në këtë rast, përdorni Zabaglia, Niccola. Për përdoruesit e Mac OS, takoni "CTRL" dhe klikoni mbi emrin. Kliko në menunë "Inspect Element" që shfaqet në ekranin tuaj për të përdorur veglat e zhvilluesve të uebit. Shtypni emrat e artistit për të bërë Supë e Bukur të analizojë një pemë shpejt.

Heqja e lidhjeve fundore

Për të hequr lidhjet e poshtme në faqen tuaj web, inspekto DOM duke klikuar me të djathtën elementin. Ju do të identifikoni se lidhjet janë nën një tabelë HTML. Duke përdorur supë të bukur, përdorni "metodën e zbërthimit" për të hequr etiketat nga pema e analizës.

Si të tërheqni përmbajtje nga një etiketë

Ju nuk keni për të shtypur të gjithë tagun e lidhjes, përdorni Supë të Bukur për të hequr materialin nga një etiketë. Gjithashtu mund të kapni URL-të që lidhen me artistët duke përdorur Supë e Bukur 4.

CSV skedari do t'ju lejojë të ruani të dhënat e strukturuara në një tekst të thjeshtë, një format që përdoret më së shumti për tabelat e të dhënave

. Rekomandohet njohja e skedarëve të thjeshtë të teksteve në Python.

Ekstraktimi i të dhënave në internet përdoret për të kapur faqet dhe për të marrë informacion. Jini të vëmendshëm në faqet e internetit të cilave ju jeni informacion për nxjerrjen nga. Disa faqe dinamike kufizojnë nxjerrjen e të dhënave në faqet e tyre. Për të korrur faqen me supë të bukur dhe Python 3 është aq e thjeshtë.

December 22, 2017