Számos módszer van az interneten elérhető adatok leszedésére. A legjobb módszer valószínűleg az API-k használata. Szinte mindegyik nagyobb weboldal, mint például a Twitter, Facebook, Google, StackOverflow kínál API-t ahhoz, hogy strukturált módon hozzáférhessünk adataikhoz. Ha az API-n keresztül megkaphatjuk azt, amire szükségünk van, ezt részesítsük előnyben a web scraping helyett. Viszont nem minden webhely ad API-t. Néhányan azért nem, mert nem szeretnék, hogy mások megszerezzék a hatalmas adathalmazaikat, míg mások technikai ismeretek hiányában nem adnak API-t.
Mi is az a Web Scraping?
A Web Scraping egy olyan technika, melynek segítségével adatokat gyűjthetünk weboldalakról. Ez a technika elsősorban strukturálatlan adatok valamilyen adatbázisba vagy táblázatba történő betöltésére összpontosít. Ebben a blogban a Python adta lehetőségeket szeretném ismertetni egy példán keresztül.
IPython notebook közvetlen linkje
Amennyiben pedig továbblépnél és szeretnéd ezekből a lehetőségekből a mindennapi munkában minél többet hasznosítani, keress fel minket az elérhetőségeink valamelyikén.