„Chrome Web Scraper“ pamoka, kurią pateikė „Semalt Expert“

Jei naudojate „Google Chrome“, yra jūsų naršyklės plėtinys, kuris gali padėti išbrėžti tinklalapius. Jis žinomas kaip '' Scrapper '' ir gali būti naudojamas be problemų. „Scrapper“ padės nuskaityti svetainės turinį ir įkelti rezultatus į „Google“ dokumentus.

Kaip pašalinti tinklalapį naudojant „Scraper“ plėtinį?

1. Pasirinkite „Chrome“ internetinę parduotuvę „Google Chrome“;

2. Plėtiniuose atlikite paiešką '' Scrapper '';

3. Pirmasis paieškos rezultatas yra plėtinys, žinomas kaip '' Scrapper '';

4. Pasirinkite mygtuką, kuris nurodytas kaip '' Pridėti prie „Chrome“;

5. Grįžkite į JK parlamento narių sąrašą;

6. Spustelėkite šią nuorodą ;

7. Dabar ieškokite vieno MP ir įsitikinkite, kad įrašas pažymėtas;

8. Dešiniuoju pelės mygtuku spustelėkite norėdami pasirinkti parinktį „Scrape Panašus ...“;

9. Kitame lange pasirodys skreperio pultas;

10. Peržiūrėkite iškarpytą turinį grandiklio konsolėje;

11. Norėdami įsitikinti, kad turinys išsaugotas kaip „Google“ skaičiuoklė, pasirinkite „Išsaugoti„ Google “dokumentuose ...“

Išplėstas grandymas

Prieš pradedant laikytis šio recepto, pravartu suprasti HTML pagrindus. Pavyzdžiui, per šią nuorodą galite perskaityti trumpą HTML įvadą

Įsivaizduokime, kad mus domina visi filmai, kuriuose vaidino garsioji italų aktorė Azija Argento.

1. IMDB yra labai išsamus dalyvių archyvas. Azijos Argento svetainė yra: http://www.imdb.com/name/nm0000782/;

2. Čia galite peržiūrėti visus aktorės vaidmenis. Pradėkime išskaidyti mus dominančią informaciją;

3. Pabandykite subraižyti taip, kaip buvo aprašyta aukščiau;

4. Pamatysite, kad sąrašas yra šiek tiek iškreiptas. Taip yra todėl, kad sąrašas čia gali būti sudarytas skirtingai;

5. Eikite į grandiklio konsolę. Viršuje kairėje pamatysite mažą dėžutę, kurioje parašyta „XPath“;

6. Xpath yra tam tikra užklausų kalba, naudojama XML ir HTML;

7. „XPath“ gali padėti rasti jus dominančias puslapio dalis. Kitas dalykas yra rasti tinkamą elementą ir parašyti jam „XPath“;

8. Dabar sudėkime savo stalą;

9. Pamatysite, kad mūsų esamas „XPath“, kuriame yra visi reikalingi duomenys, yra „// div [3] / div [3] / div [2] / div“;

10. „XPath“ informuoja sistemą, kad ji galėtų peržiūrėti HTML dokumentą ir pasirinkti trečiąjį elementą, tada antrąjį elementą ir visus juos;

11. Bet mes norėtume, kad mūsų duomenys būtų atskirti;

12. Norėdami tai padaryti, naudokite konsolėje esantį stulpelių skyrių;

13. Pirmiausia raskime mūsų pavadinimą. Naudokite tikrinimo elementą norėdami pamatyti pavadinimą;

14. Patikrinkite pavadinimą etiketėje. Pridėkite žymą „XPath“;

15. Atrodo, kad išraiška veikia tinkamai, todėl padarykite ją pirmąja stulpeliu;

16. Skyriuje „Stulpeliai“ pakeiskite pirmojo stulpelio pavadinimą į „pavadinimą“;

17. Pridėkite prie jo XPath;

18. Stulpelio skiltyje XPath yra santykiniai ir tai reiškia, kad „./b“ pasirinks elementą <b>

19. Ant pavadinimo stulpelio „XPath“ pridėkite „./b“ ir pasirinkite „iškarpyti“;

20. Dabar tęskime metus. Metus galima rasti per vieną intervalą;

21. Sukurkite naują stulpelį, pasirinkdami mažą pliusą šalia savo pavadinimo stulpelio;

22. Naudodami XPath "./span" sukurkite stulpelį "metams";

23. Spustelėkite įbrėžti ir pažiūrėkite, kaip sudėti metai;

24. Atlikta!