Semalt Expert предоставя ръководство за изстъргване на мрежата с Javascript

Изстъргването в мрежата може да бъде отличен източник на критични данни, които се използват в процеса на вземане на решения във всеки бизнес. Следователно, тя е в основата на анализа на данните, тъй като това е единственият сигурен начин за събиране на надеждни данни. Но тъй като количеството онлайн съдържание, което може да бъде бракувано, винаги се увеличава, може да стане почти невъзможно да се бракува всяка страница ръчно. Това изисква автоматизация.

Въпреки че има много инструменти, които са пригодени за различни автоматизирани проекти за изстъргване, по-голямата част от тях са премиум и ще ви струват цяло състояние. Тук влиза Puppeteer + Chrome + Node.JS. Този урок ще ви преведе през процеса, гарантиращ, че можете лесно да изстържете уебсайтове лесно.

Как работи настройката?

Важно е да се отбележи, че притежаването на малко познания за JavaScript ще бъде полезно в този проект. Като за начало ще трябва да вземете горните 3 програми отделно. Puppeteer е библиотека с възли, която може да се използва за контрол на Chrome без глава. Chrome без глава се отнася до процеса на работа с хром без неговия графичен интерфейс или с други думи без работа с хром. Ще трябва да инсталирате Node 8+ от официалния си уебсайт.

След инсталирането на програмите е време да създадете нов проект, за да започнете да проектирате кода. В идеалния случай това е JavaScript scraping, тъй като ще използвате кода, за да автоматизирате процеса на изстъргване. За повече информация относно Puppeteer вижте документацията му, има стотици примери, с които можете да играете.

Как да автоматизираме изстъргването на JavaScript

При създаване на нов проект продължете със създаването на файл (.js). В първия ред ще трябва да извикате зависимостта на Puppeteer, която сте инсталирали по-рано. След това следва основната функция "getPic ()", която ще съдържа целия код за автоматизация. Третият ред ще извика функцията "getPic ()", така че да я стартира. Като се има предвид, че функцията getPic () е функция "асинхронизация", тогава можем да използваме изчакващото изчакване, което ще спре функцията, докато чакаме "обещанието" да се разреши, преди да преминем към следващия ред код. Това ще функционира като основна функция за автоматизация.

Как да извикаме хром без глава

Следващият ред код: "const браузър = изчакайте puppeteer.Launch ();" автоматично ще стартира кукловод и ще пусне хромиран екземпляр, задавайки го на нашата новосъздадена променлива „браузър“. Продължете да създадете страница, която след това ще бъде използвана за навигация до URL, който искате да бракувате.

Как да бракувате данни

API на Puppeteer ви позволява да се заигравате с различни входове на уебсайтове, като часовник, попълване на формуляри, както и четене на данни. Можете да се обърнете към него, за да видите отблизо как можете да автоматизирате тези процеси. Функцията "scrape ()" ще се използва за въвеждане на нашия код за изстъргване. Продължете да стартирате функцията node scrape.js, за да започнете процеса на изстъргване. След това цялата настройка трябва автоматично да започне да извежда необходимото съдържание. Важно е да не забравяте да преминете през кода си и да проверите дали всичко работи според дизайна, за да избегнете грешки по пътя.

mass gmail