Pakar Semalt Memberikan Panduan Untuk Mengikis Web Dengan Javascript

Pengikisan web dapat menjadi sumber data kritis yang sangat baik yang digunakan dalam proses pengambilan keputusan dalam bisnis apa pun. Oleh karena itu, ini adalah inti dari analisis data karena merupakan satu-satunya cara yang pasti untuk mengumpulkan data yang dapat diandalkan. Tetapi, karena jumlah konten online yang tersedia untuk dihapus selalu meningkat, mungkin hampir mustahil untuk menghapus setiap halaman secara manual. Ini panggilan untuk otomatisasi.

Meskipun ada banyak alat di luar sana yang dirancang untuk proyek pengikisan otomatis yang berbeda, sebagian besar dari mereka adalah premium dan akan mahal. Di sinilah Puppeteer + Chrome + Node.JS masuk. Tutorial ini akan memandu Anda melalui proses memastikan bahwa Anda dapat mengikis situs web dengan mudah secara otomatis.

Bagaimana cara kerja pengaturan?

Penting untuk dicatat bahwa memiliki sedikit pengetahuan tentang JavaScript akan berguna dalam proyek ini. Sebagai permulaan, Anda harus mendapatkan 3 program di atas secara terpisah. Dalang adalah Perpustakaan Node yang dapat digunakan untuk mengontrol Chrome tanpa kepala. Chrome Tanpa Kepala mengacu pada proses menjalankan chrome tanpa GUI-nya, atau dengan kata lain tanpa menjalankan chrome. Anda harus menginstal Node 8+ dari situs web resminya.

Setelah menginstal program, sekarang saatnya untuk membuat proyek baru untuk mulai merancang kode. Idealnya, ini adalah pengikisan JavaScript sehingga Anda akan menggunakan kode untuk mengotomatiskan proses pengikisan. Untuk informasi lebih lanjut tentang Dalang merujuk ke dokumentasinya, ada ratusan contoh yang tersedia untuk Anda mainkan.

Cara mengotomatiskan pengikisan JavaScript

Saat membuat proyek baru, lanjutkan untuk membuat file (.js). Di baris pertama, Anda harus memanggil ketergantungan Puppeteer yang telah Anda instal sebelumnya. Ini kemudian diikuti oleh fungsi utama "getPic ()" yang akan menampung semua kode otomatisasi. Baris ketiga akan memanggil fungsi "getPic ()" untuk menjalankannya. Mempertimbangkan bahwa fungsi getPic () adalah fungsi "async", kita kemudian dapat menggunakan ekspresi wait yang akan menjeda fungsi sambil menunggu "janji" untuk diselesaikan sebelum pindah ke baris kode berikutnya. Ini akan berfungsi sebagai fungsi otomatisasi utama.

Cara memanggil chrome tanpa kepala

Baris kode berikutnya: "const browser = await puppeteer.Launch ();" akan secara otomatis meluncurkan boneka dan menjalankan instance chrome yang mengaturnya ke variabel "browser" kami yang baru dibuat. Lanjutkan untuk membuat halaman yang kemudian akan digunakan untuk menavigasi ke URL yang ingin Anda memo.

Cara memotong data

API Puppeteer memungkinkan Anda untuk bermain-main dengan berbagai input situs web seperti pencatatan jam kerja, pengisian formulir, serta membaca data. Anda dapat merujuknya untuk mengetahui bagaimana Anda dapat mengotomatiskan proses-proses tersebut. Fungsi "scrape ()" akan digunakan untuk memasukkan kode memo Anda. Lanjutkan untuk menjalankan fungsi node scrape.js untuk memulai proses pengikisan. Seluruh pengaturan kemudian akan secara otomatis mulai menghasilkan konten yang diperlukan. Penting untuk diingat untuk membaca kode Anda dan memeriksa apakah semuanya berfungsi sesuai dengan desain untuk menghindari kesalahan.