Keskitaso3-5 tuntia⚙️ Automaatio

Web scraper

Automaattinen työkalu tietojen keräämiseen verkkosivuilta.

Teknologiat:Node.jsTypeScriptCheerioPuppeteer

Aloitusprompt

Kopioi tämä prompti Cursoriin tai muuhun AI-työkaluun aloittaaksesi projektin.

Luo web scraper Node.js:llä.

Ominaisuudet:
- Hae HTML Cheerio:lla
- Parsii määritellyt elementit
- Tallenna tulokset JSON-tiedostoon
- Rate limiting (odota pyyntöjen välillä)
- Virheiden käsittely ja retry-logiikka

Esimerkki: Scrape Hacker News -etusivu
- Kerää: otsikko, linkki, pisteet, kommenttien määrä
- Tallenna data.json tiedostoon

Käytä TypeScriptiä ja tee modulaarinen rakenne.

Ominaisuudet

Tässä projektissa rakennetaan seuraavat ominaisuudet:

1HTML-parsinta
2Dynaamisten sivujen tuki
3Datan tallennus CSV/JSON
4Rate limiting
5Virheiden käsittely

Vaiheet

1

Perus-scraper

Luo yksinkertainen HTML-parseri.

Prompti:

Luo Node.js-scraper joka hakee verkkosivun ja parsii siitä tietoja Cheeriolla. Esimerkki: hae uutissivuston otsikot ja linkit.
2

Dynaaminen sisältö

Lisää tuki JavaScript-sivuille.

Prompti:

Lisää Puppeteer dynaamisen sisällön scrapingiin. Odota sivun latautumista, scrollaa ja kerää data. Esimerkki: scrape tuotteita verkkokaupasta.
3

Datan tallennus

Tallenna kerätty data tiedostoon.

Prompti:

Lisää funktiot datan tallentamiseen CSV- ja JSON-muotoihin. Luo myös Supabase-tallennus reaaliaikaiseen seurantaan.

Laajennusideat

Kun perusprojekti on valmis, voit laajentaa sitä näillä ideoilla:

  • Ajastettu scraping (cron)
  • Notification uusista tuloksista
  • Web UI tulosten tarkasteluun
  • Proxy-tuki
  • Captcha-kierto (eettisesti)

Lisää projekti-ideoita

Selaa kaikkia automaatio projekteja tai tutustu muihin kategorioihin.