ScrapeServ는 특정 URL을 입력하면 해당 웹사이트의 데이터를 파일로 저장하고 스크린샷을 제공하는 자체 호스팅 API입니다.

 

이 도구는 Playwright를 사용해 브라우저 컨텍스트를 실행하며, 자바스크립트가 포함된 사이트도 문제없이 처리할 수 있습니다.

 

주요 기능:

페이지 스크롤 및 다양한 섹션의 스크린샷 저장

Docker 컨테이너에서 실행 가능

HTTP 상태 코드 및 헤더 반환

302 리디렉션 자동 처리

API 키 인증 지원

작업 대기열 처리 및 메모리 할당 조정 가능

 

설치 및 사용 방법:

1. Docker 및 docker compose를 설치

2. 저장소 클론 후 docker compose up 실행

3. http://localhost:5006에서 서비스 실행 확인

4. API 요청을 통해 스크린샷 및 웹 데이터 수집 가능

 

ScrapeServ는 고품질 웹 스크래핑이 필요한 개발자들에게 유용한 도구입니다. GitHub에서 프로젝트를 확인해 보세요!

 

https://github.com/US-Artificial-Intelligence/ScrapeServ

반응형

Lightpanda Browser는 AI와 자동화 작업에 최적화된 오픈소스 헤드리스 브라우저입니다.

 

이 브라우저는 최소한의 메모리 사용량과 빠른 실행 속도로 웹 스크래핑, 테스트, LLM 학습 등의 작업을 지원합니다.

 

주요 특징은 다음과 같습니다:

초경량 설계: Chrome 대비 9배 낮은 메모리 사용량과 11배 빠른 실행 속도 제공

웹 API 및 자바스크립트 지원: Playwright와 Puppeteer를 통한 CDP 호환 가능

빠른 시작: 간단한 설치와 사용법으로 CDP 서버를 설정하거나 특정 URL 데이터를 가져올 수 있음

 

https://github.com/lightpanda-io/browser

반응형

+ Recent posts