ScrapeServ는 특정 URL을 입력하면 해당 웹사이트의 데이터를 파일로 저장하고 스크린샷을 제공하는 자체 호스팅 API입니다.

 

이 도구는 Playwright를 사용해 브라우저 컨텍스트를 실행하며, 자바스크립트가 포함된 사이트도 문제없이 처리할 수 있습니다.

 

주요 기능:

페이지 스크롤 및 다양한 섹션의 스크린샷 저장

Docker 컨테이너에서 실행 가능

HTTP 상태 코드 및 헤더 반환

302 리디렉션 자동 처리

API 키 인증 지원

작업 대기열 처리 및 메모리 할당 조정 가능

 

설치 및 사용 방법:

1. Docker 및 docker compose를 설치

2. 저장소 클론 후 docker compose up 실행

3. http://localhost:5006에서 서비스 실행 확인

4. API 요청을 통해 스크린샷 및 웹 데이터 수집 가능

 

ScrapeServ는 고품질 웹 스크래핑이 필요한 개발자들에게 유용한 도구입니다. GitHub에서 프로젝트를 확인해 보세요!

 

https://github.com/US-Artificial-Intelligence/ScrapeServ

반응형

Sniffnet은 인터넷 트래픽을 직관적으로 모니터링할 수 있는 오픈소스 애플리케이션입니다.

 

크로스플랫폼을 지원하며, 네트워크 활동을 분석하고 실시간으로 시각화하는 기능을 제공합니다.

 

무료로 사용할 수 있으며, Windows, macOS, Linux에서 설치 가능합니다.

 

Sniffnet을 활용하면 자신의 네트워크 상태를 보다 쉽게 파악할 수 있습니다.

 

https://github.com/GyulyVGC/sniffnet

반응형

Lightpanda Browser는 AI와 자동화 작업에 최적화된 오픈소스 헤드리스 브라우저입니다.

 

이 브라우저는 최소한의 메모리 사용량과 빠른 실행 속도로 웹 스크래핑, 테스트, LLM 학습 등의 작업을 지원합니다.

 

주요 특징은 다음과 같습니다:

초경량 설계: Chrome 대비 9배 낮은 메모리 사용량과 11배 빠른 실행 속도 제공

웹 API 및 자바스크립트 지원: Playwright와 Puppeteer를 통한 CDP 호환 가능

빠른 시작: 간단한 설치와 사용법으로 CDP 서버를 설정하거나 특정 URL 데이터를 가져올 수 있음

 

https://github.com/lightpanda-io/browser

반응형

Pyper는 Python 기반의 동시 및 병렬 데이터 처리 프레임워크로, ETL 시스템, 데이터 마이크로서비스, 데이터 수집 등의 작업에 적합합니다.

 

이 라이브러리는 함수형 프로그래밍 패턴을 활용하여 데이터 파이프라인을 효율적으로 작성할 수 있도록 설계되었습니다.

주요 특징

  • 직관적인 API: 스레드, 멀티프로세싱, 비동기 작업을 통합적으로 처리 가능.
  • 안정성: 리소스 정리와 오류 처리를 자동화.
  • 효율성: 지연 실행(lazy execution)과 워커 큐를 통해 성능 최적화.
  • 경량성: 의존성이 없는 순수 Python으로 제작.

설치 및 사용법

Pyper는 pip install python-pyper 명령어로 설치할 수 있습니다. 주요 기능은 task 데코레이터를 활용해 함수 기반 파이프라인을 구성하는 것입니다.

작업을 정의하고 이를 파이프(|) 연산자로 연결하여 병렬 작업 흐름을 구현할 수 있습니다.

 

https://github.com/pyper-dev/pyper

반응형

마리모는 반응형 파이썬 노트북으로, 재현 가능한 실험을 실행하고, 스크립트로 실행하거나 앱으로 배포할 수 있습니다.

셀 실행 시 의존 셀을 자동으로 업데이트하며, 순수 파이썬 형식으로 저장되어 깃(Git) 버전 관리에 용이합니다.

데이터 분석과 웹 애플리케이션 개발에 적합하며, 사용자는 슬라이더, 테이블 등 인터랙티브 UI 요소를 쉽게 연결할 수 있습니다.

 

https://github.com/marimo-team/marimo

 

GitHub - marimo-team/marimo: A reactive notebook for Python — run reproducible experiments, execute as a script, deploy as an

A reactive notebook for Python — run reproducible experiments, execute as a script, deploy as an app, and version with git. - GitHub - marimo-team/marimo: A reactive notebook for Python — run repr...

github.com

https://docs.marimo.io/

 

marimo

The next generation of Python notebooks

docs.marimo.io

 

반응형

Go-Haystack는 애플의 “Find My” 네트워크를 OpenHaystack과 Macless-Haystack을 활용해 블루투스 장치를 추적할 수 있는 툴입니다.

이 프로젝트는 Go/TinyGo로 작성되었으며, 애플 하드웨어가 필요하지 않습니다.

TinyGo 기반 펌웨어와 다양한 하드웨어를 지원하며, Raspberry Pi와 같은 Linux 장치에서도 실행 가능합니다.

또한 TinyScan 기능으로 주변 장치를 스캔할 수 있습니다.

 

https://github.com/hybridgroup/go-haystack

반응형

curl-impersonate는 curl의 TLS 및 HTTP 핸드셰이크를 실제 브라우저처럼 모방하도록 수정된 도구입니다.

이를 통해 서버의 TLS 및 HTTP/2 지문 분석을 우회하여 Chrome, Edge, Safari, Firefox 등 주요 브라우저처럼 동작합니다.

Akamai와 같은 특정 서비스의 제한을 피하는 데 유용하며, BoringSSL 등을 사용해 TLS 확장도 지원합니다.

주로 프라이버시 보호 및 제한된 콘텐츠 접근을 위한 도구로 활용됩니다.

 

https://github.com/lexiforest/curl-impersonate

반응형

mitmproxy2swagger는 REST API의 트래픽을 캡처하여 자동으로 OpenAPI 3.0 스펙으로 변환하는 도구입니다. 이 도구를 사용하면 앱 실행 중 캡처된 HTTP 트래픽을 기반으로 API의 구조를 쉽게 분석할 수 있습니다.

 

주요 기능

mitmproxy 통합: mitmproxy를 통해 HTTP 트래픽을 캡처하고 이를 기반으로 API 스펙을 생성합니다.

HAR 파일 지원: 브라우저 개발자 도구에서 내보낸 HAR 파일도 처리할 수 있습니다.

유연한 스키마 병합: 기존 API 스펙과 새로 캡처한 데이터를 안전하게 병합할 수 있습니다.

 

활용 사례

내부 API 분석 및 문서화

타사 API 리버스 엔지니어링

 

https://github.com/alufers/mitmproxy2swagger

반응형

+ Recent posts