Docling은 다양한 문서 형식을 쉽게 처리하고, 생성형 AI와 연동할 수 있도록 돕는 오픈소스 프로젝트입니다. PDF, DOCX, PPTX, XLSX, HTML뿐만 아니라 이미지와 오디오 파일까지 지원하며, 고급 PDF 분석 기능을 통해 표, 코드, 수식, 레이아웃까지 이해할 수 있습니다.

 

또한 문서를 Markdown, HTML, JSON 등 여러 형식으로 변환할 수 있으며, LangChain, LlamaIndex, Haystack 같은 AI 프레임워크와도 손쉽게 통합할 수 있습니다. 로컬 실행도 가능해 보안이 중요한 환경에서도 활용할 수 있다는 점이 특징입니다.

 

https://github.com/docling-project/docling

 

GitHub - docling-project/docling: Get your documents ready for gen AI

Get your documents ready for gen AI. Contribute to docling-project/docling development by creating an account on GitHub.

github.com

 

반응형

OCR4all은 무료 오픈소스 OCR(광학 문자 인식) 소프트웨어로, 복잡한 필사본부터 대량의 인쇄물까지 고품질 문자 인식을 제공합니다.

 

사용자가 코드 없이 UI를 통해 OCR 워크플로우를 생성할 수 있으며, 강력한 LAREX 편집기를 활용해 텍스트와 레이아웃을 수동으로 조정할 수 있습니다.

 

또한 OCR-D 생태계와 완벽하게 호환되며, Docker를 이용한 간편한 크로스플랫폼 배포가 가능합니다.

 

https://www.ocr4all.org/

반응형

MarkItDown은 Microsoft에서 제공하는 Python 기반 도구로, 다양한 문서를 Markdown 형식으로 변환할 수 있습니다.

 

지원되는 파일 형식에는 PDF, Word(.docx), Excel(.xlsx), PowerPoint(.pptx), HTML, 이미지(EXIF 메타데이터 및 OCR 포함), 오디오 파일(음성 인식 포함) 등이 포함됩니다.

 

이 도구는 간단한 API를 통해 손쉽게 사용할 수 있으며, 텍스트 분석 및 데이터 정리를 위한 강력한 도구입니다.

 

자세한 내용은 GitHub 페이지에서 확인하세요.

 

https://github.com/microsoft/markitdown

반응형

+ Recent posts