'IT 소식/AI' 카테고리의 글 목록

IT 소식/AI

ScreenCoder: UI 스크린샷을 HTML/CSS 코드로 자동 변환하는 모듈형 AI 시스템

화니. 2025. 8. 6. 15:24

2025. 8. 6. 15:24

ScreenCoder는 UI 스크린샷이나 디자인 모형을 분석해 깨끗하고 생산성 높은 HTML/CSS 코드로 자동 변환해주는 오픈소스 프로젝트입니다  .

이 시스템은 세 단계 모듈형 구조로 구성되어 있습니다:
• Grounding Agent (시각 인식 엔진): VLM 기반으로 화면의 버튼, 네비게이션, 텍스트 박스 등 UI 요소를 감지하고 라벨링합니다   .
• Planning Agent (레이아웃 계획 엔진): 감지된 요소를 바탕으로 계층적 레이아웃 구조를 생성하고 CSS Grid 또는 Tailwind 스타일 레이아웃으로 변환합니다  .
• Generation Agent (코드 생성 엔진): adaptive prompt 기반으로 HTML/CSS 코드를 생성하여 디자인을 재현하며, 구조화되고 확장 가능하게 구성됩니다  .

또한 ScreenCoder는 자체적으로 대규모 이미지‑코드 쌍 합성 엔진을 갖추고 있어, 사전 훈련된 VLM을 지도 학습 및 강화 학습 방식으로 미세조정해 코드 품질과 UI 이해도를 크게 향상시킵니다

https://github.com/leigest519/ScreenCoder

GitHub - leigest519/ScreenCoder: ScreenCoder — Turn any UI screenshot into clean, editable HTML/CSS with full control. Fast, a

ScreenCoder — Turn any UI screenshot into clean, editable HTML/CSS with full control. Fast, accurate, and easy to customize. - leigest519/ScreenCoder

github.com

'IT 소식 > AI' 카테고리의 다른 글

스마트폰에서 직접 AI 구동하기: ‘Cactus’ 프레임워크 소개 (0)	2025.07.11
Chatterbox TTS — 오픈소스 최고 수준의 감정 제어 음성 합성 모델 (2)	2025.06.12
AgenticSeek – 완전한 로컬 AI 비서, 클라우드 없이 자율적으로 작업 수행 (2)	2025.06.02

스마트폰에서 직접 AI 구동하기: ‘Cactus’ 프레임워크 소개

화니. 2025. 7. 11. 19:20

2025. 7. 11. 19:20

Cactus는 스마트폰·스마트워치 같은 모바일 기기에서 LLM/VLM/TTS 등 다양한 AI 모델을 로컬(오프라인)으로 구동할 수 있게 해주는 오픈소스 프레임워크입니다. Flutter, React-Native, C/C++ 등 여러 플랫폼을 지원하며, GGUF 포맷을 사용하는 최신 오픈소스 모델들을 즉시 가져다 쓸 수 있는 것이 특징입니다 .

주요 기능

다중 모달 지원: 텍스트 완성, 이미지 인식, 음성 합성 등 다양한 AI 기능 탑재 .
경량화 및 양자화 대응: FP32부터 2-bit 양자화 모델까지 효율적으로 처리 .
클라우드 백업 옵션: 기기에서 실패 시 원격 API로 대체 실행을 선택할 수 있음 .
일관된 API 제공: Flutter, React-Native, C/C++에서 동일한 사용법으로 호출 가능

https://github.com/cactus-compute/cactus

GitHub - cactus-compute/cactus: Cross-platform framework for deploying LLM/VLM/TTS models locally on smartphones.

Cross-platform framework for deploying LLM/VLM/TTS models locally on smartphones. - cactus-compute/cactus

github.com

'IT 소식 > AI' 카테고리의 다른 글

ScreenCoder: UI 스크린샷을 HTML/CSS 코드로 자동 변환하는 모듈형 AI 시스템 (0)	2025.08.06
Chatterbox TTS — 오픈소스 최고 수준의 감정 제어 음성 합성 모델 (2)	2025.06.12
AgenticSeek – 완전한 로컬 AI 비서, 클라우드 없이 자율적으로 작업 수행 (2)	2025.06.02

Chatterbox TTS — 오픈소스 최고 수준의 감정 제어 음성 합성 모델

화니. 2025. 6. 12. 09:32

2025. 6. 12. 09:32

Chatterbox TTS는 Resemble AI가 개발한 오픈소스 음성 합성(TTS: Text-To-Speech) 모델입니다. MIT 라이선스 하에 공개되어 누구나 자유롭게 사용할 수 있으며, 상용 서비스 못지않은 높은 품질을 제공합니다. 특히 ElevenLabs 등 기존 상용 시스템과의 벤치마크에서도 경쟁력을 입증했습니다.

이 모델의 가장 큰 특징은 감정 과장 제어(emotion exaggeration control) 기능입니다. 이를 통해 목소리의 감정을 더 극적으로 조절할 수 있어, 밈 제작, 게임, 영상, AI 에이전트 등 다양한 콘텐츠 제작에 적합합니다.

주요 특징:

최첨단 Zero-shot TTS 지원
LLaMA 기반 5억 파라미터 모델
감정 과장/강도 제어 기능
정렬 정보 기반 안정적 추론 (ultra-stable inference)
50만 시간의 정제된 음성 데이터로 학습
워터마크 삽입 기능으로 책임 있는 AI 구현
간편한 음성 변환 스크립트 제공

https://github.com/resemble-ai/chatterbox

GitHub - resemble-ai/chatterbox: SoTA open-source TTS

SoTA open-source TTS. Contribute to resemble-ai/chatterbox development by creating an account on GitHub.

github.com

'IT 소식 > AI' 카테고리의 다른 글

스마트폰에서 직접 AI 구동하기: ‘Cactus’ 프레임워크 소개 (0)	2025.07.11
AgenticSeek – 완전한 로컬 AI 비서, 클라우드 없이 자율적으로 작업 수행 (2)	2025.06.02
스탠포드 MAST의 오픈소스 프로젝트, BLAST로 웹 브라우징 AI 효율적으로 서빙하기 (0)	2025.05.12

AgenticSeek – 완전한 로컬 AI 비서, 클라우드 없이 자율적으로 작업 수행

화니. 2025. 6. 2. 15:13

2025. 6. 2. 15:13

genticSeek는 클라우드나 API 없이 사용자의 로컬 환경에서 완전히 작동하는 AI 비서입니다. 이 프로젝트는 웹 검색, 코드 작성, 작업 계획 등을 자율적으로 수행하며, 모든 데이터를 사용자의 기기 내에 저장하여 프라이버시를 보장합니다.

주요 특징:

완전한 로컬 실행: AgenticSeek는 인터넷 연결 없이도 작동하며, 사용자의 데이터를 외부 서버로 전송하지 않습니다.
자율적인 웹 탐색: 웹을 자동으로 검색하고, 정보를 추출하며, 웹 폼을 작성하는 등의 작업을 수행할 수 있습니다.
코드 작성 및 디버깅: Python, C, Go, Java 등 다양한 언어로 코드를 작성하고 디버깅할 수 있습니다.
음성 지원: 음성 명령을 인식하고, 음성으로 응답하는 기능을 제공합니다.
작업 계획 및 실행: 복잡한 작업을 계획하고, 여러 단계로 나누어 실행할 수 있습니다.

https://github.com/Fosowl/agenticSeek

GitHub - Fosowl/agenticSeek: Fully Local Manus AI. No APIs, No $200 monthly bills. Enjoy an autonomous agent that thinks, browse

Fully Local Manus AI. No APIs, No $200 monthly bills. Enjoy an autonomous agent that thinks, browses the web, and code for the sole cost of electricity. 🔔 Official updates only via twitter @Martin9...

github.com

'IT 소식 > AI' 카테고리의 다른 글

Chatterbox TTS — 오픈소스 최고 수준의 감정 제어 음성 합성 모델 (2)	2025.06.12
스탠포드 MAST의 오픈소스 프로젝트, BLAST로 웹 브라우징 AI 효율적으로 서빙하기 (0)	2025.05.12
Cursor대안 오픈소스 코드 에디터 Void (1)	2025.05.09

스탠포드 MAST의 오픈소스 프로젝트, BLAST로 웹 브라우징 AI 효율적으로 서빙하기

화니. 2025. 5. 12. 09:57

2025. 5. 12. 09:57

스탠포드 대학교 MAST 연구팀이 개발한 BLAST(Browser-LLM Auto-Scaling Technology)는 웹 브라우징 기능을 갖춘 대규모 언어 모델(LLM)을 효율적으로 서빙하기 위한 오픈소스 엔진입니다.

BLAST의 주요 특징:

OpenAI API 호환성: 기존 OpenAI API를 사용하는 애플리케이션을 별도의 수정 없이 BLAST로 전환할 수 있습니다.
고성능 처리: 자동 병렬 처리와 프리픽스 캐싱을 통해 빠른 응답 속도를 제공합니다.
스트리밍 응답: 웹 브라우징 결과를 실시간으로 스트리밍하여 사용자에게 즉각적인 피드백을 제공합니다.
리소스 효율성: 메모리와 LLM 비용을 효율적으로 관리하여 비용을 절감할 수 있습니다.

https://blastproject.org/

BLAST - Browser-LLM Auto-Scaling Technology

blastproject.org

https://github.com/stanford-mast/blast

GitHub - stanford-mast/blast: Browser-LLM Auto-Scaling Technology

Browser-LLM Auto-Scaling Technology. Contribute to stanford-mast/blast development by creating an account on GitHub.

github.com

'IT 소식 > AI' 카테고리의 다른 글

AgenticSeek – 완전한 로컬 AI 비서, 클라우드 없이 자율적으로 작업 수행 (2)	2025.06.02
Cursor대안 오픈소스 코드 에디터 Void (1)	2025.05.09
Infinity: 고성능 텍스트 임베딩 및 리랭킹 모델 서빙 엔진 (0)	2025.05.07

Cursor대안 오픈소스 코드 에디터 Void

화니. 2025. 5. 9. 12:00

2025. 5. 9. 12:00

🧠 Void란?

Void는 오픈소스 기반의 코드 에디터로, AI 기능이 통합된 Cursor의 대안입니다. Visual Studio Code(VSCode)를 포크하여 개발되었으며, AI 에이전트와의 통합, 코드 변경 시각화, 다양한 LLM(Local Language Model) 지원 등을 특징으로 합니다.

🔧 주요 기능

AI 에이전트 통합: GPT-4.1, Claude 3.7, Mistral 등 다양한 오픈소스 모델과 연동하여 코드 작성 및 보조 기능 제공.
변경사항 체크포인트: 코드 변경 이력을 시각적으로 확인하고 관리할 수 있는 기능.
로컬 및 원격 실행 지원: SSH 및 WSL 환경에서의 원격 실행을 지원하여 다양한 개발 환경에 대응.
자동 업데이트: 최신 기능과 보안 패치를 자동으로 적용하여 항상 최신 상태 유지.

https://github.com/voideditor/void

GitHub - voideditor/void

Contribute to voideditor/void development by creating an account on GitHub.

github.com

커서

'IT 소식 > AI' 카테고리의 다른 글

스탠포드 MAST의 오픈소스 프로젝트, BLAST로 웹 브라우징 AI 효율적으로 서빙하기 (0)	2025.05.12
Infinity: 고성능 텍스트 임베딩 및 리랭킹 모델 서빙 엔진 (0)	2025.05.07
누구나 쉽게 사용하는 오픈소스 LLM 플랫폼, Transformer Lab 소개 (0)	2025.04.15

Infinity: 고성능 텍스트 임베딩 및 리랭킹 모델 서빙 엔진

화니. 2025. 5. 7. 15:18

2025. 5. 7. 15:18

Infinity는 텍스트 임베딩, 리랭킹 모델, CLIP, CLAP, Colpali 등을 고속으로 서빙할 수 있는 REST API 기반의 오픈소스 엔진입니다. Michael Feil이 개발하였으며, MIT 라이선스로 배포되어 자유롭게 사용할 수 있습니다.

주요 특징

다양한 모델 지원: HuggingFace의 임베딩, 리랭킹, CLIP, 문장 변환기 모델을 손쉽게 배포할 수 있습니다.
고속 추론 백엔드: PyTorch, Optimum(ONNX/TensorRT), CTranslate2 기반으로 NVIDIA CUDA, AMD ROCm, CPU, AWS INF2, Apple MPS 등 다양한 하드웨어를 지원합니다.
멀티모달 및 멀티모델 지원: 여러 모델을 동시에 운영하며, 텍스트와 이미지 등 다양한 입력을 처리할 수 있습니다.
간편한 사용법: FastAPI 기반으로 구축되어 있으며, CLI를 통해 환경 변수나 인자를 이용한 설정이 가능합니다.
OpenAI API 호환: OpenAI의 API 사양에 맞춰져 있어 기존 시스템과의 통합이 용이합니다.

활용 예시

Infinity는 검색 엔진, 추천 시스템, 문서 분류 등 다양한 분야에서 활용될 수 있습니다. 특히, 고속의 텍스트 임베딩과 리랭킹 기능은 대규모 데이터 처리에 적합합니다.

시작하기

Infinity에 대한 자세한 정보와 설치 방법은 공식 GitHub 저장소에서 확인할 수 있습니다:

🔗 https://github.com/michaelfeil/infinity

또한, 문서화된 가이드는 다음 링크에서 확인할 수 있습니다:

📄 https://michaelfeil.github.io/infinity/

Infinity를 통해 고성능의 텍스트 임베딩 및 리랭킹 서비스를 손쉽게 구축해보세요!

'IT 소식 > AI' 카테고리의 다른 글

Cursor대안 오픈소스 코드 에디터 Void (1)	2025.05.09
누구나 쉽게 사용하는 오픈소스 LLM 플랫폼, Transformer Lab 소개 (0)	2025.04.15
오픈 소스 AI 코드 리뷰 도구, Kodus 소개 (0)	2025.04.07

누구나 쉽게 사용하는 오픈소스 LLM 플랫폼, Transformer Lab 소개

화니. 2025. 4. 15. 09:49

2025. 4. 15. 09:49

Transformer Lab은 복잡한 코딩 없이도 누구나 대형 언어 모델(LLM)을 쉽게 활용할 수 있도록 도와주는 오픈소스 플랫폼입니다. 이 플랫폼은 macOS, Windows, Linux 등 다양한 운영체제에서 동작하며, 로컬 환경에서 모델 다운로드, 미세 조정, 평가, 실행까지 모두 가능합니다.

주요 기능으로는 클릭 한 번으로 Llama3, Mistral, Phi3 등 인기 모델 다운로드, Hugging Face와 Apple Silicon 기반의 미세 조정, RLHF 방식 학습(DPO, ORPO, SIMPO 등), RAG 기반 검색 및 임베딩 처리, 시각화 기반 모델 평가 도구 제공 등이 있습니다. 또한 REST API와 플러그인 시스템도 지원하여 다양한 외부 연동이 가능합니다.

Transformer Lab은 Mozilla의 후원을 받아 개발되었으며, 사용자는 공식 사이트에서 운영체제별 설치 파일을 받을 수 있습니다. 설치 가이드와 튜토리얼도 함께 제공되어, 누구나 쉽게 시작할 수 있습니다.

https://transformerlab.ai/

Hello from Transformer Lab | Transformer Lab

Documentation for LLM Toolkit, Transformer Lab

transformerlab.ai

명사: 변신 로봇, 변화시키는 것, 변화시키는 사람

'IT 소식 > AI' 카테고리의 다른 글

Infinity: 고성능 텍스트 임베딩 및 리랭킹 모델 서빙 엔진 (0)	2025.05.07
오픈 소스 AI 코드 리뷰 도구, Kodus 소개 (0)	2025.04.07
VGGT: 효율적인 3D 장면 재구성을 위한 비주얼 지오메트리 기반 트랜스포머 (0)	2025.03.26

PREV 이전 1 2 3 4 NEXT 다음

화니의 세상

IT 소식/AI

ScreenCoder: UI 스크린샷을 HTML/CSS 코드로 자동 변환하는 모듈형 AI 시스템

'IT 소식 > AI' 카테고리의 다른 글

스마트폰에서 직접 AI 구동하기: ‘Cactus’ 프레임워크 소개

주요 기능

'IT 소식 > AI' 카테고리의 다른 글

Chatterbox TTS — 오픈소스 최고 수준의 감정 제어 음성 합성 모델

주요 특징:

'IT 소식 > AI' 카테고리의 다른 글

AgenticSeek – 완전한 로컬 AI 비서, 클라우드 없이 자율적으로 작업 수행

'IT 소식 > AI' 카테고리의 다른 글

스탠포드 MAST의 오픈소스 프로젝트, BLAST로 웹 브라우징 AI 효율적으로 서빙하기

'IT 소식 > AI' 카테고리의 다른 글

Cursor대안 오픈소스 코드 에디터 Void

🧠 Void란?

🔧 주요 기능

'IT 소식 > AI' 카테고리의 다른 글

Infinity: 고성능 텍스트 임베딩 및 리랭킹 모델 서빙 엔진

주요 특징

활용 예시

시작하기

'IT 소식 > AI' 카테고리의 다른 글

누구나 쉽게 사용하는 오픈소스 LLM 플랫폼, Transformer Lab 소개

'IT 소식 > AI' 카테고리의 다른 글

+ Recent posts

티스토리툴바