paper 57
- DiffuSeq: 확산 모델을 활용한 시퀀스-투-시퀀스 텍스트 생성의 혁신
- Latent Bridge Matching: 단 한 번의 추론으로 완성하는 고품질 이미지-이미지 변환 기술
- YOLOE: 모든 객체를 실시간으로 탐지 & 분할하는 혁신 기술
- 🔥 MotionFollower: GPU 메모리 80% 절약하면서 비디오 모션 완벽 편집하는 혁신 기술
- Spark-TTS: 인공지능이 당신의 목소리를 만드는 방법
- KV-Edit: 훈련 없이 배경을 완벽하게 보존하는 AI 이미지 편집
- OASIS: 100만 명의 AI 에이전트가 소셜 네트워크를 시뮬레이션한다
- UniTok: 이미지 생성과 이해를 동시에 수행하는 새로운 AI 토크나이저
- olmOCR: 비전-언어 모델로 PDF 문서의 한계를 뛰어넘다
- Sa2VA: 이미지 & 비디오의 밀집 객체 이해를 위한 혁신적 멀티모달 모델
- DICEPTION: 하나의 Diffusion 모델로 모든 시각 지각 태스크 해결
- PhotoDoodle: 예술적 이미지 편집을 위한 새로운 접근법
- Magma: 차세대 멀티모달 AI 에이전트
- 인간처럼 '생각'하는 AI: Reasoning LLMs의 발전 방향
- RailSem19 훑어보기
- DeepGEMM 훑어보기
- BiRefNet: 고해상도 이미지 세분화를 위한 최첨단 AI 모델
- SWE-Lancer: LLM이 실제 소프트웨어 엔지니어링으로 돈을 벌 수 있을까?
- OmniParser: GUI 자동화를 위한 순수 비전 기반 에이전트
- RAFT 훑어보기
- Sora 훑어보기
- Data Formulator 2: AI 기반 반복적 데이터 시각화 자동화
- InternVideo 톺아보기
- Soft Teacher 톺아보기: 반지도 객체 탐지의 새로운 기준
- HunyuanVideo 톺아보기: 오픈소스 비디오 생성 모델의 새로운 기준
- MILS 톺아보기
- MoAI 톺아보기: 차세대 멀티모달 AI 모델
- DEIM 톺아보기
- LLaVA 톺아보기
- D-FINE 톺아보기
- UCNCTrack 톺아보기
- HazardNet 톺아보기
- Diffusion 톺아보기
- StyleGAN 톺아보기
- StyleBland + StyleTransfer 톺아보기
- 2021 Efficient Deep Learning 톺아보기
- FaceNet 톺아보기
- Visualising Image Classification Models and Saliency Maps 톺아보기
- Grad CAM 톺아보기
- CAM 톺아보기
- EfficientDet 톺아보기 2
- EfficientDet 톺아보기 1
- DCN 톺아보기
- CornerNet 톺아보기
- AutoAugment 톺아보기
- FPN 톺아보기
- FSAF 톺아보기
- MMDetection 톺아보기
- SSD 톺아보기
- Xception MobileNet 톺아보기
- Deep Sort 톺아보기
- CenterNet 톺아보기
- SORT 톺아보기
- YOLOv2,YOLO 9000 톺아보기
- YOLO 톺아보기
- MCNN 끄적이기
- CycleGAN 끄적이기