<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Embeddings on ICE-ICE-BEAR-BLOG</title><link>https://ice-ice-bear.github.io/ko/tags/embeddings/</link><description>Recent content in Embeddings on ICE-ICE-BEAR-BLOG</description><generator>Hugo -- gohugo.io</generator><language>ko</language><lastBuildDate>Wed, 13 May 2026 00:00:00 +0900</lastBuildDate><atom:link href="https://ice-ice-bear.github.io/ko/tags/embeddings/index.xml" rel="self" type="application/rss+xml"/><item><title>옴니 모델 두 갈래 — 하나의 인덱스로 검색하고 하나의 프레임워크로 생성한다</title><link>https://ice-ice-bear.github.io/ko/posts/2026-05-13-multimodal-embeddings-digest/</link><pubDate>Wed, 13 May 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-05-13-multimodal-embeddings-digest/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post 옴니 모델 두 갈래 — 하나의 인덱스로 검색하고 하나의 프레임워크로 생성한다" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;같은 시기에 등장한 두 시스템이 같은 단어를 내걸었다 — &lt;strong&gt;&amp;ldquo;omni&amp;rdquo;&lt;/strong&gt;. 한쪽은 텍스트·이미지·비디오·오디오를 &lt;a class="link" href="https://en.wikipedia.org/wiki/Search_engine_indexing" target="_blank" rel="noopener"
 &gt;하나의 인덱스&lt;/a&gt;에 넣고 한 번에 검색하는 &lt;a class="link" href="https://en.wikipedia.org/wiki/Sentence_embedding" target="_blank" rel="noopener"
 &gt;임베딩&lt;/a&gt; 모델(&lt;a class="link" href="https://www.elastic.co/search-labs/blog/jina-embeddings-v5-omni-all-media-one-index" target="_blank" rel="noopener"
 &gt;jina-embeddings-v5-omni&lt;/a&gt;), 다른 한쪽은 고품질 생성과 정밀 편집을 한 프레임워크에 묶은 이미지 생성 &lt;a class="link" href="https://en.wikipedia.org/wiki/Foundation_model" target="_blank" rel="noopener"
 &gt;파운데이션 모델&lt;/a&gt;(&lt;a class="link" href="https://arxiv.org/abs/2605.10730" target="_blank" rel="noopener"
 &gt;Qwen-Image-2.0&lt;/a&gt;)이다. 검색과 생성이라는 정반대 방향의 작업이지만, 둘 다 &lt;strong&gt;&amp;ldquo;여러 modality를 위한 별도 파이프라인&amp;quot;이라는 디폴트를 버리고 하나로 합친다&lt;/strong&gt;는 같은 설계 철학 위에 서 있다.&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;graph TD
 Theme["옴니 설계 철학: &amp;lt;br/&amp;gt; modality별 파이프라인을 하나로 합친다"]
 Theme --&gt; Retrieval["검색 방향 &amp;lt;br/&amp;gt; (all-media one index)"]
 Theme --&gt; Generation["생성 방향 &amp;lt;br/&amp;gt; (generation + editing)"]

 Retrieval --&gt; J1["jina-embeddings-v5-omni"]
 J1 --&gt; J2["cross-modal projector"]
 J1 --&gt; J3["truncatable + BBQ 양자화"]
 J1 --&gt; J4["semantic_text 인덱스"]

 Generation --&gt; Q1["Qwen-Image-2.0"]
 Q1 --&gt; Q2["Qwen3-VL condition encoder"]
 Q1 --&gt; Q3["Multimodal Diffusion Transformer"]
 Q1 --&gt; Q4["1K 토큰 instruction"]&lt;/pre&gt;&lt;h2 id="1-jina-embeddings-v5-omni--모든-미디어-하나의-인덱스"&gt;1. jina-embeddings-v5-omni — 모든 미디어, 하나의 인덱스
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://www.elastic.co/search-labs" target="_blank" rel="noopener"
 &gt;Elastic Search Labs&lt;/a&gt;의 &lt;a class="link" href="https://www.elastic.co/search-labs/author/scott-martens" target="_blank" rel="noopener"
 &gt;Scott Martens&lt;/a&gt;가 2026년 5월 11일 공개한 &lt;a class="link" href="https://www.elastic.co/search-labs/blog/jina-embeddings-v5-omni-all-media-one-index" target="_blank" rel="noopener"
 &gt;jina-embeddings-v5-omni&lt;/a&gt; 소개 글이다.&lt;/p&gt;
&lt;h3 id="핵심"&gt;핵심
&lt;/h3&gt;&lt;p&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Multimedia_information_retrieval" target="_blank" rel="noopener"
 &gt;멀티모달 검색&lt;/a&gt;의 오래된 통증은 modality마다 인덱싱 파이프라인이 따로 논다는 점이다. 텍스트는 텍스트 임베딩, 이미지는 &lt;a class="link" href="https://en.wikipedia.org/wiki/Contrastive_Language-Image_Pre-training" target="_blank" rel="noopener"
 &gt;CLIP&lt;/a&gt; 계열, 오디오는 또 다른 모델 — 그리고 이들을 가로지르는 검색은 누더기로 봉합된다. v5-omni는 텍스트(약 100개 언어)·이미지·비디오·오디오를 &lt;strong&gt;하나의 &lt;a class="link" href="https://en.wikipedia.org/wiki/Elasticsearch" target="_blank" rel="noopener"
 &gt;Elasticsearch&lt;/a&gt; 인덱스&lt;/strong&gt;에 넣고 동시에 질의한다.&lt;/p&gt;
&lt;h3 id="어떻게"&gt;어떻게
&lt;/h3&gt;&lt;p&gt;전면 재학습이 아니라 &lt;strong&gt;모듈식 조립&lt;/strong&gt;이다. 사전학습된 모델에서 인코더만 떼어 와 — 비전 쪽은 &lt;a class="link" href="https://arxiv.org/abs/2502.14786" target="_blank" rel="noopener"
 &gt;SigLIP2&lt;/a&gt; 계열, 오디오 쪽은 &lt;a class="link" href="https://github.com/openai/whisper" target="_blank" rel="noopener"
 &gt;Whisper-large-v3&lt;/a&gt; — 기존 jina-embeddings-v5-text 백본 앞단의 전처리기로 붙인다. 핵심은 학습된 &lt;strong&gt;cross-modal projector&lt;/strong&gt;: 각 미디어 인코더의 출력을 텍스트 모델과 호환되는 임베딩 공간으로 번역하는 작은 어댑터다. small 버전 기준 신규 파라미터가 약 550만 개에 불과하다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;small&lt;/strong&gt;: 1024차원 임베딩, 32,768 토큰 컨텍스트, 확장 포함 16.6억 파라미터&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;nano&lt;/strong&gt;: 768차원 임베딩, 8,192 토큰 컨텍스트, 풀로드 시 10.04억 파라미터&lt;/li&gt;
&lt;li&gt;두 버전 모두 retrieval·clustering·classification·semantic similarity용 &lt;a class="link" href="https://arxiv.org/abs/2106.09685" target="_blank" rel="noopener"
 &gt;LoRA&lt;/a&gt; 어댑터를 task별로 갈아 끼운다&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="스토리지-현실-감각"&gt;스토리지 현실 감각
&lt;/h3&gt;&lt;p&gt;대규모 &lt;a class="link" href="https://en.wikipedia.org/wiki/Vector_database" target="_blank" rel="noopener"
 &gt;벡터 검색&lt;/a&gt;에서 임베딩 차원 수는 곧 비용이다. v5-omni는 두 가지로 답한다. 첫째 &lt;strong&gt;truncation&lt;/strong&gt; — &lt;a class="link" href="https://arxiv.org/abs/2205.13147" target="_blank" rel="noopener"
 &gt;Matryoshka 표현 학습&lt;/a&gt; 방식으로 임베딩을 native 차원에서 32차원까지 잘라낼 수 있고, 64바이트 크기에서 스토리지를 93% 줄인다. 둘째 &lt;a class="link" href="https://www.elastic.co/search-labs/blog/better-binary-quantization-lucene-elasticsearch" target="_blank" rel="noopener"
 &gt;Better Binary Quantization&lt;/a&gt;(BBQ) 호환 — Elasticsearch의 양자화와 맞물려 &amp;ldquo;거의 동일한 성능&amp;quot;으로 정밀도 요구를 낮춘다. 그리고 결정적으로, v5-omni가 만드는 &lt;strong&gt;텍스트 임베딩은 jina-embeddings-v5-text와 동일&lt;/strong&gt;하다. 기존 텍스트 인덱스를 그대로 멀티미디어 인덱스로 승격할 수 있다는 뜻이다.&lt;/p&gt;
&lt;h3 id="벤치마크"&gt;벤치마크
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;텍스트 검색: &lt;a class="link" href="https://github.com/embeddings-benchmark/mteb" target="_blank" rel="noopener"
 &gt;MMTEB&lt;/a&gt; 스위트에서 동급 사이즈 최상위&lt;/li&gt;
&lt;li&gt;시각 유사도: &amp;ldquo;자기보다 3배 큰 모델에만 졌다&amp;rdquo;; nano는 10~25배 큰 모델을 능가&lt;/li&gt;
&lt;li&gt;시각 문서 검색: 1B 미만으로 3~7B 모델과 경쟁&lt;/li&gt;
&lt;li&gt;오디오: &lt;a class="link" href="https://huggingface.co/datasets/mteb/MAEB" target="_blank" rel="noopener"
 &gt;MAEB&lt;/a&gt; 오디오 검색에서 상위권&lt;/li&gt;
&lt;li&gt;비디오 temporal grounding: &lt;a class="link" href="https://github.com/jiyanggao/TALL" target="_blank" rel="noopener"
 &gt;Charades-STA&lt;/a&gt;에서 55.57(ByteDance Seed 1.6의 29.30 대비), MomentSeeker 58.93&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="왜-지금-의미가-큰가"&gt;왜 지금 의미가 큰가
&lt;/h3&gt;&lt;p&gt;이건 &amp;ldquo;임베딩 모델 하나가 더 나왔다&amp;quot;가 아니다. &lt;strong&gt;검색 인프라의 추상화 계층을 한 단계 단순화한다.&lt;/strong&gt; Elasticsearch에서 &lt;code&gt;type: semantic_text&lt;/code&gt;로 인덱스를 만들고 &lt;code&gt;inference_id&lt;/code&gt;에 모델 이름만 넣으면, 텍스트가 아닌 입력은 Base64로 변환되어 같은 필드에 들어간다. modality 분기 로직이 애플리케이션 레벨에서 사라진다. &lt;a class="link" href="https://en.wikipedia.org/wiki/Retrieval-augmented_generation" target="_blank" rel="noopener"
 &gt;RAG&lt;/a&gt; 파이프라인을 짜본 사람이라면 이 단순화가 운영 비용의 어디를 깎는지 바로 안다.&lt;/p&gt;
&lt;h2 id="2-qwen-image-20--생성과-편집을-한-프레임워크로"&gt;2. Qwen-Image-2.0 — 생성과 편집을 한 프레임워크로
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://arxiv.org/abs/2605.10730" target="_blank" rel="noopener"
 &gt;arxiv 2605.10730&lt;/a&gt;, &lt;a class="link" href="https://qwenlm.github.io/" target="_blank" rel="noopener"
 &gt;Alibaba Qwen&lt;/a&gt; 팀의 75인 공동 저술, 2026년 5월 11일, &lt;a class="link" href="https://arxiv.org/list/cs.CV/recent" target="_blank" rel="noopener"
 &gt;cs.CV&lt;/a&gt;.&lt;/p&gt;
&lt;h3 id="핵심-1"&gt;핵심
&lt;/h3&gt;&lt;p&gt;&lt;strong&gt;Qwen-Image-2.0&lt;/strong&gt;은 고품질 생성과 정밀한 이미지 편집을 단일 프레임워크로 통합한 omni-capable 이미지 생성 파운데이션 모델이다. 기존 모델들이 여전히 약한 지점 — 초장문 텍스트 렌더링, 다국어 &lt;a class="link" href="https://en.wikipedia.org/wiki/Typography" target="_blank" rel="noopener"
 &gt;타이포그래피&lt;/a&gt;, 고해상도 &lt;a class="link" href="https://en.wikipedia.org/wiki/Photorealism" target="_blank" rel="noopener"
 &gt;photorealism&lt;/a&gt;, 견고한 instruction following, 효율적 배포 — 을 정조준한다. 특히 텍스트가 많고 구성이 복잡한 장면에서.&lt;/p&gt;
&lt;h3 id="어떻게-1"&gt;어떻게
&lt;/h3&gt;&lt;p&gt;핵심 구조는 두 부품의 결합이다. &lt;strong&gt;&lt;a class="link" href="https://qwenlm.github.io/" target="_blank" rel="noopener"
 &gt;Qwen3-VL&lt;/a&gt;을 condition encoder로&lt;/strong&gt; 쓰고, 그 위에 **Multimodal &lt;a class="link" href="https://arxiv.org/abs/2212.09748" target="_blank" rel="noopener"
 &gt;Diffusion Transformer&lt;/a&gt;**를 얹어 condition과 target을 함께 모델링한다. &lt;a class="link" href="https://en.wikipedia.org/wiki/Diffusion_model" target="_blank" rel="noopener"
 &gt;diffusion model&lt;/a&gt;의 denoising 백본을 &lt;a class="link" href="https://en.wikipedia.org/wiki/U-Net" target="_blank" rel="noopener"
 &gt;U-Net&lt;/a&gt; 대신 transformer로 가져간 &lt;a class="link" href="https://www.wpeebles.com/DiT" target="_blank" rel="noopener"
 &gt;DiT&lt;/a&gt; 계열이고, 여기에 대규모 데이터 큐레이션과 맞춤형 다단계 학습 파이프라인이 받친다. 이 구조 덕에 강한 &lt;a class="link" href="https://en.wikipedia.org/wiki/Multimodal_learning" target="_blank" rel="noopener"
 &gt;멀티모달 이해&lt;/a&gt;를 유지하면서도 생성과 편집을 유연하게 오간다.&lt;/p&gt;
&lt;h3 id="contribution"&gt;Contribution
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;슬라이드·포스터·인포그래픽·만화 같은 텍스트 풍부 콘텐츠 생성을 위해 &lt;strong&gt;최대 1K 토큰 instruction&lt;/strong&gt; 지원&lt;/li&gt;
&lt;li&gt;다국어 텍스트 충실도와 타이포그래피 대폭 개선&lt;/li&gt;
&lt;li&gt;더 풍부한 디테일, 사실적 텍스처, 일관된 조명으로 photorealistic 생성 강화&lt;/li&gt;
&lt;li&gt;다양한 스타일에 걸쳐 복잡한 프롬프트를 더 안정적으로 따름&lt;/li&gt;
&lt;li&gt;광범위한 &lt;a class="link" href="https://en.wikipedia.org/wiki/Human_evaluation_of_machine_translation" target="_blank" rel="noopener"
 &gt;human evaluation&lt;/a&gt;에서 이전 Qwen-Image 모델들을 생성·편집 양쪽에서 큰 폭으로 능가&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="왜-지금-의미가-큰가-1"&gt;왜 지금 의미가 큰가
&lt;/h3&gt;&lt;p&gt;생성형 이미지 모델의 역사는 &lt;strong&gt;생성과 편집의 분리&lt;/strong&gt;였다. &lt;a class="link" href="https://en.wikipedia.org/wiki/Stable_Diffusion" target="_blank" rel="noopener"
 &gt;Stable Diffusion&lt;/a&gt;으로 만들고, &lt;a class="link" href="https://github.com/lllyasviel/ControlNet" target="_blank" rel="noopener"
 &gt;ControlNet&lt;/a&gt;이나 &lt;a class="link" href="https://en.wikipedia.org/wiki/Inpainting" target="_blank" rel="noopener"
 &gt;inpainting&lt;/a&gt; 도구로 따로 고친다. Qwen-Image-2.0은 condition-target 공동 모델링으로 이 둘을 한 모델 안에 넣는다. condition encoder가 &lt;a class="link" href="https://en.wikipedia.org/wiki/Vision-language_model" target="_blank" rel="noopener"
 &gt;VLM&lt;/a&gt;이라는 점도 중요하다 — 텍스트 프롬프트뿐 아니라 이미지 조건도 같은 인코더가 이해하므로, &amp;ldquo;이 이미지를 이렇게 바꿔라&amp;quot;가 생성과 같은 경로를 탄다.&lt;/p&gt;
&lt;h2 id="묶어서-본-흐름"&gt;묶어서 본 흐름
&lt;/h2&gt;&lt;p&gt;검색 모델과 생성 모델, 정반대 작업인데 설계 결정이 데칼코마니처럼 겹친다.&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;항목&lt;/th&gt;
 &lt;th&gt;jina-embeddings-v5-omni&lt;/th&gt;
 &lt;th&gt;Qwen-Image-2.0&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;방향&lt;/td&gt;
 &lt;td&gt;멀티모달 → 임베딩 (검색)&lt;/td&gt;
 &lt;td&gt;조건 → 이미지 (생성/편집)&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;통합 대상&lt;/td&gt;
 &lt;td&gt;modality별 인덱싱 파이프라인&lt;/td&gt;
 &lt;td&gt;생성 모델 + 편집 모델&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;통합 수단&lt;/td&gt;
 &lt;td&gt;cross-modal projector&lt;/td&gt;
 &lt;td&gt;Qwen3-VL condition encoder&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;백본&lt;/td&gt;
 &lt;td&gt;jina-embeddings-v5-text&lt;/td&gt;
 &lt;td&gt;Multimodal Diffusion Transformer&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;재사용 전략&lt;/td&gt;
 &lt;td&gt;사전학습 인코더 + 작은 어댑터&lt;/td&gt;
 &lt;td&gt;VLM을 condition encoder로 전용&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;배포 관점&lt;/td&gt;
 &lt;td&gt;truncation·BBQ로 스토리지 절감&lt;/td&gt;
 &lt;td&gt;1K 토큰까지, 효율적 배포 강조&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;flowchart LR
 subgraph 검색
 T1["텍스트"] --&gt; P["cross-modal &amp;lt;br/&amp;gt; projector"]
 I1["이미지/비디오"] --&gt; P
 A1["오디오"] --&gt; P
 P --&gt; IDX["하나의 인덱스"]
 end
 subgraph 생성
 TXT["텍스트 조건"] --&gt; VL["Qwen3-VL &amp;lt;br/&amp;gt; condition encoder"]
 IMG["이미지 조건"] --&gt; VL
 VL --&gt; MMDIT["MM Diffusion &amp;lt;br/&amp;gt; Transformer"]
 MMDIT --&gt; OUT["생성/편집 결과"]
 end&lt;/pre&gt;&lt;p&gt;공통 패턴은 셋이다. 첫째, &lt;strong&gt;사전학습 자산의 재사용&lt;/strong&gt; — jina는 SigLIP2·Whisper 인코더를, Qwen은 Qwen3-VL을 통째로 끌어다 쓴다. 처음부터 학습하지 않는다. 둘째, &lt;strong&gt;공유 표현 공간으로의 투사&lt;/strong&gt; — jina의 projector는 모든 미디어를 텍스트 임베딩 공간으로, Qwen의 condition encoder는 텍스트·이미지 조건을 같은 diffusion 입력으로 모은다. 셋째, &lt;strong&gt;배포 비용을 1급 설계 요소로&lt;/strong&gt; — jina는 truncation과 &lt;a class="link" href="https://en.wikipedia.org/wiki/Quantization_%28signal_processing%29" target="_blank" rel="noopener"
 &gt;양자화&lt;/a&gt;, Qwen은 효율적 배포를 명시적 목표로 건다. 연구 데모가 아니라 운영 시스템을 전제로 한 설계다.&lt;/p&gt;
&lt;h2 id="인사이트"&gt;인사이트
&lt;/h2&gt;&lt;p&gt;&lt;code&gt;omni&lt;/code&gt;라는 단어가 두 시스템에 동시에 붙은 건 우연이 아니다. 멀티모달 AI의 1세대는 &lt;strong&gt;modality마다 전용 모델&lt;/strong&gt;이었다 — 이미지엔 CLIP, 오디오엔 Whisper, 텍스트엔 &lt;a class="link" href="https://en.wikipedia.org/wiki/BERT_%28language_model%29" target="_blank" rel="noopener"
 &gt;BERT&lt;/a&gt; 계열. 2세대는 이들을 &lt;a class="link" href="https://en.wikipedia.org/wiki/Multimodal_learning" target="_blank" rel="noopener"
 &gt;late fusion&lt;/a&gt;으로 봉합했다. 지금 보이는 흐름은 3세대다 — &lt;strong&gt;하나의 표현 공간, 하나의 프레임워크&lt;/strong&gt;. jina-v5-omni는 검색 쪽에서, Qwen-Image-2.0은 생성 쪽에서 같은 지점에 도달한다. 흥미로운 건 둘 다 &lt;em&gt;완전한 통합&lt;/em&gt;이 아니라 &lt;em&gt;영리한 재조립&lt;/em&gt;이라는 점이다. 사전학습된 인코더를 떼어 와 작은 어댑터나 공동 모델링 레이어로 묶는다. 처음부터 omni 모델을 학습하는 비용은 여전히 천문학적이므로, 현실적인 omni는 모듈 재사용에서 나온다. 그리고 두 사례 모두 &lt;strong&gt;배포 비용을 연구 단계에서 이미 설계에 박아 넣었다&lt;/strong&gt; — truncation, BBQ 양자화, 1K 토큰 instruction, 효율적 배포. 멀티모달이 데모를 넘어 인프라가 되는 단계에 들어섰다는 신호다. 다음 라운드의 질문은 &amp;ldquo;더 많은 modality&amp;quot;가 아니라 &amp;ldquo;이 통합을 얼마나 싸게, 얼마나 안정적으로 운영하느냐&amp;quot;가 될 것이다.&lt;/p&gt;
&lt;h2 id="참고"&gt;참고
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;Primary sources&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://www.elastic.co/search-labs/blog/jina-embeddings-v5-omni-all-media-one-index" target="_blank" rel="noopener"
 &gt;One index, all media: Introducing jina-embeddings-v5-omni&lt;/a&gt; — &lt;a class="link" href="https://www.elastic.co/search-labs/author/scott-martens" target="_blank" rel="noopener"
 &gt;Scott Martens&lt;/a&gt;, &lt;a class="link" href="https://www.elastic.co/search-labs" target="_blank" rel="noopener"
 &gt;Elastic Search Labs&lt;/a&gt; (2026-05-11)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2605.10730" target="_blank" rel="noopener"
 &gt;Qwen-Image-2.0 Technical Report (2605.10730)&lt;/a&gt; — &lt;a class="link" href="https://qwenlm.github.io/" target="_blank" rel="noopener"
 &gt;Alibaba Qwen&lt;/a&gt; 팀 75인 공저 (2026-05-11, &lt;a class="link" href="https://arxiv.org/list/cs.CV/recent" target="_blank" rel="noopener"
 &gt;cs.CV&lt;/a&gt;)&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Models &amp;amp; components&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2502.14786" target="_blank" rel="noopener"
 &gt;SigLIP2 (2502.14786)&lt;/a&gt; — jina-v5-omni가 비전 인코더로 차용&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/openai/whisper" target="_blank" rel="noopener"
 &gt;Whisper&lt;/a&gt; — jina-v5-omni가 오디오 인코더로 차용&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://qwenlm.github.io/" target="_blank" rel="noopener"
 &gt;Qwen&lt;/a&gt; — Qwen3-VL을 condition encoder로 쓰는 Qwen-Image-2.0의 모태&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2106.09685" target="_blank" rel="noopener"
 &gt;LoRA: Low-Rank Adaptation (2106.09685)&lt;/a&gt; — task별 어댑터의 기반 기법&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2205.13147" target="_blank" rel="noopener"
 &gt;Matryoshka Representation Learning (2205.13147)&lt;/a&gt; — truncatable 임베딩의 원리&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://arxiv.org/abs/2212.09748" target="_blank" rel="noopener"
 &gt;Scalable Diffusion Models with Transformers — DiT (2212.09748)&lt;/a&gt; — Multimodal Diffusion Transformer의 계보&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Background&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Multimedia_information_retrieval" target="_blank" rel="noopener"
 &gt;Multimedia information retrieval&lt;/a&gt; · &lt;a class="link" href="https://en.wikipedia.org/wiki/Vector_database" target="_blank" rel="noopener"
 &gt;Vector database&lt;/a&gt; · &lt;a class="link" href="https://en.wikipedia.org/wiki/Sentence_embedding" target="_blank" rel="noopener"
 &gt;Sentence embedding&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Diffusion_model" target="_blank" rel="noopener"
 &gt;Diffusion model&lt;/a&gt; · &lt;a class="link" href="https://en.wikipedia.org/wiki/Vision-language_model" target="_blank" rel="noopener"
 &gt;Vision-language model&lt;/a&gt; · &lt;a class="link" href="https://en.wikipedia.org/wiki/Multimodal_learning" target="_blank" rel="noopener"
 &gt;Multimodal learning&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Contrastive_Language-Image_Pre-training" target="_blank" rel="noopener"
 &gt;Contrastive Language-Image Pre-training (CLIP)&lt;/a&gt; — 1세대 멀티모달의 대표&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Retrieval-augmented_generation" target="_blank" rel="noopener"
 &gt;Retrieval-augmented generation&lt;/a&gt; — 멀티모달 검색이 들어가는 대표 파이프라인&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.elastic.co/search-labs/blog/better-binary-quantization-lucene-elasticsearch" target="_blank" rel="noopener"
 &gt;Better Binary Quantization&lt;/a&gt; — Elasticsearch BBQ 설명&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/embeddings-benchmark/mteb" target="_blank" rel="noopener"
 &gt;MTEB / MMTEB&lt;/a&gt; — 임베딩 벤치마크 스위트&lt;/li&gt;
&lt;/ul&gt;</description></item></channel></rss>