<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Voice Ai on ICE-ICE-BEAR-BLOG</title><link>https://ice-ice-bear.github.io/ko/tags/voice-ai/</link><description>Recent content in Voice Ai on ICE-ICE-BEAR-BLOG</description><generator>Hugo -- gohugo.io</generator><language>ko</language><lastBuildDate>Thu, 07 May 2026 00:00:00 +0900</lastBuildDate><atom:link href="https://ice-ice-bear.github.io/ko/tags/voice-ai/index.xml" rel="self" type="application/rss+xml"/><item><title>OpenAI 2026-05-07 발표 5건 디지스트 — Cyber 모델, ChatGPT 광고, Trusted Contact, Realtime 음성, MRC 네트워크</title><link>https://ice-ice-bear.github.io/ko/posts/2026-05-07-openai-2026-05-07-announcement-digest/</link><pubDate>Thu, 07 May 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-05-07-openai-2026-05-07-announcement-digest/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post OpenAI 2026-05-07 발표 5건 디지스트 — Cyber 모델, ChatGPT 광고, Trusted Contact, Realtime 음성, MRC 네트워크" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;OpenAI가 같은 일자에 5건의 공식 발표를 동시에 풀었다. 묶어서 보면 모델·API·제품 정책·인프라 4개 레이어를 한 번에 친 형태다. 각각 따로 읽으면 평범한 발표지만, &lt;strong&gt;묶었을 때 OpenAI가 어디에 자원을 쏟고 있는지&lt;/strong&gt; 가 드러난다.&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;graph TD
 Day["OpenAI 2026-05-07"] --&gt; Model["모델 레이어"]
 Day --&gt; API["API 레이어"]
 Day --&gt; Product["제품 정책"]
 Day --&gt; Infra["인프라"]

 Model --&gt; Cyber["GPT-5.5-Cyber &amp;lt;br/&amp;gt; Trusted Access"]
 API --&gt; Voice["Realtime-2 / Translate / Whisper"]
 Product --&gt; Ads["ChatGPT 광고 한국 확장"]
 Product --&gt; Trust["Trusted Contact"]
 Infra --&gt; MRC["MRC 슈퍼컴 네트워킹"]&lt;/pre&gt;&lt;h2 id="1-gpt-55--gpt-55-cyber--trusted-access-for-cyber"&gt;1. GPT-5.5 + GPT-5.5-Cyber — Trusted Access for Cyber
&lt;/h2&gt;&lt;p&gt;OpenAI는 이미 풀린 &lt;a class="link" href="https://openai.com/index/gpt-5-5-instant/" target="_blank" rel="noopener"
 &gt;GPT-5.5&lt;/a&gt; 위에 &lt;a class="link" href="https://openai.com/index/gpt-5-5-with-trusted-access-for-cyber" target="_blank" rel="noopener"
 &gt;GPT-5.5-Cyber를 limited preview로 공개&lt;/a&gt;했다. 핵심 인프라 방어자 대상.&lt;/p&gt;
&lt;p&gt;&lt;a class="link" href="https://openai.com/index/scaling-trusted-access-for-cyber-defense/" target="_blank" rel="noopener"
 &gt;Trusted Access for Cyber(TAC)&lt;/a&gt;는 신원·신뢰 기반 프레임워크다. 검증된 방어자에게는 분류기 거부율을 낮춰 취약점 트리아지·악성코드 분석·바이너리 리버스·탐지 엔지니어링·패치 검증 같은 작업을 풀어준다.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;3단계 액세스:&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;GPT-5.5 (default)&lt;/strong&gt; — 일반 안전장치&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;GPT-5.5 with TAC&lt;/strong&gt; — 인증된 방어 작업용 안전장치 완화&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;GPT-5.5-Cyber&lt;/strong&gt; — 가장 허용적, 인가된 red teaming/pentest용&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;2026-06-01부터 TAC 사용자는 &lt;a class="link" href="https://openai.com/index/advanced-account-security/" target="_blank" rel="noopener"
 &gt;phishing-resistant Advanced Account Security&lt;/a&gt; 의무화. 조직은 SSO 차원에서 attest 가능.&lt;/p&gt;

 &lt;blockquote&gt;
 &lt;p&gt;&amp;ldquo;AI를 보안 공격에 쓰면 어떡하지&amp;rdquo; 우려에 대한 OpenAI식 답이다. 원천 차단 대신 &lt;strong&gt;신원 확인된 화이트리스트만 더 풀어주는 방식&lt;/strong&gt; 으로 정책을 분화했다.&lt;/p&gt;

 &lt;/blockquote&gt;
&lt;h2 id="2-chatgpt-광고--한국-확장"&gt;2. ChatGPT 광고 — 한국 확장
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://openai.com/index/testing-ads-in-chatgpt" target="_blank" rel="noopener"
 &gt;ChatGPT 광고 파일럿&lt;/a&gt;이 2026-02-09 미국에서 시작 → 5월부로 &lt;strong&gt;영국·멕시코·브라질·일본·한국&lt;/strong&gt;으로 확장된다. 광고주 등록은 &lt;a class="link" href="https://openai.com/advertisers/" target="_blank" rel="noopener"
 &gt;openai.com/advertisers&lt;/a&gt;, 광고 운영 원칙은 &lt;a class="link" href="https://openai.com/index/our-approach-to-advertising-and-expanding-access/" target="_blank" rel="noopener"
 &gt;별도 문서&lt;/a&gt;에 정리.&lt;/p&gt;
&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;항목&lt;/th&gt;
 &lt;th&gt;내용&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;적용 대상&lt;/td&gt;
 &lt;td&gt;로그인한 성인의 Free / Go 티어&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;미적용&lt;/td&gt;
 &lt;td&gt;Plus / Pro / Business / Enterprise / Education&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;광고 영향&lt;/td&gt;
 &lt;td&gt;답변에 영향 없음, 별도 라벨링&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;광고주 권한&lt;/td&gt;
 &lt;td&gt;대화·메모리·개인정보 접근 불가, 집계 통계만 수신&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;옵트아웃&lt;/td&gt;
 &lt;td&gt;Free 티어에서 일일 무료 메시지 수 감소 대가로 가능&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;노출 제외&lt;/td&gt;
 &lt;td&gt;18세 미만 추정 계정, 건강/정신건강/정치 토픽 근처&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;&lt;strong&gt;한국이 직접 영향권에 들어왔다.&lt;/strong&gt; AI 무료 사용자의 비즈니스 모델이 광고 기반으로 이행하는 첫 큰 전환점이다. 새로운 광고 구매 모델은 &lt;a class="link" href="https://openai.com/index/new-ways-to-buy-chatgpt-ads/" target="_blank" rel="noopener"
 &gt;별도 발표&lt;/a&gt;로 예고됐다.&lt;/p&gt;
&lt;h2 id="3-trusted-contact-in-chatgpt"&gt;3. Trusted Contact in ChatGPT
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://openai.com/index/introducing-trusted-contact-in-chatgpt" target="_blank" rel="noopener"
 &gt;Trusted Contact&lt;/a&gt; — 자해/심각한 안전 우려가 감지되면, 사용자가 &lt;strong&gt;미리 지정한 1인의 신뢰할 수 있는 어른&lt;/strong&gt;에게 알림이 가는 옵트인 기능. 18+ 글로벌, &lt;strong&gt;한국은 19+&lt;/strong&gt; 로 적용된다. 운영 가이드는 &lt;a class="link" href="https://help.openai.com/en/articles/20001105-trusted-contacts-in-chatgpt" target="_blank" rel="noopener"
 &gt;도움말 페이지&lt;/a&gt;에서 확인 가능.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;흐름:&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;자동 모니터링 → 사용자에게 &amp;ldquo;Trusted Contact에게 알릴 수도 있다&amp;rdquo; 고지&lt;/li&gt;
&lt;li&gt;전담 인간 검토팀이 1시간 이내 검토&lt;/li&gt;
&lt;li&gt;이메일/SMS/in-app 알림 발송&lt;/li&gt;
&lt;li&gt;알림 내용은 의도적으로 제한적 — 구체 대화 내용·트랜스크립트는 포함하지 않음&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;기존 &lt;a class="link" href="https://chatgpt.com/parent-resources/" target="_blank" rel="noopener"
 &gt;부모 알림 기능&lt;/a&gt;(미성년 계정용)을 성인까지 확장한 형태. 미국심리학회(&lt;a class="link" href="https://www.apa.org/" target="_blank" rel="noopener"
 &gt;APA&lt;/a&gt;) 와 &lt;a class="link" href="https://openai.com/index/strengthening-chatgpt-responses-in-sensitive-conversations/" target="_blank" rel="noopener"
 &gt;170명+ 정신건강 전문가&lt;/a&gt;, &lt;a class="link" href="https://openai.com/index/openai-for-healthcare/" target="_blank" rel="noopener"
 &gt;OpenAI 글로벌 의사 네트워크&lt;/a&gt;와 협력해 설계.&lt;/p&gt;
&lt;p&gt;AI가 단순 응답에서 &lt;strong&gt;실세계 인적 안전망과 연결하는 매개&lt;/strong&gt;로 역할이 확대된다. 자살 예방 상담은 별도로 &lt;a class="link" href="https://openai.com/index/helping-people-when-they-need-it-most/" target="_blank" rel="noopener"
 &gt;지역별 핫라인 안내&lt;/a&gt;도 유지.&lt;/p&gt;
&lt;h2 id="4-realtime-음성-모델-3종--gpt-realtime-2--translate--whisper"&gt;4. Realtime 음성 모델 3종 — GPT-Realtime-2 / Translate / Whisper
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api" target="_blank" rel="noopener"
 &gt;가장 개발자 직접 영향이 큰 발표&lt;/a&gt;. 3개 모델이 동시에 &lt;a class="link" href="https://platform.openai.com/audio/realtime" target="_blank" rel="noopener"
 &gt;Realtime API&lt;/a&gt;로 공개됐다.&lt;/p&gt;
&lt;h3 id="gpt-realtime-2"&gt;GPT-Realtime-2
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;컨텍스트 32K → 128K&lt;/strong&gt; 로 4배 확장 (긴 agentic workflow)&lt;/li&gt;
&lt;li&gt;Preambles (&amp;ldquo;잠시만요, 확인해볼게요&amp;rdquo; 같은 짧은 도입어), 병렬 tool call + tool transparency, recovery 동작 강화&lt;/li&gt;
&lt;li&gt;추론 강도 5단계 선택 (minimal / low / medium / high / xhigh, default = low)&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://artificialanalysis.ai/methodology/speech-to-speech-benchmarking" target="_blank" rel="noopener"
 &gt;Big Bench Audio&lt;/a&gt; +15.2%, &lt;a class="link" href="https://labs.scale.com/leaderboard/audiomc-audio" target="_blank" rel="noopener"
 &gt;Audio MultiChallenge&lt;/a&gt; +13.8% 향상&lt;/li&gt;
&lt;li&gt;도입 사례: &lt;a class="link" href="https://www.zillow.com/" target="_blank" rel="noopener"
 &gt;Zillow&lt;/a&gt; 의 부동산 음성 어시스턴트, &lt;a class="link" href="https://www.priceline.com/" target="_blank" rel="noopener"
 &gt;Priceline&lt;/a&gt; 의 여행 트립 매니저&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="gpt-realtime-translate"&gt;GPT-Realtime-Translate
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;입력 70+ 언어 / 출력 13개 언어 실시간 번역 + 트랜스크립션&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.bolna.ai/" target="_blank" rel="noopener"
 &gt;BolnaAI&lt;/a&gt; 케이스: 힌디·타밀·텔루구에서 WER −12.5%&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.telekom.com/" target="_blank" rel="noopener"
 &gt;Deutsche Telekom&lt;/a&gt; 다국어 voice support 적용 중&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="gpt-realtime-whisper"&gt;GPT-Realtime-Whisper
&lt;/h3&gt;&lt;ul&gt;
&lt;li&gt;저지연 스트리밍 STT — 회의/방송/교실 자막용&lt;/li&gt;
&lt;/ul&gt;
&lt;h3 id="가격-realtime-api"&gt;가격 (Realtime API)
&lt;/h3&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;모델&lt;/th&gt;
 &lt;th&gt;가격&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-2&lt;/td&gt;
 &lt;td&gt;$32 / 1M audio input, $64 / 1M audio output, cached input $0.40 / 1M&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-Translate&lt;/td&gt;
 &lt;td&gt;$0.034 / min&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;GPT-Realtime-Whisper&lt;/td&gt;
 &lt;td&gt;$0.017 / min&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;p&gt;추가 안전장치는 &lt;a class="link" href="https://openai.github.io/openai-agents-js/guides/guardrails/" target="_blank" rel="noopener"
 &gt;OpenAI Agents SDK&lt;/a&gt;의 guardrails로 확장 가능, &lt;a class="link" href="https://platform.openai.com/docs/guides/your-data#data-residency-controls" target="_blank" rel="noopener"
 &gt;EU 데이터 레지던시&lt;/a&gt;도 지원. 시작은 &lt;a class="link" href="https://openai.com/codex/" target="_blank" rel="noopener"
 &gt;Codex&lt;/a&gt;에 prompt 한 줄 박는 식으로도 가능하다.&lt;/p&gt;
&lt;p&gt;보이스 에이전트 빌더가 더 빠르고 똑똑한 모델을 즉시 쓸 수 있게 됐다. &lt;strong&gt;128K context와 parallel tool call이 진짜 중요&lt;/strong&gt; — 이게 있어야 길고 복잡한 voice agent flow가 끊기지 않는다.&lt;/p&gt;
&lt;h2 id="5-mrc--openai-슈퍼컴퓨터-네트워킹"&gt;5. MRC — OpenAI 슈퍼컴퓨터 네트워킹
&lt;/h2&gt;&lt;p&gt;가장 깊이 있는 엔지니어링 글이다. &lt;strong&gt;MRC(&lt;a class="link" href="https://openai.com/index/mrc-supercomputer-networking" target="_blank" rel="noopener"
 &gt;Multipath Reliable Connection&lt;/a&gt;)&lt;/strong&gt; 는 800Gb/s 네트워크 인터페이스에 내장된 새 프로토콜로, RoCE를 SRv6 source routing으로 확장한다. 전체 스펙은 &lt;a class="link" href="https://cdn.openai.com/pdf/resilient-ai-supercomputer-networking-using-mrc-and-srv6.pdf" target="_blank" rel="noopener"
 &gt;공동저술 논문&lt;/a&gt; 으로 공개.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;핵심 아이디어 3가지:&lt;/strong&gt;&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Multi-plane 토폴로지&lt;/strong&gt; — 800Gb/s 인터페이스를 100Gb/s × 8개로 쪼개 8개 병렬 plane. 64포트 800G 스위치 = 512포트 100G로 사용 → &lt;strong&gt;131K GPU를 2-tier 스위치로&lt;/strong&gt; 연결 가능 (기존엔 3-4 tier 필요).&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;Packet spraying&lt;/strong&gt; — 한 transfer를 단일 경로가 아니라 수백 경로에 spray. 패킷이 out-of-order 도착해도 final memory address가 헤더에 있어서 destination에서 정렬.&lt;/p&gt;
&lt;/li&gt;
&lt;li&gt;
&lt;p&gt;&lt;strong&gt;SRv6 source routing&lt;/strong&gt; — BGP 같은 dynamic routing 폐기. 송신자가 IPv6 주소에 경로를 인코딩, 스위치는 자기 ID만 확인하고 다음으로 forward. 정적 라우팅 테이블만 유지.&lt;/p&gt;
&lt;/li&gt;
&lt;/ol&gt;
&lt;p&gt;&lt;strong&gt;결과:&lt;/strong&gt; 링크 fail이 분당 여러 번 일어나도 동기 학습에 측정 가능한 영향 없음. tier-1 스위치 4대 reboot도 학습팀과 협의 없이 진행 가능.&lt;/p&gt;
&lt;p&gt;이 작업은 &lt;strong&gt;5사 컨소시엄&lt;/strong&gt; 협업: &lt;a class="link" href="https://www.amd.com/en/blogs/2026/amd-advances-ai-networking-at-scale-with-mrc.html" target="_blank" rel="noopener"
 &gt;AMD&lt;/a&gt; · &lt;a class="link" href="https://www.broadcom.com/blog/enabling-ai-networking-scale-with-multi-path-reliable-connections-mrc-" target="_blank" rel="noopener"
 &gt;Broadcom&lt;/a&gt; · &lt;a class="link" href="https://aka.ms/BuildingResilientNetworksForAISupercomputers" target="_blank" rel="noopener"
 &gt;Microsoft&lt;/a&gt; · &lt;a class="link" href="https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/" target="_blank" rel="noopener"
 &gt;NVIDIA&lt;/a&gt; · Intel. 스펙은 &lt;a class="link" href="https://www.opencompute.org/" target="_blank" rel="noopener"
 &gt;Open Compute Project&lt;/a&gt; 에 기여로 풀렸다. 이미 &lt;a class="link" href="https://openai.com/index/building-the-compute-infrastructure-for-the-intelligence-age/" target="_blank" rel="noopener"
 &gt;Stargate (OCI Abilene, Texas)&lt;/a&gt; 의 NVIDIA GB200 클러스터 + Microsoft Fairwater에 배포 완료. UEC(&lt;a class="link" href="https://ultraethernet.org/" target="_blank" rel="noopener"
 &gt;Ultra Ethernet Consortium&lt;/a&gt;) 와 IBTA(&lt;a class="link" href="https://www.infinibandta.org/" target="_blank" rel="noopener"
 &gt;InfiniBand Trade Association&lt;/a&gt;) 표준을 기반으로 한다.&lt;/p&gt;
&lt;p&gt;&lt;strong&gt;AI training의 병목이 GPU에서 네트워크로 옮겨가는 시대의 인프라 표준.&lt;/strong&gt; frontier model 학습은 단일 회사 작품이 아니라 &lt;strong&gt;chip + switch + protocol 5사 컨소시엄&lt;/strong&gt;의 결과물이 됐다.&lt;/p&gt;
&lt;h2 id="묶어서-본-패턴"&gt;묶어서 본 패턴
&lt;/h2&gt;&lt;p&gt;OpenAI 단일 일자 발표 5건이 정확히 4개 레이어를 하나씩 친 형태:&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;flowchart LR
 A["모델 레이어"] --&gt; B["GPT-5.5-Cyber"]
 C["API 레이어"] --&gt; D["Realtime-2 / Translate / Whisper"]
 E["제품 정책"] --&gt; F["광고 한국 / Trusted Contact"]
 G["인프라 레이어"] --&gt; H["MRC + Multi-plane + SRv6"]&lt;/pre&gt;&lt;p&gt;&amp;ldquo;오늘 OpenAI가 뭐 했어?&amp;rdquo; 라는 질문에 한 줄로 답한다면: &lt;strong&gt;&amp;ldquo;보안 모델 풀고, 광고 한국에 풀고, 자해 안전망 풀고, 음성 모델 풀고, 슈퍼컴 네트워크 표준 풀었다.&amp;rdquo;&lt;/strong&gt;&lt;/p&gt;
&lt;h2 id="인사이트"&gt;인사이트
&lt;/h2&gt;&lt;p&gt;다섯 발표가 같은 시각에 나왔다는 점 자체가 메시지다. OpenAI는 이제 &lt;strong&gt;동시에 4개 레이어를 끌고 가는 풀 스택 회사&lt;/strong&gt; — 모델만 잘 만드는 회사가 아니라 모델·API·정책·인프라를 모두 자기 표준으로 시장에 박는 회사다. 한국 시장에는 광고와 Trusted Contact(19+) 두 곳에서 직접 영향이 들어왔고, 개발자에게는 Realtime 음성 3종이 즉시 돈 버는 플레이가 됐다. MRC가 OCP에 기여로 풀린 것은 인프라 표준의 주도권 쟁탈전을 시작했다는 신호 — 단일 회사 작품을 넘어 chip + switch + protocol 컨소시엄을 자기 중심으로 모은다. &lt;strong&gt;다음 분기 가장 빠르게 변할 영역은 보이스 에이전트 빌더 시장&lt;/strong&gt;이다. GPT-5.5-Cyber는 진영 분화의 첫 사례이고, 이후 다른 도메인(법무·의료)에서도 유사 trusted-access 패턴이 나올 가능성이 높다.&lt;/p&gt;
&lt;h2 id="참고"&gt;참고
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;OpenAI 발표 5건&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://openai.com/index/gpt-5-5-with-trusted-access-for-cyber" target="_blank" rel="noopener"
 &gt;GPT-5.5 + Trusted Access for Cyber&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://openai.com/index/testing-ads-in-chatgpt" target="_blank" rel="noopener"
 &gt;Testing ads in ChatGPT&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://openai.com/index/introducing-trusted-contact-in-chatgpt" target="_blank" rel="noopener"
 &gt;Introducing Trusted Contact in ChatGPT&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api" target="_blank" rel="noopener"
 &gt;Advancing voice intelligence with new models in the API&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://openai.com/index/mrc-supercomputer-networking" target="_blank" rel="noopener"
 &gt;MRC supercomputer networking&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;MRC 협력사 블로그 / 논문&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;논문 PDF: &lt;a class="link" href="https://cdn.openai.com/pdf/resilient-ai-supercomputer-networking-using-mrc-and-srv6.pdf" target="_blank" rel="noopener"
 &gt;Resilient AI Supercomputer Networking using MRC and SRv6&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.amd.com/en/blogs/2026/amd-advances-ai-networking-at-scale-with-mrc.html" target="_blank" rel="noopener"
 &gt;AMD: AI networking at scale with MRC&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.broadcom.com/blog/enabling-ai-networking-scale-with-multi-path-reliable-connections-mrc-" target="_blank" rel="noopener"
 &gt;Broadcom: Enabling AI networking scale with MRC&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://aka.ms/BuildingResilientNetworksForAISupercomputers" target="_blank" rel="noopener"
 &gt;Microsoft: Building Resilient Networks for AI Supercomputers&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://blogs.nvidia.com/blog/spectrum-x-ethernet-mrc/" target="_blank" rel="noopener"
 &gt;NVIDIA: Spectrum-X Ethernet + MRC&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.opencompute.org/" target="_blank" rel="noopener"
 &gt;Open Compute Project&lt;/a&gt; · &lt;a class="link" href="https://ultraethernet.org/" target="_blank" rel="noopener"
 &gt;UEC&lt;/a&gt; · &lt;a class="link" href="https://www.infinibandta.org/" target="_blank" rel="noopener"
 &gt;IBTA&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;음성 모델 벤치마크&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://artificialanalysis.ai/methodology/speech-to-speech-benchmarking" target="_blank" rel="noopener"
 &gt;Big Bench Audio (Artificial Analysis)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://labs.scale.com/leaderboard/audiomc-audio" target="_blank" rel="noopener"
 &gt;Audio MultiChallenge (Scale Labs)&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;관련 OpenAI 페이지&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://platform.openai.com/audio/realtime" target="_blank" rel="noopener"
 &gt;Realtime API Playground&lt;/a&gt; · &lt;a class="link" href="https://openai.com/codex/" target="_blank" rel="noopener"
 &gt;Codex&lt;/a&gt; · &lt;a class="link" href="https://openai.github.io/openai-agents-js/guides/guardrails/" target="_blank" rel="noopener"
 &gt;Agents SDK guardrails&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://openai.com/index/building-the-compute-infrastructure-for-the-intelligence-age/" target="_blank" rel="noopener"
 &gt;Stargate / Compute Infrastructure&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://openai.com/index/advanced-account-security/" target="_blank" rel="noopener"
 &gt;Advanced Account Security&lt;/a&gt; · &lt;a class="link" href="https://openai.com/index/our-approach-to-advertising-and-expanding-access/" target="_blank" rel="noopener"
 &gt;Advertising principles&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description></item><item><title>OpenAI 음성 AI는 어떻게 저지연을 유지하는가 — Kubernetes에 WebRTC를 욱여넣은 relay + transceiver 아키텍처</title><link>https://ice-ice-bear.github.io/ko/posts/2026-05-05-openai-low-latency-voice-webrtc-kubernetes/</link><pubDate>Tue, 05 May 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-05-05-openai-low-latency-voice-webrtc-kubernetes/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post OpenAI 음성 AI는 어떻게 저지연을 유지하는가 — Kubernetes에 WebRTC를 욱여넣은 relay + transceiver 아키텍처" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;OpenAI Engineering이 &lt;a class="link" href="https://openai.com/index/delivering-low-latency-voice-ai-at-scale/" target="_blank" rel="noopener"
 &gt;Delivering Low-Latency Voice AI at Scale&lt;/a&gt;에서 Realtime 음성 모델 뒤에 깔린 네트워크 인프라를 공개했다. 핵심은 &lt;a class="link" href="https://webrtc.org/" target="_blank" rel="noopener"
 &gt;WebRTC&lt;/a&gt; 트래픽을 Kubernetes 위에서 돌리기 위해 stateless &lt;strong&gt;Global Relay&lt;/strong&gt;와 stateful &lt;strong&gt;Transceiver&lt;/strong&gt;를 분리하고, &lt;a class="link" href="https://webrtc.org/getting-started/peer-connections" target="_blank" rel="noopener"
 &gt;ICE&lt;/a&gt; ufrag에 라우팅 메타데이터를 인코딩해 핫 패스 lookup을 지운 디자인이다. 같은 시기에 발표된 MRC, Realtime API 와 합쳐 보면 OpenAI 인프라 스택의 윤곽이 또렷해진다.&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;graph TD
 Client["클라이언트 &amp;lt;br/&amp;gt; 표준 WebRTC"] --&gt; Relay["Global Relay &amp;lt;br/&amp;gt; stateless UDP forwarder &amp;lt;br/&amp;gt; VIP + 단일 포트 + Go"]
 Relay --&gt; TX["Transceiver &amp;lt;br/&amp;gt; stateful WebRTC endpoint &amp;lt;br/&amp;gt; ICE/DTLS/SRTP 소유"]
 TX --&gt; Backend["Inference / STT / TTS &amp;lt;br/&amp;gt; Orchestration"]
 Relay -.-&gt; Redis["Redis 세션 캐시 &amp;lt;br/&amp;gt; client to transceiver 매핑"]&lt;/pre&gt;&lt;h2 id="왜-webrtc인가"&gt;왜 WebRTC인가
&lt;/h2&gt;&lt;p&gt;&lt;a class="link" href="https://webrtc.org/" target="_blank" rel="noopener"
 &gt;WebRTC&lt;/a&gt;는 브라우저·모바일·서버 사이의 저지연 오디오·비디오·데이터 전송 표준이다. NAT 통과를 위한 ICE, 암호화를 위한 DTLS와 SRTP, 코덱 협상, RTCP 품질 제어, 에코 캔슬, 지터 버퍼처럼 까다로운 부분을 모두 표준으로 묶어둔 게 가치다 (관련 RFC 묶음은 &lt;a class="link" href="https://webrtc.org/getting-started/overview" target="_blank" rel="noopener"
 &gt;webrtc.org standards&lt;/a&gt;에서 인덱싱된다).&lt;/p&gt;
&lt;p&gt;음성 AI에 결정적인 속성은 &lt;strong&gt;오디오가 연속 스트림으로 들어온다&lt;/strong&gt;는 점이다. 사용자가 말하는 동안 모델은 transcribe, reason, tool call, 음성 생성을 동시에 시작할 수 있다. 푸시-투-토크가 아니라 진짜 대화가 되는 이유다.&lt;/p&gt;
&lt;p&gt;또 하나 눈여겨볼 점: WebRTC 표준을 만든 &lt;a class="link" href="https://en.wikipedia.org/wiki/Justin_Uberti" target="_blank" rel="noopener"
 &gt;Justin Uberti&lt;/a&gt;와 Pion 메인테이너 &lt;a class="link" href="https://github.com/Sean-Der" target="_blank" rel="noopener"
 &gt;Sean DuBois&lt;/a&gt;, 그리고 Discord에서 음성 인프라를 깐 인력들 (&lt;a class="link" href="https://discord.com/category/engineering" target="_blank" rel="noopener"
 &gt;discord.com 엔지니어링 블로그&lt;/a&gt;) 까지 OpenAI에 모였다. 단순 인재 영입을 넘어 인프라 트랙의 방향을 통째로 결정하는 acquihire 신호다. 이 흐름의 중심에 Go로 작성된 &lt;a class="link" href="https://github.com/pion/webrtc" target="_blank" rel="noopener"
 &gt;Pion WebRTC&lt;/a&gt; (16k+ stars) 가 있다.&lt;/p&gt;
&lt;h2 id="미디어-아키텍처-선택--sfu-vs-transceiver"&gt;미디어 아키텍처 선택 — SFU vs Transceiver
&lt;/h2&gt;&lt;p&gt;회의·교실·다자간 콜이 메인이라면 SFU(Selective Forwarding Unit)를 쓴다. 참여자마다 별도의 WebRTC 연결을 유지하고 AI는 또 한 명의 참여자처럼 끼는 구조다. 다자간 패턴에서 효율적이라 &lt;a class="link" href="https://docs.livekit.io/home/self-hosting/kubernetes/" target="_blank" rel="noopener"
 &gt;LiveKit&lt;/a&gt;, &lt;a class="link" href="https://mediasoup.discourse.group/" target="_blank" rel="noopener"
 &gt;mediasoup&lt;/a&gt;, &lt;a class="link" href="https://github.com/l7mp/stunner" target="_blank" rel="noopener"
 &gt;l7mp/stunner&lt;/a&gt; 같은 Kubernetes WebRTC 게이트웨이가 모두 SFU 패턴을 가정한다.&lt;/p&gt;
&lt;p&gt;OpenAI 워크로드는 압도적으로 1:1이다. 사용자 한 명과 모델 한 명, 또는 앱 하나와 에이전트 하나. 이 경우엔 &lt;strong&gt;Transceiver model&lt;/strong&gt;이 더 깔끔하다. 엣지 서비스가 클라이언트 WebRTC 세션을 종단하고, 미디어와 이벤트를 더 단순한 내부 프로토콜로 바꿔서 추론·STT·TTS·tool use·오케스트레이션 백엔드로 넘긴다. &lt;strong&gt;백엔드는 일반 서비스처럼 스케일&lt;/strong&gt;한다. WebRTC peer 행세를 할 필요가 없다.&lt;/p&gt;
&lt;h2 id="핵심-문제--webrtc와-kubernetes의-충돌"&gt;핵심 문제 — WebRTC와 Kubernetes의 충돌
&lt;/h2&gt;&lt;p&gt;전통적 WebRTC는 &lt;strong&gt;세션당 UDP 포트 하나&lt;/strong&gt;를 잡는다. 동시 수만 세션이면 수만 개 공개 UDP 포트가 노출돼야 한다는 뜻이다. Kubernetes 위에선 이게 망가진다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;클라우드 LB와 k8s Service는 한 서비스에 수만 UDP 포트를 다는 운영을 가정하지 않는다&lt;/li&gt;
&lt;li&gt;큰 UDP 포트 범위는 외부 노출 표면이 넓어지고 정책 감사가 어렵다&lt;/li&gt;
&lt;li&gt;pod 추가·삭제·재스케줄될 때마다 포트 범위를 reserve, advertise 해야 해서 오토스케일링과 충돌한다&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;대안은 &lt;strong&gt;서버당 단일 UDP 포트&lt;/strong&gt; + 애플리케이션 레이어 demux. 그런데 두 번째 문제가 따라온다. ICE/DTLS는 stateful이라 세션을 만든 프로세스가 그 세션의 패킷을 끝까지 받아야 한다. 같은 세션 패킷이 다른 프로세스로 가면 setup이 깨지거나 미디어가 망가진다.&lt;/p&gt;
&lt;p&gt;목표가 분명해진다: &lt;strong&gt;작고 고정된 공개 UDP surface&lt;/strong&gt; + 모든 패킷이 정확한 owning transceiver로 라우팅되도록.&lt;/p&gt;
&lt;h2 id="해법--relay와-transceiver-분리"&gt;해법 — Relay와 Transceiver 분리
&lt;/h2&gt;&lt;pre class="mermaid" style="visibility:hidden"&gt;sequenceDiagram
 participant C as Client
 participant R as Relay (Stateless)
 participant T as Transceiver (Stateful)
 participant B as Backend

 C-&gt;&gt;T: Signaling (SDP offer)
 T--&gt;&gt;C: SDP answer with relay VIP + ufrag
 C-&gt;&gt;R: 첫 STUN binding request (ufrag echo)
 R-&gt;&gt;R: ufrag 파싱 → cluster + transceiver decode
 R-&gt;&gt;T: forward
 T-&gt;&gt;R: ACK
 Note over C,T: 이후 패킷은 세션 캐시로 즉시 forward
 C-&gt;&gt;R: DTLS / SRTP / RTCP
 R-&gt;&gt;T: forward
 T-&gt;&gt;B: 단순 내부 프로토콜&lt;/pre&gt;&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;Relay&lt;/strong&gt;는 미디어를 복호화하지 않는다. ICE state machine을 돌리지 않고, 코덱 협상도 하지 않는다. 패킷 메타데이터만 읽어 forward만 한다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Transceiver&lt;/strong&gt;는 평소대로 WebRTC 흐름을 처리한다. ICE, DTLS, SRTP, 세션 lifecycle 전부 소유한다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;클라이언트 입장에선 변화가 없다.&lt;/strong&gt; 표준 WebRTC만 쓴다. 브라우저·모바일 호환성은 그대로다.&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="핵심-트릭--ice-ufrag-라우팅"&gt;핵심 트릭 — ICE ufrag 라우팅
&lt;/h2&gt;&lt;p&gt;첫 패킷이 도착했을 때 그 세션을 누가 소유하는지 어떻게 알지? 외부 lookup 서비스에 의존하면 핫 패스에 latency가 박힌다.&lt;/p&gt;
&lt;p&gt;해법: &lt;strong&gt;ICE username fragment(ufrag)&lt;/strong&gt; 에 라우팅 힌트를 인코딩한다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;Signaling 단계에서 transceiver가 세션 state를 할당하고, SDP answer에 shared relay VIP + UDP port + 서버 측 ufrag를 함께 반환한다&lt;/li&gt;
&lt;li&gt;첫 미디어 패킷인 STUN binding request에 그 ufrag가 echo된다&lt;/li&gt;
&lt;li&gt;Relay는 첫 STUN 패킷의 ufrag만 파싱해 목적 cluster와 owning transceiver를 디코드 후 forward&lt;/li&gt;
&lt;li&gt;이후의 DTLS·RTP·RTCP 패킷은 세션 캐시를 통해 곧장 forward (ufrag 재파싱 없음)&lt;/li&gt;
&lt;li&gt;Relay가 재시작되더라도 다음 STUN 패킷이 다시 ufrag를 보고 세션을 재구축. 추가 안전장치로 &lt;code&gt;&amp;lt;client IP+port, transceiver IP+port&amp;gt;&lt;/code&gt; 매핑을 Redis에 캐시&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;프로토콜 native field에 라우팅 메타데이터를 인코딩한다&lt;/strong&gt; — 이 한 문장이 디자인의 중심이다. &lt;a class="link" href="https://blog.cloudflare.com/cloudflare-calls/" target="_blank" rel="noopener"
 &gt;Cloudflare Calls의 anycast WebRTC 모델&lt;/a&gt;이 비슷한 결의 idea를 다른 레이어에서 풀어낸 케이스로 비교할 만하다.&lt;/p&gt;
&lt;h2 id="global-relay--지오-분산-ingress"&gt;Global Relay — 지오 분산 ingress
&lt;/h2&gt;&lt;p&gt;작고 고정된 UDP surface를 확보한 다음엔 globally 배치한다.&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://developers.cloudflare.com/load-balancing/understand-basics/traffic-steering/steering-policies/proximity-steering/" target="_blank" rel="noopener"
 &gt;Cloudflare 지오·proximity steering&lt;/a&gt;으로 signaling을 가장 가까운 transceiver cluster로 보낸다&lt;/li&gt;
&lt;li&gt;SDP answer에는 가까운 Global Relay 주소를 광고한다&lt;/li&gt;
&lt;li&gt;ufrag에 cluster 라우팅 정보가 들어 있어 미디어도 가까운 relay로 진입한다&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;첫 client→OpenAI hop이 짧아진다. 결과는 더 낮은 latency, 더 적은 jitter, 더 적은 loss bursts. 음성 AI에선 모두 그대로 사용자 체감에 박힌다.&lt;/p&gt;
&lt;h2 id="relay-구현--go-kernel-bypass-없이"&gt;Relay 구현 — Go, kernel-bypass 없이
&lt;/h2&gt;&lt;p&gt;OpenAI는 의도적으로 &lt;strong&gt;userspace Go&lt;/strong&gt;를 골랐다. DPDK 같은 kernel-bypass 프레임워크는 쓰지 않는다. 사용자 트래픽이 작은 relay footprint로 충분히 커버됐기 때문이다.&lt;/p&gt;
&lt;p&gt;핵심 Go 트릭:&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;strong&gt;&lt;a class="link" href="https://man7.org/linux/man-pages/man7/socket.7.html" target="_blank" rel="noopener"
 &gt;&lt;code&gt;SO_REUSEPORT&lt;/code&gt;&lt;/a&gt;&lt;/strong&gt; — 한 머신의 여러 worker가 같은 UDP 포트에 bind한다. 커널이 패킷을 worker들에게 분산해 단일 read-loop 병목을 없앤다&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;&lt;a class="link" href="https://pkg.go.dev/runtime#LockOSThread" target="_blank" rel="noopener"
 &gt;&lt;code&gt;runtime.LockOSThread&lt;/code&gt;&lt;/a&gt;&lt;/strong&gt; — UDP 읽기 goroutine을 OS thread에 핀한다. SO_REUSEPORT와 결합하면 같은 flow의 패킷이 같은 CPU core로 가서 cache locality가 올라가고 context switching이 줄어든다&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Pre-allocated buffers + minimal copying&lt;/strong&gt; — Go GC를 회피한다&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Ephemeral state&lt;/strong&gt; — client→transceiver 매핑은 small in-memory map만, 짧은 timeout으로 운영&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="결과"&gt;결과
&lt;/h2&gt;&lt;ul&gt;
&lt;li&gt;수만 UDP 포트 노출 없이 Kubernetes에서 WebRTC 미디어를 운영&lt;/li&gt;
&lt;li&gt;작고 고정된 UDP surface는 보안 표면을 줄이고 LB를 단순화하며, 큰 공개 포트 범위 reserve도 필요 없게 한다&lt;/li&gt;
&lt;li&gt;&amp;ldquo;SFU-less 디자인이 OpenAI 워크로드에 맞다&amp;quot;가 운영으로 검증됨 — 1:1, latency-sensitive, 추론 서비스가 WebRTC peer 행세할 필요 없음&lt;/li&gt;
&lt;/ul&gt;
&lt;h2 id="저자가-강조한-4가지-디자인-원칙"&gt;저자가 강조한 4가지 디자인 원칙
&lt;/h2&gt;&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;표준 프로토콜 의미를 엣지에서 보존&lt;/strong&gt; — 클라이언트는 표준 WebRTC만, 브라우저·모바일 호환성 유지&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Hard session state는 한 곳에&lt;/strong&gt; — Transceiver가 ICE/DTLS/SRTP/lifecycle 모두 소유, Relay는 forward만&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;이미 setup에 있는 정보로 라우팅&lt;/strong&gt; — ufrag가 첫-패킷 라우팅 훅을 제공, 핫 패스 lookup 의존성 zero&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;Common case를 먼저 최적화. kernel-bypass에 손대지 마라&lt;/strong&gt; — 좁은 Go 구현 + SO_REUSEPORT + thread pinning + low-alloc 파싱이면 충분&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id="인사이트"&gt;인사이트
&lt;/h2&gt;&lt;p&gt;진짜 보틀넥이 어디인지를 보여주는 사례다. 모델 자체보다 &lt;strong&gt;모델로 가는 경로&lt;/strong&gt;가 더 어렵다. WebRTC를 production-grade로 Kubernetes에서 굴리는 패턴은 음성 AI를 진지하게 만드는 모든 회사가 풀어야 하는 문제이고, 이 글은 그중 하나의 답안지다. 동시에 Justin Uberti와 Sean DuBois가 OpenAI 합류라는 사실은 인재 영입 이상의 의미를 가진다 — Pion 기반 Go 스택이 OpenAI 음성 인프라의 근간이 된다는 신호이고, 결과적으로 &lt;a class="link" href="https://github.com/pion/webrtc" target="_blank" rel="noopener"
 &gt;Pion 생태계 전체&lt;/a&gt; 의 무게중심이 이동한다. 같은 시기에 발표된 &lt;a class="link" href="https://openai.com/index/mrc-supercomputer-networking" target="_blank" rel="noopener"
 &gt;MRC&lt;/a&gt; (GPU 네트워크) 와 &lt;a class="link" href="https://platform.openai.com/audio/realtime" target="_blank" rel="noopener"
 &gt;Realtime API&lt;/a&gt; 와 묶어 보면 OpenAI 인프라 스택의 그림이 더 선명해진다 — &lt;strong&gt;MRC (GPU 네트워크) + Relay+Transceiver (사용자 네트워크) + Realtime API (모델 인터페이스)&lt;/strong&gt; 세 레이어가 동시에 자기 표준을 박는 중이다. SFU가 정답인 다자간 워크로드와 달리 1:1 추론에는 transceiver 모델이 답이라는 점은, 같은 음성 인프라라도 워크로드 형태에 따라 디자인이 갈라진다는 사실의 방증이다. 마지막으로 kernel-bypass를 의도적으로 안 쓴 선택은 &amp;ldquo;common case를 먼저 최적화하라&amp;quot;는 원칙의 모범 사례 — 이미 충분한 곳에 더 손대지 않는 절제는 인프라 팀의 신호다.&lt;/p&gt;
&lt;h2 id="참고"&gt;참고
&lt;/h2&gt;&lt;p&gt;&lt;strong&gt;Original post&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://openai.com/index/delivering-low-latency-voice-ai-at-scale/" target="_blank" rel="noopener"
 &gt;Delivering Low-Latency Voice AI at Scale (OpenAI Engineering)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;같은 시기 OpenAI 발표: &lt;a class="link" href="https://openai.com/index/mrc-supercomputer-networking" target="_blank" rel="noopener"
 &gt;MRC supercomputer networking&lt;/a&gt; · &lt;a class="link" href="https://openai.com/index/advancing-voice-intelligence-with-new-models-in-the-api" target="_blank" rel="noopener"
 &gt;Advancing voice intelligence&lt;/a&gt; · &lt;a class="link" href="https://openai.com/index/building-the-compute-infrastructure-for-the-intelligence-age/" target="_blank" rel="noopener"
 &gt;Stargate / Compute infrastructure&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;WebRTC ecosystem and Pion&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://webrtc.org/" target="_blank" rel="noopener"
 &gt;WebRTC standards (webrtc.org)&lt;/a&gt; · &lt;a class="link" href="https://webrtc.org/getting-started/overview" target="_blank" rel="noopener"
 &gt;Getting started overview&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/pion/webrtc" target="_blank" rel="noopener"
 &gt;Pion WebRTC (Go implementation)&lt;/a&gt; — Pure Go WebRTC, 16k+ stars&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://en.wikipedia.org/wiki/Justin_Uberti" target="_blank" rel="noopener"
 &gt;Justin Uberti&lt;/a&gt; (WebRTC 표준 원조) · &lt;a class="link" href="https://github.com/Sean-Der" target="_blank" rel="noopener"
 &gt;Sean DuBois (Pion 메인테이너)&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://discord.com/category/engineering" target="_blank" rel="noopener"
 &gt;Discord engineering blog&lt;/a&gt; — 음성 인프라 레퍼런스&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://blog.cloudflare.com/cloudflare-calls/" target="_blank" rel="noopener"
 &gt;Cloudflare Calls — anycast WebRTC&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://www.nvidia.com/en-us/data-center/gb200-nvl72/" target="_blank" rel="noopener"
 &gt;NVIDIA GB200&lt;/a&gt; · &lt;a class="link" href="https://news.microsoft.com/source/features/ai/microsoft-fairwater-data-center/" target="_blank" rel="noopener"
 &gt;Microsoft Fairwater&lt;/a&gt; · &lt;a class="link" href="https://www.opencompute.org/" target="_blank" rel="noopener"
 &gt;Open Compute Project&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Kubernetes WebRTC patterns&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://github.com/l7mp/stunner" target="_blank" rel="noopener"
 &gt;l7mp/stunner — Kubernetes WebRTC gateway&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://docs.livekit.io/home/self-hosting/kubernetes/" target="_blank" rel="noopener"
 &gt;LiveKit — Self-hosting on Kubernetes&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://mediasoup.discourse.group/" target="_blank" rel="noopener"
 &gt;mediasoup discussion forum&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://developers.cloudflare.com/load-balancing/understand-basics/traffic-steering/steering-policies/proximity-steering/" target="_blank" rel="noopener"
 &gt;Cloudflare proximity steering&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;
&lt;p&gt;&lt;strong&gt;Linux/Go optimization references&lt;/strong&gt;&lt;/p&gt;
&lt;ul&gt;
&lt;li&gt;&lt;a class="link" href="https://man7.org/linux/man-pages/man7/socket.7.html" target="_blank" rel="noopener"
 &gt;Linux &lt;code&gt;socket(7)&lt;/code&gt; — SO_REUSEPORT&lt;/a&gt;&lt;/li&gt;
&lt;li&gt;&lt;a class="link" href="https://pkg.go.dev/runtime#LockOSThread" target="_blank" rel="noopener"
 &gt;Go &lt;code&gt;runtime.LockOSThread&lt;/code&gt;&lt;/a&gt;&lt;/li&gt;
&lt;/ul&gt;</description></item></channel></rss>