<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:atom="http://www.w3.org/2005/Atom"><channel><title>Llm Agents on ICE-ICE-BEAR-BLOG</title><link>https://ice-ice-bear.github.io/ko/tags/llm-agents/</link><description>Recent content in Llm Agents on ICE-ICE-BEAR-BLOG</description><generator>Hugo -- gohugo.io</generator><language>ko</language><lastBuildDate>Wed, 22 Apr 2026 00:00:00 +0900</lastBuildDate><atom:link href="https://ice-ice-bear.github.io/ko/tags/llm-agents/index.xml" rel="self" type="application/rss+xml"/><item><title>trading-agent 개발 로그 #14 — 유니버스 확장, 하드 게이트 완화, HOLD 아카이빙</title><link>https://ice-ice-bear.github.io/ko/posts/2026-04-22-trading-agent-dev14/</link><pubDate>Wed, 22 Apr 2026 00:00:00 +0900</pubDate><guid>https://ice-ice-bear.github.io/ko/posts/2026-04-22-trading-agent-dev14/</guid><description>&lt;img src="https://ice-ice-bear.github.io/" alt="Featured image of post trading-agent 개발 로그 #14 — 유니버스 확장, 하드 게이트 완화, HOLD 아카이빙" /&gt;&lt;h2 id="개요"&gt;개요
&lt;/h2&gt;&lt;p&gt;2-커밋 세션이지만, 그 뒤의 결정이 더 흥미롭다. #13 이후 리서치 에이전트가 라이브로 돌고 있었는데, 로그의 패턴이 명확했다 — 스캐너의 유니버스가 너무 작고, 하드 필터가 너무 보수적이라서 Chief 에이전트가 BUY 결정을 내릴 만큼의 후보를 받지 못한다. 이번 회차는 스코프를 넓히고(S1–S3) 부드러운 신뢰도 레이어(α/β)를 추가한 뒤, HOLD 결정을 &lt;strong&gt;조용히 버리지 않고 아카이빙&lt;/strong&gt;해서 Chief의 추론 패턴을 감사·튜닝할 수 있게 한다(S4).&lt;/p&gt;
&lt;p&gt;이전 글: &lt;a class="link" href="https://ice-ice-bear.github.io/posts/2026-04-16-trading-agent-dev13/" &gt;trading-agent 개발 로그 #13&lt;/a&gt;&lt;/p&gt;
&lt;pre class="mermaid" style="visibility:hidden"&gt;graph TD
 U["KOSPI 유니버스"] --&gt; S1["S1: 섹터/시총 필터"]
 S1 --&gt; S2["S2: 모멘텀 + 유동성"]
 S2 --&gt; S3["S3: 펀더멘털 sanity"]
 S3 --&gt; AB["α/β 신뢰도 레이어&amp;lt;br/&amp;gt;(소프트 게이트)"]
 AB --&gt; Chief["Chief 에이전트"]
 Chief --&gt;|BUY| Order["주문북"]
 Chief --&gt;|HOLD| Archive["Archived HOLDs&amp;lt;br/&amp;gt;(S4)"]
 Archive --&gt;|관찰| Tune["프롬프트 튜닝"]&lt;/pre&gt;&lt;h2 id="문제-빈-깔대기"&gt;문제: 빈 깔대기
&lt;/h2&gt;&lt;p&gt;한 주 분량 로그를 읽으니 불편한 패턴이 보였다. 스캐너가 BUY 시그널을 거의 만들지 않고 있었고, 시장이 재미없어서가 아니라 S1–S3 단계의 하드 필터가 Chief 에이전트에게 도달하기도 전에 너무 많은 티커를 걸러내고 있었다. 좁은 유니버스 + 보수적 게이트가 만들어낸 퇴행적 깔대기: 리서치 볼륨은 적당한데, 깔대기 바닥이 굶는다. 세션에서의 사용자 표현이 정확했다 — &amp;ldquo;리서치하는 종목의 scope이 너무 작습니다 … 실 구매로 이어지는 것이 매우 어렵습니다.&amp;rdquo;&lt;/p&gt;
&lt;p&gt;두 개의 선택지가 있었다. 첫째, 하드 게이트는 유지하고 S1의 유니버스만 넓히기. 후보가 많아지지만 S2/S3에서 어차피 걸러질 확률이 크고, 깔대기 모양은 바뀌지 않는다. 둘째, 그리고 채택된 — &lt;strong&gt;게이트를 완화하고 다운스트림에 더 부드러운 신뢰도 레이어(α/β)를 추가.&lt;/strong&gt; 하드 필터는 규칙으로 거절한다. 소프트 레이어는 스코어링한다. 스코어가 있으면 Chief 에이전트가 마지널한 후보를 볼 수 있다 — 아예 질문조차 되지 않던 후보를.&lt;/p&gt;
&lt;h2 id="커밋-1-유니버스-확장--s1s3-완화--αβ"&gt;커밋 1: 유니버스 확장 + S1–S3 완화 + α/β
&lt;/h2&gt;&lt;p&gt;커밋 &lt;code&gt;6cb3ec8&lt;/code&gt;은 &lt;code&gt;feat(scanner): expand research universe and loosen gates (S1-S3 + α/β)&lt;/code&gt;. 한 커밋에 세 동작:&lt;/p&gt;
&lt;ol&gt;
&lt;li&gt;&lt;strong&gt;유니버스 확장.&lt;/strong&gt; S1로 흐르는 KOSPI 유니버스가 너무 좁았다 — 시총/섹터 필터가 한 번쯤 흥미로웠을 수 있는 티커를 잘라내고 있었다. 새 유니버스는 넓고, 나머지 파이프라인이 관련성을 판단한다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;S1–S3 완화.&lt;/strong&gt; 하드-룰 임계값을 로그 데이터가 지나치게 자주 바인딩된다고 보여준 곳에서 느슨하게 했다. 설계는 단계를 제거하지 않는다 — S1–S3는 여전히 검색 공간을 깎는 저비용 필터다 — 다만 임계값이 더 많은 티커를 풍부한 분석으로 통과시킨다.&lt;/li&gt;
&lt;li&gt;&lt;strong&gt;α/β 신뢰도 레이어.&lt;/strong&gt; S3 다운스트림에 새 소프트-스코어링 레이어. 모멘텀 + 펀더멘털 시그널에 α/β 가중치를 적용해 Chief가 읽을 수 있는 신뢰도 점수를 낸다. &amp;ldquo;통과/탈락&amp;quot;을 랭크된 숏리스트로 바꾼다.&lt;/li&gt;
&lt;/ol&gt;
&lt;h2 id="커밋-2-hold-아카이빙-s4"&gt;커밋 2: HOLD 아카이빙 (S4)
&lt;/h2&gt;&lt;p&gt;커밋 &lt;code&gt;08e4326&lt;/code&gt;은 &lt;code&gt;feat(scanner): archive HOLD decisions instead of silently discarding (S4)&lt;/code&gt;. 이 전까지 Chief의 HOLD 결정은 증발했다 — 티커는 구매되지 않고, 로그 한 줄 외에는 아무것도 기록되지 않는다. 튜닝에는 최악의 형태인데, HOLD가 Chief가 가장 많이 사유하는 지점이기 때문이다. 이제 HOLD 결정은 풀 컨텍스트(입력, 스코어, 추론 요약)와 함께 영속되고 &lt;code&gt;?status=archived&lt;/code&gt;로 조회 가능하다.&lt;/p&gt;
&lt;p&gt;운영 후속은 관찰: Chief가 반복적으로 홀드하는 티커를 지켜보고(세션에서 반복 &amp;ldquo;펀더 강 + 기술적 과매수&amp;rdquo; 거절로 언급된 삼성전기·SK하이닉스), Stochastic K가 60 밑으로 떨어지는 날에 같은 티커가 BUY로 플립되는지 본다. 아카이브된 테이블이 그 가설의 검증 기반 — 없으면 가설에 실체가 없다.&lt;/p&gt;
&lt;h2 id="롤아웃-모양"&gt;롤아웃 모양
&lt;/h2&gt;&lt;p&gt;세션 계획은 P0(관찰, 코드 변경 없음)와 P1(Chief 프롬프트 튜닝, 1–2시간)을 분리했다. 이번 커밋 묶음은 P0의 전제조건 — 아카이브된 데이터 + α/β 스코어가 P1이 필요로 하는 데이터를 준다. 아직 프롬프트 변경은 없다.&lt;/p&gt;
&lt;h2 id="커밋-로그"&gt;커밋 로그
&lt;/h2&gt;&lt;table&gt;
 &lt;thead&gt;
 &lt;tr&gt;
 &lt;th&gt;메시지&lt;/th&gt;
 &lt;th&gt;변경&lt;/th&gt;
 &lt;/tr&gt;
 &lt;/thead&gt;
 &lt;tbody&gt;
 &lt;tr&gt;
 &lt;td&gt;feat(scanner): expand research universe and loosen gates (S1-S3 + α/β)&lt;/td&gt;
 &lt;td&gt;유니버스, 게이트, 신뢰도&lt;/td&gt;
 &lt;/tr&gt;
 &lt;tr&gt;
 &lt;td&gt;feat(scanner): archive HOLD decisions instead of silently discarding (S4)&lt;/td&gt;
 &lt;td&gt;HOLD 영속&lt;/td&gt;
 &lt;/tr&gt;
 &lt;/tbody&gt;
&lt;/table&gt;
&lt;h2 id="인사이트"&gt;인사이트
&lt;/h2&gt;&lt;p&gt;이번 세션의 핵심 인사이트는 LLM 에이전트보다 오래된 것: &lt;strong&gt;결정 레이어에 감사 기록이 없으면 튜닝할 수 없다.&lt;/strong&gt; Chief 에이전트의 HOLD는 정확히 연구할 가치가 가장 큰 추론을 담고 있었다 — &lt;em&gt;왜 이 후보가 리서치할 만큼 흥미롭지만 살 만큼은 아닌가&lt;/em&gt; — 그런데 기본값으로 그 추론이 버려지고 있었다. 아카이빙은 공짜다(불리언 상태 플립 + 테이블). 그리고 모든 HOLD를 미래의 지도학습 튜닝 데이터 단위로 바꾼다. α/β 레이어도 같은 결 — 하드 필터를 소프트 스코어로 바꾸면 다운스트림 검사를 위한 정보가 보존된다. 다음 세션의 초점: 실제로 아카이브 데이터를 들여다보고 Chief 프롬프트가 펀더멘털 대 기술적 시그널의 가중치를 다시 잡아야 할지, 아니면 S2의 모멘텀 휴리스틱에서 더 상류의 이슈인지 판단.&lt;/p&gt;</description></item></channel></rss>