"AI์๊ฒ ํ๋ฒ์ ์ค๋ค๋ฉด?"2022๋ Anthropic์ ํ์ ์ ๋ ผ๋ฌธ "Constitutional AI: Harmlessness from AI Feedback"๋ AI ์์ ์ ๋ฐฉํฅ์ ์์ ํ ๋ฐ๊ฟจ์ต๋๋ค.๊ธฐ์กด ๋ฐฉ์์ธ RLHF (Reinforcement Learning from Human Feedback)๋ ์ธ๊ฐ์ด ์ผ์ผ์ด "์ด๊ฒ์ ๋์๋ค"๊ณ ๋ผ๋ฒจ์ ๋ถ์ฌ์ผ ํ๋ ๋นํจ์จ์ ์ด๊ณ ์ฃผ๊ด์ ์ธ ๊ณผ์ ์ด์์ต๋๋ค. ํ์ง๋ง Constitutional AI๋ AI์๊ฒ ๋ช ํํ ์์น(ํ๋ฒ)์ ์ ์ํ๊ณ , AI ์์ ์ด ์๊ธฐ ์๋ต์ ๋นํํ๊ณ ๊ฐ์ ํ๋๋ก ์ค๊ณํ์ต๋๋ค.๋๋๊ฒ๋ ์ค์ ์ฐ๊ตฌ ๊ฒฐ๊ณผ์ ๋ฐ๋ฅด๋ฉด Constitutional AI๋ ์ฌ๋์ ํผ๋๋ฐฑ ์์ด๋ RLHF ๋ชจ๋ธ๊ณผ ๊ฑฐ์ ๋๋ฑํ ์ฑ๋ฅ์ ๋ฌ์ฑํ์ต๋๋ค. ๋ ์ถฉ๊ฒฉ์ ์ธ ์ ์, ์ต์ ์ฐ๊ตฌ (2025)์์ ๊ณต์ค์ ์ฐธ์ฌ๋ก ํ๋ฒ์ ๋ง๋๋ Collective Constitutional AI๊ฐ ๋ฑ์ฅํ๋ค๋ ๊ฒ์ ๋๋ค. ์ด ํฌ์คํ ์์๋ RLHF์ ํ๊ณ์ ๋ฌธ์ ์ , Constitutional AI์ ํ์ ์ ๊ตฌ์กฐ, AI ์๊ธฐ๋นํ ๋ฉ์ปค๋์ฆ, Red Teaming๊ณผ์ ๊ฒฐํฉ, ๊ทธ๋ฆฌ๊ณ ๋ฏธ๋์ ๋ฏผ์ฃผ์ AI ์ ๋ ฌ๊น์ง ์๋ฒฝํ๊ฒ ๋ถ์ํฉ๋๋ค. #AdversarialAttack #AI์์ #Alignment #Anthropic #Claude #CollectiveCAI #ConstitutionalAI #PPO #RedTeaming #ReinforcementLearningHumanFeedback #RLCAI #RLHF #SLCAI #๋ณด์๋ชจ๋ธ #์์น #์ธ๊ฐํผ๋๋ฐฑ #์๊ธฐ๋นํ #์ ๋ ฌ #ํฌ๋ช ์ฑ #ํ๋ฒ Read the full article














