Stable Diffusion 실사 이미지 생성, 전문가를 위한 핵심 설정값 완벽 가이드

Stable Diffusion은 텍스트 설명만으로 놀라운 수준의 이미지를 생성할 수 있는 강력한 AI 모델입니다. 특히, 실사(Realistic) 이미지 생성은 많은 사용자들의 관심사이며, 이를 위해선 단순히 프롬프트 입력만으로는 부족합니다. 전문가 수준의 고품질 실사 이미지를 얻기 위해서는 다양한 설정값들을 정확히 이해하고 최적화하는 것이 필수적입니다. 본 가이드에서는 Stable Diffusion 실사 이미지 생성에 있어 핵심적인 설정값들을 깊이 있게 파고들어, 여러분이 원하는 결과물을 얻을 수 있도록 상세하게 안내하겠습니다.

1. 모델(Checkpoint) 선택: 실사 이미지 생성의 첫 단추

Stable Diffusion 모델은 크게 일반 모델과 특화 모델로 나눌 수 있습니다. 실사 이미지 생성에 있어서는 텍스처, 조명, 인물 표현 등이 사실적인 실사 특화 모델을 사용하는 것이 절대적으로 유리합니다.

1.1. 실사 특화 모델의 특징

사실적인 텍스처: 피부, 머리카락, 옷감 등의 질감이 매우 사실적으로 표현됩니다.
정교한 조명: 빛의 산란, 그림자, 반사 등이 자연스럽게 구현되어 입체감을 더합니다.
인물 표현: 해부학적 정확성과 자연스러운 표정, 포즈를 구현하는 데 강점을 보입니다.
다양한 스타일: 사진, 영화 스틸컷, 인물 사진 등 특정 사진 스타일에 최적화된 모델들이 존재합니다.

1.2. 추천 실사 모델 및 선택 기준

다양한 실사 특화 모델이 존재하며, 각 모델마다 강점과 약점이 있습니다. 대표적인 모델로는 다음과 같은 것들이 있습니다.

Realistic Vision: 인물 사진 생성에 특화되어 있으며, 섬세한 피부 표현과 자연스러운 표정이 강점입니다.
ChilloutMix: 아시아인 인물 표현에 강점을 보이며, 부드러운 색감과 사실적인 묘사가 특징입니다.
AbsoluteReality: 전반적으로 높은 퀄리티의 실사 이미지를 생성하며, 다양한 상황과 인물에 유연하게 대응합니다.
Protogen: 고해상도 이미지 생성에 유리하며, 섬세한 디테일 표현이 돋보입니다.

선택 기준:

생성하려는 이미지의 종류: 인물 중심인지, 풍경인지, 특정 사물인지에 따라 적합한 모델이 다릅니다.
모델의 학습 데이터: 모델이 어떤 데이터셋으로 학습되었는지 확인하면 결과물의 특성을 예측하는 데 도움이 됩니다.
커뮤니티 평가 및 예시: Civitai와 같은 모델 공유 플랫폼에서 다른 사용자들의 평가와 생성 예시를 참고하는 것이 좋습니다.

주의사항: 모델 파일(.ckpt 또는 .safetensors)은 용량이 크므로, 충분한 저장 공간을 확보해야 합니다. 또한, 모델마다 요구하는 VRAM 용량이 다를 수 있으므로, 자신의 그래픽카드 사양을 고려하여 선택해야 합니다.

2. 샘플링 방법(Sampler) 및 스텝(Steps): 이미지 생성 과정의 핵심

샘플링 방법과 스텝 수는 이미지 생성 속도와 품질에 직접적인 영향을 미칩니다. Stable Diffusion은 여러 단계에 걸쳐 노이즈로부터 이미지를 점진적으로 생성하는데, 이 과정을 어떻게 진행하느냐에 따라 결과물이 달라집니다.

2.1. 주요 샘플링 방법

다양한 샘플링 방법이 존재하며, 각 방법마다 특징이 있습니다.

Euler a: 가장 빠르고 기본적인 샘플러입니다. 스텝 수가 적어도 어느 정도 결과물을 얻을 수 있지만, 디테일 표현에는 한계가 있습니다.
DPM++ 2M Karras: 속도와 품질의 균형이 좋은 샘플러로, 많은 사용자들이 선호합니다. 자연스러운 결과물을 얻기 쉽습니다.
DPM++ SDE Karras: Karras 버전과 유사하지만, 좀 더 미세한 디테일 표현에 강점을 보일 수 있습니다.
DDIM: 비교적 안정적인 결과물을 생성하며, 스텝 수를 늘려도 결과가 크게 변하지 않는 특징이 있습니다.

2.2. 스텝(Steps) 수의 중요성

스텝 수는 노이즈 제거 과정을 몇 번 반복할지를 결정합니다.

낮은 스텝 수 (10~20): 생성 속도가 빠르지만, 이미지의 디테일이 부족하거나 뭉개질 수 있습니다.
적정 스텝 수 (20~40): 대부분의 경우, 속도와 품질의 균형이 잘 맞습니다. 실사 이미지 생성 시 이 범위를 추천합니다.
높은 스텝 수 (40 이상): 이미지의 디테일이 향상될 수 있지만, 생성 시간이 길어지고 특정 샘플러의 경우 결과가 크게 개선되지 않거나 부작용이 발생할 수도 있습니다.

추천 설정:

실사 이미지 생성 시, DPM++ 2M Karras 또는 DPM++ SDE Karras 샘플러를 사용하고, 스텝 수는 25~35 스텝으로 설정하는 것을 추천합니다. 이 설정은 대부분의 실사 모델에서 좋은 결과를 제공합니다.

주의사항: 특정 샘플러는 낮은 스텝 수에서도 좋은 성능을 보일 수 있으며, 높은 스텝 수가 항상 좋은 결과를 보장하는 것은 아닙니다. 다양한 샘플러와 스텝 수 조합을 실험하여 최적의 설정을 찾는 것이 중요합니다.

3. CFG 스케일(Classifier Free Guidance Scale): 프롬프트 충실도 조절

CFG 스케일은 생성되는 이미지가 입력된 프롬프트(텍스트 설명)를 얼마나 충실하게 따를지를 결정하는 중요한 설정값입니다.

낮은 CFG 스케일 (3~6): 이미지 생성의 자유도가 높아져 창의적이고 예상치 못한 결과가 나올 수 있습니다. 하지만 프롬프트의 핵심 내용을 놓칠 수도 있습니다.
중간 CFG 스케일 (7~12): 대부분의 실사 이미지 생성에 권장되는 범위입니다. 프롬프트의 내용을 잘 반영하면서도 자연스러운 결과물을 얻을 수 있습니다.
높은 CFG 스케일 (13~20 이상): 프롬프트에 매우 충실한 이미지가 생성되지만, 너무 높을 경우 이미지가 과도하게 왜곡되거나 부자연스러워질 수 있습니다.

추천 설정:

실사 이미지 생성 시, CFG 스케일은 7~10 사이로 설정하는 것이 일반적입니다. 인물 사진의 경우 7~8, 풍경이나 특정 사물 묘사의 경우 9~10 정도로 시작하여 조절하는 것이 좋습니다.

실험 팁: 동일한 프롬프트와 시드 값을 사용하되 CFG 스케일만 다르게 설정하여 이미지를 생성해보세요. 이를 통해 프롬프트 충실도와 이미지의 자연스러움 사이의 균형점을 찾을 수 있습니다.

4. 해상도(Resolution) 및 종횡비(Aspect Ratio): 이미지의 기본 틀

이미지의 해상도와 종횡비는 최종 결과물의 크기와 구성을 결정합니다.

4.1. 해상도 설정

권장 해상도: Stable Diffusion 1.5 기반 모델의 경우, 512×512가 기본 해상도입니다. 2.0 이상 기반 모델은 1024×1024가 기본입니다. 이 해상도에서 가장 안정적인 결과를 얻을 수 있습니다.
고해상도 생성: 512×512보다 높은 해상도(예: 768×768, 1024×1024)로 직접 생성할 경우, 이미지에 왜곡이나 반복적인 패턴이 나타날 수 있습니다.
업스케일링 활용: 고품질의 실사 이미지를 얻기 위해서는 초기 해상도는 512×512 또는 768×768로 생성한 후, Hires. fix 기능이나 별도의 업스케일링 도구(예: ESRGAN, Real-ESRGAN)를 사용하여 해상도를 높이는 것이 훨씬 효과적입니다.

4.2. 종횡비 설정

정사각형 (1:1): 512×512, 1024×1024 등
가로형 (16:9, 3:2 등): 768×512, 1024×576 등
세로형 (9:16, 2:3 등): 512×768, 576×1024 등

추천 설정:

인물 사진: 512×768 (2:3) 또는 768×512 (3:2)
풍경 사진: 1024×576 (16:9) 또는 768×512 (3:2)

주의사항: 기본 해상도보다 크게 벗어나는 종횡비로 설정할 경우, 이미지의 왜곡이 발생할 가능성이 높습니다. 특히, 인물 생성 시 팔다리가 길어지거나 얼굴이 늘어나는 등의 문제가 발생할 수 있습니다.

5. 시드(Seed) 값: 재현성과 실험의 열쇠

시드 값은 이미지 생성 과정의 초기 노이즈 패턴을 결정하는 무작위 숫자입니다.

고정된 시드 값: 동일한 프롬프트, 설정값, 시드 값을 사용하면 항상 같은 이미지를 생성할 수 있습니다. 이는 특정 결과물을 재현하거나 미세한 설정을 변경하며 비교할 때 매우 유용합니다.
무작위 시드 값 (-1): 매번 다른 이미지를 생성합니다. 다양한 가능성을 탐색할 때 사용합니다.

실사 이미지 생성에서의 활용:

마음에 드는 이미지 발견: 생성된 이미지 중 마음에 드는 이미지가 있다면, 해당 시드 값을 기록해두세요.
미세 조정: 기록해둔 시드 값을 사용하여 프롬프트의 단어를 바꾸거나, CFG 스케일을 조절하는 등 미세한 변경을 통해 더 나은 결과물을 탐색할 수 있습니다.
일관성 유지: 특정 캐릭터나 장면을 여러 번 생성해야 할 때, 동일한 시드 값을 사용하면 일관된 결과물을 얻을 수 있습니다.

6. 네거티브 프롬프트(Negative Prompt): 원치 않는 요소를 제거

네거티브 프롬프트는 이미지에 포함되기를 원치 않는 요소들을 명시하는 기능입니다. 실사 이미지 생성 시, 다음과 같은 요소들을 네거티브 프롬프트에 추가하면 품질을 크게 향상시킬 수 있습니다.

일반적인 네거티브 프롬프트 예시:

(worst quality, low quality:1.4), (blurry:1.2), deformed, ugly, disfigured, bad anatomy, extra limbs, missing limbs, mutated hands, poorly drawn hands, extra fingers, mutated fingers, fused fingers, too many fingers, bad eyes, poorly drawn face, bad proportions, duplicate, cloned face, watermark, signature, text, username, artist name, ((nsfw)), nude, naked

실사 이미지 특화 네거티브 프롬프트:

인물: mutation, deformed, disfigured, bad anatomy, extra limbs, missing limbs, poorly drawn hands, mutated hands, extra fingers, fused fingers, too many fingers, bad eyes, poorly drawn face, bad proportions, ugly, tiling, pixelated, low resolution, blurry, out of frame, extra heads, extra bodies, cloned face
그림체: painting, drawing, sketch, cartoon, anime, 3d render, illustration, CGI, video game (만약 사진 같은 결과물을 원한다면)
품질: (worst quality, low quality:1.4), jpeg artifacts, noisy, grainy

팁:

가중치 (단어:숫자)를 사용하여 특정 단어의 영향력을 조절할 수 있습니다. 숫자가 높을수록 해당 단어를 더 강하게 배제합니다.
중괄호 ((단어))는 가중치를 1.1배로 적용하는 단축키입니다.

7. Hires. fix 및 업스케일링: 고해상도 실사 이미지의 완성

앞서 언급했듯이, Stable Diffusion으로 직접 고해상도 이미지를 생성하는 것보다 초기 해상도에서 생성 후 업스케일링하는 것이 훨씬 좋은 결과를 얻습니다.

7.1. Hires. fix 활용

Hires. fix는 Stable Diffusion Web UI의 편리한 기능으로, 낮은 해상도에서 이미지를 생성한 후 자동으로 고해상도로 업스케일링하는 과정까지 포함합니다.

Upscaler: 업스케일링에 사용될 알고리즘을 선택합니다. Latent (nearest-exact), ESRGAN_4x, R-ESRGAN 4x+ 등이 많이 사용됩니다.
Hires steps: 업스케일링 과정에서 추가적으로 수행할 샘플링 스텝 수입니다. 보통 초기 스텝 수의 절반 정도로 설정합니다.
Denoising strength: 업스케일링 과정에서 원본 이미지의 디테일을 얼마나 유지하면서 새로운 디테일을 추가할지를 결정합니다. 0.4 ~ 0.6 사이의 값이 실사 이미지 생성에 적합합니다. 너무 낮으면 변화가 없고, 너무 높으면 원본과 전혀 다른 이미지가 될 수 있습니다.
Upscale by: 해상도를 몇 배로 늘릴지 설정합니다. 보통 1.5배 또는 2배를 많이 사용합니다.

추천 설정:

Upscaler: R-ESRGAN 4x+ 또는 4x-UltraSharp
Hires steps: 15~25
Denoising strength: 0.45~0.55
Upscale by: 1.5~2

7.2. 별도 업스케일링 도구

Web UI의 Hires. fix 외에도, 생성된 이미지를 별도의 업스케일링 소프트웨어나 온라인 서비스로 처리하여 더욱 높은 품질을 얻을 수 있습니다.

Topaz Gigapixel AI: AI 기반의 강력한 업스케일링 도구로, 매우 자연스럽고 선명한 결과물을 제공합니다.
Real-ESRGAN: 오픈 소스 기반의 업스케일링 모델로, Stable Diffusion과 함께 많이 사용됩니다.

8. 기타 유용한 설정값 및 팁

8.1. Batch Size 및 Batch Count

Batch Size: 한 번에 처리할 이미지의 개수입니다. VRAM이 부족하면 1로 설정해야 합니다.
Batch Count: 전체 생성 과정에서 배치 크기만큼의 이미지를 몇 번 반복하여 생성할지를 결정합니다. 여러 이미지를 한 번에 생성하여 비교할 때 유용합니다.

8.2. Sampler Index

UI에 따라 샘플러의 순서가 다를 수 있으므로, 샘플러 이름을 정확히 확인하고 선택해야 합니다.

8.3. Clip Skip

텍스트 인코더의 레이어를 건너뛸지 여부를 결정합니다. 일반적으로 1로 설정하지만, 특정 모델이나 프롬프트에서는 2로 설정했을 때 더 나은 결과를 얻기도 합니다.

8.4. VAE (Variational Autoencoder)

VAE는 이미지의 색감과 디테일을 최종적으로 처리하는 역할을 합니다. 실사 이미지 생성에 특화된 VAE를 사용하면 결과물의 품질을 더욱 향상시킬 수 있습니다. vae-ft-mse-840000-ema-pruned 와 같은 VAE를 사용해보는 것을 추천합니다.

8.5. LoRA (Low-Rank Adaptation)

LoRA는 특정 스타일, 캐릭터, 객체 등을 추가적으로 학습시킨 작은 모델 파일입니다. 실사 이미지 생성 시, 특정 인물, 의상, 배경 스타일 등을 구현하기 위해 LoRA를 활용할 수 있습니다.

결론

Stable Diffusion으로 전문가 수준의 실사 이미지를 생성하는 것은 단순히 좋은 프롬프트 입력에서 그치지 않습니다. 신뢰할 수 있는 실사 특화 모델 선택, 적절한 샘플링 방법과 스텝 수 설정, CFG 스케일을 통한 프롬프트 충실도 조절, Hires. fix 또는 업스케일링을 활용한 고해상도 처리는 필수적인 과정입니다.

지금 바로 시도해볼 액션:

실사 특화 모델 다운로드: Civitai 등에서 Realistic Vision, AbsoluteReality와 같은 모델을 다운로드하여 사용해보세요.
샘플링 설정 최적화: DPM++ 2M Karras 샘플러와 25~35 스텝, CFG 스케일 7~10 사이로 시작하여 다양한 조합을 실험해보세요.
네거티브 프롬프트 활용: 위에서 제시된 네거티브 프롬프트를 그대로 적용하여 결과물의 개선을 확인해보세요.

이 가이드가 여러분의 Stable Diffusion 실사 이미지 생성 실력을 한 단계 끌어올리는 데 도움이 되기를 바랍니다. 꾸준한 실험과 탐구를 통해 자신만의 최적 설정값을 찾아나가시길 응원합니다.

EXTERNAL_LINKS: Civitai, Hugging Face

Post Views: 17