미드저니 입문 가이드: 왕초보도 실사 여행·유튜브 이미지를 뽑는 프롬프트 공식

Q: 누가 미드저니로 실사 여행 이미지를 시작하면 좋을까요?

여행 콘텐츠를 만들면서 촬영 느낌의 배경 이미지가 꾸준히 필요한 사람, 유튜브 영상에서 장면 전환에 쓸 실사 배경이 필요한 사람에게 특히 잘 맞습니다.

Q: 무엇을 프롬프트에 넣어야 실사 같은 카메라 결과가 나오나요?

피사체, 장소/상황, 렌즈(35mm/50mm/85mm), 자연광, 구도/여백, 디테일, 금지요소(--no text 등), 파라미터(--ar 16:9, --raw)를 한 줄에 담으면 결과가 안정됩니다.

Q: 언제 --raw를 쓰는 게 가장 효과적일까요?

그림 느낌보다 진짜 사진 같은 결과가 필요할 때 효과적입니다. 특히 자연광/클린 무드에서 --raw가 도움이 될 때가 많습니다.

Q: 어디서 --ar 16:9 같은 파라미터를 붙여야 하나요?

항상 프롬프트 문장 맨 끝에 붙여야 합니다. 파라미터는 끝에 배치하는 것이 원칙입니다.

Q: 왜 손가락이 6개 나오거나 눈이 이상하게 나오나요?

생성 과정에서 디테일이 꼬일 수 있습니다. 손을 프레임 밖으로 빼는 구도를 먼저 쓰고, 문제 부위만 Vary Region이나 웹 Editor로 수정하는 방식이 효율적입니다.

저는 예전에 디스코드 중심으로 미드저니를 꽤 써봤고, 요즘은 다른 툴(예: 멀티모달 툴) 비중이 커서 구독을 정리한 상태예요. 하지만 “여행용 풍경 이미지”나 “유튜브 영상에 깔아두는 실사 느낌 이미지”는 아직도 미드저니가 강한 구간이 있어요.

문제는 여기죠. 왕초보 때는 손가락이 6개가 나오고, 눈이 이상하고, 캐릭터가 계속 바뀌어서 “이거 왜 이래?”가 나오기 쉽습니다. 그래서 이 글에서는 딱 하나만 해결해요. 프롬프트를 ‘카메라 촬영처럼’ 설계하는 공식을 알려드릴게요.

미드저니로 자연광 실사 여행 풍경을 16:9로 생성하고 유튜브 영상 배경으로 활용하는 장면

미드저니 실사 이미지를 만들기 전에 무엇부터 세팅해야 할까요?

왕초보가 가장 많이 놓치는 건 “프롬프트 단어”가 아니라 세팅이에요. 세팅이 맞아야 프롬프트가 먹힙니다.

버전: 현재 기본 버전은 V7이에요. 필요하면 --v 7로 명시할 수 있습니다. (공식: Midjourney Version)
비율: 유튜브/여행 배경은 거의 무조건 --ar 16:9가 편합니다. (공식: Aspect Ratio)
실사 모드: 더 사진처럼 가고 싶으면 --raw를 붙여요. (공식: Raw Mode)
퀄리티: V7 기본 --q 1이고, 더 디테일이 필요하면 --q 2 또는 --q 4를 씁니다(단, GPU 시간이 더 듭니다). (공식: Quality)
변동성: 초보는 --chaos를 낮게(0~10) 두는 게 결과가 안정적이에요. (공식: Chaos / Variety)

미드저니는 프롬프트를 해석해요. 사용자는 파라미터를 설정해요. 결과물은 화면에 생성돼요. (주어-동사-목적어로 흐름을 딱 잡아두면, 초보일수록 덜 흔들려요.)

왕초보가 바로 복붙하는 실사 프롬프트 공식은 무엇일까요?

실사(포토리얼) 프롬프트는 “그림 주문”이 아니라 “촬영 주문”이에요. 아래 한 줄 구조로만 생각하면, 결과가 훨씬 사진처럼 갑니다.

[피사체] + [장소/상황] + [카메라/렌즈] + [조명] + [구도/여백] + [디테일 키워드] + [금지 요소] + [파라미터]

그리고 파라미터는 항상 맨 끝에 붙여야 해요. 띄어쓰기/형식이 틀리면 결과가 흔들립니다. 공식 문서에서도 “파라미터는 끝에, 대시 앞 공백, 파라미터에 불필요한 문장/기호 금지”를 강조해요. (공식: Parameter List)

실사 프롬프트 구성 요소를 표로 보면 어떻게 이해가 쉬울까요?

구성 요소	초보 추천 예시	이걸 넣는 이유
피사체	a traveler / a couple / a coastal cliff	무엇을 찍는지 먼저 고정해야 흔들림이 줄어요.
장소/상황	in a clean seaside town / in a quiet mountain road	여행 이미지는 “장소 감정”이 핵심이에요.
카메라/렌즈	35mm / 50mm / 85mm, DSLR photo	“촬영 느낌”이 생기면 실사가 됩니다.
조명	natural light, soft shadows	사용자 조건(자연광/클린)을 바로 강제해요.
구도/여백	rule of thirds, negative space on right	유튜브는 자막/그래픽 공간이 필요해요.
디테일	high dynamic range, realistic textures	플라스틱 같은 질감을 줄이는 데 도움돼요.
금지 요소	--no text letters watermark logo	텍스트/워터마크가 섞이면 썸네일이 지저분해져요.

Raw Mode vs Standard Mode는 무엇이 다를까요?

실사를 노릴 때 초보가 가장 빠르게 체감하는 건 Raw Mode예요. 공식 문서에서도 Raw Mode가 “자동 스타일 개입(오토파일럿)을 줄여서 더 현실적인 결과를 얻는 데 도움”이 된다고 설명합니다. (공식: Raw Mode)

비교 항목	A: Standard Mode	B: Raw Mode ( --raw )
추천 상황	감성/스타일이 자동으로 예쁘게 나왔으면 할 때	실사처럼 “촬영 느낌”을 강하게 내고 싶을 때
초보 체감	프롬프트가 짧아도 결과가 ‘어느 정도’ 완성됨	프롬프트가 구체적일수록 결과가 더 정확해짐
실사 안정성	가끔 “미드저니 느낌”이 섞일 수 있음	사진처럼 덜 과장된 결과로 갈 확률이 높음

여행 풍경 실사 프롬프트를 10초 만에 만들려면 어떻게 할까요?

아래 예시는 “자연광 + 클린 + 16:9 + 텍스트 없음”을 기본으로 잡았어요. 그대로 복붙해도 되고, 장소만 바꿔도 잘 굴러갑니다.

여행 풍경 1: clean photorealistic landscape photo of a quiet coastal cliff at sunrise natural light soft shadows 35mm DSLR high dynamic range realistic textures rule of thirds large negative space for overlay --ar 16:9 --raw --v 7 --q 1 --c 5 --no text letters watermark logo
여행 풍경 2: ultra realistic photo of a mountain road with pine trees after rain natural light clean atmosphere 50mm camera cinematic composition subtle mist crisp details negative space on the right --ar 16:9 --raw --v 7 --q 1 --c 3 --no text letters watermark logo
여행 도시 3: high quality street photo of a modern city skyline from a river walk natural light clean minimal color palette 35mm photo realistic reflections sharp focus negative space for title --ar 16:9 --raw --v 7 --q 1 --c 5 --no text letters watermark logo
여행 하늘 4: photorealistic aerial view of a coastline with turquoise water natural light clean clarity realistic water texture wide shot minimal composition --ar 16:9 --raw --v 7 --q 1 --c 7 --no text letters watermark logo
여행 감성 5: realistic photo of a small cafe terrace in a quiet travel town natural light clean look soft shadows 50mm shallow depth of field minimal background negative space --ar 16:9 --raw --v 7 --q 1 --c 4 --no text letters watermark logo

미드저니로 생성한 실사 여행 풍경 이미지에 여백을 남겨 유튜브 자막을 얹기 좋은 16:9 구도 예시

인물 실사 프롬프트는 어떻게 해야 손/눈 문제가 덜할까요?

왕초보가 싫어하는 결과 1순위가 “손가락 6개”, 2순위가 “눈 이상함”이죠. 이건 모델이 아직도 가끔 실수할 수 있어요. 따라서 초보는 프롬프트로 리스크를 “회피 설계”하는 게 빨라요.

손 리스크 줄이기: hands not visible / hands in pockets / upper body portrait / close-up portrait 같은 구도로 “손을 프레임 밖”으로 빼요.
눈 리스크 줄이기: sharp focus on eyes / realistic eye reflections / natural skin texture 같은 촬영 키워드를 넣어줘요.
변동성 낮추기: chaos는 낮게(0~10) 유지해요. (공식: Chaos / Variety)

인물 실사 예시는 아래처럼 “손을 아예 제거”하는 게 초보에겐 제일 안정적입니다.

인물 실사 1: photorealistic close-up portrait of a traveler smiling gently natural light clean background 85mm DSLR realistic skin texture sharp focus on eyes soft shadows hands not visible --ar 16:9 --raw --v 7 --q 1 --c 3 --no text letters watermark logo
인물 실사 2: realistic upper body portrait of a person standing by the sea natural light clean minimal background 50mm photo cinematic composition hands in pockets sharp eyes realistic hair detail --ar 16:9 --raw --v 7 --q 1 --c 5 --no text letters watermark logo

손가락 6개가 나왔을 때, 전체를 다시 뽑지 않고 고치는 방법은 무엇일까요?

여기서부터가 “초보와 중급의 갈림길”이에요. 전체를 계속 다시 뽑으면 시간이 녹습니다. 하지만 미드저니에는 부분 수정 기능이 있어요.

1단계: 마음에 드는 구도 1장을 고르고 업스케일합니다.
2단계: 손/눈 같은 문제 부위만 Vary Region으로 다시 그립니다. (공식: Vary Region)
3단계: 웹에서는 Editor에서 같은 개념(인페인팅/Erase)을 사용할 수 있어요. (공식: Editor)

또한 “같은 이미지에서 조금만 바꾼 버전”을 만들고 싶다면 Variations 흐름을 이해하면 좋아요. (공식: Variations)

유튜브 영상용 이미지는 어떻게 ‘자막 자리’까지 포함해서 만들까요?

유튜브는 이미지 자체보다 영상 자막/그래픽이 올라갈 공간이 중요해요. 그래서 프롬프트에 아래 두 가지를 넣으면 실패가 줄어요.

negative space (여백 확보)
clean background (배경 단순화)

예시 프롬프트는 이렇게요.

photorealistic travel background image natural light clean minimal scene wide shot large negative space for subtitles
--ar 16:9 --raw --v 7 --q 1 --c 5 --no text letters watermark logo

캐릭터 일관성이 필요하면 어떻게 해야 할까요?

초보가 “캐릭터 일관성”을 싫어하는 이유는 간단해요. 매번 얼굴이 바뀌면 영상/썸네일 시리즈가 무너집니다. 그래서 V7에서는 Omni Reference를 고려할 수 있어요.

공식 문서에 따르면 Omni Reference는 “레퍼런스 이미지의 사람/오브젝트를 새 이미지에 넣는 기능”이고, V7과 호환됩니다. 다만 GPU 시간이 2배 들고, 일부 편집 기능과 호환 제한이 있어요. (공식: Omni Reference)

어떻게 Omni Reference로 ‘얼굴 유지’를 시도할까요?

기본 캐릭터 1장을 먼저 만듭니다(가장 잘 나온 컷을 고르세요).
그 이미지를 레퍼런스로 넣고 --oref를 사용해요. (공식: Omni Reference)
같은 스타일을 유지하려면 Style Reference(--sref)로 “무드”도 고정해요. (공식: Style Reference)
chaos는 낮게 유지하고, 조명/렌즈/구도를 매번 비슷하게 적어줍니다.

참고로 Character Reference는 V7과 호환되지 않아서 V7에서는 Omni Reference를 쓰라고 공식 문서에 명시되어 있어요. (공식: Character Reference)

업스케일은 무엇을 선택해야 “얼굴/손이 덜 바뀔까요”?

업스케일은 최종 납품 단계예요. V7에서는 Subtle과 Creative 업스케일이 있고, Subtle은 원본을 최대한 유지하는 방향이라고 안내합니다. 따라서 실사 인물/손이 중요하면 우선 Subtle 쪽이 더 마음 편할 때가 많아요. (공식: Upscalers)

상업적 사용은 정말 괜찮을까요?

유튜브 영상 제작에 쓰려면 “상업적 사용”을 생각하게 되죠. 여기서는 과장하지 않고 정책 준수 전제로 현실적으로 정리할게요.

미드저니 이용약관은 “적용 법률 범위 내에서 사용자가 생성한 자산을 소유”한다고 설명하면서도, 조건(예: 제3자 권리, 특정 매출 규모 기업의 플랜 조건 등)을 명시합니다. (공식: Midjourney Terms of Service)
또한 서비스/결과물은 “AS IS”로 제공되며, 사용 적합성 판단 책임은 사용자에게 있다고 안내합니다. (공식: Midjourney Terms of Service)

그러니 상업적으로 안전하게 가려면, 로고/상표/실존 인물/유명 캐릭터를 피하고, 공개 업로드/공유 범위도 조심하는 게 좋아요.

자주 묻는 질문

누가 미드저니로 실사 여행 이미지를 시작하면 좋을까요?

여행 콘텐츠를 만들면서 “촬영 느낌”의 배경 이미지가 꾸준히 필요한 분, 유튜브 영상에서 장면 전환에 쓸 실사 배경이 필요한 분에게 특히 잘 맞아요.

무엇을 프롬프트에 넣어야 실사 같은 카메라 결과가 나오나요?

피사체 + 장소/상황 + 렌즈(35mm/50mm/85mm) + 자연광 + 구도/여백 + 디테일 + 금지요소(--no text 등) + 파라미터(--ar 16:9, --raw)를 한 줄에 담으면 결과가 안정됩니다.

언제 --raw를 쓰는 게 가장 효과적일까요?

그림 느낌보다 “진짜 사진 같은 결과”가 필요할 때요. 특히 자연광/클린 무드에서 --raw가 도움이 될 때가 많습니다. Raw Mode 사용법은 공식 문서에 안내되어 있어요. (공식: Raw Mode)

어디서 --ar 16:9 같은 파라미터를 붙여야 하나요?

항상 프롬프트 문장 맨 끝에 붙여야 해요. 파라미터는 “끝에 배치”가 원칙입니다. (공식: Parameter List)

왜 손가락이 6개 나오거나 눈이 이상하게 나오나요?

생성 과정에서 디테일이 꼬일 수 있어요. 따라서 손을 프레임 밖으로 빼는 구도를 먼저 쓰고, 문제 부위만 Vary Region이나 Editor로 수정하는 게 효율적입니다. (공식: Vary Region, Editor)

어떻게 캐릭터 일관성을 유지할 수 있나요?

V7에서는 Omni Reference(--oref)로 레퍼런스 이미지를 사용해 캐릭터를 유지하는 방법이 있습니다. 무드를 고정하려면 Style Reference(--sref)도 함께 고려해요. (공식: Omni Reference, Style Reference)

저작자표시 비영리 변경금지 (새창열림)

write77046 님의 블로그