주부독립 프로젝트의 일환으로 며칠 자동화 프로그램을 개발해봤다.

원하는 길이와 사이즈, 스타일을 지정한 프로젝트를 만들고, 가장 기본적인 최종 블로그 원글을 주어 구글 제미나이에 의한 오디오 스크립트 생성, Google AI Studio TTS API를 이용한 오디오 생성, 각 씬별 키샷 이미지 생성, 그걸 받아 클링 3.0 등을 이용한 전체 런타임에 맞는 영상 생성까지..

과거 n8n으로 이런 형식의 자동화 시나리오를 만들면서 겪었던 같은 문제로 중단할 수 밖에 없게 되었다. 첫 단계인 블로그 원글을 가지고 Gemini 1.5 Flash 정도의 최하 버전으로도 오디오 스크립트는 꽤 쓸만하게 나왔다. 프로젝트에서 설정한 런타임에 따라 적절히 길이를 늘려줬고 구어체로 자연스럽게 변환시켜 거의 완벽한 스크립트를 주었다. 다음 단계인 오디오 생성은 가장 낮은 버전인 구글 TTS를 사용하여 쓸만한 품질이 되지 못하였으나, 이건 정식 Gemini 2.5 Flash TTS를 붙이면 되리라고 보고 다음 단계인 이미지 생성.. 이틀 꼬박 참조이미지대로 이미지 생성이 되지 않아 헤매다가 결국 비슷한 형태의 이미지가 나올 수 있도록 프롬프트 수정을 했지만 여기서 진을 다 빼고 말았다. 정식 Nano Banana Pro API를 붙여서 해결될 문제가 아니었다. 그래서 다음단계인 영상은 손도 대지 못한채 마지막 단계인 각 채널에 업로드 단계부터 작업하게 되었다.

유튜브 롱폼, 숏폼, 틱톡, 페이스북, 인스타그램, 릴스, 스레드까지.. 
사용자별로 자신의 채널 연동 키를 넣고 최종 결과물을 툴에 업로드를 하면 각 채널별 형식에 최적화하여 채널에 즉시 또는 예약으로 업로드 하는 기능이다.

이 부분을 별도로 만들까 하다가 결국 맴버관리와 기본 블로그 글은 동일한 과정을 거쳐야 하기 때문에 뒷 단에서 별도로 최종 파일을 등록하여 채널 등록을 할 수 있게 한 것이다. 페이스북과 인스타그램, 틱톡 등에서 자신의 API Key나 Access Token을 만들어 계정 연동에 넣는 것도 문제겠지만, 어차피 이 과정은 거쳐야 하기 때문에 실제 사용시에 생성된 결과물은 더 다듬으면 되겠다 싶어 일단 모든 작업을 중단하고 근본적인 문제를 생각하게된 것이다.

과연 지금 단계에서 나에게 이것이 필요할까이다. 모든 단계에서 유료 API를 연동해야 하는데, 사실 Opal이나 Antigravity MCP를 쓰면 무료로도 충분히 최신 구글 도구들을 사용해서 원하는 퀄리티의 오디오와 이미지까지 뽑아낼 수 있다. 이것을 가지고 클링 3.0이나 SeeDance 2.0을 가지고 돌리면 10분 정도의 고퀄리티 영상을 뽑아낼 수 있다. 이걸 받아서 편집해서 최종 결과물을 만들어내면 된다.

그래서 일반인을 위한 자동화 툴 개발은 일단 중단하고 자체 채널 운영에 들어가고, 어느 정도 기반이 닦이면 이후 제대로 된 작업을 하자는 것이다. 좋은 경험이었다.