눈이 침침할 정도의 3일의 강행군, 두 차례에 걸친 카페에 올려진 말씀집 622권을 크롤링해서 완벽한 데이터로 내 서버 DB에 넣는 작업을 끝냈다. 이전엔 615권의 PDF를 텍스트 추출로 잘려진 문단을 정렬하고 최대한 어색한 부분을 정규식을 통해 오류를 수정한 버전을 만들었으나, 그래도 소제목 처리나 문법 오류 등 미진한 부분들은 일일이 원문을 대조해가며 수작업으로 정리해 볼까 하다가 마침 카페에 공개된 622권 텍스트가 있어 이걸 크롤링으로 가져오는 프로그램을 개발하고 두 차례의 시행착오 끝에 거의 완벽하게 내 서버에 구축된 것이다.

처음엔 모든 변수를 담지 못해 중간중간 틀어진 데이터를 받고 대충 여기서 또다시 수작업으로 다듬을까 고민하다가 결국 더 정교한 과정을 거쳐 거의 완벽에 가까운 데이터를 얻게 된 것이다. 그 다음 작업이 전체 검색, 이것은 역시 622개의 테이블의 방대한 데이터에서의 Linear Search 방법이라 하드웨어에 의존한 것이라 늦을 수 밖에 없고, 결국 이 데이터를 AI를 통한 학습과정을 거쳐 2차, 3차 생성물을 만들기 위한 기초작업이라 다음단계인 이북뷰어 작업...

이전 작업 경험이 있어 의외로 쉽게 생각했는데 꼬박 24시간은 걸렸다. 다양한 기능을 넣지는 못했지만 기본적인 권별 이북보기를 PC와 모바일 환경에서 볼 수 있는 것까지는 만들었다. 여러 모델들을 오가며 사소한 오류들을 잡고 지금까지의 틀을 갖춘 것 까지가 1단계이다.

이제 AI를 접목해서 훈독묵상 앱을 만들고 설교문 작성, 성가곡 생성, 말씀편지 쇼츠영상 생성 등으로 어떻게 활용할지가 과제다.

 

문선명선생말씀선집 622권 : https://mts.4men.kr/sayings/