ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Whisper-WebUI (유튜브 or 영상 음성인식 자동자막, 번역) 사용법
    여러가지 2023. 6. 4. 17:10

    Whisper-WebUI 프로젝트 파일

    https://github.com/jhj0517/Whisper-WebUI/archive/refs/heads/master.zip

    적당한 위치에 프로젝트 파일을 압축해제한다.

     

    FFmpeg

    https://www.gyan.dev/ffmpeg/builds/ffmpeg-release-essentials.zip

    FFmpeg 을 적당한 경로에 압축해제하고 ffmpeg > bin 폴더를 시스템 환경변수에 등록한다.

     

    python 기반 프로그램이기 때문에, 파이썬 환경을 세팅해줘야하는데

    로컬 환경에 파이썬을 설치해 사용할 수도 있고, anaconda를 사용해 가상환경을 세팅해 사용할 수도 있다.

     

    1. 로컬 설치법

    https://www.python.org/ftp/python/3.10.11/python-3.10.11-amd64.exe

    파이썬을 설치한다 (아래 path 체크 안 하면 수동으로 환경변수 등록해줘야됨)

     

    Whisper-WebUI 폴더 내의 install.bat 클릭해 설치

     

    설치 다 끝나면 start-webui 사용해 실행할 수 있음.

     

    2. anaconda 가상환경에 설치법 (VRAM 제대로 사용못하는 문제 있는것같음 ㅡ,ㅡ, 문제발생시 native로)

    conda create -n whisper python=3.10.11
    conda activate whisper
    pip install -r requirements.txt
    python app.py

    install.bat, start-webui.bet 전부 venv 가상환경 사용하는 명령어들을 배치 형태로 만들어둔거라

    로컬에 파이썬 깔기 싫으면 아나콘다에서 가상환경 만들어서 사용할 수도 있음.

     

     

    콘솔에 local URL이라고 나오는 주소에 웹 브라우저로 접속하면 됨 (콘솔창 닫으면 안됨)

    이런 화면이 나오는데,

    File: 동영상 or 음성 -> 자막

    Youtube: 유튜브 링크 -> 자막

    Mic: 마이크 -> 자막

    T2T Translate: 자막 번역

    기능을 제공함.

     

    File 탭 사용법

    1. 음성 or 영상 파일을 드래그 & 드랍 or 클릭해서 업로드할 파일 선택

    2. 모델 선택

    위 표 보고 GPU 메모리 (VRAM) 용량에 따라 선택하면 됨.

    GPU 메모리 12GB 사용하고있는데, large 선택하고 돌려보니 안되서 medium으로 줄임.

    (FutureWarning: torch.cuda.reset_max_memory_allocated now calls torch.cuda.reset_peak_memory_stats, which resets /all/ peak memory stats.) 이런 메세지 나오면 메모리 부족하다는것

    큰 모델 시도해보고 안되면 한단계씩 줄여보면 될듯

     

    3. Language 선택: 영상 내에서 사용되는 언어 선택

     

    위 옵션들 설정한 후 Generate subtitle file 누르면, output 창에 미리보기가 표시되고, 오른쪽 폴더 아이콘 누르면 저장된 자막이 나옴.

     

    처음 실행할 때는 모델 파일을 다운로드 해야해서 시간이 좀 걸림 (콘솔창에 progress bar 보임) 한번 모델 다운로드 받아놓으면 금방됨..

     

    Youtube 탭 사용법

    다른부분은 다 같고 파일 업로드 대신 youtube link 부분에 유튜브 영상 링크 입력하면 됨.

    입력하면 자동으로 썸네일, 제목, 설명 불러옴

     

    T2T Translation 탭 사용법

    1. 생성된 자막 파일 업로드

    2. 아래 VRAM 사용량을 보고 적당한 모델 선택

    3. Source(번역할) -> Target(번역될) 언어 선택 

    Translate subtitle file 클릭

     

    얘도 모델을 다운로드받아야해서 처음 실행하면 시간이 좀 걸림. 

     

    잡다한 오류들은 대부분 프로그램 재시작으로 해결

     

     

    음성 인식은 Open AI Whisper을 사용하고 번역은 Facebook nlib-200 모델을 사용하는데, 성능도 꽤 좋고, 로컬에서 돌아가다보니 과금도 필요없어서 좋은것같음.

    댓글