Menu

Menu

Menu

전문용어 인식, 왜 범용 STT로는 부족할까

전문용어 인식, 왜 범용 STT로는 부족할까

전문용어 인식, 왜 범용 STT로는 부족할까

Technology

Technology

전문용어가 많은 산업에서는 범용 STT가 1~2음절씩 흔들리는 오인식이 잦고, 그 작은 차이가 업무 품질을 크게 좌우합니다. 마고는 (1) 용어 사전 반영/도메인 Fine-tuning과 (2) LLM 문맥 기반 후처리 보정을 병행해 전문용어 인식을 안정화해왔고, 실제로 다양한 전문 도메인이 섞인 기업 교육 콘텐츠 환경에서 장기간 운영하며 이를 검증했습니다.


마고를 찾아오는 기업 고객분들이 많이 묻는 질문이 하나 있습니다.

“저희 산업 용어도 정확하게 인식할 수 있나요?”

반도체 공정 명칭, 화학 물질명, 제약 성분명, 내부 시스템 코드. 이 단어들은 일상 대화에는 거의 등장하지 않습니다. 그렇기 때문에 범용 음성 인식(STT) 모델에서는 예상보다 쉽게 깨집니다. 문제는 모델의 ‘성능’이 아니라 모델이 무엇을 학습했는가에 있습니다.


💡 왜 범용 STT는 전문용어에서 흔들릴까?



대부분의 글로벌 STT 모델은 일상 대화, 방송, 유튜브, 회의 음성 같은 범용 데이터에 최적화되어 있습니다. Whisper, Google, Microsoft, Meta. 모두 대규모 데이터로 학습된 훌륭한 모델이죠.


기업

방식

OpenAI

범용 모델 + 기업이 직접 도메인 특화 구현

Google

Custom Vocabulary 지원

Microsoft

Custom Speech 재학습 지원

IBM

Custom words / grammar 입력

AssemblyAI

Custom vocabulary 기반 API 구조

ElevenLabs

Scribe v2 STT 모델 + Keyterm Prompting

네이버 클로바

Keyword Boosting 기반 전문용어 사전 등록 + NEST 음성 인식 엔진

리턴제로

Whisper 파인튜닝 + 자체 STT 엔진+ Keyword Boosting

하지만 이런 모델은 평균값에 강합니다. 전문 영역에는 강하지 않습니다. 예를 들어 “리소그래피 공정”이 “리소 그래피 공정”으로 끊기거나, “폴리이미드”가 “폴리 이미트”로 인식되는 식입니다. 완전히 틀리는 경우는 드문데요. 대개는 1~2음절이 어긋납니다. 그런데 기업 환경에서는 그 1~2음절이 치명적입니다.


💡 왜 전문용어 인식이 엔터프라이즈 환경에서 더 중요할까?

음성 인식 오류는 어느 서비스에서나 발생할 수 있습니다. 하지만 엔터프라이즈 환경에서는 그 영향이 훨씬 크게 나타납니다. 소비자 서비스에서는 사용자가 기능을 잠깐 사용하고 떠나는 경우가 많아, 오류의 영향이 비교적 제한적입니다.

반면 기업 환경에서는 음성 데이터가 지속적으로 누적되고, 그 결과가 검색, 분석, 보고, 의사결정에 활용됩니다. 전문용어 하나가 잘못 인식되면 그 오류가 데이터 전체에 누적될 수 있습니다.

처음에는 작은 오타처럼 보일 수 있지만, 데이터가 수만 건 이상 쌓이면 검색 품질 저하나 분석 오류, 운영 비용 증가로 이어질 수 있습니다. 또한 STT 오류가 많을수록 이를 LLM 프롬프트로 보정하려는 시도가 늘어나고, 이 과정에서 프롬프트 길이와 호출이 증가해 LLM 비용과 지연 시간도 함께 커질 수 있습니다.

그래서 엔터프라이즈 환경에서는 단순한 평균 정확도보다 도메인 용어 인식 안정성이 더 중요한 기준이 됩니다.


🔎 그래서 마고는 어떻게 접근했을까?

우리는 처음부터 질문을 바꿨습니다. “완벽하게 맞출 수 있는가?”가 아니라, “어디서 틀리는가?”를 먼저 봤습니다. 그리고 그 패턴은 비교적 명확했습니다.

  1. 음소 자체는 맞다.

  2. 특정 음절에서 왜곡된다.

  3. 문맥을 보면 복원 가능하다.

그래서 마고는 두 가지 방식을 병행합니다.



▶️ 모델에 반영하는 방식

용어 사전이 있는 경우, 수백 개 단위까지는 모델에 직접 반영합니다. 빠르게 적용할 수 있고, Fine-tuning 없이도 개선 효과가 납니다. 하지만 수천 단위로 늘어나면 구조적으로 한계가 생깁니다. 그때는 도메인 전용 모델을 만듭니다.

  • 약 10시간 이상의 도메인 음성 수집

  • 전용 모델 Fine-tuning

  • 1~2주 훈련

이 방식은 비용이 들지만, 장기 서비스에는 가장 안정적입니다.

▶️ 후처리 보정 구조

전문용어는 완전히 틀리기보다는 조금 어긋나는 경우가 대부분입니다. 마고 엔진은 수만 시간의 한국어 음성 데이터로 학습되어 음소 단위 인식은 상당히 안정적입니다. 그래서 우리는 LLM 기반 후처리를 결합합니다.

  • 도메인 사전 입력

  • 산업 정보 프롬프트 추가

  • 문맥 기반 복원

이 구조를 쓰면 모델을 완전히 새로 만들지 않고도 정확도를 실질적으로 끌어올릴 수 있습니다.


🖇️ 실제로 가능했을까?



2023년부터 2년간, 마고는 SK 그룹 내부 사내교육 영상 자동 자막 생성에 자체 개발 STT를 공급했습니다. 반도체, 케미칼, 복합 사업 영역. 전혀 다른 전문용어들이 혼재된 환경이었습니다. 이 프로젝트는 한 가지를 보여줬는데요.

도메인 특화 STT는 이론이 아니라 운영 구조의 문제라는 것. 모델 하나로 해결되는 일이 아니라, 도메인 반영 + 보정 + 운영 경험이 결합되어야 비로소 안정적으로 작동합니다. “모델이 크냐 작냐”의 문제가 아닙니다.

  • 도메인 지식을 반영할 수 있는 구조

  • 재학습 가능한 설계

  • 문맥 기반 보정

  • 실제 산업 운영 경험

이 네 가지가 있어야 Enterprise 환경에서 사용할 수 있는 STT가 됩니다. 그리고 이 문제의 뿌리에는 한국어 STT가 가진 구조적 난이도가 있습니다. 다음 글에서는 왜 한국어 STT가 어려운지, 그 이유를 조금 더 깊게 다뤄보겠습니다.

🔈 전문용어가 많은 환경에서 STT 적용을 검토 중이라면, 업종과 데이터 형태만으로도 접근 전략이 달라집니다. 부담 없이 마고와 이야기 나눠주세요.