2020년 2월 3일 In 출시

AI 스타트업 슈퍼브에이아이, 국내 최초 한글 OCR 인공지능 학습용 데이터 780만 글자 공개

한글 자모 조합 총 1만1172자 포함하는 최초 데이터 세트 개방
문자 인식 OCR, 자율주행 등 다양한 AI 산업분야 활용 가능성 기대
한국정보화진흥원 AI허브 홈페이지에서 이용 가능

AI 스타트업 슈퍼브에이아이(대표 김현수)가 국내 최초로 한글 OCR 인공지능 학습용 데이터 780만 글자 구축에 성공, AI 허브에 공개했다고 30일 밝혔다.

슈퍼브에이아이는 한국 정보화진흥원(NIA)이 주관하는 2019년 한국어 글자체 이미지 AI데이터 구축 사업에 참여하여, 인공지능 개발을 위한 △간판, 도로 표지 등의 이미지 내 Text in the Wild 130만 글자 △인쇄체 280만 글자 △손글씨체 370만 글자 등 총 780만 글자 이미지 데이터를 성공적으로 제작했다. 한국어의 고유한 특성을 살린 OCR 인공지능 학습용 데이터 세트로서 한글 자모 조합 총 1만1172자를 포함한다.

이번에 공개된 데이터 세트는 AI Hub 플랫폼(http://aihub.or.kr/aidata/133)에서 다운로드 가능하다. 이를 통해 누구나 대량의 한글 OCR 학습 데이터를 내려 받아 한글 인식 및 이미지 기반 검색 등의 AI 모델 및 서비스 개발에 활용할 수 있다.

현재 글로벌 기업(구글 등)이 제공하는 OCR 활용 인지 서비스에 한국어로 된 글자체 이미지 데이터 세트가 없어 기관, 기업의 연구개발에 차질이 있었다. 전 세계적으로 전통적인 알고리즘이 아닌 딥러닝 기반 OCR 기술을 사용하는 추세라 한글 글자체에 대한 공개된 학습용 데이터 세트가 필요하다는 게 회사 측 설명이다.

또한 슈퍼브에이아이는 데이터 가공, 관리 및 분석이 가능한 슈퍼브에이아이 스위트(Superb AI Suite)를 도입하여 인공지능 개발에 즉시 사용 가능한 양질의 데이터 세트를 구축했다. 2019년 12월 출시된 기업용 소프트웨어로, 데이터 어노테이션을 쉽게하는 기능과 반자동 어노테이션을 지원하는 AI 모델이 포함된 종합 머신러닝 데이터 플랫폼이다.

김현수 슈퍼브에이아이 대표는 “인공지능 분야에서의 AI 학습 데이터는 대부분 해외에서 제작된 오픈소스 데이터 세트에 의존하고 있어, 국내 시장에 맞는 데이터 세트는 여전히 가뭄상태”라면서 “중요성에도 불구하고 데이터 세트 구축 사업 특성상 막대한 비용과 시간이 소요된다는 것이 가장 큰 이유인데, 앞으로 슈퍼브에이아이가 소프트웨어 혁신을 통해 한국의 AI 산업 발전을 이끌겠다”고 말했다.

슈퍼브에이아이 개요

2018년 4월 설립된 슈퍼브에이아이(Superb AI)는 머신러닝 데이터 플랫폼을 개발하는 인공지능 스타트업이다. 2019년 12월에 기업용 서비스형 소프트웨어(SaaS)인 ‘슈퍼브에이아이 스위트(Superb AI Suite)’를 출시했다. 올인원 솔루션으로서 데이터 수집, 제작 단계의 전통적인 데이터 가공부터, 딥러닝 알고리즘 학습 과정에 필요한 데이터 관리, 분석 기능까지 제공한다. 2019년 실리콘밸리 스타트업 액셀러레이터 와이콤비네이터(Y Combinator) 프로그램에 참가, 시드 투자를 받았다. 그 외 Duke University, Pegasus Tech Ventures, 뮤렉스파트너스, KT인베스트먼트 등으로부터 총 25억의 투자를 유치했다.

웹사이트: http://www.superb-ai.com

Leave a Reply