우리는 스스로를 정보통신 강국이라고 자랑스러워했다. 주로 정보통신 인프라 구축에 초점을 두고 한 말인데 요즘에는 정보통신 강국이라는 표현을 잘 쓰지는 않는 것 같다. 겸연쩍어진건지...
우리나라의 정보통신 산업은 주로 하드웨어에 치중해 왔는데 이제는 누구라할 것 없이 소프트웨어와 컨텐츠가 미래라고 부르짖고 있다. 소프트웨어와 컨텐츠를 정보라고 본다면 정보를 구성하는 가장 기본적인 단위는 언어, 우리나라같으면 한국어라고 할 수 있다. 따라서, 가장 기본적인 단위인 한국어를 얼마나 잘 처리할 수 있느냐에 따라서 그것으로 구성된 정보의 질과 처리 효율성이 결정된다고 할 수 있겠다.
1928년에 70여년에 걸친 작업을 완료한 옥스포드 영어 사전이나 수백년 전부터 자신들의 언어를 체계적으로 연구해 온 언어 선진국에 비해 문자 창제의 빛나는 업적과 풍부한 언어 자원을 가진 한국어는 연구와 그 성과가 아직은 미진한 상태이다.
지난 수천년간 종이로 대표되는 오프라인 매체에 의존해오던 정보의 전달과 저장 방식이 인터넷을 중심으로 급격하게 변화하고 있다. 지금이 미진한 한국어 정보처리 연구에 적극 투자하여 개편되는 새로운 온라인 세상을 한국어 컨텐츠로 채울 절호의 기회가 아닐까 싶다.
"한국어 정보 처리 입문"은 전자 사전 개발, 한국어 코퍼스 구축, 음성인식이나 음성 생성, 기계 번역 시스템 등과 같은 전문 영역으로 분리되어 산재되어 있던 연구 결과를 모아 일반대중 특히 대학 학부생을 위하여 쉽게 풀어 쓴 한국어 정보 처리 입문서이다. 특히 저자들이 전산학이 아닌 한국어학 배경을 가진 연구자들이므로 다른 전산학쪽의 책들과는 제대로 된 한국어 처리에 중심을 두었다는 차이가 있다.
내용으로는 한국어 문자코드, 코퍼스의 구축과 가공, 전자 사전, 형태소 분석, 구문 분석, 의미 분석, 음성 언어 처리, 기계번역, 응용 시스템 그리고 어문 정책과 국어 정보화 등이 포함되어 있다. 검색 엔진등의 한국어 정보 처리 분야에 종사하는 사람은 말할 것도 없고 대학 학부생이라면 반드시 읽어야 할 책이다.