이런저런생각

[끄적끄적] 'Spoken Corpus' 코퍼스란??

인유주 2023. 6. 25. 13:00
728x90
반응형
SMALL

 

 

구어 모음은 녹음되거나 기록된 대화, 대화, 인터뷰 또는 기타 형태의 대화 모음을 말합니다. 이러한 말뭉치는 음성학, 구문론, 의미론, 화용론, 담화 분석 및 사회 언어학 연구를 포함하여 다양한 언어 연구 목적에 사용됩니다.

음성 말뭉치는 실생활 의사소통에 사용되는 자연어를 분석하는 데 귀중한 자료입니다. 그들은 말의 멈춤, 망설임, 말의 겹침, 비표준 문법 및 다양한 담화 현상과 같은 특징을 포함하여 구어의 역동적인 특성을 포착합니다.

잘 알려진 말뭉치에는 다음이 포함됩니다.

 

반응형

 

  1. Switchboard Corpus: 이 말뭉치에는 광범위한 주제 및 인구 통계의 전화 대화가 포함됩니다. 1990년대 초에 수집되어 음성인식, 대화분석, 구어이해 등의 연구에 널리 활용되어 왔다.
  2. BNC(British National Corpus): BNC는 주로 서면 텍스트로 구성되지만 상당한 양의 구어 데이터도 포함합니다. 다양한 장르와 화자를 다루므로 다양한 맥락에서 구어체 영어를 공부하는 데 유용한 자료입니다.
  3. Spoken Professional American English 코퍼스(C-SPAE): 이 코퍼스는 미국 영어의 전문적인 상호 작용에 중점을 둡니다. 여기에는 비즈니스 회의, 취업 면접 및 의료 상담과 같은 다양한 전문적인 환경에서 녹음된 대화 및 인터뷰가 포함됩니다.
  4. Spoken American English의 Santa Barbara 말뭉치: 이 말뭉치에는 캘리포니아의 Santa Barbara 지역에서 수집된 대화 음성이 포함되어 있습니다. 미국 영어의 지역적 다양성과 사회언어학적 측면에 대한 통찰력을 제공합니다.
  5. ICE(International Corpus of English): ICE 프로젝트는 전 세계 다양한 영어 유형을 나타내는 여러 말뭉치로 구성됩니다. ICE의 음성 구성 요소는 다양한 영어권 국가의 음성 상호 작용을 캡처하여 교차 문화 및 비교 연구를 허용합니다.

이것들은 단지 몇 가지 예일 뿐이며 다른 언어와 상황에 따라 수많은 다른 구어 말뭉치가 존재합니다. 구어의 복잡성과 일상 의사소통에서의 사용을 이해하는 데 관심이 있는 연구자와 언어학자에게 귀중한 자료입니다.

728x90
반응형
SMALL