<뉴스소스 베타〉를 중심으로
뉴스 기사의 자연어처리 - <뉴스소스 베타〉를 중심으로
커뮤니케이션 이론 | 한국언론학회 | 49 pages| 2016.05.20| 파일형태 :
조회 1745 다운로드 0
자료요약
뉴스 기사가 빅데이터화함에 따라 뉴스 분석에서 컴퓨터 보조 질적 자료분석 소프트웨어의 사용이나 컴퓨터 이용 내용분석, 의미연결망분석 등의 활용이 늘어나면서 그 과정에서 자연어처리를 이용하는 경우도 증가하고 있다. 하지만 일반적으로 언론학에서 자연어처리는 하나의 블랙박스로 간주되어 방법론적 절차에 대한 엄밀한 검토가 부족하다. 또한 다양한 주제에 대한 높은 수준의 논증을 담은 뉴스 담론분석을 위해서는 단어 중심의 구문분석에 초점을 둔 형식 언어학적 접근이 아니라, 개체명과 문장 수준에서 관계를 부여하고 가중치를 계산하는 데 필요한 자연어처리가 필요하다.
이에 따라 이 연구에서는 뉴스에 대한 컴퓨터 이용 내용분석을 위하여 개체명, 특히 정보원과 문장 수준의 분석에 초점을 둔 뉴스 빅데이터 분석시스템인〈뉴스소스 베타〉를 소개한다.〈뉴스소스 베타〉는 정보원 중심의 개체명 인식과 이에 따른 문장 다중분류, 저널리즘 관행에 따른 최소한의 부분 구문 분석을 바탕으로 하는 의미중의성 해소와 대용어 해소, 군집화를 통한 중복기사와 중복 문장의 제거, 저널리즘 가치에 따라 정의된 뉴스 정보원 연결망 분석 알고리즘을 통한 가중치 부여를 특징으로 한다. 이 연구는〈뉴스소스 베타〉의 자연어처리 알고리즘을 설명하고, 분석사례를 소개한 뒤, 뉴스 자연어 처리 성능을 개선하기 위해 필요한 점들에 대해 제언한다.

The use of natural language processing(NLP) to analyze news articles has increased gradually for computerized content analysis, computer assisted qualitative data analysis software, and semantic network analysis. However, the methodology of NLP has been considered as a black box in communication studies and not closely verified yet. This study argues that the level of analysis to perform discourse analysis of news articles should be named entities or sentences, not words. ‘NewsSource beta’, a news big data analytics system, has functions of NLP including not only morphological analysis and partial parsing, but also sentence boundary disambiguation, named entity recognition, classification of news articles and sentences, and semantic analysis such as word sense disambiguation and coreference resolution. Clustering and ranking algorithm by journalistic values like criticism, is adopted as well. This study explains NLP algorithm of ‘NewsSource beta’ and shows pilot analysis, and discuss how to improve NLP performance of news articles.
목차
1. 문제제기
2. 뉴스 자연어처리의 개념과 절차
3. 단어 중심 뉴스 자연어처리의 한계와 개체명 및 문장 중심 분석의 필요성
4. 뉴스 자연어처리의 사례:〈뉴스소스 베타〉를 중심으로
5. 분석사례
6. 나가며
참고문헌
Abstract
뉴스 자연어처리 〈뉴스소스 베타〉 컴퓨터 이용 내용분석 담론분석 뉴스 빅데이터 분석 개체명 인식 Natural language processing of news articles ‘NewsSource beta’ Computerized content analysis Discourse analysis News big data analytics Named entity recognition
저작권 안내 및 사용범위와 규정
  • 위 정보 및 게시물 내용의 불법적 이용, 무단 전재, 배포는 법적으로 "금지되어" 있습니다.
  • 저작권 침해, 명예훼손 등 분쟁요소 발견시 하단의 “고객센터”를 이용해주세요.
  • 기타는 저작물의 등록자가 정하는 사용 범위와 규정에 준합니다.
  • 위 자료는 한국언론학회 가 저작권을 관리하고 있습니다.
자료 제공처