본문 바로가기

loading

워드클라우드 개요

  • 미디어통계포털에서는 비정형 데이터인 뉴스와 트위터 자료를 수집하여 분석 및 시각화하는 서비스를 제공합니다. 워드 클라우드(Word Cloud ) 및 시각화 서비스 목적은 주요 SNS 에서 이루어 지고 있는 개인들 간의 의사 소통중에서 화제가 되고 있는 주제(Subject) 혹은 핫 이슈(Hot Issue) 등 어떤 이야기를 하고 있는지 한 눈에 볼 수 있도록 유용한 비주얼 분석도구를 이용하여 서비스를 제공합니다.

데이터 출처

  • Naver : 뉴스, 카페, 블로그
  • Twitter : Twit

데이터 수집 주기 및 방식

  • 배치주기 : 매일 & Batch 처리
  • 인터페이스 방식 : Web Crawling 및 OpenAPI

SNS 서비스 구성도

SNS서비스 구성도는 외부데이터연계, 시스템 구성도, 사용자화면 3개로 구성되어 있으며, 외부데이터연계는 NAVER, Daum, Twitter 등 소셜데이터이고, 데이터수집 영역은
	STCrawler를 이용한 키워드기반 수집 및 화제어분석과 데이터 수집처, 데이터수집형식관리, 키워드관리, 수집모니터링을 관리하는 Management로 나뉜다. 서비스 시스템 영역은 자연어처리(KONLY),Apriari처리,TF-IDF분석, 시계열분석,
	빈도분석을 담당하는 STAnalyzer와 WordCloud, D3,eChart, DataTables, JWT(json web Tokenizer)를 담당하는 STBI와 수집/분석관리, 사용자/관리자관리, 데이터관리, 인증관리를 하는 Management System으로 나뉜다. 사용자화면은 웹서비스 형태로 제공을 합니다.

SNS 서비스 분석방법

SNS 서비스 분석방법은 수집, 텍스트마이닝, 분석, 시각화등과 같이 프로세스를 기반으로하는 빅데이터 서비스 플랫폼구축이며, 이에 대한 필요기반기술과 구현 기술방안은 다음과
	같습니다. 첫번째 데이터수집기술은 국내 미디어와 포털 및 뉴스등 주요채널에 대한 수집이고(트위터,블로그) 구현은 Web Crawling, OpenAPI를 이용한 수집기술입니다. 두번째는 텍스트 마이닝 기술은 포털,SNS,뉴스등 키워드로 수집된 문서의
	형태소 분할 및 저장 품사 tagging방식 시스템 사전 library (Hannanum, kkma, Komranm Mecab, okt)를 사용하며, KONLP 모듈를 활용하여 분석합니다. 세번째로 분석기술은 문서별 빈도분석, 문서별 연관어 분석(지지도, 신뢰도, 향상도)와
	TF-IDF분석 등의 기법을 이용하여 시계열분석, Apriori알고리즘, TF-IDF분석 기술을 활용하여 분석합니다. 네번째로 시각화기술은 오픈소스 시각화 솔루션활용 웹표준 준수 및 워드클라우드, 차트, 그리드, 데이터 보안을 위한 JWT(json Web Token) 
	방법을 활용하여 분석을 합니다. 이에 대한 구현기술 방안은 eChart, DataTables, JWT 기술을 이용하여 구현했습니다.

SNS 시각화 분석 결과 화면설명

검색영역

검색키워드,수집일자,채널선택 조회 검색영역

워드 클라우드 영역

검색어키워드 기반으로 화제가 되고 있는 주제를 한 눈에 볼 수 있도록 시각화 한 서비스 워드 클라우드 영역

화제어리스트 및 채널별 추이

검색키워드 및 연관어 문서건수 및 각 채널별 화제어 수집추이 화제어리스트 및 채널별 추이

원문 리스트

SNS(트위터) 및 네이버(뉴스,블로그,카페)에서 수집된 자료의 출처에 대한 샘플(100만건만 조회) 원문 리스트