[무료배포] 토픽 모델 평가 기능(Topic Coherence)
그 동안 넷마이너의 토픽 모델링(LDA)를 사용하셨던 분들을 위한 희소식을 가져왔습니다!
이제 NetMiner에서도 토픽 일관성(Coherence)를 활용하여
적절한 토픽 수, α, β 의 추천 값을 확인할 수 있습니다.
토픽 일관성(Coherence Index)란?
토픽 모델을 평가하는 방법 중 하나로, 같은 토픽에 의미론적으로 유사한 단어들끼리 분류되어 토픽 내용이 일관성이 있는지를 알 수 있는 지표입니다.
예를 들어, 아래는 '기후 변화' 뉴스 데이터에서 분석한 2개의 토픽 모델링 결과입니다.
2개의 토픽 모델은 모두 토픽 수는 3개로 했지만, 그 외의 하이퍼파라미터를 다르게 설정했다고 가정하겠습니다.
어떤 결과가 좀 더 적합한 결과로 보이시나요?
첫번째 토픽 모델 | 두번째 토픽 모델 | |
토픽1 의 주요 단어 | 벚꽃, 공무원, 연구진, 온도, 빙하 | 벚꽃, 개화, 시기, 벌, 3월 |
토픽2 의 주요 단어 | 정부, 공무원, 지원, 대책, 지자체 | 정부, 대책, 지원, 마련, 재생에너지 |
토픽 3의 주요 단어 | 남극, 재생에너지, 대책, 해류, 지원 | 남극, 해류, 빙하, 온도, 베니스 |
첫번째 토픽 모델은 같은 토픽에 서로 다른 주제와 연관성이 높아 보이는 단어가 섞여 있는 반면(토픽이 비일관적),
두번째 토픽 모델은 연관성이 높은 단어들끼리 같은 토픽에 분류된 것을 알 수 있습니다(토픽이 일관적).
결론적으로, 의미적으로 연관도가 높은 단어가 같은 토픽에 있다면, 연구자가 토픽을 쉽게 이해할 수 있습니다.
이러한 아이디어를 토대로 제안된 것이 바로 토픽 일관성입니다.
토픽 일관성은 각 주제별로 상위 N개의 단어를 뽑고, 그 단어들의 연관성(유사도, 함께 등장한 정도)를 계산합니다.
이 연관성이 전반적으로 높다면 토픽 일관성도 높게 나타나겠죠?
토픽 일관성을 이용해서 NetMiner에서 토픽 분석하기
1. 설치
아래 NetMiner 홈페이지에서 토픽 모델 평가 기능의 설치 파일을 다운로드하고 설치해주세요.
Evaluation of Topic Models 다운로드 >>
2. 실행
NetMiner 를 실행하고, Extension > Evaluation of Topic Models 를 실행합니다.
분석 데이터(Analysis Unit)와 옵션을 설정하고 Run 을 클릭합니다.
* 상세 기능은 프로그램 실행 후 Help > Open Manual 에서 확인하실 수 있습니다.
3. 결과
앞에서 설정한 옵션에 따라 NetMiner의 LDA가 여러 번 실행되면서 토픽 모델을 생성합니다.
그리고 각각의 토픽 모델의 Coherence 를 측정합니다.
c_v 와 umass 는 토픽 일관성을 측정하는 방식으로,
c_v는 1에 가까울수록, umass 는 0에 가까울수록 일관성이 높다는 것을 의미합니다.
그렇다면, 위의 결과에 따르면 α, β 가 0.01 일 때 토픽 수는 10인 토픽 모델이 가장 좋다고 볼 수 있겠죠?
4. 활용
NetMiner의 Machine Learning > Text > Topic > LDA 를 실행하고, 앞에서 확인한 하이퍼파라미터를 입력해서 Run!
참고로 지난 포스팅 https://cyram.tistory.com/348 에서도 토픽 일관성을 활용해 주제를 분석하였으니
한 번 확인해 보세요!
참고로 토픽 모델 평가 기능은 아래의 환경에서 사용하실 수 있습니다.
- 버전: NetMiner 4.5.0 이상 (Help > About NetMiner 에서 확인)
- 플랜: Premium (NetMiner를 실행했을 때, Machine Learning(또는 Mining) > Text > Topic > LDA 메뉴가 있어야함)
플랜을 업그레이드 하고 싶다면, 넷마이너 홈페이지 로그인 >> My page >> License >> Upgrade 버튼 클릭!
토픽 모델링에 대해 알고 싶다면, 사이람 교육센터 - 텍스트 네트워크 분석 과정 >>
관련하여 궁금하신 사항이 있으시면 언제든지 문의해 주세요~!