KoBERT

    [AI] KT AIVLE(KT 에이블스쿨) 3기 AI 개발자 트랙 4차 미니프로젝트 -10주차-

    프로젝트 주제 AIVLE-EDU 1:1 문의 유형 분류하기 1. 데이터 확인 - Lavel별 데이터 개수 확인 및 길이 분포 확인 - Mecab 형태소 분석기를 통한 Label별 단어 빈도 분포 - Word Cloud를 통한 단어 빈도 확인 2. 데이터 분석 - 정규식 데이터 처리 - 한글 초성 제거 (ㅠㅠ, ㅎㅎ 등) - 영어, 숫자는 포함 - 특수 문자 제거 - 불용어 처리 - 기본 조사 등 불용어 리스트 생성 후 제거 - 형태소 분석기를 통한 문장 분석 진행 - konlpy에 존재하는 다양한 한국어 형태소 분석기 중 Mecab을 사용하였다. (그 외, Okt, Hannanum) - 조사, 어미 등 기준 설정 및 제거 후 성능 변화를 확인했다. - 명사, 품사, 형태소 추출 3. 모델 학습 - 머신 ..