2023.07.07 - [Python] - 자연어 처리를 위한 패키지 설치하기
자연어 처리를 위한 패키지를 설치했으니, 이제 테스트를 해봐야 했다.
한국어 자연어 처리(NLP) 처리에 관한 프로젝트로는 Okt, Hannanum, khaiii, Komoran, KoGPT-2, Mecab, KoBERT, Kiwi 등이 있다.
https://www.oss.kr/oss_guide/show/abc5db40-c9e1-4f52-8d3a-262c178318a0
https://team-platform.tistory.com/46
트위터의 문장을 분석하는 데에서 출발한 Okt의 경우, 적당한(?) 성능을 내는 것으로 널리 알려져 있다.
형태소 분석기마다 장단점이 다 있으나, 현 시점에서 이것들을 모두 비교하기는 쉽지 않다.
대신에 Okt 형태소 분석기의 성능이나 활용 방법 등을 간단히 확인해 보았다.
# 자연어 처리 패키지 불러오기
import nltk
# 형태소 분석기(Okt)를 적용하여, 품사 쪼개기
from konlpy.tag import Okt
# 형태소 분석기(Okt)를 객체로 생성하기
Okt = Okt()
# 분석할 문장(text) 정의하기
text = '아버지가 쌈질을 너무 많이 하셔서, 곤란하기 그지없다.'
# 문장을 형태소 단위로 구분하기
print(Okt.morphs(text))
okt.morphs() 텍스트를 형태소 단위로 구분하며, 옵션으로 '정규화(norm)'와 '토큰화(tokenization', '어근화(stem)', '어구 추출(phrase extraction)'을 지원한다.
https://github.com/open-korean-text/open-korean-text
# 문장에서 명사만 구분하기
print(Okt.morphs(text))
# 문장에서 어절만 구분하기
print(Okt.nouns(text))
# 문장에서 품사를 구분하기
print(Okt.pos(text))
대충 어떻게 하는지 알 것 같으면서도, 어렵기 그지없다.
print 함수 (0) | 2023.07.07 |
---|---|
데이터 정제를 위한 문자열 나누기, 바꾸기 (0) | 2023.07.07 |
자연어 처리를 위한 패키지 설치하기 (0) | 2023.07.07 |
아나콘다 설치 후, 업데이트하기 (0) | 2023.07.07 |
아나콘다에서 Spyder와 Jupyter Notebook의 차이는 뭐야? (0) | 2023.07.06 |