Tech_issues 나만의 한국어 AI 모델 만들기 #1 – SentencePiece와 GPT-2 토크나이저 오늘은 나만의 한국어 AI 모델 만들기의 첫 번째 이야기로 자연어 처리의 기본이 되는 토크나이저(tokenizer)에 대해 이야기해 보겠습니다. 영어를 기본으로 다루는 BPE와 보다 더 다양한 언어에 적합한 sentenepiece에 대해 정리해 보려 …
Tech_issues 검색 키워드와 데이터 독점 문제, 오픈API로 키워드 추출 방법 #1 우리들은 하루에도 수십 번씩 인터넷을 검색하죠. 스마트폰을 이용하건, 노트북이나 PC를 이용하건 간에 말이죠. 우리가 입력하는 검색어는 직접 혹은 간접적 필터링을 통해 검색어 또는 검색 키워드로 데이터화 됩니다. 이번 글에서는 이러한 …