[플레이데이터 SK네트웍스 Family AI 캠프 6기] 9주차 회고 (11/18~11/22)

2024. 11. 25. 14:10AI

딥러닝과 NLP: 자연어 처리를 위한 기술 탐구

딥러닝과 자연어 처리(NLP)의 발전

자연어 처리 기술은 딥러닝의 등장과 함께 크게 발전했고, 특히 LLM(Large Language Model)의 등장은 또 다른 혁신의 물결을 가져왔다. 초창기에는 정규표현식을 활용해 텍스트를 분석했지만, 이제는 더욱 정교한 알고리즘과 모델을 통해 고도화된 자연어 처리가 가능해졌다.

토큰화의 세계

텍스트를 처리하는 기본 단계는 토큰화이다.

  • Subword Tokenization
    • BPE(Byte Pair Encoding): 빈도 기반의 토큰화 방식
    • WordPiece: 확률 기반으로 점수를 계산해 토큰화
    • Unigram: 가능한 모든 조합을 만든 후 불필요한 것을 제거하는 방식

이 과정에서 Hugging Face의 tokenizers 패키지를 활용하면 효율적이다. 중요한 개념으로는 다음이 있다:

  • UNK: 알 수 없는 토큰
  • PAD: 문장을 특정 크기로 맞추기 위해 채우는 토큰

워드 임베딩(Word Embedding)

Word Embedding은 단어를 벡터로 표현하는 기술로, 자연어 처리에서 매우 중요한 역할을 한다. 대표적인 기술은 다음과 같다:

  • Word2Vec: Google에서 개발
  • FastText: Meta에서 개발

단어를 벡터 공간에 분산 표현(distributed representation)으로 나타내어, 유사한 단어는 가까운 위치에 놓이도록 한다.

주요 알고리즘 및 구조

  1. RNN(Recurrent Neural Network)
    • 순환 구조를 통해 연속적인 데이터를 처리
    • RNN의 다양한 변형과 구조(shape)를 이해하는 것이 중요
  2. LSTM(Long Short-Term Memory)
    • 장기 의존성(Long-term dependency) 문제를 해결
    • 감성 분석과 같은 이진 분류 문제에 유용

RNN 및 LSTM 학습 시 중요한 팁:

  • 텐서의 shape(차원)을 정확히 파악
  • padding으로 입력 길이를 정렬
  • 손실 함수(BCELoss)와 옵티마이저(Adam)를 적절히 사용

자연어 처리에서의 실전 팁

  • 텍스트 전처리 프로세스
    • 클렌징
    • Stop Word 제거
    • 텍스트 토큰화
    • 어근 추출(정규화 작업)
  • 중요한 것은 반복
    NLP는 실험과 반복을 통해 모델의 성능을 개선한다. “왜 되는지는 모르겠지만, 해보니 된다”는 자세가 때로는 중요하다.

나만의 인사이트: 알고리즘과 질문의 관계

알고리즘을 잘 설계하려면 핵심적인 질문을 올바른 순서로 설정해야 한다. 핵심적인 질문이란 목적에 맞게 데이터를 잘 걸러낼 수 있는 질문이다. 이 과정은 이분법적 사고에서 시작하여 점점 정교해지는 질문으로 발전한다.

향후 비전: Intelligent Token과 AI Factory

**젠슨 황(Jensen Huang)**의 졸업 연설에서 소개된 Intelligent Token의 개념은 AI의 새로운 가능성을 열어준다. 앞으로 AI Factory에서 다양한 데이터와 기능을 가진 Intelligent Token이 생산될 것이며, 이를 활용한 응용 프로그램이 주요 트렌드가 될 것이다.

마무리: 실습과 공유의 중요성

배운 것을 실습하고 결과를 기록하는 것이 중요하다. 특히, NLP와 딥러닝에서는 반복 학습과 공유를 통해 더 나은 성과를 얻을 수 있다.