[플레이데이터 SK네트웍스 Family AI 캠프 6기] 10주차 회고 (11/25~11/29)

2024. 12. 2. 10:00AI

Seq2Seq & GRU 기반 Chatbot 실습 요약

Seq2Seq 모델 구성

  • 구성: 두 개의 모델로 이루어짐 (Encoder & Decoder).
  • Encoder 모델: Embedding + RNN 계층으로 구성.
  • Teacher Forcing: 정답 데이터를 초기 hidden state로 적용해 학습 효율을 높임.
  • RNN & GRU: 동일한 파라미터 구조 사용.
  • 예측 노출 편향: Teacher forcing 여부에 따라 실제 값(True) 또는 추론 값(False) 사용.

Attention Mechanism

  • 역할: 매 시점마다 context vector로 집중 영역을 정함.
  • 구조:
    • Query(Q): 현재 집중하려는 항목.
    • Key(K): 전체 데이터의 특징 벡터.
    • Value(V): 최종적으로 전달할 정보.
  • Softmax 사용: Attention weight 정규화.
  • Attention Value 계산: Weight × Value.

Transformer 이해

  • Attention 활용: Attention 메커니즘을 기반으로 동작.
  • Input Elements:
    • Attention Mask: 실제 토큰(1)과 패딩(0)을 구분.
    • Input IDs: 토큰 ID.
    • Token Types IDs: 문장의 순서 구분 (0, 1).
  • Backbone 모델: 이름에 'vit'가 있으면 Vision Transformer 모델.

코딩 팁 및 실습 도구

  • PyTorch 활용:
    • nn.ReLU()와 같은 함수 사용 시 괄호로 호출.
    • 데이터 shape 및 타입(ndarray/tensor) 확인 필수.
  • Colab 사용법:
    • 큰 파일은 구글 드라이브를 통해 지속적으로 사용.
  • Hugging Face 활용:
    • 데이터셋은 샘플링 후 전체 학습에 적용.
    • Access Token 필요 (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).

학습/검증 팁

  • 전이 학습: 기존 실험에서 검증된 모델과 버전 사용 권장.
  • Logits: Softmax 입력 이전 값.
  • 파일 다루기: 이름 관리 및 데이터 저장 방법 중요.

핵심 교훈

  • 데이터의 구조와 흐름을 이해해야 모델링과 디버깅이 가능.
  • Attention 메커니즘은 Transformer 모델의 핵심.
  • 깔끔하고 명확한 코드 작성이 학습과 실습의 재미를 배가시킨다.

 

김장

  • 특별히 이번주 목요일은 본가에서 김장을 진행.
  • 이처럼 휴가를 쓰는 데에 용이한 캠프임을 강조.

어무이 잘 먹었습니다.