ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Transformer
    카테고리 없음 2024. 10. 11. 10:04

    Transformer의 정의

    • 순환을 제거하고 어텐션 메커니즘만을 사용하여 입력과 출력 간의 전역 의존성을 모델링하는 아키텍처이다.

    Transformer의 장점

    • 병렬화를 대폭 증가시키고 번역 품질에서 새로운 최고 성과를 달성할 수 있다.

    Transformer의 훈련 시간

    • 8개의 P100 GPU에서 12시간 이내이다.

    Extended Neural GPU, ByteNet, ConvS2S의 목표

    • 순차적 계산을 줄이는 것이다.

    Extended Neural GPU, ByteNet, ConvS2S의 구성 요소

    • 합성곱 신경망을 기본 빌딩 블록으로 사용한다.

    Extended Neural GPU, ByteNet, ConvS2S의 계산 방식

    • 모든 입력 및 출력 위치에 대해 병렬로 숨겨진 표현을 계산한다.

    ConvS2S의 신호 관계 계산 연산 수

    • 입력 또는 출력 위치 간의 거리와 선형적으로 증가한다.

    ByteNet의 신호 관계 계산 연산 수

    • 입력 또는 출력 위치 간의 거리와 로그적으로 증가한다.

    위 모델들의 단점

    • 먼 위치 간의 의존성을 학습하기 어렵다.

    Transformer의 계산 연산 수

    • 두 위치 간 의존성을 학습하기 위해 상수로 줄어든다.

    Transformer의 단점

    • 평균화된 어텐션 가중치를 사용하는 위치들로 인해 효과적인 해상도가 감소한다.

    Multi-Head Attention의 역할

    • Transformer의 효과적인 해상도 감소 문제를 완화한다.

    Self-Attention의 정의

    • 단일 시퀀스의 서로 다른 위치를 연결하여 해당 시퀀스의 표현을 계산하는 어텐션 메커니즘이다.

    Self-Attention의 적용 사례

    • 독해, 추상적 요약, 텍스트 함의 및 작업 독립적 문장 표현 학습 등이다.

    End-to-End 메모리 네트워크의 특징

    • 순차 정렬된 순환 대신 순환 어텐션 메커니즘을 기반으로 한다.

    End-to-End 메모리 네트워크의 성과

    • 단순 언어 질문 응답 및 언어 모델링 작업에서 우수한 것으로 나타났다.

    Transformer의 정의

    • Self-Attention만을 사용하여 입력 및 출력의 표현을 계산하는 최초의 변환 모델이다.

    Transformer의 특징

    • 순차 정렬된 순환 신경망이나 합성곱 신경망을 사용하지 않는다.

    Transformer 아키텍처의 정의

    • 자연어 처리 분야에서 기존 RNN 기반 모델의 한계를 극복하고 병렬 처리가 가능하여 학습 속도를 비약적으로 향상시킨 딥러닝 모델 아키텍처이다.

    Transformer 아키텍처의 주요 특징

    • 셀프 어텐션 메커니즘을 도입하여 문장 내 단어 간 복잡한 의존 관계를 효과적으로 모델링할 수 있다.

    셀프 어텐션 메커니즘의 정의

    • 입력 문장 내 모든 단어들이 서로 관련된 정도를 계산하여 가중치를 부여하는 방식이다.

    셀프 어텐션 메커니즘의 주요 단계

    • Query, Key, Value 벡터 생성, 유사도 계산, Softmax 함수 적용, Value 벡터 가중 합으로 구성된다.

    Query, Key, Value 벡터 생성의 과정

    • 입력 임베딩 벡터를 각각 Query, Key, Value 벡터로 선형 변환하는 것이다.

    유사도 계산의 목적

    • Query 벡터와 Key 벡터 간 유사도를 계산하여 어텐션 스코어를 얻는 것이다.

    Softmax 함수 역할

    • 어텐션 스코어에 적용하여 각 단어에 대한 가중치를 계산하는 것이다.

    Value 벡터 가중 합의 정의

    • Value 벡터에 계산된 가중치를 곱하여 가중 합을 구하는 것이다.

    Transformer 아키텍처의 주요 구성 요소

    • 인코더, 디코더, 멀티 헤드 어텐션, Positional Encoding이다.

    인코더의 역할

    • 입력 문장을 셀프 어텐션을 통해 의미를 추출하고 고차원의 벡터 표현으로 변환하는 것이다.

    디코더의 역할

    • 인코더에서 생성된 벡터 표현을 기반으로 출력 문장을 생성하는 것이다.

    디코더의 특성

    • 셀프 어텐션과 인코더-디코더 어텐션을 통해 입력 문장과의 관계를 고려한다는 것이다.

    멀티 헤드 어텐션의 정의

    • 셀프 어텐션을 병렬적으로 사용하여 입력 데이터를 다양한 관점에서 분석하는 것이다.

    Positional Encoding의 역할

    • 입력 데이터에 위치 정보를 추가하여 모델이 단어 순서를 인식할 수 있도록 하는 것이다.

    Transformer의 장점

    • RNN과 달리 병렬 처리가 가능하여 학습 속도가 빠르다.

    Transformer의 또 다른 장점

    • 셀프 어텐션을 통해 긴 의존 관계를 효과적으로 포착할 수 있다.

    Transformer의 주요 활용 분야

    • 기계 번역, 텍스트 요약, 질의응답, 챗봇, 문서 분류, 생성 모델 등 다양한 NLP 태스크이다.

    Transformer의 본질적 의의

    • 셀프 어텐션 메커니즘을 기반으로 자연어 처리 분야에서 큰 성과를 이루고 딥러닝 모델의 발전에 새로운 지평을 열었다는 것이다.

    어텐션은 QKV(리--류) 기술로 병렬처리를 한다.

    • 어때? 퀴키하게 베렸으니 버려!

    QKV

    • 쿼리와 키를 비교하고, 그 비교를 토대로 밸류의 양을 결정한다.
      • 암기법: 컸는지 키 비교하고 밸류를 결정

    Q + K = S(scoring function)

    • 키 크느라 애써!

    트랜스포머 특징 3가지

    • 놈-애드, 포지셔널 인코딩, 스킵커넥션
      • 암기법: 트랜스포머 놈 포스~
    반응형
Designed by Tistory.