-
Transformer카테고리 없음 2024. 10. 11. 10:04
Transformer의 정의
- 순환을 제거하고 어텐션 메커니즘만을 사용하여 입력과 출력 간의 전역 의존성을 모델링하는 아키텍처이다.
Transformer의 장점
- 병렬화를 대폭 증가시키고 번역 품질에서 새로운 최고 성과를 달성할 수 있다.
Transformer의 훈련 시간
- 8개의 P100 GPU에서 12시간 이내이다.
Extended Neural GPU, ByteNet, ConvS2S의 목표
- 순차적 계산을 줄이는 것이다.
Extended Neural GPU, ByteNet, ConvS2S의 구성 요소
- 합성곱 신경망을 기본 빌딩 블록으로 사용한다.
Extended Neural GPU, ByteNet, ConvS2S의 계산 방식
- 모든 입력 및 출력 위치에 대해 병렬로 숨겨진 표현을 계산한다.
ConvS2S의 신호 관계 계산 연산 수
- 입력 또는 출력 위치 간의 거리와 선형적으로 증가한다.
ByteNet의 신호 관계 계산 연산 수
- 입력 또는 출력 위치 간의 거리와 로그적으로 증가한다.
위 모델들의 단점
- 먼 위치 간의 의존성을 학습하기 어렵다.
Transformer의 계산 연산 수
- 두 위치 간 의존성을 학습하기 위해 상수로 줄어든다.
Transformer의 단점
- 평균화된 어텐션 가중치를 사용하는 위치들로 인해 효과적인 해상도가 감소한다.
Multi-Head Attention의 역할
- Transformer의 효과적인 해상도 감소 문제를 완화한다.
Self-Attention의 정의
- 단일 시퀀스의 서로 다른 위치를 연결하여 해당 시퀀스의 표현을 계산하는 어텐션 메커니즘이다.
Self-Attention의 적용 사례
- 독해, 추상적 요약, 텍스트 함의 및 작업 독립적 문장 표현 학습 등이다.
End-to-End 메모리 네트워크의 특징
- 순차 정렬된 순환 대신 순환 어텐션 메커니즘을 기반으로 한다.
End-to-End 메모리 네트워크의 성과
- 단순 언어 질문 응답 및 언어 모델링 작업에서 우수한 것으로 나타났다.
Transformer의 정의
- Self-Attention만을 사용하여 입력 및 출력의 표현을 계산하는 최초의 변환 모델이다.
Transformer의 특징
- 순차 정렬된 순환 신경망이나 합성곱 신경망을 사용하지 않는다.
Transformer 아키텍처의 정의
- 자연어 처리 분야에서 기존 RNN 기반 모델의 한계를 극복하고 병렬 처리가 가능하여 학습 속도를 비약적으로 향상시킨 딥러닝 모델 아키텍처이다.
Transformer 아키텍처의 주요 특징
- 셀프 어텐션 메커니즘을 도입하여 문장 내 단어 간 복잡한 의존 관계를 효과적으로 모델링할 수 있다.
셀프 어텐션 메커니즘의 정의
- 입력 문장 내 모든 단어들이 서로 관련된 정도를 계산하여 가중치를 부여하는 방식이다.
셀프 어텐션 메커니즘의 주요 단계
- Query, Key, Value 벡터 생성, 유사도 계산, Softmax 함수 적용, Value 벡터 가중 합으로 구성된다.
Query, Key, Value 벡터 생성의 과정
- 입력 임베딩 벡터를 각각 Query, Key, Value 벡터로 선형 변환하는 것이다.
유사도 계산의 목적
- Query 벡터와 Key 벡터 간 유사도를 계산하여 어텐션 스코어를 얻는 것이다.
Softmax 함수 역할
- 어텐션 스코어에 적용하여 각 단어에 대한 가중치를 계산하는 것이다.
Value 벡터 가중 합의 정의
- Value 벡터에 계산된 가중치를 곱하여 가중 합을 구하는 것이다.
Transformer 아키텍처의 주요 구성 요소
- 인코더, 디코더, 멀티 헤드 어텐션, Positional Encoding이다.
인코더의 역할
- 입력 문장을 셀프 어텐션을 통해 의미를 추출하고 고차원의 벡터 표현으로 변환하는 것이다.
디코더의 역할
- 인코더에서 생성된 벡터 표현을 기반으로 출력 문장을 생성하는 것이다.
디코더의 특성
- 셀프 어텐션과 인코더-디코더 어텐션을 통해 입력 문장과의 관계를 고려한다는 것이다.
멀티 헤드 어텐션의 정의
- 셀프 어텐션을 병렬적으로 사용하여 입력 데이터를 다양한 관점에서 분석하는 것이다.
Positional Encoding의 역할
- 입력 데이터에 위치 정보를 추가하여 모델이 단어 순서를 인식할 수 있도록 하는 것이다.
Transformer의 장점
- RNN과 달리 병렬 처리가 가능하여 학습 속도가 빠르다.
Transformer의 또 다른 장점
- 셀프 어텐션을 통해 긴 의존 관계를 효과적으로 포착할 수 있다.
Transformer의 주요 활용 분야
- 기계 번역, 텍스트 요약, 질의응답, 챗봇, 문서 분류, 생성 모델 등 다양한 NLP 태스크이다.
Transformer의 본질적 의의
- 셀프 어텐션 메커니즘을 기반으로 자연어 처리 분야에서 큰 성과를 이루고 딥러닝 모델의 발전에 새로운 지평을 열었다는 것이다.
어텐션은 QKV(쿼리-키-밸류) 기술로 병렬처리를 한다.
- 어때? 퀴키하게 베렸으니 버려!
QKV
- 쿼리와 키를 비교하고, 그 비교를 토대로 밸류의 양을 결정한다.
- 암기법: 컸는지 키 비교하고 밸류를 결정
Q + K = S(scoring function)
- 키 크느라 애써!
트랜스포머 특징 3가지
- 놈-애드, 포지셔널 인코딩, 스킵커넥션
- 암기법: 트랜스포머 놈 포스~
반응형