standard Transformer가 1D token embedding sequence를 input으로 받는다
2D image를 1D로 embedding 하기 위해, 한 image
를 image patch xp로
P: resolution, C: Channel, N: 총 patch 수(HW/P^2)