Batch로 했을 때 뭐가 좋은가?

1. Batch로 loss를 계산하는 방법은 → 평균임.

1번 데이터포인트 loss, 2번 데이터포인트 loss ..... 에 대한 loss 평균을 구함

def cross_entropy_error(y, t):
    batch_size = y.shape[0]
    return -np.sum(np.log(y[np.arange(batch_size), t] + 1e-7)) / batch_size

2. 배치 학습은 다음과 같은 이유로 안정성에 도움이 됨.
데이터 대표성: 배치는 전체 훈련 데이터의 특성을 더 잘 반영할 수 있어, 학습의 안정성이 향상됨.
노이즈 감소: 개별 데이터 포인트의 특이값(outlier)에 의한 영향이 줄어들어 학습이 더 안정적으로 진행됨.
일관된 업데이트: 배치 단위로 가중치를 업데이트하므로, 학습 과정이 더 일관되고 예측 가능해짐.

3. 배치 크기의 영향
작은 배치 크기: 각 데이터 샘플을 세밀하게 고려하지만, 특이값에 민감할 수 있음
큰 배치 크기: 전체 데이터의 평균적 특성을 반영하지만, 지역 최적해에 빠질 위험이 있음

티스토리툴바