티스토리 뷰

IT/AI

[딥러닝] Convolutional Neural Networks Basic (CNN) - 1

젊은 아날로그 2024. 2. 28. 12:52

728x90

Deep learning basic

Convolutional neural networks

간단하게 cnn을 통해 어떻게 특징들을 파악하는지 아래 gif를 통해 느껴보자.
아래는 mnist라는 손글씨 데이터셋을 cnn을 통해 학습할 때 각 layer에서 어떤 특징들이 추출되는지 보여주는 예시

시그널 프로세싱에서 두 함수가 있을 때 두개의 함수를 잘 섞어주는 방법으로서 제시되었음
2d image convolution의 수식을 보면 I는 전체 이미지공간에서 K라는 필터를 적용해서 정보를 추출해내는 것을 의미

Convolution filter란 무엇일까?
사진을보면 K라는 필터는 $3\times3$ filter이고 오른쪽 I는 $7\times7$ 이미지를 나타낸다. 이 때 K필터는 stride=1(skip한 간격)을 기본으로 맨 왼쪽 상단부터 시작하여 모든 이미지 공간을 지나간다.
이때 output이 나오는데 각 필터값과 이미지값의 곱의 합으로 계산된 값이 된다.

어떤 필터를 사용하는지에 따라 blur가 되거나 emboss가 되거나 outline만 강조한 이미지가 나올 수 있다. 예컨대 3x3 필터의 각 값이 1/9로 되어 있다면, 이는 모든 값이 필터의 평균값의 합이 되므로 blur된 output이 나오게 된다.

일반적으로 이미지는 rgb값을 가지고 있기 때문에 filter는 암묵적으로 3채널에 대한 depth를 가지고 있다.
사진을 보면 $5\times5\times3$ 필터가 $32\times32\times3$의 이미지를 지나가게 되면 output을 $28\times28\times1$ feature map이 나오게 된다.

만약에 필터가 여러개라면, feature map도 필터의 수만큼 나올 것이다.

위에서 배운 내용을 가지고 convolution을 stack할 수 있다.
만약에 32x32x3짜리 image에서 $28\times28\times4$의 feature map을 만들기 위해 필요한 parameter 수는 input chan * output chan * filter size가 되기에 1번째 $32\times32\times3$에서 $28\times28\times4$가 되기 위한 필요 파라미터 수는 $5\times5\times3\times4$가 된다.
두번째에서는 $5\times5\times4\times10$이 될 것이다.

Convolution network 는 Conv 하는 과정과 pooling, fc로 나눠질 수 있다.
pooling은 앞서 컨볼루션 과정에서 뽑았던 정보들을 이들의 합이나 평균으로(maxpool, avgpool, ...) 만들어주고 이를 fc를 통해 원하는 task에 적용할 수 있다(classification, regression ...)
요즘은 fc layer를 줄이거나 다른 layer로 대체한다. 이는 파라미터수가 fc layer로 넘어갈 때 매우 크게 늘어나기 때문이다.
파라미터수가 높을수록 일반화가 어렵기 때문에 layer가 깊어져도 각 레이어가 가지는 파라미터수는 적어지는 것이 좋다.
※ 어떤 모델이 파라미터수를 어떤식으로 가져가는 지 알아보는 감이 중요함

Conv에서 알아야하는 기본 하이퍼파라미터

stride는 얼마나 필터를 dense하게 또는 sparse하게 찍을 것인가?에 대한 파라미터이고 default는 1이다.
2d conv에서는 stride가 width, height방향으로 진행된다.

conv filter를 적용하면 항상 차원이 줄기 마련이다. 또한 conv filter는 가장자리 정보를 가져갈 수 없다.
이를 해결하고자 padding이라는 파라미터를 활용하여 내가 원하는 dims 차원을 output으로 내보낼 수 있고 동시에 edge정보를 확보할 수 있다.

Conv 파라미터 수 계산하기

위의 그림에서 필요한 파라미터 수는 $3\times3\times128\times64 = 73,728$ 이 된다.

위의 그림에서 필요한 파라미터 수는
$11 \times 11 \times 3 \times 48 \times 2 = 35,000$
$5 \times 5 \times 48 \times 128 \times 2 = 307,000$
$3 \times 3 \times 128 \times 192 \times 2 = 884,000$
$3 \times 3 \times 192 \times 192 \times 2 = 663,000$
$3 \times 3 \times 192 \times 128 \times 2 = 442,000$
$13 \times 13 \times 128 \times 2 \times 2048 \times 2 = 177,000,000$
$2048 \times 2 \times 2048 \times 2 = 16,000,000$
$2048 \times 2 \times 1000 = 4,000,000$

$1\times1$ conv를 활용하면 차원을 원하는 차원으로 바꿀 수 있으며 parameter 수를 줄일 수 있기 때문에 더 깊게 layer를 올릴 수 있는 도구가 된다.

Simple CNN Code with Pytorch ( Implementation )

보통은 conv - batchnorm - act - dropout - pool 순서로 이루어짐 (cs231n)
- nn.Sequential을 활용하여 깔끔하게 만들 수 있음
- basic_conv_block을 만들어서 반복하는 conv 과정을 다른 def로 만들 수 있음

import torch
import torch.nn as nn

class SimpleCNN(nn.Module):
    def __init__(self):
        super().__init__()
        self.conv1 = nn.Conv2d(in_channels=3, out_channels=16, kernel_size=3, stride=1, padding=1) # 커널사이즈 3*3, stride 1, padding 1
        self.batchnorm1 = nn.BatchNorm2d(16)
        self.conv2 = nn.Conv2d(in_channels=16, out_channels=32, kernel_size=3, stride=1, padding=1)
        self.batchnorm2 = nn.BatchNorm2d(32)
        self.conv3 = nn.Conv2d(in_channels=32, out_channels=64, kernel_size=3, stride=1, padding=1)
        self.batchnorm3 = nn.BatchNorm2d(64) 
        self.fc = nn.Linear( 64*28*28, 10) 

        self.pool = nn.MaxPool2d(2)
        self.activation = nn.ReLU()

    def forward(self, x):
        B = x.shape[0]
        display(x.shape) # torch.Size([2, 3, 224, 224]) [batch, channel, height, width]
        x = self.conv1(x)
        x = self.batchnorm1(x)
        x = self.activation(x)
        x = self.pool(x)
        display(x.shape) # torch.Size([2, 16, 112, 112])
        x = self.conv2(x)
        x = self.batchnorm2(x)
        x = self.activation(x)
        x = self.pool(x)
        display(x.shape) # torch.Size([2, 32, 56, 56])
        x = self.conv3(x)
        x = self.batchnorm3(x)
        x = self.activation(x)
        x = self.pool(x)
        display(x.shape) # torch.Size([2, 64, 28, 28])

        x = x.reshape(B, -1) 
        display(x.shape) # torch.Size([2, 50176]) - 64 * 28 * 28 
        x = self.fc(x)
        display(x.shape) # torch.Size([2, 10])
        return x


batch_image = torch.rand(2, 3, 224,224, dtype=torch.float32) # [batch, channel, height, width]

model = SimpleCNN()
result = model(batch_image)

정리

Conv라는 과정은 I라는 이미지공간에서 conv filter를 적용시켜 이미지 패턴과 특징을 추출하는 것
어떤 필터를 적용하는가에 따라서 다른 특징들이 추출
conv 모델의 파라미터를 추정할 수 있어야 함
- filter size * filter size * in channels * out channels
conv 모델을 만들 때 필요한 파라미터
- filter size
- stride
- padding
cnn모델에서 기본적으로 parameter의 수를 줄이면서 깊이를 깊게 가져가는 것이 학습과 성능에 좋음
- $1 \times 1$ filter는 같은 특징들의 depth 크기(channel방향) 줄일 수 있어서 활용

참고
- 네이버 부스트코스 : 딥러닝 기초 강의
- cs231n 강의

저작자표시 (새창열림)

'IT/AI' Related Articles

[AI - Artificial Intelligence] 인공지능, 머신러닝, 딥러닝이란? 2020.08.31

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

« 2025/06 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

글 보관함

티스토리 뷰

[딥러닝] Convolutional Neural Networks Basic (CNN) - 1

Deep learning basic

Convolutional neural networks

Conv에서 알아야하는 기본 하이퍼파라미터

Conv 파라미터 수 계산하기

Simple CNN Code with Pytorch ( Implementation )

정리

티스토리툴바