데이터 셋

CIFAR Dataset

dataset/cifar.py
import tarfile
import pickle
import requests
import os.path as osp
import numpy as np
from string import Template

cifar_base_url = "https://www.cs.toronto.edu/~kriz/"
dataset_dir = osp.dirname(osp.abspath(__file__))
save_file_template = Template(osp.join(dataset_dir, "cifar-$nr_classes.pkl"))
data_file_template = Template('cifar-$nr_classes-python.tar.gz')


def _download(file_name):
    file_path = dataset_dir + "/" + file_name

    if osp.exists(file_path):
        return

    print("Downloading " + file_name + " ... ")
    url = cifar_base_url + file_name
    r = requests.get(url=url, stream=True)
    with open(file_path, 'wb') as fd:
        for chunk in r.iter_content(chunk_size=8192):
            fd.write(chunk)
    print("Done")


def _read_dataset(nr_classes):
    file_name = data_file_template.substitute(nr_classes=nr_classes)
    file_path = osp.join(dataset_dir, file_name)
    print("Extracting " + file_name + " ...")
    with tarfile.open(file_path, 'r:gz') as tar:
        train_data = []
        train_label = []
        test_data = None
        test_label = None

        for tar_info in tar:
            if tar_info.isfile():
                tar_info_name = tar_info.name.split('/')[-1]
                if "data" in tar_info_name or "train" in tar_info_name:
                    extracted = tar.extractfile(tar_info)
                    raw_data, raw_label = _read_cfar_data(
                        extracted, nr_classes)
                    train_data.append(raw_data)
                    train_label.extend(raw_label)
                elif "meta" in tar_info_name:
                    extracted = tar.extractfile(tar_info)
                    meta = _read_cfar_meta(extracted, nr_classes)
                elif "test" in tar_info_name:
                    extracted = tar.extractfile(tar_info)
                    test_data, test_label = _read_cfar_data(
                        extracted, nr_classes)
    print("Done!")
    train_img = np.vstack(train_data) if nr_classes == 10 else train_data[0]
    train_label = np.array(train_label)
    test_img = test_data
    test_label = np.array(test_label)
    dataset = {'train_img': train_img, 'train_label': train_label,
               'test_img': test_img, 'test_label': test_label, 'classes': meta}
    return dataset


def _read_cfar_data(tar_extracted, nr_classes):
    raw_dict = pickle.load(tar_extracted, encoding='latin1')
    raw_data = raw_dict['data']
    # raw_data = raw_data.reshape(raw_data.shape[0], 3, 32, 32)
    label = raw_dict['labels' if nr_classes == 10 else 'fine_labels']
    return raw_data, label


def _read_cfar_meta(tar_extracted, nr_classes):
    meta = pickle.load(tar_extracted, encoding='latin1')
    return meta['label_names'] if nr_classes == 10 else meta['fine_label_names']


def download_cifar(nr_classes=10):
    assert nr_classes in (10, 100)

    data_file = data_file_template.substitute(nr_classes=nr_classes)
    _download(data_file)


def init_cifar(nr_classes=10):
    """다운로드하고 학습데이터와 시험데이터로 분리해 피클로 저장"""

    download_cifar(nr_classes)
    dataset = _read_dataset(nr_classes)
    print("Creating pickle file ...")
    with open(save_file_template.substitute(nr_classes=nr_classes), 'wb') as f:
        pickle.dump(dataset, f, -1)
    print("Done!")


def _change_one_hot_label(X):
    T = np.zeros((X.size, 10))
    for idx, row in enumerate(T):
        row[X[idx]] = 1

    return T


def load_cifar(normalize=True, flatten=True, one_hot_label=False, nr_classes=10):
    """CFAR 데이터셋 읽기

    Parameters
    ----------
    normalize : 이미지의 픽셀 값을 0.0~1.0 사이의 값으로 정규화할지 정한다.
    one_hot_label : 
        one_hot_label이 True면、레이블을 원-핫(one-hot) 배열로 돌려준다.
        one-hot 배열은 예를 들어 [0,0,1,0,0,0,0,0,0,0]처럼 한 원소만 1인 배열이다.
    flatten : 입력 이미지를 1차원 배열로 만들지를 정한다. 

    Returns
    -------
    (훈련 이미지, 훈련 레이블), (시험 이미지, 시험 레이블), 레이블 이름
    """

    save_file = save_file_template.substitute(nr_classes=nr_classes)
    if not osp.exists(save_file):
        init_cifar()

    with open(save_file, 'rb') as f:
        dataset = pickle.load(f)

    if normalize:
        for key in ('train_img', 'test_img'):
            dataset[key] = dataset[key].astype(np.float32)
            dataset[key] /= 255.0

    if one_hot_label:
        dataset['train_label'] = _change_one_hot_label(dataset['train_label'])
        dataset['test_label'] = _change_one_hot_label(dataset['test_label'])

    if not flatten:
        for key in ('train_img', 'test_img'):
            dataset[key] = dataset[key].reshape(-1, 3, 32, 32)

    return (dataset['train_img'], dataset['train_label']), (dataset['test_img'], dataset['test_label']), dataset['classes']


if __name__ == '__main__':
    init_cifar()
연습문제

CIFAR-10 데이터 중에서 무작위로 100개를 선택하여 10x10 테이블로 그림을 그려보세요. 그리고 각 이미지의 레이블을 이미지 아래에 표시해 보세요.
CIFAR-10 데이터를 SimpleConvNet에 적용하여 결과를 토론해 보세요.