본문 바로가기

ALL100

ELMo ELMo 컴퓨터는 텍스트 자체보다 숫자를 더 잘 처리하기 때문에 NLP에서 텍스트를 숫자(벡터)로 바꾸는 여러 방법을 사용하는데 이를 Word Embedding이라고 한다. ELMo 등장 이 전에는 word2vec, GloVe와 같은 모델을 사용해 임베딩을 했으나, 이 모델들은 다의어의 모든 의미를 담아 내기 힘들다는 한계점을 가지고 있다. ELMo의 경우 같은 표기의 단어라도 문맥에 따라 단어의 의미를 결정하는 방식의 word embedding을 한다는 아이디어로 시작한다. ELMo는 큰 corpus에 대해 사전 학습된 bidrectional langauge model(bILM)을 사용한다. Bidirectional language models(biLM) input sequence가 N개인 token일.. 2024. 1. 16.
일표본(One-sample) 검정(feat.Python) 모평균의 추정과 가설 검정 : Z분포, t분포 1. Z검정 - 표본의 크기가 30 이상이거나 모집단의 분산을 아는 경우 ex) 건전지의 평균 수명이 300일이라고 알려져있을 때, 일부에서 300일이 아니라는 의견이 나오고 있다. 해당 건전지 25개를 표본으로 뽑아 조사하였더니, 평균수명은 310일이 나왔고, 그 동안 수집한 자료를 분석한 결과 표준편차는 30일 이라고 한다. 이 때 어느 의견이 더 타당한지 유의수준 5%에서 검정하라. 원래 평균수명이 300일이라고 알려져있는데, 이것이 맞는지 검정하기 위한 것이므로 평균수명=300일 을 귀무가설로 설정하고, 평균수명은 300일이 아니다를 대립가설로 설정한다. 알려져 있는 표본개수, 모평균과 표본평균을 대입해 검정통계량을 계산하면 1.67이 나온다. 이 때.. 2024. 1. 16.
YOLO v2 YOLO v2 모델은 다양한 아이디어를 도입해 정확도와 속도 사이의 trade-off 균형을 잘 맞춰 좋은 성능을 보였다. Main ideas Better Batch Normalization 모든 conv layer 뒤에 BN을 추가하여 mAP 값이 2% 정도 향상되었고, 과적합 없이 기타 정규화 방식이나 dropout을 제거할 수 있었습니다. High Resolution Classifier v1 모델은 DarkNet의 입력 이미지 사이즈를 224x224로 사전 학습 시켰지만 detection task에서는 448x448 크기의 입력 이미지를 사용한다. 이는 모델이 object detection task를 학습하면서 동시에 새로운 입력 이미지 해상도에 적응해야 한다는 것이다. v2 모델은 처음부터 448.. 2024. 1. 15.
추정과 가설 검정 간단 정리 통계적 추론의 목적 통계적 추론의 목적은 표본의 정보로부터 모집단에 대한 정보를 얻는 것이다. 여기서 모집단의 특성을 나타내는 상수들을 모수라 하고, 표본의 특성을 나타내는 상수들을 통계량이라고 한다. 예를 들어 모집단의 모수인 평균, 비율, 분산을 추정하거나 가설 검정을 할 때, 통계량인 표본으로부터 얻은 표본평균, 표본비율, 표본분산을 사용한다. 각 통계량들은 특정 확률분포를 따르기 때문에 이 분포들을 활용한다. 추정의 종류 추정은 점추정과 구간추정으로 나뉘며, 점추정은 단순히 표본평균, 표본분산, 표본비율을 계산하는 방법이다. 이 때 추정값들이 얼마나 정확히 모수를 추정하는지 알 수 없기 때문에 오차의 개념을 추가하여 구간으로 모수를 추정하는 방법이 구간추정이다. 가설 검정 가설 검정은 표본에서 얻.. 2024. 1. 15.
F-분포(F-distribution) F-분포 F-분포 카이제곱분포와 같이 분산을 이용하여 추정하고 검정하기 위해 고안된 확률분포이다. F분포는 2개 이상의 표본평균들이 동일한 모평균을 가진 집잔에서 추출되었는지 아니면 다른 모집단에서 추출된 것인지 판단하기 위하여 사용한다. 두 확률변수 V1, V2는 각각 자유도가 k1, k2이고 서로 독립인 카이제곱분포를 따를 때, 다음과 같이 정의되는 확률변수 F는 자유도가 (K1, k2)인 F-분포를 따른다고 한다. 정리하면 F-분포는 2개의 카이제곱분포의 비율의 확률분포를 의미한다. 데이터들의 집합이 2개 이상일 때, 집합들의 평균의 분산을 얻을 수 있다. 이 때 F-값은 아래와 같다. F-분포의 특성 F분포는 카이제곱분포와 마찬가지로 좌우대칭이 아니다. 표준정규분포를 제곱하여 합한 카이제곱분포 2.. 2024. 1. 12.
t-분포(t-distribution, Student's t-distribution) t-분포 t분포는 평균 검정을 하기 위해 고안되었다. 모집단이 정규분포를 따를 때, 표본평균은 N(μ, σ²/n)를 따른다. 과거에는 이를 이용하여 평균 검정을 해왔는데, 일반적으론 모분산인 σ²를 알 수 없다. 만약 n이 매우 크다면 표본평균은 더욱 정확히 정규분포를 따를 것이고, 표본평균의 분산이 0으로 수렴하게 될 것이다. 이 경우, σ²의 영향이 무시될 수 있을 정도가 되겠지만, 표본 수가 적을 때는 이를 이용한 검정이 신뢰성을 잃을 수 있다. 이러한 경우를 위해 정규분포와 형태는 비슷하지만 모분산 항 대신 표본분산을 이용한 분포를 고안해 만든 것이 t분포이다. t-분포의 특징 정규분포와 다르게 t분포는 모분산 σ² 를 포함하고 있지 않다. 이는 표본 수가 적을 때 신뢰성을 더해준다. 표본 수가 .. 2024. 1. 12.
카이제곱분포(Chi-Square distribution) 카이제곱분포(Chi-Square distribution) 카이제곱분포는 '표준정규분포 확률변수의 제곱합'으로 정의된다.(확률변수들을 연산한 결과도 확률변수이다.) 다음과 같은 순서로 카이제곱분포를 만들 수 있다. 표준정규분포를 따르는 확률변수 집합에서 n개의 확률변수를 독립적으로 추출한다. 추출한 n(자유도, 추출 변수 개수)개의 변수들의 제곱합을 구한다. 위 과정을 반복해 자유도 n인 카이제곱분포를 만든다. 자유도에 대한 이해 https://diseny.tistory.com/entry/%EC%9E%90%EC%9C%A0%EB%8F%84Degree-of-Freedom%EC%97%90%EC%84%9C-%EC%9E%90%EC%9C%A0%EB%A1%9C%EC%9B%8C-%EC%A7%80%EA%B8%B0 위 그래.. 2024. 1. 12.
정규분포(Normal distribution) 정규분포(Normal distribution)는 가우스 분포(Gaussian distribution)이라고도 하며, 일상적인 자료에서 픈히 볼 수 있는 분포이다. 정규분포는 모집단의 수가 클 수록 해당 분포가 정규분포를 근사적으로 따를 것으로 가정하고 통계적 분석을 하고 있다. 정규분포가 통계학에서 유용하게 사용되는 이유는 중심극한정리(CLT, Central limit Theorom) 덕분이다. 정규분포의 특성 분포는 좌우 대칭이며, 평균치의 확률값이 가장 높다. 곡선 아래 전체 면적은 1이다(확률의 전체 합은 1) 곡선은 평균에서 멀어질 수록 x축에 가까워지지만 x축에 닿지 않는다. (확률값은 0을 가지지 않는다 -> 미미한 확률의 경우도 배제하지 않는다.) 정규분포는 평균과 분산 값에 따라 다른 형태.. 2024. 1. 12.
확률분포 간단정리 1. 이산형 확률분포 확률변수는 일정한 확률을 가지고 발생하는 Event에 수치가 부여된 변수이다. 다양한 확률분포에서 확률 변수가 가질 수 있는 값이 이산형인 경우가 이산형 확률분포이다. 이 분포들의 확률값은 항상 0~1이며 모든 확률변수의 합은 1이다. 1-1. 베르누이 확률분포 동등한 실험 조건 하에서 실험의 결과가 두 가지의 결과만을 가질 때 이러한 실험을 베르누이 시행이라하고, 이 때 성공의 횟수를 확률변수 X라 할 때 확률변수 X는 성공률이 p인 베르누이 분포를 따른다고 한다. (동전 던지기 시행) 1-2. 이항분포 특정 실험에서 성공 확률이 p인 베르누이 시행을 독립적으로 n번 반복 시행했을 때 성공의 횟수를 확률변수 X라 하면 확률변수 X는 시행햇수 n과 성공 확률 p를 모수로 갖는 이항분.. 2024. 1. 11.