본문 바로가기

분류 전체보기

(49)
[Data Science] Dog Classification Dog Classification 이 문제는 Accuracy를 아는지 묻는 문제였다. Accuracy는 내가 푼 문제 중에 몇 개나 맞췄는지에 대한 지표로, 이 문제에서는 Accuracy가 가장 높게 나오는 최적의 threshold를 찾아야 한다. 일단, 데이터를 복사해서 메모장에 csv 파일로 저장하고 불러왔다. 샘플 수는 24개고 컬럼은 2개다. "Dog is on image" 컬럼이 target(label)이고, "Classifier prediction" 컬럼이 분류기를 통해 나온 예측값이다. Binary classification 문제이므로 threshold를 정해 예측값(보통 확률값)이 threshold 이상이면 True(1), 미만이면 False(0)로 정한다. 문제에서 주어진 컬럼명은 길고 ..
Python 2차원 리스트 회전 # 2차원 리스트 90도 회전 def rotate_matrix_by_90_degree(a): n = len(a) # 행 길이 계산 m = len(a[0]) # 열 길이 계산 result = [[0] * n for _ in range(m)] # 결과 리스트 for i in range(n): for j in range(m): result[j][n-i-1] = a[i][j] return result 출처: , 나동빈
[TestDome] Social Network Social Network JOIN ON에 OR절은 처음 봐서 당황했다. 처음에 JOIN ON A OR B를 A를 기준으로 JOIN한 경우와 B를 기준으로 JOIN한 경우의 합집합으로 생각했다. 그런데 내가 생각한 답이 보기 중에 없는 것이다. 알고 보니 A 조건을 만족하거나 B조건을 만족하는 행만 가져오되, A와 B 조건 모두 만족하는 행이 없어도 LEFT JOIN이라 null값도 결과에 포함시키는 것이었다. 주어진 SQL 쿼리문을 OR 절을 기준으로 나눠서 생각해보자. SELECT * FROM users LEFT JOIN friends ON users.id = friends.user1 WHERE users.sex = 'f'; id name sex user1 user2 3 Mary f null null..
[TestDome] Marketing Costs Marketing Costs 문제에 주어진 표를 보면 과거 마케팅 비용을 얼마 투자했을 때 얼마나 많은 단위가 팔렸는지에 대한 데이터가 있다. 즉, 투자한 마케팅 비용(Marketing expenditure)을 $X$로, 팔린 단위(Units sold)를 $y$로 선형회귀를 학습할 수 있다. 그런데 여기서 함정(?)은 학습한 모델로 $X$를 넣었을 때 $\widehat{y}$을 return하는 것이 아니라 원하는 $\widehat{y}$이 나오려면 $X$ 가 몇이어야 되는지를 묻고 있다. 즉, 문제에서 나온 예시처럼 6만 단위를 팔려면 마케팅 비용은 얼마나 투자해야하는지 return해야 하는 것이다. 선형회귀를 통해 추정된 회귀선은 아래와 같다. $\widehat{unitsSold}= \beta_0 + ..
머신러닝 용어 정리 혼동 행렬 (Confusion Matrix) percision과 recall precision과 recall의 차이는 FP에 focus가 있는지, FN에 focus가 있는지 FP가 가장 위험한 상황이라 이를 줄이고 싶다면 precision이 중요 반대로, FN이 가장 위험한 상황이라 이를 피해야 한다면 recall이 중요 FP (False Positive): positive로 잘못 예측 FN (False Negative): negative로 잘못 예측 precision (정확도, 정밀도) 내가 맞다고 생각한 것 중에 얼마나 맞췄는지 Positive Predictive Value 모델이 Positive로 예측한 샘플 중에서 실제로 Positive인 샘플의 비율을 나타냅니다. 즉, 모델이 얼마나 정확하게 P..