Webinar
Dacon with Webinar

in Kaggle competition
- kaggle 각 competition을 통해 반드시 배우는 점이 있어야 함.
- 예를 들어 hashing, data cleaning, html tag 추출 방법 등을 배웠다.
- 대회에서 실패했을 경우 discussion을 참고하는 것이 가장 많은 도움이 된다.
- 또한 가장 도움이 되는 점은 “out of box”가 가능하다는 점이다.
산업체에서 인턴에 참여하면서 가장 많이 배운 점
-
- 좋은 코드 작성 방법( 협업 방법이다)
-
-
- 코드 이식 방법
- input / src / models / notebooks / README.md / Lisence 등 pipeline을 잘 정리하여 소스코드를 관리할 수 있는 것이 중요
-
-
- 대회에서는 정리된 데이터가 나온다. 실제 상황에서는 데이터 자체를 추출하는 것이 문제가 된다.
interesting competition :
tweet sentiment extraction competition, data was messy. 문장의 감성에 대한 분석인데 특정 단어를 추출하여 분석하는 것이 흥미로움 (같은 단어인데도 긍정일 수도, 부정일 수도 있음) ex) my crazy dog is awsome 과 같은 경우에 어떤 단어를 뽑냐에 따라 감정이 달라질 수 있다는 점이 흥미로움
cross validation
- have to know abount cross validation.
- cross validation이 가장 중요하고 가장 먼저 하는 것이 중요
- 문제에 맞게 validation을 잘 design하는 것이 중요하다.
- 각 fold가 실전 데이터(test데이터와) 가장 근접해야 한다.
- 이미지별로 straight cross validation를 지정하여 사용함.
참고할 community
- raddit의 machine learning community
- tweeter의 자료 : 저명한 researcher들의 자료를 통해 새로운 접근법, 새로운 모델의 정보를 얻는다.
- papers with code : research paper과 code를 같이 제공하므로 좋다.
imbalanced data 해결방법
- 도메인에 맞는 접근 방법이 필요 image: data augmentation tabular data : 가상 sample의 추가 nlp : data augmentdation방법 추가 가능 결국 어떤 matric을 사용하여 평가하느냐가 중요하다.
딥러닝 모델 튜닝
- 경험적인 경우에 따라 loss function, learning rate ..등에 따른 하이퍼파라미터 튜닝이 쉬워진다.
- 전체 data가 아니라 sample데이터에 대해 실험 한 후에 전체 데이터에 적용하는 방식을 사용한다.
deep learning model vs machine learning model
- 문제를 받았을 때 풀 수 있는 가장 간단한 알고리즘을 먼저 사용한다.
- 바로 deep learning을 사용하긴 보단, 먼저 문제에 적용할 수 있는 가장 쉬운 machine learning model을 사용하고 이를 bench mark로 하여 새로운 deep learning model을 사용한다.
백엔드에서 데이터를 다루는 것이 data scientist에게 도움이 되는지
- database skill은 도움이 된다.
- 만든 모델을 rest 를 통해 웹서비스로 올려 배포하는 것이 중요하다.
feature selection method
- 딥러닝의 경우는 feature selection을 거의 하지 않고 #score과 같은 score을 사용하여 어떤 feature을 사용할 것인지를 결정
- feature importance나 알고리즘에 따라 model coefficient를 사용할 수도 있다.
- feature의 수가 수십만개일 경우에 사용한다.