Webinar

1 minute read

Dacon with Webinar

image

in Kaggle competition

  • kaggle 각 competition을 통해 반드시 배우는 점이 있어야 함.
  • 예를 들어 hashing, data cleaning, html tag 추출 방법 등을 배웠다.
  • 대회에서 실패했을 경우 discussion을 참고하는 것이 가장 많은 도움이 된다.
  • 또한 가장 도움이 되는 점은 “out of box”가 가능하다는 점이다.

산업체에서 인턴에 참여하면서 가장 많이 배운 점

    1. 좋은 코드 작성 방법( 협업 방법이다)
    1. 코드 이식 방법
      input / src / models / notebooks / README.md / Lisence 등 pipeline을 잘 정리하여 소스코드를 관리할 수 있는 것이 중요
    1. 대회에서는 정리된 데이터가 나온다. 실제 상황에서는 데이터 자체를 추출하는 것이 문제가 된다.

interesting competition :

tweet sentiment extraction competition, data was messy. 문장의 감성에 대한 분석인데 특정 단어를 추출하여 분석하는 것이 흥미로움 (같은 단어인데도 긍정일 수도, 부정일 수도 있음) ex) my crazy dog is awsome 과 같은 경우에 어떤 단어를 뽑냐에 따라 감정이 달라질 수 있다는 점이 흥미로움

cross validation

  • have to know abount cross validation.
  • cross validation이 가장 중요하고 가장 먼저 하는 것이 중요
  • 문제에 맞게 validation을 잘 design하는 것이 중요하다.
  • 각 fold가 실전 데이터(test데이터와) 가장 근접해야 한다.
  • 이미지별로 straight cross validation를 지정하여 사용함.

참고할 community

  • raddit의 machine learning community
  • tweeter의 자료 : 저명한 researcher들의 자료를 통해 새로운 접근법, 새로운 모델의 정보를 얻는다.
  • papers with code : research paper과 code를 같이 제공하므로 좋다.

imbalanced data 해결방법

  • 도메인에 맞는 접근 방법이 필요 image: data augmentation tabular data : 가상 sample의 추가 nlp : data augmentdation방법 추가 가능 결국 어떤 matric을 사용하여 평가하느냐가 중요하다.

딥러닝 모델 튜닝

  • 경험적인 경우에 따라 loss function, learning rate ..등에 따른 하이퍼파라미터 튜닝이 쉬워진다.
  • 전체 data가 아니라 sample데이터에 대해 실험 한 후에 전체 데이터에 적용하는 방식을 사용한다.

deep learning model vs machine learning model

  • 문제를 받았을 때 풀 수 있는 가장 간단한 알고리즘을 먼저 사용한다.
  • 바로 deep learning을 사용하긴 보단, 먼저 문제에 적용할 수 있는 가장 쉬운 machine learning model을 사용하고 이를 bench mark로 하여 새로운 deep learning model을 사용한다.

백엔드에서 데이터를 다루는 것이 data scientist에게 도움이 되는지

  • database skill은 도움이 된다.
  • 만든 모델을 rest 를 통해 웹서비스로 올려 배포하는 것이 중요하다.

feature selection method

  • 딥러닝의 경우는 feature selection을 거의 하지 않고 #score과 같은 score을 사용하여 어떤 feature을 사용할 것인지를 결정
  • feature importance나 알고리즘에 따라 model coefficient를 사용할 수도 있다.
  • feature의 수가 수십만개일 경우에 사용한다.

Updated: