Your Name

I am an amazing person.

Webinar

1 minute read

Dacon with Webinar

in Kaggle competition

kaggle 각 competition을 통해 반드시 배우는 점이 있어야 함.
예를 들어 hashing, data cleaning, html tag 추출 방법 등을 배웠다.
대회에서 실패했을 경우 discussion을 참고하는 것이 가장 많은 도움이 된다.
또한 가장 도움이 되는 점은 “out of box”가 가능하다는 점이다.

산업체에서 인턴에 참여하면서 가장 많이 배운 점

1. 좋은 코드 작성 방법( 협업 방법이다)
1. 코드 이식 방법
  
  input / src / models / notebooks / README.md / Lisence 등 pipeline을 잘 정리하여 소스코드를 관리할 수 있는 것이 중요
1. 대회에서는 정리된 데이터가 나온다. 실제 상황에서는 데이터 자체를 추출하는 것이 문제가 된다.

interesting competition :

tweet sentiment extraction competition, data was messy. 문장의 감성에 대한 분석인데 특정 단어를 추출하여 분석하는 것이 흥미로움 (같은 단어인데도 긍정일 수도, 부정일 수도 있음) ex) my crazy dog is awsome 과 같은 경우에 어떤 단어를 뽑냐에 따라 감정이 달라질 수 있다는 점이 흥미로움

cross validation

have to know abount cross validation.
cross validation이 가장 중요하고 가장 먼저 하는 것이 중요
문제에 맞게 validation을 잘 design하는 것이 중요하다.
각 fold가 실전 데이터(test데이터와) 가장 근접해야 한다.
이미지별로 straight cross validation를 지정하여 사용함.

참고할 community

raddit의 machine learning community
tweeter의 자료 : 저명한 researcher들의 자료를 통해 새로운 접근법, 새로운 모델의 정보를 얻는다.
papers with code : research paper과 code를 같이 제공하므로 좋다.

imbalanced data 해결방법

도메인에 맞는 접근 방법이 필요 image: data augmentation tabular data : 가상 sample의 추가 nlp : data augmentdation방법 추가 가능 결국 어떤 matric을 사용하여 평가하느냐가 중요하다.

딥러닝 모델 튜닝

경험적인 경우에 따라 loss function, learning rate ..등에 따른 하이퍼파라미터 튜닝이 쉬워진다.
전체 data가 아니라 sample데이터에 대해 실험 한 후에 전체 데이터에 적용하는 방식을 사용한다.

deep learning model vs machine learning model

문제를 받았을 때 풀 수 있는 가장 간단한 알고리즘을 먼저 사용한다.
바로 deep learning을 사용하긴 보단, 먼저 문제에 적용할 수 있는 가장 쉬운 machine learning model을 사용하고 이를 bench mark로 하여 새로운 deep learning model을 사용한다.

백엔드에서 데이터를 다루는 것이 data scientist에게 도움이 되는지

database skill은 도움이 된다.
만든 모델을 rest 를 통해 웹서비스로 올려 배포하는 것이 중요하다.

feature selection method

딥러닝의 경우는 feature selection을 거의 하지 않고 #score과 같은 score을 사용하여 어떤 feature을 사용할 것인지를 결정
feature importance나 알고리즘에 따라 model coefficient를 사용할 수도 있다.
feature의 수가 수십만개일 경우에 사용한다.

Share on

Twitter Facebook LinkedIn

You may also enjoy

Mlops

2 minute read

[ 손쉽게 ML 라이프 사이클을 다룰 수 있는 MLOps ]

Neuralnetwork architecture search (nas)

less than 1 minute read

[nnstreamer]nnstreamer Overall

less than 1 minute read

introduction NNstreamer는 오래된 CPI와 적은 메모리 용량을 가지고 있는 컴퓨터 기반의 서버를 지원하기 위해 만들어진 오픈소스 라이브러리이다. Gstreamer의 개발자들에게는 nn모델을 쉽고 효율적으로 적용할 수 있도록 도와준다. neuarl network 개...

[nnstreamer]how To Build

1 minute read

basic terminology