머신러닝의 아쉬운 점

안녕하세요

오늘은 머신러닝을 공부하고, 실습도 해보고, 논문이 나오고 해당 논문에 사용되었던 실제 데이터 셋을 가지고 실제로 돌려보고 해당 모델이 나오면 결과를 확인할 수 있습니다.

현재 만들고 싶어하는 모델링이 있다면 현재까지 나온 논문의 모델링들을 조합하면 해보고 싶어하는 모델을 설계할 수 있습니다.

하지만 여기서 문제는 공부하고 싶거나 만들어 보고 싶은 실제로 데이터 셋을 만드는 것만으로도 엄청 노가다가 필요합니다.

문제는 데이터를 모으는데 크롤링으로도 한계가 있고, data set을 많이 만들었다 해도 10메가도 만들지ㅠㅠㅠ 암울해 집니다.

보통적으로 논문에서 사용되는 데이터 셋의 크기는 10기가 입니다.

이 데이터 셋을 실제로 만든다고 하는 것은 정말 상상초월입니다.

보통적으로 서비스 회사이거나 빅데이터 관련 등 데이터가 많은 회사라면 유용하게 사용될 수 있지만 스타트 업이라든지, 지금 공부해보고 싶은 분들에게는 정말 힘들지 않나 생각이 됩니다.

무료로 데이터를 제공해주는 곳이 있지만 본인이 관심이 있거나 하는 그런 데이터가 아니기 때문에 관련이 없다고 보시면 됩니다.

제가 볼 때 국내 서비스 회사로서는 네이버, 다음 정도의 데이터가 있어야 좋은 서비스를 만들지 않나 생각이 됩니다.

하지만 데이터 셋을 모으다 모으다 보면 좋은 모델링을 만들 수 있으며, 요즘 해외에서는 데이터 셋을 무료로 제공해 주는 회사들도 많이 생겨 나고 있습니다.

구글에서 검색을 많이 해보시면 좋은 곳이 많이 있습니다. 또한 머신러닝을 하기 위해서 저 같은 경우에는 텐서플로우 프레임웍을 이용하고 파이썬 기반 Numpy 를 이용해 데이터 셋을 많이 만들고 있습니다.~

머신러닝의 아쉬운 점에 대해서 이야기 했는데 해외같은 경우 AI의 발전을 위해 데이터 공유를 많이 하는 추세이기 때문에 앞으로 큰 기업이 아니더라도 쉽고 편리하게 이용가능할 것 같습니다.

구름이 쉬어가는 산 처럼