블로그 이미지
Don't Stop
angelyr

Recent Post

Recent Comment

Archive

calendar

1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30
  • total
  • today
  • yesterday

파이썬으로 된 머신러닝 오픈소스 프로젝트 중 주목할 만한 것들을 정리하였습니다. 이 중에는 익히 알고 있는 것도 있지만 완전히 생소한 것들도 있습니다. 누군가가 이렇게 정리된 리스트를 공유해 주니 이 분야에 첫발을 들이는 사람에겐 좋은 출발점이 될 수 있습니다. 간단하지만 각 리스트를 하나씩 확인해 보도록 하겠습니다. 원글의 리스트는 다음 링크를 참고해 주세요.

  1. scikit-learn :
    파이썬 머신러닝 라이브러리의 대표주자라고 할 수 있습니다. 많은 도서와 아티클들이 이미 나와 있습니다. 이 프로젝트는 파이썬의 또 다른 유명한 라이브러리 Numpy  Scipy 를 근간으로 하고 있습니다. 두 라이브러리는 수치연산과 과학계산을 위해 만들어 졌습니다. scikit-learn 은 분류, 회귀분석은 물론 대표적인 비교사 학습인 군집화 알고리즘과 디멘젼 리덕션 등도 제공합니다. 파이썬으로 머신러닝을 시작한다면 먼저 scikit-learn 를 검토해 보지 않을 수 없습니다. scikit-learn github 레파지토리.
  2. NuPIC :
    NuPIC(The Numenta Platform of Intelligent Computing)는 누멘타에서 연구 개발한 두뇌의 신피질 기능을 모방한HTM(Hiearchial Temporal Memory) 러닝 알고리즘을 구현한 것 입니다. NuPIC는 시계열 또는 연속성있는 데이터 분석에 유용하며 특히 비정상 데이터 탐지(Anomaly Detection)나 스트리밍 데이터 예측등에 활용된다고 합니다. 논문에서 상세한 내용을 확인할 수 있으며 한국어 번역도 제공하고 있습니다. NuPIC github 레파지토리.
  3. Pattern :
    Pattern은 자연어처리를 포함하는 웹 마이닝 라이브러리입니다. KNN, SVM, 퍼셉트론 등을 활용하여 서포트 벡터 머신, 군집화, 분류 등을 지원합니다. 자연어처리에서 비영어권의 언어에도 문제가 없는지는 확인하지 못했습니다. Pattern github 레파지토리.
  4. Pylearn2 :
    pylearn2는 머신러닝 프로젝트를 쉽게 할 수 있도록 설계된 라이브러리 입니다. 이 프로젝트는 Theano를 바탕으로 하고 있습니다. Pylearn2 github 레파지토리
  5. Ramp
    Ramp는 빠른 프로토타이핑을 위한 머신러닝 라이브러리입니다. pandas 기반의 경량 프레임워크로 scikit-learn 이나 rpy2 같은 기존의 파이썬 머신러닝 라이브러리나 통계 툴들과 연결해서 사용할 수 있습니다. Ramp는 여러 기능과 알고리즘, 데이터 변환을 빠르고 효과적으로 처리하기 위한 간단한 서술형 문법을 제공합니다. Ramp github 레파지토리](https://github.com/kvh/ramp)
  6. MILK
    Milk는 감독학습(supervised)에 의한 분류(classification) 문제에 포커싱을 맞춘 머신러닝 툴킷입니다. SVMs, k-NN, 랜덤 포레스트(random forest), 결정 나무(decision tree) 같은 알고리즘을 지원합니다. 또 변수 선택(feature selection)을 지원합니다. 이런 분류기들은 다양한 문제를 해결하기 위해 여러 방식으로 조합되어 사용될 수 있습니다. 비감독학습(unsupervised) 알고리즘으로는 k-means 클러스터링과 어피니티 프로퍼게이션(affinity propagation)을 제공합니다. Milk github 레파지토리
  7. skdata
    skdata 는 머신러닝과 통계를 위한 샘플 데이터셋을 제공하는 라이브러리입니다. 널리 알려진 컴퓨터 비전(computer vision)이나 자연어 처리 같은 예제(toy problem)를 파이썬에서 쉽게 사용할 수 있도록 도와줍니다. skdata github 레파지토리
  8. mlxtend
    이 라이브러리는 매일 매일 반복적으로 일어나는 데이터 사이언스 작업들을 위한 유용한 툴을 제공합니다. mlxtend github 레파지토리
  9. machine-learning-samples
    아마존 머신러닝을 이용하여 만든 샘플 어플리케이션들 입니다. machine-learning-samples github 레파지토리
  10. REP
    REP은 일관성있고 재현가능한(reproducible) 데이터 중심(data-driven) 연구를 수행하는데 필요한 환경을 제공합니다. 여기에는 TMVA, Sklearn, XGBoost, uBoost 같은 여러 종류의 구현을 감싸고 있는 통합 분류기가 있습니다. 하나의 클러스터에 대해 동시에 여러개의 분류기를 학습시킬 수 있으며 인터렉티브한 그래프도 제공합니다. REP github 레파지토리

<출처: https://adside.wordpress.com/2015/06/15/%ED%8C%8C%EC%9D%B4%EC%8D%AC-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%ED%94%84%EB%A1%9C%EC%A0%9D%ED%8A%B8-top-10/>

 

posted by angelyr