intelligence_model

local에서 llm모델

  1. 데이터 로딩 최적화: 데이터를 부분적으로 로드하거나 필요한 데이터만 로드하여 메모리 사용을 최소화. pandas라이브러리의read_csv함수에서usecols, dtype, nrows` 등의 파라미터를 사용하여 필요한 데이터만 로드.

  2. 효율적인 데이터 구조 사용: 데이터 유형에 따라 적절한 데이터 구조를 선택. 큰 데이터 세트에 대해 pandas 대신 DaskVaex 같은 라이브러리를 사용하면 데이터를 병렬로 처리하고, 메모리를 초과하는 작업을 디스크에서 수행.

  3. 벡터화된 연산 사용: NumPypandas와 같은 라이브러리 함수를 사용하여 벡터화된 연산을 수행

  4. 데이터 클리닝 파이프라인 구축: 데이터 정제 단계를 함수로 만들어 재사용 가능하게 구축. 데이터 정제 과정을 표준화, 에러 줄임

  5. 병렬 처리: 데이터 정제 작업을 여러 CPU 코어에 분산시켜 처리 속도를 향상 :: Python의 concurrent.futures 모듈이나 multiprocessing 라이브러리를 사용


인공지능 모델의 성능을 극대화하기 위해 데이터 전처리는 매우 중요한 단계입니다. 특히 고급 전처리 방법은 모델의 일반화 능력과 성능을 크게 향상시킬 수 있습니다. 아래에는 고급 전처리 방법 중 몇 가지를 소개합니다.

1. 이상치 처리 (Outlier Handling)

2. 결측치 처리 (Missing Value Handling)

3. 특성 엔지니어링 (Feature Engineering)

4. 차원 축소 (Dimensionality Reduction)

5. 비대칭 데이터 처리 (Handling Imbalanced Data)

6. 정규화 및 스케일링 (Normalization & Scaling)

7. 데이터 증강 (Data Augmentation)

8. 타깃 인코딩 (Target Encoding)

9. 노이즈 추가 (Adding Noise)

이러한 전처리 방법들은 데이터의 특성과 문제의 종류에 따라 선택적으로 적용할 수 있습니다. 각 방법의 효과를 비교하고 조정하면서 최적의 전처리 파이프라인을 구축하는 것이 중요합니다.