Devlog

기계학습의 분류

2025-10-12T15:00:00+00:00

기계 학습에는 크게 4가지 유형이 있다. 그 4가지 유형은 각각

지도 학습
비지도 학습
준지도 학습
강화 학습 이다.

지도 학습(Supervised Learning)이란, 데이터와 정답의 역할을 하는 레이블을 제공받아 컴퓨터가 학습하는 것이다. 답이 주어진 데이터를 활용하여 학습하므로, 입력을 출력에 매핑하는 일반적인 규칙을 학습하는 것이다. 대표적인 지도 학습으로는 classification과 regression을 꼽을 수 있다.

비지도 학습(Unsupervised Learning)이란, 지도 학습과 달리 외부에서 정답이 주어지지 않고 학습 알고리즘이 스스로 입력으로부터 어떤 구조나 규칙을 발견하는 학습이다. 대표적인 비지도 학습으로는 clustering을 꼽을 수 있다. clustering은 주어진 데이터를 특성에 따라 둘 이상의 그룹으로 나누는 것이다.

준지도 학습(Semi-supervised Learning)이란, 일부 데이터에만 레이블을 부여하여 학습시키는 방법이다. 보통 우리가 실제로 구하는 데이터에는 레이블(정답)이 없는 경우가 많다. 레이블은 일반적으로 사람이 부여한다. 대규모 데이터에 일일이 레이블을 부여하는 것은 매우 어려운 일이다. 이런 경우, 일부의 데이터에만 레이블을 부여하는 것만으로도 전체적인 학습의 정확도를 높일 수 있다. 즉, 레이블 정보를 가진 소수의 데이터와, 레이블 정보가 없는 다수의 데이터를 함께 이용하여 학습을 수행하는 것이다.

강화 학습(Reinforcement Learning)이란, 보상 및 처벌의 형태로 학습 데이터를 주어 학습하는 형태를 말한다. 주로 차량 운전이나 바둑, 체스와 같은 상대방과의 동적인 경기 상황에서 프로그램의 행동에 따른 피드백을 보상, 처벌의 형태로 제공하는 것이다. 어떤 환경 안에서 정의된 에이전트가 현재의 상태를 인식하여 선택 가능한 행동들 중 보상을 최대화 하는 행동 혹은 순서를 선택하는 정책을 만들어 가는 방식이다.

위의 4가지 유형은 모델을 학습시키는 방법에 따른 분류였다. 이외에도, 다양한 기준에 따라 유형을 분류하기도 한다. 예시로, 오프라인/온라인 학습, 분별/생성 모델이라는 분류도 있다. 특히 분별 모델은 부류 예측에만 관심이 있는 모델이다. 즉, P(y|x) - x가 주어지면 y에 속할 확률의 추정에만 관심이 있는 것이다. 생성 모델은 P(x), P(x|y)를 추정한다. 즉, 생성 모델은 새로운 샘플을 생성할 수 있다. 대표적인 생성 모델로 GAN을 꼽을 수 있다.

데이터 전처리 - 정규화와 표준화 방법과 계산식

2025-10-12T15:00:00+00:00

<정규화와 표준화=""> - 데이터 전처리를 통한 분석 성능 개선 기계 학습에서 사용하는 데이터 값 중에서 특성에 따라 규모가 크게 다른(=균일하지 않은 축적(scale)을 갖는) 값을 흔히 볼 수 있다. 예를 들자면, 나이와 재산의 상관 관계를 보고자 할 때, 나이는 보통 1~80 사이에 분포하는 반면, 재산은 -수십억 ~ +수십억 까지 넓고 큰 규모로 분포한다. 이런 경우에, 데이터 전처리를 통해 입력 속성값의 범위를 비슷하게 만들어 줄 수 있으며 이를 정규화, 표준화라고 한다. [데이터 정규화] - normalization 최대 최소 스케일러는 다음의 식을 통해 데이터의 값을 0~1사이로 조정한다. [데이터 표준화] - standardization 표준화는 데이터를 정제할 때 전체의 평균과 분산을 사용한다. 이러한 표준화 과정을 거치면, X는 평균이 0이고 분산이 1인 데이터가 된다.

지도 학습(Supervised Learning)

2025-10-12T15:00:00+00:00

supervised learning 지도 학습에는 분류와 회귀가 있다.

classification 분류: 미리 정의된, 가능성 있는 여러 클래스 레이블 중 하나를 예측하는 것 정답이 데이터와 함께 주어지며, 정답으로 해당 데이터의 class가 주어짐

K-nearest neighbors 알고리즘 K-nearest neighbors 알고리즘은 학습 단계를 거치지 않는 알고리즘이다.(lazy classifier라고도 한다.) 새로운 데이터 샘플을 분류하기 위해 답을 도출할 때 가장 가까운 k개의 레이블을 확인하여 majority voting을 통해 새로운 데이터의 class를 예측한다. k-NN 방법은 특징 공간에 있는 모든 데이터에 대한 정보가 필요하다. 데이터 인스턴스, 특징 요소들의 개수가 많다면 많은 메모리 공간과 계산 시간이 필요하다는 단점이 있다. 알고리즘이 매우 단순하고 직관적이며 사전 학습이나 특별한 준비 시간이 필요 없다는 장점이 있다. k와 데이터 사이의 거리를 계산하는 방식은 사람이 제공한다.

regression 회귀: 연속적인 숫자, 또는 프로그래밍 용어로 말하면 부동소수점수(실수)를 예측하는 것 정답이 데이터와 함께 주어지며, 정답으로 실수가 주어짐

빌드 관리 도구 : Maven과 Gradle

2025-08-11T11:00:00+00:00

빌드 관리 도구란?

빌드 도구 : 프로젝트에서 필요한 xml, properties, jar 파일들을 자동으로 인식하여 빌드해주는 도구

XML은 데이터를 저장하고 전송하기 위해 설계된 언어이다. 무엇이 어디에 있는지 명확하게 적어둔 문서라고 생각하면 이해가 빠르다.

<사람> <이름>김민재 <나이>25

이렇게 태그(< >)로 감싸서 데이터 구조를 표현하고, 기계도, 사람도 편하게 읽을 수 있다는 장점이 있다.

properties는 프로그램의 설정값을 저장하는 단순한 키-값 쌍의 파일이다. 게임 설정창에서 배경음악을 On/Off로 간단히 설정하거나, 난이도를 Easy/Hard 등으로 설정한 내용을 기록한 파일이라고 생각하면 이해가 빠르다.

username=minjae language=ko music=true

이렇게 단순하게 표현되며 가볍게 읽고 쓸 수 있다는 장점이 있다.

jar은 Java Archive의 준말로, java 프로그램을 실행하기 위한 파일(클래스, 이미지 설정 등)을 하나로 묶은 압축 파일이다. 우리에게 친숙한 .zip과 비슷하지만, java에서 실행 가능한 형태를 담고 있다는 점에서 차이가 있다. java 프로그램을 배포할 때 주로 사용한다.

다시 돌아와서, 빌드 관리 도구란 소스 코드를 컴파일, 테스트, 정적 분석 등을 하여 실행 가능한 앱으로 빌드해 주는 도구이다. 비유하자면 코드, 리소스, 라이브러리는 식재료이고 빌드 관리 도구는 훌륭한 자동 요리 기계인 셈이다.

빌드 관리 도구는

컴파일 → Java 파일을 .class로 변환
패키징 → 결과물을 .jar나 .war로 묶음
의존성 관리 → 프로그램에서 쓰는 외부 라이브러리를 자동으로 다운로드/추가
테스트 실행 → 자동으로 테스트 코드 실행
배포 준비 → 서버에 올릴 수 있는 형태로 결과물 생성

의 주요 기능을 수행한다. 대표적인 자바의 빌드 관리 도구로는 Ant, Maven, Gradle이 있으며 근래에는 Maven과 Gradle이 가장 널리 사용된다.

Ant : XML로 빌드 과정을 직접 순서대로 적어야 함

Maven : XML(pom.xml)로 설정, 표준화된 구조, 의존성 관리 편리

Gradle : Groovy/Kotlin 스크립트로 설정, 속도 빠름, 유연함

Maven(메이븐)이란?

자바의 대표적인 빌드 관리 도구였던 Ant를 대체하기 위해 개발됨

프로젝트의 외부 라이브러리를 쉽게 참조할 수 있게 pom.xml 파일을 사용했다. 참조한 외부 라이브러리에 연관된 다른 라이브러리들도 자동으로 관리되는 것이 편리성을 크게 높여주었다.

maven에는 ant와 달리 라이프 사이클이라는 기능이 추가되었다. ant의 경우 xml 파일에 어떤 작업을 어떤 순서로 할 지 직접 적어야 했다면, maven의 경우 표준 라이프 사이클이 정해져 있어 Maven이 알아서 compile → test → package → deploy까지 실행해준다. 즉, Maven의 라이프 사이클은 빌드 과정을 표준 단계로 나눠서, 명령어 하나로 전체 과정을 자동 실행해주는 시스템이다. Ant는 사용자가 빌드 순서를 전부 적어야 하지만, Maven은 순서가 이미 내장돼 있어서 훨씬 간편하다.

Gradle(그래들)이란?

Groovy 또는 Kotlin 스크립트를 활용한 빌드 관리 도구이다. Groovy는 JVM(Java Virtual Machine)에서 동작하는 스크립트/프로그래밍 언어이고, Java 문법을 거의 그대로 사용 가능하다는 것이 큰 장점이다.

돌아와서, Gradle은 xml 대신 스크립트를 활용하여 작성함으로써 더 간결한 프로그래밍을 가능하게 한다. 안드로이드의 표준 빌드 시스템으로 채택되어 사용 중이다. 멀티 프로젝트의 빌드에 최적화하여 설계되고 있고, Maven에 비해 더 빠른 처리 속도를 가지고 있다. Maven은 라이프 사이클에 의해 표준화되어 유연성이 낮다고 할 수 있다. 그에 비해 Gradle은 빌드 단계 순서와 연결 방식을 사용자가 직접 정의함으로써 유연성이 높다고 할 수 있다.

Maven VS Gradle

성능 : Gradle > Maven : Gradle이 Maven보다 최대 100배 정도 빠를 수 있다. 또한, 대규모 프로젝트에서 Gradle이 더 좋은 모습을 보인다.

점유율 : Maven > Gradle : Gradle의 점유율이 꾸준히 오르고 있다.

Maven : pom.xml

Gradle : build.gradle

Gradle은 설치 없이 사용이 가능하다.

하드 코딩? 소프트 코딩?

2025-08-08T08:00:00+00:00

하드 코딩이란 무엇인가?

하드 코딩(Hard Coding)은 프로그램의 소스 코드 안에 데이터를 직접적으로 삽입하는 프로그래밍 방식을 말합니다. 변경될 가능성이 있는 값, 설정 정보, 파일 경로 등을 변수나 외부 파일로 분리하지 않고 코드에 그대로 박아 넣는 것입니다. 이렇게 작성된 코드는 실행될 때마다 동일한 값을 사용하게 되며, 값을 변경하려면 소스 코드를 직접 수정하고 다시 컴파일해야 합니다.

소프트 코딩이란 무엇인가?

소프트 코딩(Soft Coding)은 프로그램의 소스 코드에서 변경 가능성이 있는 데이터를 분리하여 외부 설정 파일, 데이터베이스, 환경 변수 등에 저장하는 프로그래밍 방식입니다. 프로그램은 실행 시점에 이 외부 자원에서 필요한 값을 읽어와 사용합니다. 이 방식은 코드 변경 없이 데이터만 수정하면 되므로, 유연성과 재사용성이 높습니다.

하드 코딩과 소프트 코딩의 장단점 비교

하드 코딩의 장단점

장점: 간단한 시스템을 빠르게 만들 때 유리합니다. 예를 들어, 소규모 은행에서 이자율이 거의 변하지 않는다면, 코드를 직접 수정하는 것이 더 빠를 수 있습니다.

단점: 유지보수가 매우 어렵습니다. 이자율, 수수료, 송금 한도 등 많은 설정값이 코드에 박혀 있다면, 정책이 변경될 때마다 수많은 코드를 찾아 일일이 수정해야 합니다. 이는 오류를 유발할 가능성이 매우 큽니다.

만약 이자율을 변경해야 할 때, 개발자가 실수로 일부 코드만 수정하고 다른 부분은 놓치면, 고객에 따라 다른 이자율이 적용되는 심각한 문제가 발생할 수 있습니다.

소프트 코딩의 장단점

장점: 유지보수가 훨씬 쉽습니다. 은행 정책(이자율, 수수료 등)이 변경될 때, 데이터베이스의 값을 변경하는 것만으로 모든 시스템에 즉시 반영됩니다.

단점: 초기 개발 시간이 조금 더 걸립니다. 데이터베이스 테이블을 설계하고, 데이터를 읽어오는 로직을 만들어야 하기 때문입니다. 하지만 장기적으로 보면 이 초기 비용보다 유지보수 비용 절감 효과가 훨씬 큽니다.

이자율, 송금 수수료, 고객 등급별 혜택 등을 모두 데이터베이스에 저장해두면, 은행 정책이 바뀌어도 개발자가 코드를 수정할 필요 없이 관리자가 설정값만 바꾸면 됩니다. 이는 오류 발생 가능성을 줄이고, 시스템의 유연성을 극대화합니다.

자료구조와 복잡도

2025-07-04T04:00:00+00:00

자료구조란 무엇인가?

자료구조란 데이터를 정돈하여 저장한 구성체이다.

데이터에 편리하게, 빠르게, 효율적으로 접근, 탐색, 삽입, 삭제 등의 연산을 하기 위해 데이터를 조직하는 방법을 자료구조라고 일컫는다.

그러므로 자료구조를 설계할 때에는 데이터와 데이터에 관련된 연산들을 함께 고려하는 것이 필수적이다.

자료구조의 효율성

앞서 자료구조란 편리하고 빠르게, 효율적으로 연산을 하는 방법이라고 말했 듯이, 상황에 따라 선호되는 연산이 다르고, 각 연산마다 효율성 또한 다르다.

자료구조의 성능은 시간 복잡도와 공간 복잡도로 평가된다.

시간 복잡도는 단순히 연산의 수행 시간이라고 이해할 수 있다.

공간 복잡도는 알고리즘이 수행되는 동안 사용되는 메모리의 크기이다.

하지만 같은 문제 해결을 위한 자료구조 연산이라면 대부분 비슷한 크기의 메모리 공간을 사용

즉, 무시 가능한 차이의 공간 복잡도를 보이기 때문에 대부분의 경우 자료구조의 성능을 분석하기 위해

시간 복잡도만을 사용한다.

수행 시간

최악 경우 분석(Worst-case Analysis)
평균 경우 분석(Average-case Analysis)
최선 경우 분석(Best-case Analysis)
상각 분석(Amortized Analysis)

일반적으로 수행 시간은 최악 경우로 표현한다.

최악 경우로 분석할 경우 알고리즘이 수행될 때 ‘어떤 입력이 주어지더라도 수행 시간이 얼마 이상은 초과하지 않는다.’ 라는 상한의 의미를 갖기 때문이다.

자료구조의 종류

단순 데이터 구조

프로그래밍 언어에서 통상적으로 제공하는 기본 데이터 형식을 말한다.
복합 데이터 구조
- 선형 데이터 구조
  
  데이터들이 순차적으로 나열되어 있는 구조이다. 각각의 데이터가 단 하나의 선행 데이터와 후행
  
  데이터를 갖는다.
  
  순차적인 접근으로 데이터에 접근하며, 일렬로 나열되는 데이터을 관리하는데 용이하다.
  
  복잡한 관계를 표현하기에는 한계가 있는 경우가 많다.
  
  배열, 연결 리스트, 스택, 큐, 힙이 선형적 자료 구조이다.
- 비선형 데이터 구조
  
  데이터가 계층적이거나 네트워크 형태로 구성되어 있는 구조이다.
  
  복잡하거나 계층적인 관계를 모델링할 때 용이하다.
  
  트리와 그래프가 비선형적 자료 구조이다.

사진 출처 : 한빛+

자료구조/알고리즘 - ai 시대에서도 여전히 자료구조와 알고리즘은 중요한가

2025-07-01T07:00:00+00:00

자료구조는 왜 중요한가?

요즘은 많은 사람들이 ChatGPT나 Copilot 같은 AI 도구에 익숙해져서
“굳이 자료구조를 깊게 배워야 하나?”라는 의문을 가지곤 합니다.

하지만 결국 AI도 데이터를 다루는 도구이고,
그 데이터가 어떻게 저장되고, 어떻게 효율적으로 접근되는지가 성능의 핵심을 좌우합니다.

예시: 트리와 해시테이블

트리(Tree)는 계층적 구조를 빠르게 탐색할 수 있어 검색 엔진, 파일 시스템 등에서 핵심 역할을 합니다.
해시테이블(Hash Table)은 평균적으로 O(1)에 가까운 탐색 속도를 제공하며, 딕셔너리 기반 AI 파이프라인에서도 자주 쓰입니다.

이런 자료구조를 이해하고 잘 활용할 줄 아는 사람은
AI 코드의 효율을 높이고, 병목 구간을 정확히 파악할 수 있습니다.

알고리즘의 중요성

AI는 모든 걸 자동으로 처리해줄 것 같지만,
결국 그 내부에는 사람이 설계한 알고리즘이 존재합니다.

예를 들어,

최적 경로를 찾는 문제는 딥러닝 이전에도 다익스트라 알고리즘으로 풀렸고, 지금도 사용됩니다.
추천 시스템에서 유저 선호도를 분석하는 데도 정렬, 분류, 그래프 기반 알고리즘이 동원됩니다.

또한, AI 모델을 학습시키는 과정 자체가
수많은 행렬 연산 알고리즘, 경사 하강법(Gradient Descent) 등의 최적화 알고리즘에 기반합니다.

결론

AI가 발전할수록 “겉모습은 쉬워 보이지만”
그 뒷단에 있는 시스템은 점점 더 복잡하고 정교해지고 있습니다.

이럴수록 기초가 더 중요합니다.
자료구조와 알고리즘을 제대로 이해하고 응용할 수 있는 개발자는
AI 시대에도 도구를 단순히 “쓰는 사람”이 아니라 만드는 사람이 될 수 있습니다.

demo-첫 글 작성

2025-06-30T08:18:00+00:00

첫 글을 작성해보자. 이게 제목인가..?

첫 글을 작성해보자

아직 어떻게 하는 건지 잘 모르겠다.

#을 꼭 넣고 문장을 써야 하나?

2개 넣으면 어떻게 되지?

아하 이렇게 되는구나

문장의 크기가 달라지나 보다.

####을 단순히 넣으면 크게 달라지는 건 없지만

을 넣고 space bar를 누르면 문장이 굵음 처리와 사이즈 조절이 되는군

Welcome to Jekyll!

2025-06-29T14:45:52+00:00

You’ll find this post in your _posts directory. Go ahead and edit it and re-build the site to see your changes. You can rebuild the site in many different ways, but the most common way is to run jekyll serve, which launches a web server and auto-regenerates your site when a file is updated.

Jekyll requires blog post files to be named according to the following format:

YEAR-MONTH-DAY-title.MARKUP

Where YEAR is a four-digit number, MONTH and DAY are both two-digit numbers, and MARKUP is the file extension representing the format used in the file. After that, include the necessary front matter. Take a look at the source for this post to get an idea about how it works.

Jekyll also offers powerful support for code snippets:

def print_hi(name)
  puts "Hi, #{name}"
end
print_hi('Tom')
#=> prints 'Hi, Tom' to STDOUT.

Check out the Jekyll docs for more info on how to get the most out of Jekyll. File all bugs/feature requests at Jekyll’s GitHub repo. If you have questions, you can ask them on Jekyll Talk.