티스토리 뷰

퇴근하고 공부만 하기는 좀 지겨워서 (하고 싶은 거 + 해야 할 건 천지...) 간단히 토이 프로젝트를 하려고 한다. 

프론트는 원래 잘 신경 안 쓰지만, 요즘 AI 툴도 많이 나오고 하니 프론트도 최대한 꾸며보고자 한다. 

아이디어 떠오른 프로젝트 몇 개 더 있어서 빨리 빨리 해보고 또 공부를 해야겠다....

(해야 할 거 : opic, spring + msa, 데이터 엔지니어링 관련)

(떠오른 프로젝트 : 영지식 + 투표, mojo + llm 활용한 고속 데이터 전처리 에이전트)

 

※ 원래 의도는 수학 강사인 여자친구를 위해 개인용 수학 기출 문제 편집기를 만들어주려고 했는데, pdf에서 데이터 추출하는 것에서부터 막혀버렸다.... 갖고 있던 AWS-SAA 덤프 파일이 데이터 추출하기 편해보여서 방향을 바꿨다. 

 

- 막힌 부분 (아래 내용은 추후에 다른 좋은 방법이 떠오르면 만들어주는 걸로....)

1. 수식 추출 - hwp 파일을 pdf로 만든 것들이 있는 것 같다. pdf에서 tex 추출 후 디코딩이 먹질 않는다. 

2. 그림 추출 - 은근히 그림이 포함된 문제가 많았다. PyMUPDF 같은 여러 pdf extractor 패키지를 사용해봤지만 text와 그림 추출 시, 그림이 잘리는 문제, 여러 그림을 하나로 인식하는 문제 등이 있었다.   

3. ocr 한계 - 1,2번의 문제로 ocr로 수식 tex 부분을 변환하려 했지만, 한글 호환성 및 tex 오타의 한계가 있었다. 

4. llm 활용 - pdf 파일 던져주고 주어진 형식에 맞게 데이터 정제해라 했지만, ocr과 마찬가지로 tex 부분 처리에 한계가 있었다. (첨자, 지수 등에 오타 너무 많아 자동화 불가능한 수준) 

 

※ 아키텍처나 기술 스택은 그냥 내가 쓰고 싶은 걸로 정했다.

(별 이유는 없다....) 

 

프로젝트 주제 : AWS-SAA를 도와줘~

주제 선정 이유 : AWS-SAA 시험 준비 시 덤프 문제가 너무 많음. 특정 기술, 주제를 다루는 것들만 추려서 뽑아주는 어시스턴트 웹 서비스 구성 (사실 원래 하려고 계획한 게 빠그러져서 주제 바꿈) 

주요 기술 스택 : react, spring boot, postgresql, claude ai, claude mcp connector, k3s

(mcp connector는 현재 beta 버전이고, 로컬로는 다이렉트로 접근이 안 된다고 나와있다. 로컬에서 별도 서버 열고, 해당 서버에서 mcp server 띄우면 되지 않을까 싶은데, 안 되면 그냥 mcp client, mcp server 로 구성할 예정)

 

대략적인 구조는 위와 같다. 

workflow

- 사용자가 호스팅된 웹 페이지에 접속

- 적합한 사용자 맞는 지 인증 (나만 가능하도록) 

- 사용자가 해당 웹 페이지에서 프롬프트 입력 (ex. 인증과 관련된 AWS-SAA 대비 문제를 10개만 알려줘.)

- 프론트에서 백엔드로 해당 프롬프트 전달 

- 백엔드에서 claude에 mcp connector 이용하여 요청 전송 

- claude에서 mcp connector 이용하여 postgresql db 이용한 답변 제공 

- 백엔드에서 프론트로 답변 적합한 형식으로 전송

 

※ 구체적인 기능들은 그냥 생각나는데로 구현할 예정 

 

댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
TAG
more
«   2026/01   »
1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30 31
글 보관함