혼자서 MVP/서비스 만들기, 왜 이렇게 어려울까요? 2025년 6월 16일
데이터 분석이 중요하다는 것은 당연하게도 여러 매체에서 들으실 수 있을 것 같습니다. 이번에 저희가 분석을 해야되는 이유는 여러분들이 Product를 만들 때, 근거를 만들어서,
데이터 분석을 진행하게 됩니다.
Product를 만들다보면 스스로의 제품과 기능에 대해서 의구심이 생길 수 있고, 계획한 목표(KPI 등)를 이루지 못한다면 팀원들의 사기와 믿음 또한 꺾일 수 있기에, 초기 외부 변수들을 최대한 줄이기 위함이 큽니다
물론 80% 이상의 첫 Product들은 실패로 마무리가 되고, 그 과정에서 사용자들의 의견을 기반으로 Develop하는게 더 중요함을 강조드리고 싶습니다.
데이터를 찾고, 처리하고 분석하는 방법을 간단하게 볼 예정입니다
우선 데이터를 분석하기 전에 세팅을 해야할 요소들이 있는데, 이에 대한 내용은 추후에 다루도록 하겠습니다. (혹시 급하신 분들은 ChatGPT에게 아래 2가지 요소를 추천받기를 권장드립니다)
지금은 ChatGPT를 통해서, 직접 코드를 짜지 않아도, 데이터 분석을 할 수 있다는 내용을 중심으로 진행할 예정입니다.
이에 대한 내용도 당연히 GPT를 이용하시면 편하게 확인하실 수 있습니다.
먼저 저는 여러 공공데이터들을 찾아보면서, 연계성이 있는지 데이터들을 분석해보려 했으나, 데이터 간 공통적으로 연계하기에는 "년도", "지역" 등이 대부분 상이하였고, 이에 따라 분석하기가 어려웠습니다.
이외로도 많은 데이터들이 있으니, 꼭 활용해보시면 좋을 것 같습니다
위 서울 열린 데이터 광장에서 다운로드를 받은 데이터를 기반으로, 데이터를 분석하기 위해 위와 같이 요청을 했습니다.
그러나 아쉽게도 에러코드가 나왔기에, 이 또한 ChatGPT에게 물어봤으며,
정말 친절하게 왜 그런지와 수정된 코드도 전달해주었습니다.
저는 이제 과연 데이터들이 잘 합쳐졌는지가 궁금하기에, 이에 대해서 확인할 수 있는 코드를 요청했고,
다행히도 데이터들이 잘 나와있음을 확인하였습니다.
여기서 데이터를 보니, 2016년도의 데이터에 "건 수 차이"가 NaN 값으로 되어 있어서, 2016년도의 데이터는 제외를 시키는게 낮다고 판단하여, 이에 대해서 수정을 진행하였습니다.
근데 이 때에도 또 에러가 나오기에, GPT에게 수정해달라고 요청했습니다.
"건수 차이"(에코마일리지 가입 건수 상승량)에 따른 "건수당 현년탄소 차이"(개인의 탄소배출량의 증가량)의 연관관계"를 보고 싶었기에, 아래와 같이 질문을 하였습니다.
상관 계수가 "-0.38"이 나왔기에, 약하지만 상관관계가 있다고 판단하였으며(상관 계수가 -1 ~ 1 사이에서 나오며, -1과 1에 근접할 수록 강한 상관관계입니다)
여기서 더 나아가 그래프로도 보고 싶었기에, 아래와 같은 결과를 얻을 수 있었습니다.
제가 지금 작성한 내용들은 아예 데이터 분석을 처음하시는 분들은 어려울 수 있을 것 같습니다. 혹시 궁금하신 점이 있다면 언제든 댓글로 말씀해주세요:)
이 글이 도움이 되셨나요?
다른 사람들과 공유해보세요!