https://www.gangseo.seoul.kr/reserve/re040101/view?aplySn=44
온라인신청 - 행사/문화 - 강서구청 통합예약
○ 강서구가 「2023년 강서구 빅데이터 활용 공모전」을 개최합니다. 공모 주제는 개방된 공공데이터를 활용하여 주민의 생활불편 해결과 공공 이익발전에 기여할 수 있는 자유주제입니다.
www.gangseo.seoul.kr
[ 공모주제 ]
개방된 공공 데이터를 활용하여 주민의 생활불편 해결 아이디어 및 공공 이익, 발전에 기여할 수 있는 자유 주제
[참가자격]
강서구에 관심 있는 주민, 기업, 단체 등
(개인 또는 대표자 포함 4인 이내)
[기간]
2023년 2월 20일(월) ~ 2023년 3월 24일(금)
[공모전 활동]
GIT HUB 참고
[참고 링크] https://github.com/brojoon1/gangseogu_bigdata_contest
GitHub - brojoon1/gangseogu_bigdata_contest
Contribute to brojoon1/gangseogu_bigdata_contest development by creating an account on GitHub.
github.com
[소감]
: 공모전이 끝난지 3개월이 지났지만, 결과 발표가 늦게 났을 뿐더러, KT 에이블스쿨과 병행하며 공모전을 정리하다보니 이제야 블로그를 적게 되었다.
0. 일정 정하기
4인 단체로 공모전에 참가하였기 때문에 회의 날짜를 미리미리 픽스 하였고, 간단한 팀 규칙도 정하였다. 또한, 정확하게 지켜지진 않았지만 대략적인 주차별 목표를 정하여 최대한 정해진 일정에 맞추어 진행하였다.
1. 주제 정하기
자유 주제다 보니 주제를 정하는 것이 가장 힘들 었다. 주제를 정하는데에만 1주~1주 반 정도 걸린 것 같다.
괜찮은 주제를 정해도 공공 데이터 포털, 서울 열린 데이터 광장 등 사이트를 참고하여 데이터가 있는지 확인을 해보고 쓸만한 데이터가 없다면 주제를 다시 정해야 했다.
2. 데이터 수집 및 데이터 전처리
데이터도 충분하다고 판단되어져 주제가 선정되었다고 해도, 필요한 공공 데이터를 수집하여 정말 필요한 데이터 인가를 확인 하는 작업이 꽤 오래 걸렸다. KT 에이블스쿨 수업에서도 실제로 공공데이터를 사용해보면 데이터 모델링보다 데이터 수집과 데이터 전처리에 시간이 대부분 소요 된다고 배웠었는데, 이는 완벽하게 정확했다. 수집된 공공 데이터에서 필요로 판단 되어진 컬럼을 추리고 결측치 및 이상치를 제거하고 단변량 분석, 이변량 분석을 진행하여 데이터 분석을 진행하였다.
3. 모델링
주제에 따라 쓰여지는 모델은 다르지만 우리는 비지도 학습인 클러스터링을 사용하였다. folium으로 시각화를 하여 강서구 지도에 시각화 하기도 해보았다.
4. 결과
아쉽게도 수상을 하진 못 하였지만, 모델링보다 공공 데이터 수집의 중요성과 데이터의 성격을 완벽하게 파악해야 한다는 것을 뼈저리 깨달았다. 다음엔 캐글, AI factory와 같은 경진대회에도 참여해보려 한다.