๐ป ์ด๋ชจํฐ์ฝ ํธ๋ ๋ ๋ฐ ํต๊ณ ๋ถ์ ํ๋ก์ ํธ
โ ์ฃผ์ : ์นด์นด์ค ์ด๋ชจํฐ์ฝ ์์ 200๊ฐ๋ฅผ ์กฐ์ฌํ์ฌ, ์ธ๊ธฐ ์๋ ์ด๋ชจํฐ์ฝ์ ํน์ง์ ๋ถ์ํ๊ธฐ
โ ๋ฐฐ๊ฒฝ : ์ ํ๋ธ์์ ์ฐ์ฐ์ฐฎ๊ฒ ์นด์นด์ค ์ด๋ชจํฐ์ฝ ์๊ฐ๋ค ๊ด๋ จํ ์์ธ ์์์ ๋ณด๊ฒ ๋์๊ณ
์ธ๊ธฐ ์๋ ์ด๋ชจํฐ์ฝ๋ค์ ํน์ง๊ณผ ์์ง ์ถ์ ๋์ง ์์ ์บ๋ฆญํฐ ์ฑ์ฅ ๊ฐ๋ฅ์ฑ ์์ธกํ๊ณ ์ ํฉ๋๋ค.
โ ๊ธฐ๊ฐ : 2024.09.26 ~ 2024.10.11 (์ฝ 2์ฃผ)
โ ๊ณผ์ : ํ์ด์ฌ์ผ๋ก ์น์ฌ์ดํธ ํฌ๋กค๋ง
์์ ์บก์ณํ ํ์ด์ฌ Tesseract OCR ๊ธฐ๋ฅ์ ํ์ฉํด ํ ์คํธ ํ
์๊ฐ์ ์ธ์คํ๊ทธ๋จ,์ ํ๋ธ ๋ฑ ๊ฐ์ธ ์ฑ๋ ํ๋ก์ฐ ์ซ์ ์์์ ๋ผ๋ฒจ๋ง
์ด๋ชจํฐ์ฝ๊ณผ ์ธ๊ธฐ์ ์๊ด๋ถ์, ์๋ ํด๋ผ์ฐ๋ ๋ถ์
ํ ์คํธ ๋ฐ์ดํฐ๋ฅผ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ชจํฐ์ฝ๋ค์ ๊ตฐ์งํ
๊ณผ๊ฑฐ ์ด๋ชจํฐ์ฝ์ ์ฑ๊ณต ์ฌ๋ถ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก, ํน์ ์บ๋ฆญํฐ ์์ฑ์ด ์ฑ๊ณตํ ๊ฐ๋ฅ์ฑ์ ์์ธก ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ ๊ฐ๋ฐ
โ ์คํฌ : Tableau, ํ์ด์ฌ
ํ๋ก์ ํธ ๋ฐฐ๊ฒฝ
์ด ํ๋ก์ ํธ๋ฅผ ์์ํ๊ฒ ๋ ๊ณ๊ธฐ๋ ๋ค์๊ณผ ๊ฐ์ต๋๋ค.
๋ฌธ๋ ์ ๋ทฐํธ ์ผ์ธ ๋ฅผ ๋ณด๋ค๊ฐ ์นด์นด์ค ์ด๋ชจํฐ์ฝ ์๊ฐ๋ค์ด ์ 1์ต์ฉ ๋ฒ๋ค๋ ์์์ ๋ณด๊ฒ ๋์์ต๋๋ค.
์นด์นด์คํก ์ด๋ชจํฐ์ฝ์ด ํ๋ฒ๋ง ์ ๋จ๋ฉด ๊ฝค๋ ์ ์ ํ ์์ ์ ๋ฒ ์ ์๋ค๊ณ ํ๋๋ฐ
์ด๋ฏธ ๋ ๋์ค์ ์ด์ด์ ๋จ๊ธฐ๊ฐ ์ด๋ ต๋ค ํ๋๋ผ๊ตฌ์.
์ ๋ ๋ง๊ทธ๋ฌ์ง๊ณฐ,๋ง์ฑ์ํ์ค ์ด๋ชจํฐ์ฝ์ ๊ต์ฅํ ์ข์ํ๋๋ฐ ์ด๋ ๊ฒ ์ธ๊ธฐ ์๋ ์ด๋ชจํฐ์ฝ๋ค์ ํน์ง์ ์์๋ณด๊ณ
์ด๋ชจํฐ์ฝ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก ์์ง ์ถ์๋์ง ์์ ์บ๋ฆญํฐ ์ค์์ ์ธ๊ธฐ๊ฐ ์์ ๋งํ ์บ๋ฆญํฐ๋ฅผ ์์ธกํด๋ณด๊ณ ์ ํฉ๋๋ค.
์ด๋ฐ ํ๋ก์ ํธ๋ฅผ ํ ์ฌ๋์ด ์๋ ๊ตฌ๊ธ๋ง์ ํตํด ์ฐพ์๋ดค๋๋ฐ ์๋๋ผ๊ตฌ์. ๊ทธ๋์ ์์ํ์ต๋๋ค!
ํ๋ก์ ํธ ์งํ ๊ณํ : ๋ฐ์ดํฐ ์์ง ๋ฐฉ๋ฒ
์ฐ์ ํฌ๋กค๋ง ๊ธฐ์ ์ ๋ ๋๋ฆฌ๊ณ ์ ์นด์นด์ค ์นํ์ด์ง๋ฅผ ํฌ๋กค๋ง ํ๋ ค๊ณ ํ์ต๋๋ค.
์นด์นด์ค ์ด๋ชจํฐ์ฝ ์นํ์ด์ง๋ฅผ ํฌ๋กค๋งํ์ฌ ๋ฐ์ดํฐ๋ฅผ ์์งํ๋ ค๊ณ ํ์ผ๋ ๋ฌธ์ ๊ฐ ์๊ฒผ์ต๋๋ค.
์นด์นด์ค๋ ํฌ๋กค๋ง์ ์ฐจ๋จํด๋จ์ต๋๋ค...^^;;
์ ์ฌ์ดํธ์ ๋ค์ด๊ฐ๋ฉด ์๋์ ๊ฐ์ด ๋์ต๋๋ค.
ํฌ๋กค๋ง์ ๋นํ์ฉ ํด๋์๋ค๋ ๋ป์ด๊ณ , ํ์ฉํ์ง ์์ ์น์ฌ์ดํธ์์ ํฌ๋กค๋ง์ ํ๋ฉด ๋ฒ์ ์ผ๋ก ๋ฌธ์ ๊ฐ ์๊น๋๋ค..
์์นซํ๋ฉด ๋ฒ๊ธ์ ๋ฌผ์ด์ผ ํ ์๋ ์์ต๋๋ค. ๋จ์ ๋ฐฉ๋ฒ์ ๋๊ฐ์ง ์ ๋๋ค.
๋ฐ์ดํฐ๋ฅผ ์์์ ์ผ๋ก ์์งํ ๊ฒ์ธ๊ฐ? vs ์คํฌ๋ฆฐ์ท์ ์ฐ๊ณ ํ ์คํธ๋ก ์ ํํ์ฌ ์์งํ ๊ฒ์ธ๊ฐ?
ํ์๋ฅผ ํํ๊ธฐ๋ก ํ์ต๋๋ค.
์ ์๋ฅผ ํ๊ธฐ์ ๋๋ฌด ๋ง๊ธฐ๋ ํ๊ณ , ์ด๋ฒ ๊ธฐํ์ ํ์ด์ฌ์ Tesseract OCR ๊ธฐ๋ฅ์ ์ตํ๋ณผ๊น ํฉ๋๋ค.
pytesseract๋ฅผ ์ฌ์ฉํ์ฌ ์คํฌ๋ฆฐ์ท์์ ํ ์คํธ๋ฅผ ์ถ์ถํ ์ ์์ต๋๋ค.
์นด์นด์ค ์ด๋ชจํฐ์ฝ ์ต์ ์คํฌ๋ฆฐ์ท์ผ๋ก ์ฐ๊ณ ํ ์คํธ๋ก ์ถ์ถํ๊ธฐ๋ก ๊ณํํ์ต๋๋ค.
ํ๋ก์ ํธ ์งํ ๊ณํ : ํ์ํ ๋ฐ์ดํฐ ์ ์
ํ์ํ ๋ฐ์ดํฐ๊ฐ ๋ฌด์์ธ์ง ๋จผ์ ์ ์๋ฅผ ํด์ผํฉ๋๋ค.
์ด๋ชจํฐ์ฝ ๋ฐ์ดํฐ์์ ์์งํ ์ฃผ์ ์์ฑ๋ค์ ์ ๋ฆฌํ ๋ค, ๋ถ์์ ์ํ ๋ฐ์ดํฐ๋ฅผ ๊ฐ๊ณตํ ์ ์์ต๋๋ค.
์์งํ ์ ์๋ ํน์ฑ์ ๋ค์๊ณผ ๊ฐ์ต๋๋ค:
- ์ด๋ชจํฐ์ฝ ์ด๋ฆ
- ์๊ฐ๋ช
- ์บ๋ฆญํฐ ์ ํ (๋๋ฌผ, ์ฌ๋, ์บ๋ฆญํฐ ๋ฑ)
- ์ด๋ชจํฐ์ฝ ์คํ์ผ (๊ท์ฌ์ด, ์ ๋จธ๋ฌ์คํ, ๊ฐ์ฑ์ ์ธ ๋ฑ)
- ๋ฐ๋งค์ผ
- ์ธ๊ธฐ ์์
- ์นดํ ๊ณ ๋ฆฌ (๊ฐ์ ํํ, ์ํฉ ํํ, ์ฐ์ , ํ์ฌ, ์น๊ตฌ, ๊ณ์ /์ด๋ฒคํธ ๊ด๋ จ ๋ฑ)
- 10๋,20๋,30๋ ๋ณ ์ธ๊ธฐ ์์
- ์ด๋ชจํฐ์ฝ ์๊ฐ์ SNS ํ๋ก์ฐ ์ซ์(์ ํ๋ธ,์ธ์คํ๊ทธ๋จ,์ ํ๋ธ ๋ฑ)
- ์ปจํ ์ธ ๊ฐ ๋์์ or ์ฌ์ง์ธ์ง
- ๊ฐ ์ด๋ชจํฐ์ฝ์ ํ๊ทธ
์ด ๋ฐ์ดํฐ๋ค์ ๊ธฐ๋ฐ์ผ๋ก ์ด๋ชจํฐ์ฝ์ ๊ณตํต์ ์ธ ํน์ง์ ํ์ ํ ์์์ ๊ฒ ๊ฐ์ต๋๋ค.
ํ์ด์ฌ์ tesseract ๊ธฐ๋ฅ๊ณผ ์์์ ์ผ๋ก ๋ฐ์ดํฐ๋ฅผ ์์งํ ์์ ์ ๋๋ค.
ํ๋ก์ ํธ ์งํ ๊ณํ : ํ์ํ ๋ถ์ ๋ฐฉ๋ฒ
1. ์๊ด ๋ถ์
์ด๋ค ํน์ง์ด ์ด๋ชจํฐ์ฝ์ ์ธ๊ธฐ์ ์๊ด์ด ๋์์ง ๋ถ์ํ ์ ์์ต๋๋ค. ์๋ฅผ ๋ค์ด, ๊ท์ฌ์ด ๋๋ฌผ ์บ๋ฆญํฐ๊ฐ ์ธ๊ธฐ๋ฅผ ๋ง์ด ๋๋์ง, ํน์ ์คํ์ผ(์: ๋จ์ํ๊ณ ์ง๊ด์ ์ธ ์ด๋ชจํฐ์ฝ ๋์์ธ)์ด ์์๊ถ์ ๋ง์ด ํฌ์ง๋์ด ์๋์ง ์๊ด๊ด๊ณ๋ฅผ ๋ถ์ํ ์ ์์ต๋๋ค.
2. ์ฃผ์ ํค์๋ ๋ถ์ (์๋ ํด๋ผ์ฐ๋)
์ด๋ชจํฐ์ฝ ์ด๋ฆ์ ํฌํจ๋ ํค์๋๋ ์ค๋ช ์ ๋ถ์ํ์ฌ ์ธ๊ธฐ ์๋ ์ด๋ชจํฐ์ฝ์ ์ฃผ์ ํค์๋๋ฅผ ํ์ ํฉ๋๋ค. ์ด๋ฅผ ํตํด ์ด๋ค ํค์๋๊ฐ ๋ ๋ง์ ์ฌ์ฉ์๋ค์ ๊ด์ฌ์ ๋๋์ง ์ ์ ์์ต๋๋ค.
3. ๊ตฐ์ง ๋ถ์ (Clustering)
์ ์ฌํ ํน์ง์ ๊ฐ์ง ์ด๋ชจํฐ์ฝ๋ค๋ผ๋ฆฌ ๊ตฐ์ง์ ํ์ฑํ์ฌ ์ด๋ค ํน์ฑ์ด ๋ง์ด ๋ชจ์ฌ์๋์ง ํ์ ํ ์ ์์ต๋๋ค. ์ด๋ฅผ ํตํด ํน์ ์ ํ์ด๋ ์คํ์ผ์ด ๋ง์ด ์ฑ๊ณตํ๊ณ ์๋์ง ๋ถ์ํฉ๋๋ค.
4. ๋จธ์ ๋ฌ๋์ ํตํ ์์ธก ๋ชจ๋ธ
๊ณผ๊ฑฐ ์ธ๊ธฐ ์ด๋ชจํฐ์ฝ์์ ๋ฐ๋ณต์ ์ผ๋ก ๋ํ๋๋ ํน์ง๋ค์ ๋ฐํ์ผ๋ก ์์ผ๋ก์ ํธ๋ ๋๋ฅผ ์์ธกํฉ๋๋ค. ์๋ฅผ ๋ค์ด, ํน์ ๋๋ฌผ ์บ๋ฆญํฐ๊ฐ ์ง์์ ์ผ๋ก ์ธ๊ธฐ๋ฅผ ์ป๊ณ ์๋ค๋ฉด, ์์ง ์ถ์๋์ง ์์ ์ ์ฌํ ์คํ์ผ์ ๋๋ฌผ ์บ๋ฆญํฐ๋ฅผ ๊ฐ๋ฐํ๊ฑฐ๋ ๋ง์ผํ ํ ์ ์์ต๋๋ค. ๊ณผ๊ฑฐ ์ด๋ชจํฐ์ฝ์ ์ฑ๊ณต ์ฌ๋ถ ๋ฐ์ดํฐ๋ฅผ ๋ฐํ์ผ๋ก, ํน์ ์บ๋ฆญํฐ ์์ฑ์ด ์ฑ๊ณตํ ๊ฐ๋ฅ์ฑ์ ์์ธกํ ์ ์๋ ๋จธ์ ๋ฌ๋ ๋ชจ๋ธ์ ๊ตฌ์ถํ ์ ์์ต๋๋ค.
5. ์ปดํจํฐ ๋น์ (CNN) - ์ด๋ฏธ์ง ๊ธฐ๋ฐ ๋ถ์
์ด๋ชจํฐ์ฝ ์์ฒด๋ ๋๋ถ๋ถ ์ด๋ฏธ์ง๋ก ๊ตฌ์ฑ๋์ด ์๊ธฐ ๋๋ฌธ์, ์ด๋ฏธ์ง ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ์ฌ ์ธ๊ธฐ ์๋ ์ด๋ชจํฐ์ฝ์ ์๊ฐ์ ํน์ง์ ํ์ ํ ์ ์์ต๋๋ค. ์ปดํจํฐ ๋น์ ๊ธฐ์ , ํนํ ํฉ์ฑ๊ณฑ ์ ๊ฒฝ๋ง(CNN)์ ์ฌ์ฉํ์ฌ ์ด๋ชจํฐ์ฝ ์ด๋ฏธ์ง์ ํจํด์ ํ์ตํ๊ณ ์ธ๊ธฐ ์๋ ์ด๋ชจํฐ์ฝ์ ํน์ง์ ์ถ์ถํ ์ ์์ต๋๋ค.
6. ์ฌ์ฉ์ ๋ฆฌ๋ทฐ ๋ถ์
์ฌ์ฉ์๊ฐ ๋จ๊ธด ๋ฆฌ๋ทฐ๋ ํผ๋๋ฐฑ์ ์์ฐ์ด ์ฒ๋ฆฌ ๊ธฐ์ ๋ก ๋ถ์ํ๋ฉด ์ฌ์ฉ์๋ค์ด ์ ํธํ๋ ์ด๋ชจํฐ์ฝ์ ํน์ง(์: "๊ท์ฌ์ด", "์ค์ฉ์ ์ธ", "์ฌ๋ฏธ์๋")์ ํ์ ํ ์ ์์ต๋๋ค. ๊ธ์ /๋ถ์ ๊ฐ์ฑ ๋ถ์(Sentiment Analysis)์ ํตํด ์ด๋ชจํฐ์ฝ์ ๋ํ ์ ๋ฐ์ ์ธ ํ๊ฐ๋ ํ ์ ์์ต๋๋ค.
7. Generative Adversarial Networks (GAN) - ์๋ก์ด ์บ๋ฆญํฐ ์์ฑ
GAN์ ์ฌ์ฉํ์ฌ ์ธ๊ธฐ ์๋ ์คํ์ผ์ ๊ธฐ๋ฐ์ผ๋ก ์๋ก์ด ์ด๋ชจํฐ์ฝ ์บ๋ฆญํฐ๋ฅผ ์์ฑํ ์ ์์ต๋๋ค. GAN ๋ชจ๋ธ์ ๊ธฐ์กด์ ์ธ๊ธฐ ์๋ ์ด๋ชจํฐ์ฝ ์คํ์ผ์ ํ์ตํ์ฌ ์ ์ฌํ ์คํ์ผ์ ์๋ก์ด ์ด๋ฏธ์ง๋ฅผ ์์ฑํ ์ ์์ต๋๋ค.
๋๋ต ์ด ์ ๋์ ๋ถ์์ ์งํํ ์ ์์ ๊ฒ ๊ฐ์ต๋๋ค. ๋ค ํ๋ ๊ฑด ์๋๊ณ ์๊ฐ๋๋ ๋ฐฉ์์ ๋ค ์จ๋ณด์์ต๋๋ค.
1,3,4๋ ํ์ด์ฌ์ผ๋ก 2๋ฒ์ ํ๋ธ๋ก๋ก ์งํํด๋ณด๋ ค ํฉ๋๋ค.
5,6,7์ํ๋ก์ ํธ ์งํ ๊ณผ์ ์ ๋ฐ๋ผ ์ถ๊ฐํ ๊ฒ ๊ฐ์ต๋๋ค. ์ด๋ฒ ๊ธฐํ์ ๋ฅ๋ฌ๋๋ฐฉ์๋ ์จ๋ณด๊ณ ์ถ๋ค์!