Category Overview18 오래 간만 입니다 ^ㅡ^ 옙! 잘 지냅니다,,ㅎㅎ 이제 봤네요,, 답글 달고싶었는데ㅜㅜ 댓글을 삭제하셨네요~ 다시 달아주세욧! 댓글, 서이추는 대환영입니다 지금은 취업해서 수원으로 전입왔어요, 데이터 사이언티스트로 취업했구요, 요즘에 강의와 분석하느라 바쁜 일상을 사는 중이에요ㅎㅎ 2023. 4. 27. [Python/Audio] 음성 인식(Speech Recognition) 음성 인식(Speech Recognition) Speech To Text(STT) 음성 인식의 기초는 이 STT에 기반으로 작동한다 컴퓨터가 음성을 받으면 문자로 변환을 한다. STT는 음성을 입력받아 그에 해당하는 구문(문자열)을 얻는 기술 딥러닝을 이용한 STT 모델에는 WaveNet 등이 존재 SpeechRecognition을 이용하면 모델을 학습시키지 않고도 간편하게 구현 가능 라이브러리 소개 및 설치 음성 인식 기술은 음성 데이터가 대부분 크고, 관련 기술 코드도 상당히 길어 구현이 힘듬 SpeechRecognition을 사용하면 이러한 과정 없이 음성 인식 기술을 이용할 수 있음 !pip install SpeechRecognition Recognizer SpeechRecognition 라이.. 2023. 3. 1. [QGIS] 서울시 공공와이파이 분포 시각화 안녕하세요! '데박' 입니다. 오늘의 주제는 최적입지분석에서 자주쓰이는 "폴리곤 내부의 포인트 개수 계산 및 순위산정 코드" 입니다. □ 데이터 출처 1. 서울시 공공와이파이 서비스 위치 정보(CSV) : https://data.seoul.go.kr/dataList/OA-20883/S/1/datasetView.do - 건수 : 13648건 - 좌표계 : 4326 2. 서울시 500m 헥사곤 그리드(shapefile) - 지역 : 서울 전체 - 좌표계 : 5179 자!~ 시작합니다! □ 데이터 불러오기 보시는 바와 같이 [서울시 공공와이파이 서비스 위치] 데이터는 약 13000건이라서 어디에 공공와이파이가 많은지, 적은지 공간적 분포를 파악하기 힘들죠, 이럴때 추천드리는 방법이 그리드를 생성하여 공.. 2023. 3. 1. [Python/NLP] 네이버 영화 리뷰 감성 분석 분석 환경 : 코랩 ※ 환경 설정 □ 폰트 설정 - 나눔고딕체 ## colab 환경에서 한글 폰트 설정 !sudo apt-get install -y fonts-nanum !sudo fc-cache -fv !rm ~/.cache/matplotlib -rf import matplotlib.pyplot as plt plt.rc('font', family='NanumBarunGothic') plt.title('안녕') □ KoNLPy(코앤엘파이) 설치 ## colab 환경에서 konlpy 설정 %%bash apt-get update apt-get install g++ openjdk-8-jdk python-dev python3-dev pip3 install JPype1 pip3 install konlpy %env.. 2023. 2. 8. [QGIS] QNEAT3 - OD Matrix (점과 점 사이의 최단 거리 구하기) 안녕하십니까, '데 박' 입니다. 오늘은 강력한 QGIS 공간 네트워크 분석 기능중 QNEAT3의 OD Matrix 를 배워보도록 하겠습니다! □ OD Matrix의 목적 : 점과 점의 직선상 거리는 실제 사람이 비행기를 타고 날라가는 것이 아니라면 다닐 수 없는 거리다. 따라서 도로망과 좌표를 사용하여 점과 점 사이의 “최소 이동거리” 를 계산하는 것에 목적이 있다 이해를 돕기 위해 서울역에서 서강대역까지의 거리를 예로 들어보겠습니다. [서울역 - 서강대역]의 직선상 거리는 약 3.3km이지만 현실에서 우리가 이동해야할 거리는 4.0km입니다. 3.3km를 날라갈 것이 아니라면 우리에게 4.0km가 "최단거리" 가 되는 것입니다. OD Matrix의 활용방안 예시 : 배달 최적 경로 추천서비.. 2023. 2. 8. [Python/ML] SVR (Support Vector Regression) 안녕하세요, 박성호입니다. 오늘은 저번 SVM으로 분류를 해보았는데요, 이번엔 회귀 SVM인 SVR (Support Vector Regression)을 공부해보겠습니다! □ SVR이란 앞서 이야기한 것처럼 SVM 알고리즘은 다목적으로 사용할 수 있습니다. 선형, 비선형 회귀에서도 사용할 수 있습니다. SVM 분류가 아니라 회귀에서 적용하는 방법은 목표를 반대로 하는 것입니다. 일정한 마진 오류안에서 두 클래스 간의 도로 폭이 가능한 한 최대가 되도록 하는 대신, SVM회귀는 제한된 마진 오류 (즉, 도로밖의 샘플) 안에서 도로 안에 가능한 한 많은 샘플이 들어가도록 학습합니다. 사이킷런의 LinearSVR을 사용해 선형 SVR 회귀를 적용해보겠습니다. import numpy as np np.rando.. 2023. 2. 8. [Python/ML] DBSCAN Clustering 안녕하세요~ 박성호입니다! 저번글에서 예고한 바와 같이 DBSCAN 개념과 실습 코드를 갖고 왔습니다. □ DBSCAN이란? DBSCAN (Density-Based Spatial Clustering of Application with Noise)은 아주 유용한 군집 알고리즘입니다. DBSCAN의 주요 장점은 클러스터의 개수를 미리 지정할 필욕 없다는 점입니다. DBSCAN은 특성 공간에서 가까이 있는 데이터가 많아 붐비는 지역의 포인트를 찾습니다. 이런 지역을 특성 공간의 밀집 지역(Dense Region)이라고 합니다. DBSCAN의 아이디어는 데이터의 밀집 지역이 한 클러스터를 구성하며 비교적 비어있는 지역을 경계로 다른 클러스터와 구분된다는 것입니다. 밀집 지역에 있는 포인트를 핵심 .. 2023. 2. 3. [QGIS] 차등점수 부여 방법 안녕하세요, '데 박' 입니다. 버퍼생성에 이어서 차등점수 부여 방법 및 순위 산정에 대한 글입니다. □ 데이터 출처 서울 응급실 위치정보_서울열린데이터광장 http://data.seoul.go.kr/dataList/OA-20338/S/1/datasetView.do;jsessionid=3A22389706D2E5F0A5964A5134636EB8.new_portal-svr-11 열린데이터광장 메인 데이터분류,데이터검색,데이터활용 data.seoul.go.kr 저번 글에 이어서 작성하자면, 우리는 Multi Ring Buffer(MRB) 를 생성했고 이제 250m부터 2500m까지 250m간격마다 1점씩 증가하는 차등점수를 부여할 것입니다. ex) 2500m - 1점 2250m - 2점 2000m - 3점.. 2023. 1. 30. [QGIS] Heat-map 시각화 □ Heat-map이란 무엇인가 - 열을 뜻하는 히트(heat)와 지도를 뜻하는 맵(map)을 결합시킨 단어 - 색상으로 표현할 수 있는 다양한 정보를 일정한 이미지 위에 열분포 형태의 시각화한 그래픽으로 출력하는 것 위의 그림은 유로파 유명 축구선수들이 어디서 패스를 받았는지에 대한 Heat-map 시각화를 한 것입니다. 이를 통해 해당 선수가 속해있는 팀을 상대팀으로 만난다면 어떤 전술을 구사해야 하는 지를 작전할 수 있을 것입니다. 여러분께서 분석하고 계신 빅데이터 또한. 산점도(Scatter plot), 공간적 분포를 통해 어느 구간, 지역에 편중되어있는지에 대한 정보를 도출하고 기관에서는 그 정보를 검토하고 활용하여 시행하고 있는 사업의 효율을 높이는 전술을 계획할 것입니다. □ 실습1... 2023. 1. 28. [Python/ML] Agglomerative Hierarchical Clustering (계층적 군집화) 안녕하세요, 원주 기술코치 박성호입니다. 오늘은 K-MEANS에 이어 계층적 군집화, Agglomerative Hierarchical Clustering에 대해서 글을 쓰게 되었네요. 바로 들어가보도록 하죠! □ Agglomerative Hierarchical Clustering(계층적 군집화) 개념 계층적 군집화는 말 그대로 데이터 하나하나를 계층에 따라 순차적으로 클러스터링 하는 기법입니다. 이 알고리즘은 각 데이터가 모두 나눠져있는 상태에서, 작은 단위로부터 클러스터링을 시작하여 모든 데이터를 묶을 때까지 반복하여 군집화를 진행합니다. 다음과 같이 12개의 index가 부여된 데이터가 있다고 가정하고, # 군집할 데이터 생성 from sklearn.dataset import make_blobs X,.. 2023. 1. 28. [Python/ML] K-MEANS Clustering 안녕하세요, '데 박' 입니다. 이 글은 군집화(Clustering)에서 핫하게 자주 쓰인다는 K-Means 군집화에 대한 글입니다. import mglearn mglearn.plots.plot_kmeans_algorithm() □ K-MEANS 개념 주어진 데이터를 K개의 클러스터 중심(Cluster centroid)을 찾아서 데이터를 묶는 알고리즘으로, 각 클러스터와 거리 차이의 분산을 최소화하는 방식으로 동작합니다. 1. [Input data] : 데이터 입력 2. [Initialization] : 삼각형은 클러스터 중심이고 원은 데이터 포인트, 클러스터는 색으로 구분하고, 3개의 클러스터를 찾도록 지정했으니 알고리즘이 클러스터 중심으로 삼을 데이터 포인트 3개를 무작위로 초기화 3. [Assign.. 2023. 1. 27. [QGIS] 자주 쓰는 버퍼 정리 및 비교 안녕하십니까! 박성호입니다 ^,^ 프로젝트를 진행하시면서 거리에 따른 "차등점수 부여"를 하시거나, 포인트를 활용하여 버퍼안에 포인트 개수가 얼마나 있는지에 대한 "포인트 개수 세기" 등 이러한 [벡터] 기능을 많이 쓰시는 경우가 있습니다. 그래서 이번 글은 버퍼를 생성할때 주의할 점과 자주쓰는 3가지 버퍼 생성 방법에 대한 글을 써보도록 하겠습니다! □ 활용 데이터 - 서울 응급실 위치 정보 출처 : 서울 열린데이터 광장 http://data.seoul.go.kr/dataList/OA-20338/S/1/datasetView.do;jsessionid=3A22389706D2E5F0A5964A5134636EB8.new_portal-svr-11 □ 4326좌표계로 버퍼를 그리면? 4326좌표계의 점좌표.. 2023. 1. 22. 이전 1 2 다음