Python 삽질 기록 - 제 15회 파이조그

제 15회 파이조그 메모

파이조그 pyjog

PyJog는 SW는 일회성 행사로 만들어질 수 없고 꾸준히 해야 한다는 믿음으로 만들어진

<정기 주말="" 꾸준="" 코딩=""> 모임입니다.

이런 저런 인연으로 우연히 한 번 가봤다가 반한 모임입니다. 정말 단순한 규칙, 참가비 1만원(까페나 어디가도 이정도 돈은 듭니다), 자기 소개, 오늘 할 거 공유, 끝날 때 한 거 공유 끝… 그리고 아무런 제약도 규칙도 없이 자유로운 분위기, 활력있는 사람들, 유머,맥주가 함께하는 즐거운 모임입니다. 떠들어도, 술 마셔도 뭐라고 하거나 물거나 해치지 않아요. 그리고 6회 때 육회를 드시는 알고 싶지 않은 유머 감각을 소유한 모임이라 다가오는 16회때 육회를 함께 먹으려 참석하려고요…

와이파이 체크인

처음 하이브아레나에 와서 HIVEARENA_COWORING이라는 AP명을 잡으니까 페이스북 페이지가 나오면서 체크인하면 와이파이를 사용할 수 있다고 하네요. 별거 아닌거 같은데 괜찮은 듯… 손님이 오거나 행사를 할 때 주최측에게는 홍보가 되고 와이파이 사용자도 쉬우니까 편하고… 검색해봤습니다.

정보 공개 청구

정보 공개 청구를 해서 자료를 받는데 수수료도 30만원 정도 들여서 pdf로 110여 페이지의 데이터를 받았는데 이걸 웹에 공개하면 벌금 처벌을 받는다고 하네요. 그런데 이걸 OCR로 돌려도 인식률이 나빠서 실제 쓸 수 있는 데이터를 얻는 건 사실 상 불가능.

차리리 사람들이 나눠서 치거나 서적 디지털라이징 해주는 업체에 넘겨서 디지털라이징을 하는게 구체적인 방법일 수도 있겠습니다. 일단 시민이 정보 공개 청구를 통해 받은 자료를 공유하면 안되다는게 논리적으로 문제가 없는지, 관련 법안은 뭔지 이런게 좀 궁금하고 일단 이런 식으로 거지같이 스캔된 PDF를 받지 않고 기계가 읽을 수 있는 형태의 자료를 받을 수 있도록 입법을 추진하는게 좋겠습니다.

PDF 파싱해서 테이블 csv로 만들기

김슬님 제안 구글에서 만든 라이브러리가 있다고 해서 찾아봤는데 아래가 아니고 크롬 라이브러리라고… Google Chrome PDF parser

virtualenv 여러 프로젝트별로 각각 다른 의존성들을 관리할 수 있도록 가상 환경을 만들어주는 도구, rbenv, rvm 류인 듯….

python --verion => Python 2.7.6

brew install python

pip --version => pip 6.0.8
pip install --upgrade pip setuptools

pip install virtualenv

버스 타고 오면서 찾은 거 ahsima/pdf-table-extract

# 일단 땡겨서 무작정 시도!
git clone ashima/pdf-table-extract
cd pdf-table-extract

# 파이썬 가상 환경 만들기
virtualenv venv

# 예시 있다! 시도!
cd example
python test_to_pandas.py

# pandas 없음 에러
pip install pandas

# 에러  OSError: Error running pdftoppm.
# check_for_required_executable("pdftoppm",["pdftoppm","-h"])

# pdftoppm 설치 시도
# pdftoppm는 xpdf 패키지안에 있음...

brew install homebrew/x11/xpdf

# lesstif: XQuartz is required to install this formula 
# Error: Unsatisified requirements failed this build.

brew install Caskroom/cask/xquartz # 이거 먼저 깔아야 함

Xpdf is an open source viewer for Portable Document Format (PDF) files. (These are also sometimes also called ‘Acrobat’ files, from the name of Adobe’s PDF software.) The Xpdf project also includes a PDF text extractor, PDF-to-PostScript converter, and various other utilities.

tabula

HWP 파서