第11回 Python Night
今日は月に1度のPython Nightです! pdf操作系ライブラリで遊びます~ openAI APIでのpdf読み込みについての話もありますよ #ノンプロ研 #PythonNight pic.twitter.com/yZxAbhBZeo
2023-11-24 19:54:18Pythonの卒業LTに行き詰まりを感じている(なにもしていない)ので PythonNightのホストをしてみることにしました! #ノンプロ研 #PythonNight
2023-11-24 20:02:21月末の金曜日に開催している、#PythonNight に参加してます。 今日はPDFライブラリで遊びます。 #ノンプロ研
2023-11-24 20:06:07PDF操作系のライブラリはたくさんあるそう #ノンプロ研 #PythonNight その中のいくつかを使ってみましょう✨
2023-11-24 20:12:45PythonのPDFライブラリはたくさんあります。 なんでこんなにたくさんあるの? PDFは、とっても複雑な仕様のため、1つのライブラリで全部カバーできないので、複数あるらしい。 #ノンプロ研 #PythonNight
2023-11-24 20:14:01標準ではPDFが操作できない。 ライブラリをインストール・インポートする必要がある。 #ノンプロ研 #PythonNight PDFは非常に複雑なので、1つのライブラリで すべての機能をカバーできるわけではないそう。
2023-11-24 20:14:10PDFは一つのライブラリですべての機能をカバーするのは難しいらしい・・・が、検証結果ライブラリがパワーアップしていた感触があった。 #ノンプロ研 #PythonNight
2023-11-24 20:14:56PDFから画像を抽出できました🎉 #ノンプロ研 #PythonNight pic.twitter.com/1dvh6ax99d
2023-11-24 20:26:561つ目のライブラリはpypdf。 テキストは正しい内容でとれてる! 画像も一つずつファイル名つけてとれてる! すごい!! #ノンプロ研 #PythonNight
2023-11-24 20:29:162つのPDFのマージもできる! PdfWriterの機能は回転したりPWつけたり結構いろいろあるらしい。 #ノンプロ研 #PythonNight
2023-11-24 20:32:46続いてpdfminer。 こちらのほうがキレイに抜き出せる。 ライブラリによってスペースが入ったりなど出力が若干変わる。 #ノンプロ研 #PythonNight
2023-11-24 20:35:32tabulaライブラリでPDF内の表をデータフレームで抜き出せる。 ただし、ページがまたがるとデータフレームも分割されてしまうので注意!! #ノンプロ研 #PythonNight
2023-11-24 20:41:18tabula-pyライブラリで、pandasのDataFrameでテーブルが取得できる。 セル結合されていると、うまく取得できないので、加工が必要。 #ノンプロ研 #PythonNight
2023-11-24 20:44:06セル結合している表はうまくデータフレームにはまらないので加工が必要 ⇒pandasの知識が必要だったり、そもそもほしい項目名が取れていないときもあるので要注意!! #ノンプロ研 #PythonNight
2023-11-24 20:44:59続いてPyMuPDF。 pdfからテキスト抽出、変換などができる高性能ライブラリでできることたくさんあるらしい。 #ノンプロ研 #PythonNight
2023-11-24 20:48:08fitzはurlからPDF読み取りはできないので、WEBのPDFファイルの読み込みがしたい場合は一旦ダウンロードが必要 #ノンプロ研 #PythonNight
2023-11-24 20:54:19