今回はGAS(Google Apps Script)に関して書いていきます。
以前もGASに関する記事を書いています(以下リンク)。
上記の記事で、GASを活用したOCR処理の効率化に関して書いています。
プログラムも載せていますが、プログラムの具体的な説明はしませんでした。
今回の記事で、プログラムを具体的に説明していこうと思います。
ただ、プログラムはけっこう長いので何記事かに分けて書いています。
プログラムを具体的に説明する記事は、今回が3記事目です。
関連記事をリストにまとめると、以下のようになります。
- 【GAS】Google Driveの指定したフォルダ配下のファイル一覧を取得
- 【GAS】Google Driveで画像ファイルをOCRする
- 【GAS】Googleドキュメントの中身を調整する(文字サイズ/文字色/余計な文言を除去) ← 今回の記事
それでは本題へ。
今回説明するところ
miya-moto-memo.hatenablog.com
上記リンクに全体のプログラムが載っていますが、この記事では部分的にピックアップして説明していきます。
フローチャートでいうと、以下(赤枠部分)に関して説明していきます。
※adjustFileContent
![](https://cdn-ak.f.st-hatena.com/images/fotolife/m/miyamoto-blog/20240523/20240523125146.png)
やりたいこと
前回の記事で画像ファイルをOCR処理したGoogleドキュメントが作成されました。
OCR処理された文章は文字サイズがデタラメになっていたり、文字色が黄色になって読みにくかったり、半角スペースが紛れ込んでしまうことが多いです。
それらをプログラムによって整えます。
以下の操作をプログラムで処理されるようにします。
※画像によっては文字サイズが「400」とかになっていたりする
![](https://cdn-ak.f.st-hatena.com/images/fotolife/m/miyamoto-blog/20240523/20240523130133.png)
※たまに文字色が「黄色」になっていたりして読みにくい
![](https://cdn-ak.f.st-hatena.com/images/fotolife/m/miyamoto-blog/20240523/20240523130141.png)
※結構な数の半角スペースが入り込んでしまう(今回だと10件)
![](https://cdn-ak.f.st-hatena.com/images/fotolife/m/miyamoto-blog/20240523/20240523130149.png)
プログラム事前準備
プログラムを実行する前に、前提となる情報をいくつか書いておきます。
ファイルIDを控えておく
プログラムを実行する前に、ファイルIDを指定する必要があります。
ファイルIDは以下の部分です。
![](https://cdn-ak.f.st-hatena.com/images/fotolife/m/miyamoto-blog/20240523/20240523130323.png)
プログラム実行前の、OCRされた文章の状態に改めて触れておくと、
- 文字サイズがバラバラだったりする
- “15”だったり、”17”だったり
- 画像によっては”400”とかだったりもします
- 文字色がバラバラだったりする
- 黄色だったり、黒だったり
- 半角スペースが入り込む
- 上記の画像では10件の半角スペースが入り込んでいます
といった状態です。
プログラム
// ファイルID const fileId = "ファイルIDを指定"; /** * メイン処理 */ function main() { // Googleドキュメントを取得し、本文を取得する const body = DocumentApp.openById(fileId).getBody(); // 文字サイズを10にする body.setFontSize(10); // 文字色を黒にする body.setForegroundColor("#111111"); // 半角スペースを除去する const replaceText = body.getText().replaceAll(" ", ""); body.setText(replaceText); }
上記のプログラムを実行すると、
- 文字サイズが「10」
- 文字色が「黒」
- 半角スペースが除外
となります。
![](https://cdn-ak.f.st-hatena.com/images/fotolife/m/miyamoto-blog/20240523/20240523130450.png)
![](https://cdn-ak.f.st-hatena.com/images/fotolife/m/miyamoto-blog/20240523/20240523130520.png)
「DocumentApp」の詳細
ポイントとなりそうな処理に関して、それぞれリファレンスをリンクしておきます。
おわりに
ということで、「GASでGoogleドキュメントの中身を調整する(文字サイズ/文字色/余計な文言を除去)」に関してアレコレ書いてみました。
前回の記事でも同じようなことを書きましたが、今回中身を調整したGoogleドキュメントは1ファイルです。
調整したいGoogleドキュメントが増えれば増えるほど大変になります。
それをGASで処理できると、かなり楽になるかなと思います。
この記事が参考になれば幸いです。
関連記事のリスト、改めてリンクしておきます。
- 【GAS】Google Driveの指定したフォルダ配下のファイル一覧を取得
- 【GAS】Google Driveで画像ファイルをOCRする
- 【GAS】Googleドキュメントの中身を調整する(文字サイズ/文字色/余計な文言を除去) ← 今回の記事
関連記事
GAS(Google Apps Script)に関してはいくつか記事にしています。
気になる記事があればぜひ。
GASの活用事例
GASを活用してGoogle DriveでのOCR処理を効率化 - 派生記事