Google Meetの文字起こしとGemini 2.5 Proによる議事録作成アプリ

記事タイトルとURLをコピーする

当記事では、Google Meet の文字起こし機能と、Google の最新 AI モデル Gemini 2.5 Pro を組み合わせた、議事録作成アプリの事例を紹介します。

はじめに

議事録作成アプリ

会議の議事録作成には、多くの時間がかかります。重要な決定事項やタスクを正確に記録し、関係者に共有することはビジネスで不可欠です。しかし、その手間は大きな負担になりがちです。

この課題を解決する方法として、Google Meet の文字起こし機能と、Google の最新 AI モデル Gemini 2.5 Pro を組み合わせた、議事録作成の自動化を試みました。当記事では、会議の文字起こしデータから、要点を押さえた分かりやすい議事録を自動生成するアプリケーションを紹介します。

なお、当アプリは Python の Web アプリ向けフレームワークである Streamlit を使って実装しました。

なぜ議事録作成に AI なのか?

従来の議事録作成には、以下のような課題がありました。

課題 概要
時間がかかる 会議中のメモ取り、録音の聞き直し、清書、校正、配布まで、一連の作業に多くの時間と労力がかかります。
聞き逃し・認識違い 会議に集中しながらメモを取るのは困難です。そのため、重要な発言を聞き逃したり、内容を誤って認識したりする可能性があります。特に、専門用語が多い会議や、議論が白熱した場合に起こりやすいです。
要点の整理が難しい 決定事項、重要な意見、宿題(ToDo)などを的確に抽出し、分かりやすく整理する必要があります。しかし、長時間の会議では、主要なトピックや決定事項を後から整理するのは大変です。

これらの課題を、Google Meet の文字起こし機能と Gemini 2.5 Pro を使って解決することが、今回のコンセプトです。

Google Meet の文字起こし機能と Gemini 2.5 Pro を組み合わせて利用することで、以下のメリットが期待できます。

  • 時間がかかり、集中力を要する文字起こしや要約作業から解放される
  • Gemini 2.5 Pro が文字起こしされた長文テキストデータを解析し、会議の要点、決定事項、主要な議論、ネクストアクション(ToDo)などを自動で抽出・要約できる
  • 議事録作成の負担が減ることで、より会議の議論そのものに集中できる
  • システムプロンプトにより一貫したロジックで要約・整理を行うため、作成者による質のばらつきが少なくなる

ただし、音声認識の精度(専門用語、早口、複数人の同時発言など)や Gemini による要約・抽出の精度は 100% ではありません。必ず、人による確認と修正が必要です。

アプリを実装しない選択肢

当記事で紹介する議事録の整理アプリは、Google Meet の文字起こし機能で書き起こしたテキストを、Gemini 2.5 Pro で整形するものです。

この整形は、アプリを開発しなくても、Gemini アプリの Gems 機能で実現できます。Gems に議事録整形のプロンプトを登録しておくことで、プロンプトを毎回入力しなくても、決まったフォーマットで議事録を整形できます。Gems の詳細は、以下の記事を参照してください。

blog.g-gen.co.jp

独自アプリの実装を行わない場合は、Gems の利用を検討してください。一方で、当記事のようにアプリを実装すると、以下のようなメリットがあります。

  • 統一したプロンプトを利用者に使ってもらうことができる
  • 使用モデルを固定できる
  • 様々なカスタマイズや機能(音声読み上げなどの処理)を実装できる

より高度なカスタマイズや機能を実装する場合は当記事のようにアプリを実装し、そうでないときは Gemini アプリ(Gems)を使うなどの使い分けが可能です。

Google Meet の文字起こし機能

主な特徴

Gemini 2.5 Pro への入力となる会議のテキストデータは、Google Meet に標準搭載されている文字起こし機能を使用します。

  • 自動テキスト化: 会議が始まると、特別な操作なしに(または簡単な操作で)発言が自動的に文字に変換されます。
  • Google ドキュメントとして自動保存: 会議終了後、文字起こし内容は Google ドキュメントとして、会議主催者の Google Drive 内「Meet Recordings」フォルダに自動で保存されます。
  • 参加者への自動共有: 作成されたドキュメントは、会議の招待客に閲覧権限付きで自動的に共有されます。そのため、個別に共有する手間が省けます。
  • 発言者の識別: 多くの場合、誰が発言したかも記録されます。そのため、「誰の発言か」を後から追いやすくなります。

この機能により、会議内容の大部分をテキストデータとして簡単に取得できます。

ただし、AIによる自動文字起こしのため、専門用語の誤認識や、話者によっては精度が変動する可能性がある点には留意が必要です。

文字起こしの開始方法

Google Meet の文字起こしは、会議の主催者または共同主催者が、Meet 会議画面の会議ツールから開始できます。

Meet の文字起こし機能

文字起こしを選択すると、文字起こしに使用する言語の選択が可能です。

文字起こしのデータ

会議が終了すると、文字起こしされた内容は、自動的に会議主催者の Google ドライブ内に Google ドキュメント形式で保存されます。また、会議に招待されていた参加者(同じ組織内)には、自動的に Google ドキュメントへのアクセス権が、編集者として付与されます。

カレンダーに登録されている会議の場合、そのカレンダーの予定にも文字起こしドキュメントが添付されます。

ある日の社内会議を文字起こししたデータ

上記は、実際の文字起こしした内容です。Meet 参加者の発言が文字になっていることが分かります。ただし、完璧な精度は保証されません。また、このままでは議事録として使用するのは難しい状態です。

Gemini 2.5 Pro による要約

システムプロンプト

Gemini 2.5 Pro は、非常に長いコンテキスト(最大 100 万トークン)を理解できます。また、複雑な指示にも高い精度で従うことができる、強力な AI モデルです。

今回のアプリケーションでは、Gemini 2.5 Pro に対して、以下のようなシステムプロンプト(AI への指示書)を与えることで、議事録作成に特化した処理を実行させます。

あなたは議事録作成のプロフェッショナルです。
会議で議論された主要なトピックと決定事項を要約し、誰が読んでも会議の内容が理解できる議事録を作成できます。

# 制約条件
・文字起こしデータは AI によるもので、一部の書き起こしミスが含まれています。この点を考慮して、文脈を理解し、内容を整理してください。
・会議の基本情報(日時、場所、出席者など)を最初に記載してください。
・会議での主要な「決定事項」を冒頭でまとめてください。
・次に、「アクションアイテム」をまとめてください。
・その後、各議題の見出しを設け、議題ごとに誰が行った発言かを記録し、発言内容を詳述してください。
・見出しや箇条書きを使用し、情報が検索しやすく、読みやすい構造で記述してください。
・文書は簡潔かつ明瞭に記述してください。
・専門用語や略語を使用する場合は、初回の使用時に定義を明記してください。
・ケバ取りしてください。
・文脈として意味が不明な箇所は、文脈的に相応しいと合理的に推測される内容に修正、または削除してください。
・発言者の名前を記載するときは、さん付けでお願いします。

このシステムプロンプトにより、Gemini 2.5 Pro は単にテキストを要約するだけでなく、以下の点を考慮した質の高い議事録を作成します。

  • 文字起こしミスの考慮: AI による文字起こし特有の誤字や脱字、意味不明な箇所を文脈から判断し、適切に修正または削除します。
  • 構造化された出力: 決定事項、アクションアイテム、議題ごとの発言内容など、指定されたフォーマットに従って情報を整理します。
  • 読みやすさ: 見出しや箇条書きを効果的に使用し、簡潔で分かりやすい文章を作成します。
  • ケバ取り: 「えーっと」「あのー」といった不要なフィラーワードを除去します。

Vertex AI Studio での試験

まずは、アプリのコンセプトが実現できるかを試験するため、Google Cloud コンソールから利用できる Vertex AI Studio で、実際にプロンプトと文字起こしデータを入力し、精度を確認します。

システムプロンプトに前述の指示を与えて、文字起こしされたテキストをプロンプトに投入し、Gemini 2.5 Pro で議事録の作成を依頼します。

Vertex AI(Web コンソール)でシステムプロンプトを設定

わずか数秒で、Gemini が文字起こしされたテキストの内容を解釈し、システムプロンプトの指示に従って出力されました。

システムプロンプトの指示に従って議事録を出力

Web アプリケーションの開発

streamlit を使ったチャットアプリ

Google Meet の文字起こしデータを利用する Web アプリケーションのベース部分は、以下の記事を参照してください。

blog.g-gen.co.jp

上記の記事で紹介しているチャットボットアプリケーションから、以下の部分を修正し、議事録作成に特化した Web アプリケーションにします。

モデル名の修正

アプリケーションで使用する Gemini のモデルのデフォルトを Gemini 2.0 Pro から最新の Gemini 2.5 Pro に変更します。

修正後の Python コード

# セッション状態の初期化
# model_default = "gemini-2.0-pro-exp-02-05"
model_default = "gemini-2.5-pro-exp-03-25" # Gemini 2.5 Pro をデフォルト値に指定

アプリケーションで使用する Gemini のモデル選択に、新しく Gemini 2.5 Pro を追加します。

修正後の Python コード

# サイドバー オプションボタンでモデル選択
model = st.sidebar.radio("モデル選択:", (
    "gemini-2.5-pro-exp-03-25",  # Gemini 2.5 Pro のモデルを追加
    "gemini-2.0-pro-exp-02-05", 
    "gemini-2.0-flash-001"
    ), 
    key="model_select")
st.sidebar.write("")

システムプロンプトの修正

system_prompt.txt の内容を、以下の内容に修正して保存します。

あなたは議事録作成のプロフェッショナルです。
会議で議論された主要なトピックと決定事項を要約し、誰が読んでも会議の内容が理解できる議事録を作成できます。

# 制約条件
・文字起こしデータは AI によるもので、一部の書き起こしミスが含まれています。この点を考慮して、文脈を理解し、内容を整理してください。
・会議の基本情報(日時、場所、出席者など)を最初に記載してください。
・会議での主要な「決定事項」を冒頭でまとめてください。
・次に、「アクションアイテム」をまとめてください。
・その後、各議題の見出しを設け、議題ごとに誰が行った発言かを記録し、発言内容を詳述してください。
・見出しや箇条書きを使用し、情報が検索しやすく、読みやすい構造で記述してください。
・文書は簡潔かつ明瞭に記述してください。
・専門用語や略語を使用する場合は、初回の使用時に定義を明記してください。
・ケバ取りしてください。
・文脈として意味が不明な箇所は、文脈的に相応しいと合理的に推測される内容に修正、または削除してください。
・発言者の名前を記載するときは、さん付けでお願いします。

アプリケーションの実行画面

左サイドメニューで、新しく追加した Gemini 2.5 Pro のモデルを選択できます。

チャットボットの実行画面

使い方

  1. Google Meet で文字起こし
    • 会議を実施し、文字起こし機能を有効にして、会議後に Google ドキュメントとして保存します。
  2. 文字起こしデータをコピー
    • 保存された Google ドキュメントから、文字起こしテキスト全体をコピーします。
  3. Streamlit アプリケーションへアクセス
    • ローカル環境または Google Cloud Run などにデプロイされた Web アプリへアクセスします
  4. データ貼り付け
    • アプリケーション下部のチャット入力欄に、コピーした文字起こしデータを貼り付けます。
  5. 送信
    • 画面上の送信ボタン、または Enter キーを押下します。
  6. 議事録生成
    • Gemini 2.5 Pro が処理を開始し、整形・要約された議事録がチャット欄に表示されます。ストリーミング表示にも対応しています。
  7. 確認・利用
    • 生成された議事録の内容を確認し、必要に応じて微修正して利用します。
  8. (オプション)音声確認
    • サイドバーで Text-to-Speech を有効にしている場合、生成された議事録が自動的に読み上げられます。

アプリケーションを使用して議事録を作成した結果

大津 和幸 (記事一覧)

クラウドソリューション部

2022年4月にG-gen にジョイン。
前職まではAWSをはじめインフラ領域全般のなんでも屋。二刀流クラウドエンジニアを目指して、AWSのスキルをGoogle Cloudにマイグレーション中の日々。