ChatGPTに新機能!画像と音声での入力に対応し、業務を効率化!?

コラム
#業務効率化
#自動化
#ITコンサルティング

OpenAI社の提供するAIチャットサービス「ChatGPT」は生成AIの一種で、大きな人気を集めています。業務上での利用も徐々に広まりつつあり、その利便性の高さは広く知られるようになってきました。

本記事では、ChatGPTの画像認識機能、音声認識機能にフォーカスして、概要や使い方、業務での活用の仕方、利用時の注意点などを紹介します。
※ChatGPTや生成AIの業務への活用を検討されている方はSMSデータテックの「業務改善コンサルティングサービス」をご活用ください。

ChatGPTの新機能とは?

2023年9月25日、ChatGPTの提供元であるOpenAI社はChatGPTに音声と画像での認識機能を追加することを発表しました。人気沸騰中のChatGPTに更なる機能が追加されるため、多くの注目を集めています。本項では、ChatGPTの概要から、新機能である画像認識や音声認識のメリットや用途について説明します。

ChatGPTとは?

ChatGPTはOpenAI社の提供するAIチャットサービスです。生成AIの一種であり、既存の主な機能では、ユーザーはChatGPTに様々な質問を文章で投げかけることができ、これに対してChatGPTは適切な文章で答えを返してくれます。質問に対して、ChatGPTの答えられる中で最も正しいと思しきテキストを生成してくれるサービスなのです。

日本語での質問にも対応していることで、日本国内でも人気が出ており、広く利用されています。無料で使えるプランをはじめ、複数のプランおよびバージョンが存在しています。

2023年9月25日の発表で伝えられた新機能について

2023年9月25日にOpenAIが発表した画像認識機能、音声認識機能については、ChatGPT4.0Vとして、音声認識はスマホアプリ版(iOS、Android)への提供、画像認識は全てのプラットフォームへの提供が行われています。なお、画像認識についてはPlusプランにてプラグインを使用した方法が存在しますが、本記事内では一部のみの紹介とします。

画像認識機能

画像認識機能は、ChatGPTへ画像情報を入力して問い合わせができる機能です。例えば、ChatGPTの挙げている事例から、「グリルがうまく動かない場合に、その写真を取り、ChatGPTにその理由を問い合わせる」という使い方ができるようです。また、「グラフの画像を入力としてその分析をChatGPTに行ってもらう」という利用の仕方も可能としています。

これまでのChatGPTでは、質問に際して、その内容を人間が言語化する必要がありました。この画像認識機能を利用することで、質問の言語化を省き、その際のミスも防ぐことができるでしょう。

音声認識機能

音声認識機能はChatGPTへの質問を音声入力によって行える機能です。人間同士の会話のようにChatGPTと音声によるやり取りをしたり、音声会話の内容をテキストとして表示することができます。

この機能を利用した事例としては、「外出先で話しかける」「家族の就寝前の話をリクエストする」「夕食のテーブルでの議論」などが可能になるとしています。

例えば、作業中で手が離せずデバイスに触れない状況下でもChatGPTを利用できるようになるなどといったメリットを、この機能は提供してくれます。ChatGPTの利用シーンを大幅に拡大してくれることが期待できます。

新機能の使い方

画像認識、音声認識について、使い方を紹介します。なお、2023年11月17日時点で利用できるプランおよびプラットフォームには限りがあるためご注意ください。

画像認識機能

ChatGPTの公式スマホアプリ(iOSAndroid)では無料で、PCからは有料プランPlusにてChatGPT4を選択することで利用できます。

スマホアプリの場合、既存の画像を選択するか撮影したデジタル画像を対象にChatGPTへの質問が可能です。より具体的な利用方法については、ChatGPTのサイトの動画を参照してください。

他にも、Code Interpreter(Advanced Data Analysis)を利用することで画像の解析情報を取得することができ、画像の色素分析や画像の拡大・編集などが可能になります。また、プラグインSceneXplainを利用すると、入力した画像に似た画像を生成することができます。

音声認識機能

ChatGPTの公式スマホアプリ(iOSAndroid)にてサポートされています。アプリの音声会話機能をONにし、ヘッドホンのアイコンをクリックすると音声での入力が可能です。より具体的な利用方法については、ChatGPTのサイトの動画を参照してください。

なお、以前よりChromeのプラグインVoice Control for ChatGPTを利用することで音声での入力は可能なようです。

業務における活用方法

ChatGPTの新機能、画像認識機能と音声認識機能は業務においてどのような活用が想定できるでしょうか。その例を紹介します。

身の回りの困りごとの解決方法をChatGPTに聞く

身の回りで起きたトラブルをスマートフォンで撮影し、その解決方法をChatGPTに聞くという利用方法が想定できます。例えば、機械が期待通りに動かない場合、エラーメッセージを見せてChatGPTに解決方法を聞いてみるといった利用方法です。

画像からのデータ入力補助

紙に印刷された資料の表を画像として読み込ませ、データの入力補助に利用する方法も想定できます。ただし、現状では画像内の文字についてはアルファベットは認識しやすいものの他の文字はサポートできていないようです。

画像データのカラー分析

Code Interpreterを利用すると画像データの分析も行えます。画像の構成カラーなどをデータとして分析してくれるため、デザイン業務などでの利用が見込まれるでしょう。

他の作業で手がふさがっている場合に音声で質問

音声認識機能を使って、手が離せない時には口頭で質問、音声で回答を聞くという利用の仕方が想定できます。例えば、料理中にChatGPTにレシピを聞く際、手を洗わずに作業を行いながら質問することが可能です。

新規CTA

活用する際の注意点

画像認識機能と音声認識機能を活用する際には注意点もあります。利用を開始する前に押さえておきましょう。

画像や音声データのプライバシー

画像認識や音声認識の入力におけるデータはChatGPTに送信され保存されます。これらはChatGPTに利用される可能性があり、ネット上に拡散されるなどプライバシーに関するリスクが存在します。「チャット履歴とトレーニング」の設定をOFFにし、履歴を一定期間で削除されるよう設定するなどの配慮が必要です。

回答は正しいとは限らない

ChatGPTの画像や音声での認識による回答は必ず正しいとは限りません。テキストによる機能でも同様なのですが、利用者はその回答を見極めて利用する必要があります。最終的にはその結果に責任を持つのは利用者となります。

ネットストーカーによる悪用の懸念

画像認識機能では人物の画像から人物の特定をするような利用方法も想定されています。人物の特定はストーカーなどに悪用される可能性がある機能となるため、この機能の利用可否については今後議論の対象となるかもしれません。

まとめ

ChatGPTの画像認識、音声認識機能はこれまでのテキストでの質問を画像や音声を使って行える機能です。スマホアプリ版では両者がサポートされており、すぐにでも使ってみることができます。

これらの新機能は日常生活や業務においても活用の機会がありそうです。上手に利用すれば、業務の自動化や効率化にもつながる仕組みとなるでしょう。

SMSデータテックでは自動化コンサルティングサービスを提供しています。業務やサーバー運用などの自動化に関して、コンサルティングから導入、支援までを広くサポートいたします。

DX推進や業務効率化でお困りの方は、下記からお気軽にお問い合わせください。

まずはお気軽にご相談ください
お問い合わせフォーム

おすすめイベント・セミナー 一覧へ