「先週の打ち合わせの動画、文字に起こさなきゃ…」
そんな風に思ったこと、ありませんか?取材したインタビュー、講義の録画、あるいは子どもの発表会の動画。後で見返したいけど、また最初から再生するのは面倒だし、かといって手作業で文字に書き起こすのは時間がかかりすぎる。
実は今、iphone一台あれば、この面倒な作業が驚くほど簡単にできるんです。それも無料の方法から、プロ並みの精度を誇るアプリまで、選択肢はさまざま。
この記事では、iphoneでの動画文字起こしについて、初心者でもすぐに試せる基本テクニックから、ビジネスシーンで使える高精度な方法まで、ぜんぶまとめてご紹介します。自分の目的や予算に合った文字起こし方法が、きっと見つかりますよ。
iPhoneの標準機能だけで動画文字起こしはどこまでできる?
まず最初に知っておきたいのが、特別なアプリをインストールしなくても、iPhoneに元から入っている機能である程度の文字起こしができちゃうってこと。もちろん完璧じゃないけど、「ちょっとだけテキスト化したい」くらいのニーズなら十分です。
「メモ」アプリの音声入力でリアルタイム文字起こし
一番シンプルな方法が、メモアプリの音声入力(ディクテーション)機能を使うやり方。
やり方はカンタン。メモアプリを開いて新しいメモを作り、キーボードの右下にあるマイクマークをタップ。そして、文字起こししたい動画を再生するだけ。iPhoneのマイクが動画の音声を拾って、自動で文字に変換してくれます。
この方法のいいところは、もちろん無料ってことと、アプリのインストールが一切不要なところ。「とりあえず今日の打ち合わせの内容だけサクッとテキストにしたい」みたいな時に便利です。
ただ、デメリットもあって。周りが騒がしいと、そのノイズまで拾っちゃって精度がガクッと落ちます。それと、動画の音声とマイクが向き合ってないとうまく拾えないので、イヤホンで動画の音を出しながらやるとか、静かな部屋でやるのがポイントです。
「写真」アプリのライブテキストで映像内の文字を抽出
これは「音声」ではなくて「映像に写っている文字」を起こす機能なんだけど、意外と使えるんです。
たとえば、セミナーのスライドを撮影した動画。スライドに書いてある重要なキーワードや数字だけをテキスト化したい時、いちいち巻き戻して手打ちする必要はありません。
動画を一時停止して、画面に写っている文字を長押しするだけ。すると、まるでWebページのテキストをコピーするみたいに、映像内の文字が選択できるようになります。これをメモにペタッと貼り付ければ、手入力の手間ゼロ。
iOS 15以降のiPhoneなら標準で使える機能なので、知らなかった人はぜひ試してみてください。
無料で使える高精度アプリ。CLOVA Noteの実力
「標準機能だけじゃ物足りない」「もっと正確に文字起こししたい」という人におすすめなのが、無料で使える文字起こし専用アプリ。
特に今、話題になっているのがCLOVA Noteというアプリ。LINEが提供しているんだけど、これが無料とは思えないほど優秀なんです。
なぜCLOVA Noteが人気なのか
このアプリのすごいところは、AIが自動で文字起こしをするだけでなく、会話の内容を要約してくれたり、誰が話しているかを識別してくれたりするところ。
たとえば、3人でのインタビューを文字起こしするとします。従来のアプリだと、ただ音声をテキストに変換するだけだから、「Aさん:…、Bさん:…」って手作業で振り分ける必要があったんですよ。でもCLOVA Noteは、声の違いを認識して「話者1」「話者2」「話者3」って自動で分けてくれる。これだけで編集の手間が全然違います。
さらに、文字起こしが終わった後に「この長い会話、結局何が言いたかったんだっけ?」となった時、AIが自動で要点をまとめた「サマリー」を作ってくれる機能もついています。
しかもこれだけの機能が、基本無料。もちろん無料版には時間や文字数の制限があるけど、個人で使う分には十分すぎるほどです。
使い方はめちゃくちゃシンプル
- App Storeから「CLOVA Note」をダウンロード
- アプリを開いて、右下の「+」ボタンをタップ
- 「ファイルをインポート」を選んで、文字起こししたい動画を選択
- あとは待つだけ
動画の長さにもよるけど、数分から十数分で文字起こしが完了します。書き出し形式もテキストファイルはもちろん、Wordファイルとかにも対応してるから、そのまま資料作りに使えるのも嬉しいポイント。
ビジネスシーンで使える高精度アプリ。NottaとRimo Voice
「無料アプリで十分じゃないの?」そう思うかもしれません。でも、ビジネスの現場、特に取材や重要な会議では「ちょっとした聞き間違い」が命取りになることもある。
例えば、専門用語がバンバン出てくる医療系の取材とか、数字が重要な意味を持つ決算説明会とか。そういう時に、ちょっとした認識ミスがあると、後で大変なことになります。
そこで登場するのが、ビジネス向けの高精度文字起こしアプリです。
定番のNotta(ノッタ)
Nottaは、ビジネスパーソンの間でかなりシェアを持っている文字起こしアプリ。
特徴は、なんといっても日本語の認識精度の高さ。雑音が多い環境で録った音声でも、かなり正確にテキスト化してくれます。あと、Web版もあるから、iPhoneで録ったデータをパソコンで編集する、みたいな使い方もスムーズ。
料金は月額プランが主流で、無料トライアルもあるから、まずは試してみるのがいいでしょう。会議の議事録作りを担当している人とか、インタビュー記事を書くライターさんには特におすすめです。
プロ仕様のRimo Voice(リモボイス)
「いや、うちはもっとシビアなんだよね。法務関係の取材とか、正確さが絶対条件なんだよね。」というあなたには、Rimo Voiceが選択肢に入ってくると思います。
Rimo Voiceは、業界最高水準の文字起こし精度を謳っているサービス。特に、専門用語や固有名詞に強いという特徴があります。テレビ局や出版社、研究機関なんかも導入しているらしく、まさに「プロ仕様」。
その分、料金はちょっとお高め。従量課金制だったり、法人向けのプランが中心だったりします。でも、もしあなたの仕事が「文字起こしのミスが許されない」という世界なら、検討する価値は大いにあります。
ブラウザ完結の手軽さ。文字起こしさん
アプリをダウンロードするのが面倒だったり、たまたま手元にないパソコンでやりたい場合もあるでしょう。
そんな時に便利なのが、文字起こしさんというWebサービス。ブラウザ上で動くから、iPhoneのSafariからでも、会社のWindowsPCからでも、同じように使えます。
使い方は超簡単。サイトにアクセスして、動画ファイルをドラッグ&ドロップするだけ。あとは自動で処理が始まります。
このサービスの面白いところは、ノイズ除去機能が優秀なこと。例えば、カフェで録ったインタビュー音声って、バックに流れてるBGMとか周りの会話が入っちゃってて、文字起こしの精度が落ちることが多いんですよね。でも、文字起こしさんは、そのノイズを事前に除去してから文字起こしをしてくれるので、結果的に精度が上がるという仕組み。
無料プランだと10分までの制限があるけど、それを超える長さの動画でも、料金は結構リーズナブル。ちょっとした仕事の資料作りに、気軽に使えるのが魅力です。
文字起こしの精度をグッと上げるプロ技
どんなに高性能なアプリを使っても、元の音声が悪ければ精度は上がりません。ここでは、プロの現場で当たり前のようにやっている「文字起こし精度を上げるテクニック」をいくつか紹介します。
撮影前の準備が9割
文字起こしの成否は、実は「撮る前」に決まっていると言っても過言じゃありません。
① 外部マイクを使う
iPhoneの内蔵マイクは確かに優秀だけど、インタビューとか会議みたいに「特定の人の声をクリアに録りたい」という目的には、正直向いていません。数千円で買えるワイヤレスのピンマイクを使うだけで、格段に音質が変わります。Amazonとかで「iPhone ピンマイク」って検索すると、手頃なものがたくさん出てきますよ。
② 静かな環境を選ぶ
当たり前だけど、これが一番大事。エアコンの音、冷蔵庫のモーター音、窓の外の車の音。そういう「関係ない音」が入ると、AIはそれを拾ってしまう可能性があります。可能な限り、静かな部屋で録音するようにしましょう。
撮影後のひと手間
「もう撮っちゃったよ…」という場合でも、文字起こし前にできることはあります。
① 動画から音声だけを抽出する
動画ファイル(MP4など)よりも、音声ファイル(MP3とかM4A)の方が軽いし、アプリによっては音声ファイルの方が文字起こし精度が高い場合があります。iPhoneの「ファイル」アプリで動画を圧縮するとか、無料の変換アプリを使うとかして、音声だけを取り出してからアップロードするといいでしょう。
② ファイルを分割する
アプリによっては、一度にアップロードできるファイルの長さに制限がある場合があります。もし1時間を超える長い動画があるなら、適度な長さ(20〜30分単位)に分割してから処理にかけると、エラーも起きにくいし、途中経過も確認しやすくなります。
よくある疑問と答え(FAQ)
最後に、文字起こしをしていると必ずぶつかる疑問をQ&A形式でまとめておきます。
Q1. 2時間以上の長い会議は文字起こしできますか?
A. アプリによります。無料版では10分まで、という制限があることがほとんど。でも有料プランだと、NottaやRimo Voiceなら数時間のファイルも一括で処理できます。長時間の場合は、処理に時間がかかる(場合によっては元の動画の長さと同じくらい)というのは想定しておいたほうがいいです。
Q2. 英語や中国語の動画も文字起こしできますか?
A. はい、最近のアプリはほとんど多言語対応しています。CLOVA Noteも、Nottaも、もちろん対応しています。ただ、言語によって精度は違います。日本語と英語は高精度だけど、アジアのマイナー言語はちょっと苦手、といった違いがあるので、事前に対応言語リストを確認するのが安心です。
Q3. 複数人が話している場合、誰が何を言ったか分かりますか?
A. これが「話者分離」っていう機能なんだけど、今は多くのアプリが対応してます。さっき紹介したCLOVA NoteやNotta、Rimo Voiceは特に得意分野。ただし、声のトーンがすごく似ている人同士だと、たまに間違えることもあります。あと、みんなが一斉に喋り出すと、さすがのAIも混乱します(笑)。
Q4. アプリによって精度が全然違うのはなぜ?
A. アプリの裏側で動いている「AIエンジン(音声認識モデル)」が会社によって違うからです。ある会社はドラマの音声で学習させているかもしれないし、別の会社はビジネス会議の音声で学習させているかもしれない。学習させたデータの違いが、そのまま得意・不得意になって現れるんです。
まとめ。あなたの目的に合った文字起こしを
どうでしたか?iphoneを使った動画文字起こし、選択肢がいろいろあって迷っちゃいますよね。
最後にもう一度、シチュエーション別にまとめておきます。
- とにかく無料で試したい! → iPhone標準のメモアプリ音声入力
- AIの力で楽に高精度に! → CLOVA Note(LINE)
- ビジネスでしっかり使いたい! → Notta
- プロ並みの正確さが必要! → Rimo Voice
- アプリ入れたくない、ブラウザで済ませたい! → 文字起こしさん
文字起こしって、昔は本当に大変な作業だったんですよ。テープ起こし機って言って、足で再生スピードをコントロールしながら、何時間もかけて手打ちする。プロの業者に頼むと、1時間分で1万円以上かかることもざらでした。
それが今や、iphone一台で、しかも無料でできちゃう時代。この便利さを、ぜひ活用しない手はないですよね。
あなたの「動画をテキストにしたい」というニーズに、ぴったりの方法が見つかりますように。
