AI Shift Academy(#シフアカ)
2025年の締めくくりに、1月から12月までの主要なAIニュースを、パーソナリティの2人が独自の視点で振り返ります。
DeepSeekや拡散言語モデルから、話題となった「AIの処理できるタスクの長さは月と共に伸びる(AI版ムーアの法則)」まで、エンジニアならではの注目トピックが満載。
GPT-4oやGeminiの進化、そしてClaudeの「Computer Use(Antrhopic)」など、激動の1年を駆け足でおさらいします。
さらに、2026年の期待として、マルチモーダルの高度化・ブラウザAIの進化についても言及。
来年のAIはどうなるのか、一緒に考えましょう!
AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
AIに意思決定を任せる時代、モデルに「どう質問するか」はますます重要になっています。
今回の論文は、LLMの未来予測が“質問の構造”と“文脈”に大きく左右されることを実証したもの。
ニュースを与えたら精度が下がる、略語の意味を取り違えるなど、実務のRAG設計にも直結する落とし穴が明らかになります。
参考リンク: https://arxiv.org/abs/2511.18394
AI Shift Academy(#シフアカ)
前回に続き、ボイスボット開発の裏側を深掘り!
今回は、AIと人間らしい対話を実現するための試行錯誤に焦点を当てます。
・ ストリーミング認識の落とし穴
スムーズな会話のために導入したストリーミング認識。
しかし、「どこで会話を切るか」という難問に直面。
ボットが「ずっと空気を読んでしまう」現象とは?
・ 人間らしさ vs 機械のわかりやすさ
人間のような「間」や「相槌」は本当に必要なのか?
あえて機械的に振る舞うことで、ユーザーの心理的ハードルを下げる逆説的なUX設計について議論します。
・ アバター接客の衝撃体験
ホテルでのアバター接客から見えた、プロの接客術とAIの現在地。
最新のLLMでも超えられない「文脈理解」の壁とは?
・ 割り込み機能「バージイン」の失敗談
ユーザー体験向上のために実装した「割り込み機能」が、なぜ全く使われなかったのか?
技術とユーザー心理のギャップに迫ります。
AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
今回は話題が2つあります。
①DeepSeek-R1 が「政治ワードを含む質問のときだけ安全性の低いコードを返した」というCrowdStrikeの報告を解説します。
政治的意図やバックドア説は否定されており、モデルの推論が文脈によって揺れた可能性が示されています。
AIが“文脈で変化する”とはどういうことなのか、一緒に見ていきます。
②音声AIが抱えていた“考えるほど精度が落ちる”という長年の謎に挑んだ最新研究を紹介します。
ポイントは、AIに「文字ではなく音から考える習慣」を身につけさせたこと。
これにより、これまで拾いきれなかった声の微妙なニュアンスを推論に活かせる可能性が見えてきました。
参考リンク:
AI Shift Academy(#シフアカ)
今回のシフアカは、方向性を変えて開発の「現場トーク」をお届けします!テーマは、AI Shiftのプロダクト「ボイスボット」の立ち上げ秘話。
2019年、ボイスボットの始まりは「秘書さんサポート」だった!?
「土日」が「兄貴」に聞き間違えられるなど、精度がまだ低く、運用が定まっていなかった当時の音声認識とどう戦ったのか。
・独自の「聞き間違い辞書」の作成
・「こう言ってください」と誘導するUXの工夫
など、LLM登場以前のエンジニアの泥臭い試行錯誤を語ります!
AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
AIはキャラクター演技が上達していますが、最新研究では「悪役」だけうまく演じられないことが示されています。
安全性のため“良いAI”として調整されていることで、嘘や狡猾さといった悪役らしい言動が再現しにくいのが原因です。
AIの安全性と表現力のバランスを考えるうえで示唆の多い研究です。
AI Shift Academy(#シフアカ)
#3のアフタートークとして、最新のエンドツーエンド(E2E)音声対話モデルを実際に動かして比較検証しました!
・ OpenAI vs Moshi 渋谷ランチ対決
「渋谷のおすすめランチ」をテーマに実演。話の腰を折らずに割り込めるOpenAIと、爆速だが食い気味に反応してしまうMoshi。それぞれの挙動とUXの決定的な違いとは?
・ 日本語特有の「間」と「相槌」
Moshiの超低遅延が招く「会話の被り」から見えた課題。日本人の会話における「間(ま)」の重要性と、AIが空気を読む難しさについて議論します。
・ ビジネス実装への示唆
技術的な速さと、人間が心地よいと感じる対話リズムは別物?コールセンター等での実用を見据えた、現状の技術的到達点と今後の展望を語ります。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
最近のAIは長い文脈を読めるようになりましたが、その「長さ」自体が安全リスクになることが分かってきました。
論文「Jailbreaking in the Haystack」をもとに、長文プロンプトの落とし穴と運用で気をつけたいポイントを紹介します。
AI Shift Academy(#シフアカ)
パイプラインからE2Eへ!最新音声対話技術の現在地
人間のように自然で低遅延な対話を実現する「E2E型音声モデル」へのパラダイムシフトを徹底解説します。
・ Half-duplex vs Full-duplex
爆速応答の「LLaMA-Omni」と、話しながら聞く同時双方向を実現する「Moshi」。それぞれのアーキテクチャと訓練手法の違いとは?
・ 技術の裏側
OpenAI Realtime APIの「擬似」Full-duplexの仕組みや、音声コーデック「Mimi」によるトークン化(Semantic/Acoustic)の構造を深掘り。
・ 課題と展望
対話データの不足やセキュリティ評価、今後のマルチモーダル化について議論します。
音声AIの最前線をキャッチアップしたい方は必聴です!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
ByteDanceが発表した新しい論文「Scaling Latent Reasoning via Looped Language Models」を紹介します。
AIが“考える”という行為を、これまでとはまったく違う形で再定義する研究です。
Chain-of-Thoughtのように「外で考える」モデルではなく、内部で何度も考える、Ouroについてコンパクトに紹介します
AI Shift Academy(#シフアカ)
今回のテーマは「対話システムの歴史と未来」です。音声対話の基礎となるテキスト対話の進化を、1966年の元祖ELIZAから最新のLLMまで深堀りします。
・ELIZAとSHRDLU:黎明期の対話と擬人化現象
・主導権の変遷:一方通行から混合主導型へ
・技術の進化:ルールベースから確率モデル、深層学習へ
ChatGPT以降、AIは言葉を理解できるようになりました。
では次の競争軸は何か。答えは理解の正確さから「体験の心地よさ(UX)」へのシフトです。
技術の先にある、これからの対話デザインの核心に迫ります!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
AIをどうやって「頭がいい」と言えるのか?
今回は、AIの知能を人間のIQテストのように測ろうとした論文
『A Definition of AGI』 を紹介します。
GPT-4とGPT-5を10の能力で比べると、意外な強みと弱点がくっきり。
「記憶が苦手」「得意分野にムラがある」など、今のAIのリアルな姿が見えてきます。
AIの知能を“構造”から見る新しい視点を解説します。
AI Shift Academy(#シフアカ)
今回のテーマは、音声対話システムの核心「対話制御とモデルの変化」について。
ユーザーの発話をAIはどう理解し、記憶し、次の応答を決めているのか?
NLU(理解)→DST(記憶)→Policy(決定)という「対話の脳みそ」の仕組みを徹底解説します!
▼主なトピック
・ASR(音声認識)のストリーミング進化
・対話制御3モジュールの役割と連携
・LLM登場による「パイプライン型」から「End-to-End型」への構造変化
・精度と柔軟性を両立する「ハイブリッド型」の現実解
「AIがどう考えて話しているか」を知れば、技術トレンドがより深く見えてきます。
是非ご視聴ください!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
今回はDeepSeek社が提案した新技術「DeepSeek-OCR」を紹介します。
テキストを“画像として圧縮して保存する”というユニークな発想で、AIの「記憶のしかた」を変えるかもしれない注目の研究です。
マルチモーダルAIの流れの中で、この技術がどんな位置づけにあるのか、そして今後のAIエージェント開発にどう影響するのかをわかりやすく解説します。
AI Shift Academy(#シフアカ)
なぜ私たちはスムーズに会話のキャッチボールができるのでしょう?
今回のテーマは「ターンテイキング」(話す・聞くの順番交代)です。
人間は相手の話の終わりを予測し、わずか0.2秒で交代していると言われます。この複雑な仕組みをAIでどう実現するのか?
ターンテイキングの基礎、読み取る手がかり(声のトーン、視線など)から、LLMを活用した最新AIモデル(Turn GPT, VAP)、音声対話システムでの重要性(UX向上、「バージイン(割り込み)」)まで詳しく解説。
会話AIの「間(ま)」の秘密に迫ります!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
Googleが発表した新しい音声検索技術「Speech-to-Retrieval(S2R)」を紹介します。
これまでの音声検索は「音声→文字→検索」という二段階でしたが、S2Rは“音声の意味”を直接理解して検索するという革新的な仕組み。
音声認識の誤りを減らし、より速く自然な検索体験を目指すこの技術の仕組みや可能性を、わかりやすく解説します。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
ChatGPTのボイスモードなど、AIと「声」で話す仕組み=「音声対話システム」が急速に進化しています。
かつては、(1)音声検出 → (2)文字化 → (3)意図理解 → (4)文脈把握 → (5)応答決定 → (6)文章生成 → (7)音声合成、という7つの専門分野を組み合わせる「パイプライン型」が主流でした。
しかし、この方法ではエラーが伝播しやすく、全体最適化が困難でした。
現在は、LLMを中心に多くを統合する「End-to-End型」が標準に。さらに、音声のトーンや感情をそのまま理解する研究も進んでいます。
とはいえ、人間のように自然な「間」で会話を切り返す「ターンテイキング」や応答速度にはまだ課題も。
音声対話の技術的な変遷と未来の課題を解説します!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
たった1文字の違いが、AIのテスト結果を左右する?
Metaの研究チームが発表した論文「A Single Character Can Make or Break Your LLM Evals」では、プロンプトの区切り文字を変えるだけで、AIの成績が20〜30%も上下することが明らかになりました。
なぜそんなことが起こるのか?
そして、私たちはどう対策すればいいのか?
AIが“言葉のかたち”にどれほど敏感なのかをわかりやすく紹介します。
AI Shift Academy(#シフアカ)
#2番外編として、ゲストパーソナリティの栗原から、言語処理学会「YANS」について紹介します。
毎年実施されている言語処理学会「YANS」
20代〜30代前半の研究者が中心で、活気ある雰囲気が特徴です。発表者と直接対話できる「ポスターセッション」がメインとなっており、参加者が自由にディスカッションできる場となっています。
番組では、特に印象的だった研究として、「言い淀み」や「ノリ」といった即興性を含むリアルな会話の再現を目指す「自発音声」の研究を紹介。
また、LLM(大規模言語モデル)を活用したデータセット作成など、学会で見られた最新の研究トレンドにも触れています。
AI研究の最前線がわかるエピソード、ぜひお聴きください!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
AIの「賢さ」を測るモノサシが変わる?
従来の「難しい問題が解けるか」という評価(ベンチマーク)だけでは、AIの真の実力は測れなくなりつつあります。
これからのAI評価は、
・ウェブ探索能力 (BrowseComp)
・ツールの使い方 (LiveMCP)
・研究能力や洞察の深さ
・マルチモーダルや対話能力
など、より実践的なスキルが問われます。
また、「Chatbot Arena」のようなユーザー投票や、人間が評価ループに入る「Human-in-the-Loop」も再注目されています。
「AI版ムーアの法則」と呼ばれるタスク完遂速度や、安全性・バイアス(RedTeaming, HELM)など、評価軸はどんどん複雑で多角的に。
AI評価の未来を解説します!
▼おたよりはこちらから