AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
今回は話題が2つあります。
①DeepSeek-R1 が「政治ワードを含む質問のときだけ安全性の低いコードを返した」というCrowdStrikeの報告を解説します。
政治的意図やバックドア説は否定されており、モデルの推論が文脈によって揺れた可能性が示されています。
AIが“文脈で変化する”とはどういうことなのか、一緒に見ていきます。
②音声AIが抱えていた“考えるほど精度が落ちる”という長年の謎に挑んだ最新研究を紹介します。
ポイントは、AIに「文字ではなく音から考える習慣」を身につけさせたこと。
これにより、これまで拾いきれなかった声の微妙なニュアンスを推論に活かせる可能性が見えてきました。
参考リンク:
AI Shift Academy(#シフアカ)
今回のシフアカは、方向性を変えて開発の「現場トーク」をお届けします!テーマは、AI Shiftのプロダクト「ボイスボット」の立ち上げ秘話。
2019年、ボイスボットの始まりは「秘書さんサポート」だった!?
「土日」が「兄貴」に聞き間違えられるなど、精度がまだ低く、運用が定まっていなかった当時の音声認識とどう戦ったのか。
・独自の「聞き間違い辞書」の作成
・「こう言ってください」と誘導するUXの工夫
など、LLM登場以前のエンジニアの泥臭い試行錯誤を語ります!
AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
AIはキャラクター演技が上達していますが、最新研究では「悪役」だけうまく演じられないことが示されています。
安全性のため“良いAI”として調整されていることで、嘘や狡猾さといった悪役らしい言動が再現しにくいのが原因です。
AIの安全性と表現力のバランスを考えるうえで示唆の多い研究です。
AI Shift Academy(#シフアカ)
#3のアフタートークとして、最新のエンドツーエンド(E2E)音声対話モデルを実際に動かして比較検証しました!
・ OpenAI vs Moshi 渋谷ランチ対決
「渋谷のおすすめランチ」をテーマに実演。話の腰を折らずに割り込めるOpenAIと、爆速だが食い気味に反応してしまうMoshi。それぞれの挙動とUXの決定的な違いとは?
・ 日本語特有の「間」と「相槌」
Moshiの超低遅延が招く「会話の被り」から見えた課題。日本人の会話における「間(ま)」の重要性と、AIが空気を読む難しさについて議論します。
・ ビジネス実装への示唆
技術的な速さと、人間が心地よいと感じる対話リズムは別物?コールセンター等での実用を見据えた、現状の技術的到達点と今後の展望を語ります。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
最近のAIは長い文脈を読めるようになりましたが、その「長さ」自体が安全リスクになることが分かってきました。
論文「Jailbreaking in the Haystack」をもとに、長文プロンプトの落とし穴と運用で気をつけたいポイントを紹介します。
AI Shift Academy(#シフアカ)
パイプラインからE2Eへ!最新音声対話技術の現在地
人間のように自然で低遅延な対話を実現する「E2E型音声モデル」へのパラダイムシフトを徹底解説します。
・ Half-duplex vs Full-duplex
爆速応答の「LLaMA-Omni」と、話しながら聞く同時双方向を実現する「Moshi」。それぞれのアーキテクチャと訓練手法の違いとは?
・ 技術の裏側
OpenAI Realtime APIの「擬似」Full-duplexの仕組みや、音声コーデック「Mimi」によるトークン化(Semantic/Acoustic)の構造を深掘り。
・ 課題と展望
対話データの不足やセキュリティ評価、今後のマルチモーダル化について議論します。
音声AIの最前線をキャッチアップしたい方は必聴です!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
ByteDanceが発表した新しい論文「Scaling Latent Reasoning via Looped Language Models」を紹介します。
AIが“考える”という行為を、これまでとはまったく違う形で再定義する研究です。
Chain-of-Thoughtのように「外で考える」モデルではなく、内部で何度も考える、Ouroについてコンパクトに紹介します
AI Shift Academy(#シフアカ)
今回のテーマは「対話システムの歴史と未来」です。音声対話の基礎となるテキスト対話の進化を、1966年の元祖ELIZAから最新のLLMまで深堀りします。
・ELIZAとSHRDLU:黎明期の対話と擬人化現象
・主導権の変遷:一方通行から混合主導型へ
・技術の進化:ルールベースから確率モデル、深層学習へ
ChatGPT以降、AIは言葉を理解できるようになりました。
では次の競争軸は何か。答えは理解の正確さから「体験の心地よさ(UX)」へのシフトです。
技術の先にある、これからの対話デザインの核心に迫ります!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
AIをどうやって「頭がいい」と言えるのか?
今回は、AIの知能を人間のIQテストのように測ろうとした論文
『A Definition of AGI』 を紹介します。
GPT-4とGPT-5を10の能力で比べると、意外な強みと弱点がくっきり。
「記憶が苦手」「得意分野にムラがある」など、今のAIのリアルな姿が見えてきます。
AIの知能を“構造”から見る新しい視点を解説します。
AI Shift Academy(#シフアカ)
今回のテーマは、音声対話システムの核心「対話制御とモデルの変化」について。
ユーザーの発話をAIはどう理解し、記憶し、次の応答を決めているのか?
NLU(理解)→DST(記憶)→Policy(決定)という「対話の脳みそ」の仕組みを徹底解説します!
▼主なトピック
・ASR(音声認識)のストリーミング進化
・対話制御3モジュールの役割と連携
・LLM登場による「パイプライン型」から「End-to-End型」への構造変化
・精度と柔軟性を両立する「ハイブリッド型」の現実解
「AIがどう考えて話しているか」を知れば、技術トレンドがより深く見えてきます。
是非ご視聴ください!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
今回はDeepSeek社が提案した新技術「DeepSeek-OCR」を紹介します。
テキストを“画像として圧縮して保存する”というユニークな発想で、AIの「記憶のしかた」を変えるかもしれない注目の研究です。
マルチモーダルAIの流れの中で、この技術がどんな位置づけにあるのか、そして今後のAIエージェント開発にどう影響するのかをわかりやすく解説します。
AI Shift Academy(#シフアカ)
なぜ私たちはスムーズに会話のキャッチボールができるのでしょう?
今回のテーマは「ターンテイキング」(話す・聞くの順番交代)です。
人間は相手の話の終わりを予測し、わずか0.2秒で交代していると言われます。この複雑な仕組みをAIでどう実現するのか?
ターンテイキングの基礎、読み取る手がかり(声のトーン、視線など)から、LLMを活用した最新AIモデル(Turn GPT, VAP)、音声対話システムでの重要性(UX向上、「バージイン(割り込み)」)まで詳しく解説。
会話AIの「間(ま)」の秘密に迫ります!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
Googleが発表した新しい音声検索技術「Speech-to-Retrieval(S2R)」を紹介します。
これまでの音声検索は「音声→文字→検索」という二段階でしたが、S2Rは“音声の意味”を直接理解して検索するという革新的な仕組み。
音声認識の誤りを減らし、より速く自然な検索体験を目指すこの技術の仕組みや可能性を、わかりやすく解説します。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
ChatGPTのボイスモードなど、AIと「声」で話す仕組み=「音声対話システム」が急速に進化しています。
かつては、(1)音声検出 → (2)文字化 → (3)意図理解 → (4)文脈把握 → (5)応答決定 → (6)文章生成 → (7)音声合成、という7つの専門分野を組み合わせる「パイプライン型」が主流でした。
しかし、この方法ではエラーが伝播しやすく、全体最適化が困難でした。
現在は、LLMを中心に多くを統合する「End-to-End型」が標準に。さらに、音声のトーンや感情をそのまま理解する研究も進んでいます。
とはいえ、人間のように自然な「間」で会話を切り返す「ターンテイキング」や応答速度にはまだ課題も。
音声対話の技術的な変遷と未来の課題を解説します!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)「ショート編」では、話題のAI技術や最新論文を一つ取り上げ、コンパクトに紹介しています。
たった1文字の違いが、AIのテスト結果を左右する?
Metaの研究チームが発表した論文「A Single Character Can Make or Break Your LLM Evals」では、プロンプトの区切り文字を変えるだけで、AIの成績が20〜30%も上下することが明らかになりました。
なぜそんなことが起こるのか?
そして、私たちはどう対策すればいいのか?
AIが“言葉のかたち”にどれほど敏感なのかをわかりやすく紹介します。
AI Shift Academy(#シフアカ)
#2番外編として、ゲストパーソナリティの栗原から、言語処理学会「YANS」について紹介します。
毎年実施されている言語処理学会「YANS」
20代〜30代前半の研究者が中心で、活気ある雰囲気が特徴です。発表者と直接対話できる「ポスターセッション」がメインとなっており、参加者が自由にディスカッションできる場となっています。
番組では、特に印象的だった研究として、「言い淀み」や「ノリ」といった即興性を含むリアルな会話の再現を目指す「自発音声」の研究を紹介。
また、LLM(大規模言語モデル)を活用したデータセット作成など、学会で見られた最新の研究トレンドにも触れています。
AI研究の最前線がわかるエピソード、ぜひお聴きください!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
AIの「賢さ」を測るモノサシが変わる?
従来の「難しい問題が解けるか」という評価(ベンチマーク)だけでは、AIの真の実力は測れなくなりつつあります。
これからのAI評価は、
・ウェブ探索能力 (BrowseComp)
・ツールの使い方 (LiveMCP)
・研究能力や洞察の深さ
・マルチモーダルや対話能力
など、より実践的なスキルが問われます。
また、「Chatbot Arena」のようなユーザー投票や、人間が評価ループに入る「Human-in-the-Loop」も再注目されています。
「AI版ムーアの法則」と呼ばれるタスク完遂速度や、安全性・バイアス(RedTeaming, HELM)など、評価軸はどんどん複雑で多角的に。
AI評価の未来を解説します!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
TECH BLOG「LLM-as-a-Judgeにまつわるバイアスまとめ」はこちらから。
今回は「AIの評価」評価における課題についてお話しています。
特にLLMの性能評価における信頼性の問題を深掘りします。
今回の放送では、AI評価者や人間に内在し、結果を歪める「バイアス」の体系的な分析から始めます。
さらに、評価データが学習データに混入する「データ汚染」が如何にベンチマークを無意味にするか、そして評価AIの癖に最適化し実用性を損なう「ジャッジへの過適応」の危険性を指摘。
問題設定自体の誤りや環境依存性といった、スコアの再現性を揺るがす要因も解説。AIの能力を正しく見極める上で、開発者や研究者が直面する深刻な課題を論じます。
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
今回は「AIの評価」LLM as a Judgeについてお話しています。
従来のAI評価は、自動指標では精度に、人手評価ではコストと時間に大きな課題がありました。
そこで登場したのが、GPTのような高性能LLMを「評価者」として使う新手法「LLM as a Judge」です。
人間による評価と遜色ない精度を実現しつつ、高速・低コストで大規模な評価を可能にします。評価の質はプロンプト設計が鍵を握り、明確な基準を与えることで人間の判断をスケールさせることができます。
RAGの性能評価や、AIからのフィードバックでAIを強化するRLAIFなど応用も多彩。
AI開発の常識を変えるこの技術を詳しく解説します!
▼おたよりはこちらから
AI Shift Academy(#シフアカ)
テーマ第2弾は「AIの評価」
かつて「人間らしさ」を問うたAI評価は、翻訳や要約など具体的なタスクの性能を競う時代へ。
そして、AI版センター試験とも言える「ベンチマーク」が登場し、開発競争が加速します。
今回の放送では、AI評価方法の歴史から、日本語特有のデータセット問題、そして国産ベンチマーク「JGLUE」の開発秘話までを深掘り!
ChatGPTの登場で評価の常識も激変し、今やAIがAIを評価する時代に…⁉
AI開発の裏側がわかる、知的好奇心をくすぐるエピソードです。ぜひお聴きください!
▼おたよりはこちらから