コラム

セミナーレポート
生成AIを活用した人事評価の可能性を探る

2025/08/06

Index

  1. AI評価への期待と懸念
  2. 成人発達理論をベースとした評価軸の策定
  3. A社での人事評価トライアルのプロセス
  4. 検証結果
  5. AI評価の未来と課題

7/17に人事評価の分野でAIをどこまで活用できるのか、その可能性を探るセミナー「生成AIで人事制度はどこまで構築できるのか?探求発表会〈第三弾:生成AIの人事評価への活用編〉」を開催しました。本コラムでは、このセミナーでご紹介した弊社の実践事例と考察を通じて、生成AIが人事評価にもたらす変化と、その未来における活用方法について掘り下げます。

音声要約

セミナー内容を、NotebookLMの音声概要機能を使って要約しました。ポイントがわかりやすくまとまっていますので、ぜひご視聴ください。なお、一部に不自然な日本語表現が含まれている箇所がありますが、あらかじめご了承ください。

AI評価への期待と懸念

「AIが人の評価をするようになったらどんな社会になるのか?」——セミナー冒頭で参加者に投げかけた問いに対し、さまざまな声が寄せられました。「平等性が生まれる」「客観的で納得感がある」という期待の一方で、「多様性が削られる」「遊びがなくなる」「定量化できない部分が軽視される」といった懸念も多く聞かれました。また、「最終評価がどのようになるのかは疑問が残る」との声もあり、AI評価が最終的なものとなることへの疑問も呈されました。

私たちは実際に生成AIを活用した人事評価に取り組み、その可能性を検証しました。今回は、その検証の過程と結果を説明し、そこから見えてきた課題についてお伝えします。

成人発達理論をベースとした評価基準を採用

今回の検証は、成人発達理論を評価のベースとしました。成人発達理論は、人の知性や能力が一生をかけて成長するプロセスを解明する学問であり、発達段階によって構想できる時間軸や問題解決の視点が異なります。

  • 3.0段階(対象目安:若手社員):周りの期待に応える、ルール通りに行動する。約2週間先までの段取りを考え、過去の事例やマニュアルに依拠して問題を解決する。
  • 3.5段階(対象目安:スペシャリスト):自分軸・専門性を発揮する。半年後のゴールに向けたPDCAサイクルを回し、専門的な技法で問題解決を行う。
  • 4.0段階(対象目安:マネジャー):包括的・網羅的な思考と自己決定ができる。3年後のありたい姿を構想し、包括的・網羅的な思考で優先順位をつけて問題解決ができる。
  • 4.5段階(対象目安:役員):システム思考で複雑な状況に対応できる。5~10年先を見据え、業界の長期的変化や複雑なシナリオを同時に構想し、システム思考で全体像を理解して本質的な問題解決が可能。

現代のビジネス環境の複雑化に伴い、各役職に求められる発達段階も高くなってきています。単純な因果関係が明確だった高度成長期には3.0段階で対応できていましたが、現在のような複雑な環境では、マネジャーには4.0以上、経営者には4.5以上の発達段階が求められると私たちは考えています。

今回の検証では、リーダー職の評価にあたって、3.5段階を評価軸の中心に据えました。

▼成人発達理論の概要は下記コラムを参照ください。
https://www.growthen.co.jp/column/20230822/#sec2

A社での人事評価トライアルのプロセス

今回、A社の人事本部長の協力を得て、部長・課長・係長を含む6名のリーダー職を対象に生成AIによる評価検証を行いました。

1. A社情報の収集

まず、生成AIを活用し、A社の会社情報を収集し、人材や組織風土に関する現状や課題をまとめました。

2. 評価基準の再構築

次に、A社の既存の等級要件を、成人発達理論の3.5段階(スペシャリスト)レベルに合わせて再定義しました。「リーダーシップ」「マネジメント」「部門間連携」「人材育成」「自己啓発」の5つの観点で、それぞれ150文字程度の要件と、5つのサブ能力チェックリストを作成しました。

3. 問いの策定と回答の工夫

問いの策定:対象者から評価の回答をどう引き出すか

対象者に回答してもらうための「問いの策定」を行いました。具体的には、生成AIに「等級要件にあった行動ができているか否かを判断する質問を5つ考えてください」と指示を出し、生成AIとやり取りをしながら問いを作っていきました。

プロンプト例

【アウトプット依頼】
「新等級要件」定義にあった行動ができているか否かを判断する質問を5つ考えてください。
例)「リーダーシップ」職場で発生した問題や課題に対して、関係者との調整を含めてどのようなプロセスで解決に導きましたか?
【付加情報】
それぞれ、問いについて下記の①~④を書いてもらい、400~600文字で判断します。
①具体的な状況説明(100~150文字程度)
②どのような思考プロセスをたどったか(100~150文字程度)
③実際に行動に移したこと(100~150文字程度)
④結果と振り返り(100~150文字程度)
1つの質問について、問いかけは1つにしてください。

文字数については、生成AIから当初それぞれ200文字必要だと回答がありましたが、実務上大変だと思い、それぞれ100~150文字にするなど調整を行いました。

回答の工夫:対象者に回答を記入してもらう

対象者にWordでアンケート用紙を配布し、記入してもらいました。
回答記入にあたって、以下を依頼しました。

  • 「理想的な対応」ではなく「実際に普段行っている行動」を詳細に書くこと
  • 「うまくいかなかった経験や悩んだ経験も含めてありのまま」に書くこと
  • 「こうすべきだと思う」ではなく「実際にこうしている」ことを書くこと
  • 「他者からの指摘や気づき」を含めること

これは、生成AIによる回答作成の可能性を排除し、具体的な行動や個人的な思考プロセス、失敗談などを引き出すことに繋がりました。

4. 生成AIによる評価とフィードバック

生成AI(ChatGPT、Claude、Gemini)を用いて、回答内容の評価とフィードバックの作成を実施しました。プロンプトは、人事評価のプロフェッショナルとしての役割認識、評価基準(等級要件とサブ能力の達成度、3~4つ満たせば等級要件達成)、採点方法、標準回答(3.0点基準)の参照などを細かく設定しました。

評価のブレを考慮し、以下の工夫を行いました:

  • 10回評価を実施して平均値を算出
  • 3.0点の標準回答を作成してAIに学習させる
  • 詳細なプロンプト設計による評価基準の統一

検証結果

生成AI間での評価の違い

最も注目すべき結果は、生成AI間での評価の違いでした。Claudeが最も安定した評価を示し(最大誤差0.5点)、ChatGPTとGeminiではより大きなばらつきが見られました。しかし、興味深いことに、どのAIでも最上位と最下位の順位は一致し、中間層で入れ替わりが生じる程度でした。

フィードバックの質では、人事本部長のコメントとして、Claudeが「最も具体的で解像度が高い」「端的に分かりやすい」と評価されました。

予想外の効果:内省の深化

当初予想していなかった大きな効果が、評価を受ける側の内省の深化でした。400~600文字という文章量で自分の行動を振り返ることにより、参加者からは以下のような感想が寄せられました:

  • 「日頃の業務で目標設定や計画、振り返りが不十分であることに気づかされました」
  • 「自分の強みや課題が明確になり、内省の良いきっかけとなりました」
  • 「やっていないことが明らかになるという意味で少しつらさも伴いましたが、現状の行動を可視化できました」

フィードバック受容の個人差

生成AIからのフィードバックに対する受け止め方には大きな個人差がありました。「受け入れやすかった」「自分の感覚と一致していた」という肯定的な反応がある一方で、「辛口に感じ、前向きな捉え方が難しい」「アドバイスが具体的すぎると自分で考える姿勢が失われる」という課題も浮き彫りになりました。

AI評価の未来と課題

今回の検証を通じて、生成AIが人事評価の在り方を大きく変える可能性を強く感じました。特に「客観的で公平な評価の実現」「継続的な内省の促進」「人材育成の効率化」といった観点では、従来の手法を上回る効果が期待できます。

一方で、生成AIの進化は非常に速く、現時点で評価の仕組みを固定化することにはリスクが伴います。生成AIは”永遠のβ版”とも言える存在であり、常に変化し続ける技術です。今後は、AIといかに協調し、それを使いこなす「私たち自身のリテラシー」の向上がますます重要になるでしょう。

将来的な活用モデルの一例としては、以下のような仕組みが提案されました:

  • 毎月の日誌による振り返りを行い、それに対して生成AIが評価・フィードバックを行う
  • それを活用して1on1ミーティングの質を高め、部下の気づきを促し、上司との視点共有を深める
  • 蓄積されたフィードバックデータを評価会議の材料として活用し、評価のばらつきを減らすことで、育成や内省の促進につなげる

このように、AIは「客観的で納得性のある情報」を提供する”材料”としての役割を担い、人間による「リアルな評価」との組み合わせが重要であることが改めて確認されました。

また、評価のブレが少ないプロンプト(AIへの指示文)を作成することも重要であり、その精度は、作成者自身の「発達段階」や「評価に関するリテラシー」に左右される可能性が示唆されました。

AIは”動的な存在”として捉えるべきであり、その活用を通じて自己の内面を言語化する力が高まり、深い自己認識へとつながります。人事評価の本質的な目的とは何か——その問いを探求しながら、AIを賢く活用していくことが、これからの人事制度における鍵となるでしょう。

ご質問・ご相談がございましたらお気軽にお問合せください。
お問合せはこちらから

「個と組織の成長を考えるメールマガジン」購読のご案内

グローセンパートナーのセミナー情報や、メンバーによるお役立ち情報をお伝えしています。

登録はこちら