ヒューマンインタフェースシンポジウム2024で見つけた個人的に面白いと思った研究のメモ

2024年9月18日から20日まで京都大学で開催されたヒューマンインタフェースシンポジウム2024に参加してきました。

個人的に面白かった発表について以下にメモします。

◾️生成AI時代のデータ前処理と分析(小森先生@大阪電通大)

 一応自分もChatGPTを中心に色々と生成AIを触ってきたが、自分の触り方が不十分であったこと、勉強不足だったことを反省した。生成AIは非構造化データを構造化データにできる点において非常に便利なもの、と意識しておく必要がある。

・非構造化データ(テキストや画像、動画、音声)などから情報を抽出する段階がまずあり、(VLM、LLMなどが活躍する)

・抽出した情報を構造化する(LLMが活躍する)

自分が感じたポイントは

・生成AIが非構造化データを構造化データに変えるのが得意といえど、その「データそのもの」にリッチな情報を持たせておかないとだめ。これまでの研究でも同じだが、研究者は「良いデータを採る」「誰も取れないデータを取る」ということがより重要になる。

・そうでないなら「これまで人間では処理しきれなかった大量のデータを扱う」という路線で戦うのが次善だろうと思う。

・データをどのような形で整理してもらうかを指示できるかどうかが重要。この時の整理の仕方に「研究者のノウハウ」が必要。生成AIを使えば誰でも分析ができるというものではないなというのがわかった。この点、研究者は勉強しておかなければならない。

・講師の小森先生も指摘されていたが「生成AIは自分でできる以上のことはできない。自分がやれば時間がかかるができるということを短時間で終わらせてくれるもの」と考えるのが良い。

◾️駆動ユニットを内蔵した把持型牽引力錯覚デバイス(田辺先生@産総研)

小さなデバイスを指で摘むと振動で引っ張られているように錯覚するデバイスを開発したよという研究。指で摘むという形が最も錯覚量が大きいらしい。振動はいろいろ試した結果、2つのサイン波の組合せが良いようだ。サインは出なくてもいいそうだが、色んなものでサイン波が一番扱いやすいとのこと。このデバイスはシンプルだし軽いので、色んなインタフェースに応用可能だなと思った。既に白杖の振り幅を練習する際の振れ幅フィードバックに使った研究などがあるそうだ。

◾️坂道の勾配に着目した車椅子使用者向け経路案内地図アプリ「なび坂」の開発(小坂先生ら@兵庫県福祉のまちづくり研究所)

既存のサービスでNavitimeで雨に濡れにくいルート検索やその他アプリで自転車で最適なルートを表示するものは既にある。車椅子ユーザー向けバリアフリーマップ(設備等の位置や内容情報)サービスもある。実はGoogleマップには徒歩で経路検索したときにオプションで「車椅子対応」にチェックを入れると車椅子でも行きやすいルートが出る。これはエレベーターがあるとか階段がないとかそういう情報を加味しているとのことで、この時点ですごいが、「なび坂」はGoogle MapのAPIを使って、この斜度の計算を利用してあれこれやっている。足で歩けない理由として頚椎脊椎の損傷がある。この時、頚椎脊椎の何番の部分が損傷しているかで、どこの部分まで動くかというのは大体決まってしまう。これを逆に利用して、何番の損傷かを入力すればどの程度の斜度まで対応可能かを考慮して車椅子を手動で漕いで進めそうな経路を示してくれる。個人的にはそのようなユーザーの多くは電動車椅子を使うのでは?と思うが、質問してみたところ、そんなことはないらしく、手動車椅子のニーズもたくさんあるようだ。そもそもある程度の重度でないと電動車椅子を買えるほどの補助金が出ないし、簡易電動車椅子に乗っている人だとある程度斜度がキツくなると電動でも上れなかったりする。

◾️パーソナライズされたLLMを用いたツアーガイドシステムの開発と評価(内田先生ら@本多技研)

これは実は発表時間に行きそびれたので説明を聞かずにポスターだけを見た。個人情報を含んだ大量の情報で学習させたものが最近の生成AIで、この個人情報を学習からどう守るかというのが昨今の議論だが、この研究ではむしろLLMに個人情報を大量に学習させることによってパーソナライズされたLLMを作ってみたというようなものだと理解した。このニーズは結構あると思う。ニーズを満たしつつ安全を担保する、というところが課題だと思うが、それをクリアすればかなり面白いなと思った。

◾️自覚的な聴覚症状の擬声語表現に関する基本的考察(為末先生ら@山口大学)

耳鳴りの治療法はざっくりいうと薬か順応療法しかない。順応療法というのはホワイトノイズかピンクノイズに長時間暴露し、耳鳴りを「気にならなくさせる」というアプローチ。本研究では、「耳鳴りにも個人差があるから、治療効率を上げるにはまずどういう耳鳴りなのかを特定する必要があるのでは?もちろんサイン波三角波ノコギリ波、ピッチや振幅を変えて再生法でその人の耳鳴りの特徴を調べることができるけど、知識や装置や設備のない人は無理だよね?そう考えると一番現実的なのは患者のオノマトペから耳鳴りの特徴を分類することで、患者のオノマトペから患者の聞こえている耳鳴りを推定できるようにすると良いのでは?」というアプローチ。結論から言うと、オノマトペそのものに音の高さや低さの序列を示すような構造はあり、さまざまな人に共通するらしい。ただ、個人差があるのでこういうオノマトペを使うとこういう音というのは特定できないとのこと。

◾️人間とAIの像像的共同におけるHCI研究の将来(伊賀先生ら@エクスパーク)

シンポジウムでの発表だったこともあり、具体的実験データに基づいた話ではなかったのだけれど、面白かった。前提として、問題解決を念頭に置いたとき、ある問題空間を複数の人間の知識やスキルで解決しようとするならば、その複数人の知識やスキルは加算的に機能する。なので、問題解決に100の何かが必要として、Aさんが50、Bさんが50持っていれば問題が解決される。ところが、実際には全く知識と能力の違う人というのはいないわけで、Aさんの50とBさんの50の多くには重複がある。このとき、Bさんや追加のC3の代わりにAIを使っては?というのが近年のAIを用いた創造のイメージ。ところが、よく考えてみると生成AIは人間から学習しているわけなので、その出力はAさんやBさんとの重複が多いのではないかと指摘されていた。つまり、従来のイメージで生成AIを使っても問題は解決しないのでは?ということで。なので人間の能力に生成AIの能力を加えて・・・というストーリー以外で生成AIの創造性を考えないといけないのでは?と提案されていた。

◾️VR環境における身体伸縮提示による疼痛軽減評価の為のアプリケーション(石原先生@徳島大学)

◾️接触に同期した後頭部への冷感刺激による食品冷感の増強(小宮先生ら@東京大学)

◾️音の提示が弾性・粘性食感に与える効果と食品物性に関する基礎検討(有海先生ら@奈良女子大)

上記の3つはある特定のモダリティと別のモダリティとの刺激-反応の関係性をハックすることで人間の生活にポジティブな影響を与えようとするデバイスの開発のための研究。今回のHIシンポジウムではこの手のマルチモーダルエフェクトをハックするような研究発表が多く、どれも面白かった。マルチモーダルハックはいまホットな研究テーマなのかもしれない。

◾️AI技術を活用した高等教育機関向けLMSのアクセシビリティ強化策(高須賀先生ら@愛媛大学)

近年大きな大学ではほとんど学生向けのLMS(Learning Management System: 学習管理システム)が導入されているのだけれど、このLMSのアプリケーションに生成AIを導入して、翻訳や情報整理や音声読み上げみたいなのをできるようにしたら学生へのアクセシビリティが向上するのでは?という実験的取り組み。これは将来的にはそうなるだろうな、と思った。小中学校でもLMSのようなものは導入されてるところが多いので、今後は小中高大とそういうやり方が広まるのでは?と思った。

◾️土壌微生物燃料電池を用いた柔らかいタンジブルユーザーインタフェース構築の基礎検討(塚越先生ら@慶應義塾)

フェルトに電極を織り込んだもので土を挟み込むことで、土の中にある電解質を利用した電池にする、という技術を使った研究。湿った土でないといけないという制約や発生する電気が弱いという制約はあるものの、土が電池になるってのは農業×IoTがどんどん進められる現在においてかなり汎用性が高い技術でアツイとおもった。土に水分がなくなるとダメという話だったが、むしろ水分によってオンオフコントロールできるのであればそれもまた長所なのでは?と思った。

◾️点滅刺激の位置関係と信頼性スコアを用いた日本語50音SSVEP-BCIの性能向上(近藤先生ら@工学院大)

この研究はめちゃくちゃ面白かった。タイトルで損をしているように思う。内容がわかりにくい。一般的にBMI(ブレインマシンインタフェース)において、特に脳波を使ったもののボトルネックになるのは「精度が上がらない」ということだ。YesかNoか、OnかOffかの読み取り精度がたとえ90%の正答率だったとしても、10%誤るということは実用レベルとは言えない。100%の精度が出れば複雑なことができなかったとしても、あとはソフトウェアの組み合わせでなんとかできることが多い。この研究はいわゆる50音表を見た時の人間の脳波を拾うことで、どの文字を見てるか判定できるというソフトウェアの仕組みを改良したものだ。現在、視線入力で眼球(角膜)に反射する光の角度から何を見てるのかを検出するアイトラッカー技術がよく使われているが、これを脳波でやろうというものだ。とは言ってもこの手の試みは昔からあって、先行研究もめっちゃ多い。で、よく知られた技術として、50音それぞれのアイコンを個別の周波数で点滅させると、見ているアイコンの周波数と脳波のその周波数成分が反応するという現象を利用して、脳波の周波数成分を特定することで、なんのアイコンを見てたのかを特定する、というもがある。例えば「10Hzで点滅させた『あ』」と「「20Hzで点滅させた『い』」を見せた場合、脳波の20Hzの成分が活性化してると「い」を見てたんだなとわかる。これ、いいんだけれども問題があって、従来の方法では精度が85%くらい。で、その精度を高めるために信頼性を高めるアルゴリズムを噛ませると95%くらいになる。でもこれでも5%はミスるということになる。この研究はその信頼性スコアを2種類別のアルゴリズムで算出して、組み合わせて使ったら精度ほぼ100%になったわ、というもの。これは地味なんだけれど、すごい。今後にめっちゃ来してしまう。

というわけで個人的に面白かった発表メモをまとめました。あくまで個人的な見解です。こういう研究が面白いと思った人は是非来年のヒューマンインタフェースシンポジウムに参加してみてください。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です