年度报告
查看: 4918|回复: 24

[杂谈] [抛砖引玉]浅谈通过数据测量动画百合度的方法&锚点法(2019.1.3补充)

[复制链接]
阅读字号:
头像被屏蔽
发表于 2019-1-1 00:01 | 显示全部楼层 |阅读模式
本帖最后由 yuzhan1990 于 2019-1-3 12:17 编辑

300的各位,大家新年快乐!

接下来我将给大家分享两个自用的通过数据来测量动画百合度的方法.当初是因为通过搜百合找到的许多动画实际看下来并不百合的关系,才想找一种方法分辨出百合与伪百合,不过实际应用下来已经不止是拿来区分是与否的问题了,而是通过数据给各个作品的百合度测量出一个值,根据这个值再去做相应的处理.过去几年里实际应用下来,感觉效果还是不错的,不过现在是新的一年了,也想看看有没有新的方法可以尝试,于是把这些方法(以及一些构想中的方法)分享给大家,抛砖引玉,希望大家也能踊跃发言,说说自己挑选百合番的方法~

=分割线=

第一部分:各种方法的介绍及实例

方法一:标签占比

这是在bangumi上应用的方法,思路是这样的:如果一部动画百合度越高,那么在看过这部动画的人里面,将其标记为百合的人也越多,将百合的标记数除以观看人数,即可得到这部动画的百合值.实际操作中,将评分数视为观看数.比如<轻声密语>的页面https://bgm.tv/subject/2661

轻声密语.JPG

可见百合标记数是251,评分数是481,那么百合值就是251/481,即52%,相当高的一个值了.

另附百合值非常高的几部动画,以前的数据了可能现在有变,但大致还是差不多的

糖果男孩        48.0%
圣母在上        47.4%
惊爆草莓        46.9%
青之花        46.2%
紧扣的星星        45.6%
诗片        44.3%
神无月的巫女        43.8%

方法二:标签顺序

这是除了在bangumi上,也可在豆瓣上应用的方法,思路是这样的:如果一部动画百合度越高,那么它作为百合番的特点比起它作为其他种类的番(比如科幻番,治愈番等)要更突出,体现在标记上,就是百合的标记数比其他标记数更多,在页面排版上,bangumi体现为更靠前,豆瓣虽然不确定,但推测也是标记数越多的标记排序也越靠前.此外在实际操作中,要对标签进行修正.我见到的许多网站,不止这两家,都有这么个问题,就是不区分客观标签与主观标签.如上图<轻声密语>的页面,标签AIC是制作公司的名字,TV是播出类型, 2009年10月是播放日期,等等等等,这些都属于客观的信息,而其它的如百合,萌,燃等等属于观众对作品的评论,属于主观信息.因此需要先去除客观标签,再看百合这个主观标签的排序.比如豆瓣上少女终末旅行的页面: https://movie.douban.com/subject/27081136/

少女终末旅行.JPG

去除动画,日本,日漫,2017四个客观标签,百合这个标签排在第四位,那么这部动画的百合等级就是四级.实际上比起百合,前三个标签,废土,科幻,冒险,也确实是这部动画更突出的特色,而像摇曳百合在豆瓣上就是百合标签排第一个,因此我倾向于认为豆瓣也是按标记数给标签排序的.

另附几个bangumi上百合等级1的动画,标签已部分修正

少女革命剧场版 思春期默示录        (百合,142(幾原邦彦,131(少女革命,104(几原邦彦,103
摇曳露营△        (百合,461(治愈,290
吹响!悠风号 第二季        (百合,367(音乐,335
食灵-零-        (百合,764(食灵零,634(黄泉,452(神改编,301(原作无视,251
西蒙        (百合,144(studiodeen,55(冷门好片,47
天才麻将少女        (百合,810(麻将,567(超能力百合麻雀少女,386(天才麻将少女,273
NEW GAME!!        (百合,549(日常,252
请问您今天要来点兔子吗??        (百合,540(萝莉,467(治愈,388

方法三:点赞率(待实行)

这是我曾设想在B站上使用的方法, 思路是这样的:如果一部动画百合度越高,那么给它的百合tag点赞的人就越多,相应点踩的人也越少,将点赞人数除以总的赞踩人数,即可得出百合度.比如B站上圣母在上的页面: https://www.bilibili.com/video/av1238056

圣母在上.JPG

其中百合圣经这个tag有5赞1踩,那么它的百合圣经度就是5/(5+1),约为83%,此算法对百合度同理.此外那一个踩是我为了演示点的,截完图就取消了~

之所以要除以总人数而不是像很多网站上那样,将点赞人数减去点踩人数,我打个比方来说明.假设某tag按点赞人数减去点踩人数算出来的点赞数是100,那么一种可能是110赞10踩,那样点赞率就是110/120,约九成,还有种可能1100赞1000踩,那样点赞率就是1100/2100,约五成,同样的100点赞数可能背后的点赞率相去甚远,因此这种单纯的减法得出的结果并不能说明多少问题.

方法四:论坛评分(待支持)

其实我最想实行的一个方法,是仿照S1的动漫投票区,在300也搞一个各作品的百合度投票,毕竟前述各种统计方法的数据来源都是来自广大观众,鱼龙混杂,而300的水友对百合更熟悉,意见也更有参考价值.先上个S1的兽娘投票页面示意https://bbs.saraba1st.com/2b/thread-1487210-1-1.html

兽娘动物园.JPG

不过我觉得百合度更适合用星级的方式来投票,以下是我的建议模板(草稿状态,未发表)

捕获.JPG


第二部分:各种方法的实际操作及注意事项

1.标签占比

这是最简便的方法了,做一下除法就行.需要注意的一个是有些动画的评分数和标签数都很少,这样算出来的值就没那么可靠;另一个就是有些标签不是完全的"百合"二字,比如NEEDLESS的页面https://bgm.tv/subject/1779

needless.JPG

它的百合标签只有10个,而3P百合的标签是39个,用39去算比用10去算得到的结果更有参考价值.此外还有比如蕾丝,女同之类的标签,可能有时候也比百合标签的数量多,这时候就可以用它们去算.

2.标签顺序

这个方法有点麻烦,因为要去除客观标签.有些出现频率高的一下子就能认出来,比如XX年,剧场版,芳文社等等,还有一些少见的标签可能会反应不过来,比如国产百合番风灵玉秀https://bgm.tv/subject/212333

风灵玉秀.JPG

因为国产这个标签在百合番里实在出现很少,不小心就会漏掉,于是这部等级1的百合番就会被误判为等级2,实际上我自己也是在写这篇帖子的时候发现这一点的...

3.点赞率

B站刚出这个标签系统的时候其实我是很看好的,没想到现在还没多少参考价值...除了顶踩人数少以至于数据参考价值有限之外,貌似现在B站还屏蔽了百合这个tag,真是屋漏偏逢连夜雨.不知道为啥大家不喜欢对标签进行顶踩操作,难道是老外的东西传进来水土不服?只是除了B站国内其它大的视频站并没有对标签进行顶踩的系统,所以只好继续观望了,大家有知道别的能对标签进行顶踩的网站也请分享一下哈~

4.论坛评分

因为并没有实行所以也没有啥实际操作,不过参考S1的经验的话大概是防止刷票啊鼓励投票积极性啊之类的,这些都是管理员的活儿,所以说投票要按照基本法,但管理员的资瓷还是很重要滴~

第三部分:各种方法的优缺点

第一节:统计与非统计方法

我能想到的非统计方法只有两条,一是通过搜索引擎查看相关页面,二是去论坛/贴吧等地方询问.这些方法的缺点非常明显:一是剧透,尤其是老番,因为年代久远所以基本上不会考虑剧透问题;二是私货,毕竟个人的意见没私货是不可能的,而官方的资料往往参考价值不大(其实还有日语看不懂的问题;-);三是麻烦,一个个页面看下来要不少时间,问答的话更是要等.

相比之下统计方法的优点就非常突出了,一是无剧透,只有数字在跟你打交道;二是基于统计,通过对批量数据的处理抹平了个别观众的个性;三是快捷,做下简单计算即可.因此除非是统计方法不适用的情况,否则我不再用非统计方法去测量百合度了.

第二节:统计方法的局限性

1.数据来源

这里指的是作为数据提供者的广大观众.显然,观众与本人越相似,那么他们的意见也越具有参考价值,不论是评分,标签,还是评论和短评.这方面bangumi作为宅人的网站,要优于更大众化的豆瓣.比如豆瓣上的<少女与战车>https://movie.douban.com/subject/10756727/

少女与战车.JPG

我是通过百合tag在豆瓣上搜到它的,但点进去一看居然没有百合这个tag!八个tag七个是客观信息,唯一一个主观信息居然是"坦克"!显然豆瓣用户的侧重点不同于bangumi的用户...

2.数据量

数据量小的时候,统计出的结果往往不那么可靠,这对所有统计都是一样的.比如青兰圆舞曲的页面https://bgm.tv/subject/7408

青兰圆舞曲.JPG

按标签占比来算,40/58,百合度达到了69%之高,但实际真有那么高吗?我个人是存疑的.

但话说回来,本身百合也是小众的圈子,上文的<轻声密语>的数据也只是251/481,所以说多和少是相对的,具体怎么看待就取决于个人了~

3.数据的侧重点

3.1偏高

比如<竹刀少女>的页面https://bgm.tv/subject/1272

竹刀少女.JPG

片里的BG成分非常多而且闪瞎了,但在标签里一点都没有体现!反而是少得可怜的百合成分,排在了第四位,处理后得出的百合等级是3!当初我看的时候那叫一个难受啊...

我觉得这并不算是标签出错了,而是由于某些原因用户没把"恋爱"啊"BG"啊之类的标注上去,导致结果的侧重点出现了偏差.可能是头几个标注的人没有标,后续的人就顺着惯性顶了先有的百合等标签,就不费事自己再写新标签了,导致滚雪球一样百合这个标签越滚越大,以至于算出来的百合等级偏高了~

3.2偏低

比如魔法少女小圆的页面https://bgm.tv/subject/9717

魔法少女小圆.JPG

按百合度算是189/11787只有1.6%,按百合等级算是"魔法少女 2382致郁 1424治愈 928 猎奇 781百合 189"等级5.但显然小圆的百合度并没有那么低,只能说其它标签太显眼导致百合被忽视了.

第四部分:各档百合番的饼状图

我几年前在bangumi上收集了680部带有百合标签的番剧信息,基本上囊括了当时的所有百合番,根据占比法和等级法做了两张饼状图,供大家参考.现在数据应该有所变化,但大致比例我想还是一致的.

4.1占比法

占比法.JPG

可以看出有51%的所谓百合番的百合标签占比是低于10%的,这些番只能说只是带有百合这个标签而已,个人感觉并不能算是百合番(当然例外是有的,比如上文提到的小圆).另外百合标签占比超过30%的百合番加起来仅有9%,甚至连一成都没有,可见重百合,或者说真百合,这样的作品是非常少的.剩下四成可以说是轻百合,至于它们到底算不算百合这就看个人的喜好了.

4.2 等级法

等级法.JPG

可以看出同样有51%的所谓百合番的百合标签等级是6级及以上的,两张图综合起来看可以说有一半的百合番是名不副实的.等级1的百合番大致相当于上图20%以上的区域,这些番可以说是百合番,只是程度有所不同.剩下的部分算不算百合,还是看个人喜好了~

第五部分 推荐的使用方法

首推占比法,看看算出来的值在图4.1里属于哪一档,判断是否符合你自己的百合度要求.懒得算的话可以用等级法,基本上等级1的百合番还是名副其实的.也可以联合运用两种方法,看看结果是不是在同一档内,这样可以在一定程度上避坑,比如上文的<竹刀少女>两种算法就分别落在第六档和第三档.

=分割线=

呼~终于写完了,大冬天码字不容易啊,手都冻僵了...看在楼主码这么多字的份上,还请大家多提宝贵意见吧~我想知道的有:除了bangumi和豆瓣,还有哪些地方适用统计方法?这些方法还有哪些改进的空间?还有哪些新的统计方法?以及有没有更多的非统计方法?等等...当然除此之外,也欢迎大家提出其他方面的相关意见和建议,谢谢啦~

再次祝大家新年快乐!

=另一条分割线=

都码这么多字了,就顺便统计下大家都看过几部百合番吧,不另外开帖了~

=2019.1.3分割线=

项目名称:锚点法

项目等级:easy

特殊收容措施:提出锚点法的帖子发表在百合会动漫区,可供公众查阅

项目描述:锚点法是一种询问某作品百合度的简易方法,步骤如下:
1.按百合度高低罗列若干百合番(例如:<神无月的巫女>,<摇曳百合>,<魔法少女奈叶>,<少女终末旅行>)
2.如下图询问某作品的百合度处在哪一档
   简易百合度.JPG
3.采纳投票人数最多的选项作为结论

附录1.锚点法的特性
1.1不扯皮:锚点法不牵涉百合的定义问题,因此不会出现是否百合的争论
1.2无剧透:锚点法不询问作品本身如何,因此避免了任何程度的剧透
1.3个性化:询问者可按自己的标准和数量罗列各档百合番,体现了个性化
1.4易用:一点就通,一学就会!

附录2.开发者手记
最近沉迷SCP,故尝试仿照SCP文档的格式撰写此贴~
开发锚点法的初衷,是我在分享测量百合度的统计方法后,收到复数的回帖称"过于硬核",因此想开发一种面向大众简便易用的百合度测量法.然而简便不能意味着低劣,我依然想在简便方法里尽量保留统计方法的优点,做了各种取舍后,得出了如上的成品.我相信此方法依然还有改进的空间,欢迎大家不吝赐教~

单选投票, 共有 16 人参与投票

投票已经结束

43.75% (7)
25.00% (4)
6.25% (1)
0.00% (0)
25.00% (4)
您所在的用户组没有投票权限

评分

参与人数 1积分 +1 收起 理由
blawaz + 1 9012年了还能看到一本正经的胡说八道,一分.

查看全部评分

发表于 2019-1-1 02:14 | 显示全部楼层
技术贴。。。
发表于 2019-1-1 03:06 | 显示全部楼层
这是要先来场百合定义的论战?
发表于 2019-1-1 15:01 | 显示全部楼层
别来这抛砖了,回你在文区发的[其它] 【特斯拉】励志向——维基百科中文条目补完计划之科学超人特斯拉/1.9更新继续激励自己,又不会打扰别人不是挺好吗?
发表于 2019-1-1 15:40 | 显示全部楼层
看完这文后有跟没看一样的感觉是什么鬼

辛苦了
发表于 2019-1-1 16:59 | 显示全部楼层
标签一向仅供参考
发表于 2019-1-1 19:03 | 显示全部楼层
窝参考这个常去的百合评论blog的打分方法:满分五星,以典型芳文作为三星整

评分

参与人数 1积分 +1 收起 理由
yuzhan1990 + 1 谢谢分享

查看全部评分

发表于 2019-1-1 19:16 | 显示全部楼层
这种方法得出的只是证明“是不是百合番”
但是对于「百合度」高低的测量没有作用啊,毕竟百合这个标签现在实在是太泛用了,很多几个女孩子凑一起的「美少女动物园」,也就是俗称的萌豚番,也会被打上百合的表情,而且比例还不小,但是就「百合度」来说确实是几乎为零。
所以在下认为论百合度的高低,还是要以实际剧情的测评结合具体触发的事件来得出比如,「感情交流」「心理活动」「告白」「接吻」「sex」等,才能得出比较真实的百合度...
单单统计「百合」标签还是没办法得出「百合度」的

点评

统计标签也只能初步得到“有相当比例的人认为这是‘百合作品’”的结果吧  发表于 2019-1-1 19:26
发表于 2019-1-1 21:40 | 显示全部楼层
本帖过于硬核。不过个人看这种百合度的划分还是相当难以界定。首先主观因素很大,客观因素仅看标签很难界定。
我相信的客观的百合度评价就是一群对百合至少是较有心得的群体打出的评分,其他的真的挺难客观的。
发表于 2019-1-1 21:58 | 显示全部楼层
其实用标签数据来判断百合度。。。。。。。倒不如说可以用数据来判断下普通观众对片的感受还差不多
发表于 2019-1-1 22:47 | 显示全部楼层
来300问一下,或者看看有没有人扫过雷,岂不美哉
楼主辛苦了,等回头有积分了再补
发表于 2019-1-2 02:19 来自手机 | 显示全部楼层
只有当标签错误时,主动点踩才有意义。所以几乎没人给标签点赞或者点踩。
发表于 2019-1-2 09:44 | 显示全部楼层
楼主辛苦了,很硬核的技术贴了
头像被屏蔽
 楼主| 发表于 2019-1-2 14:00 | 显示全部楼层
神隐 发表于 2019-1-1 19:16
这种方法得出的只是证明“是不是百合番”
但是对于「百合度」高低的测量没有作用啊,毕竟百合这个标签现在 ...

我自己在刚开始使用统计方法的时候,也遇到了你所说的这个问题,当时我的解决方法,是划定一条百合值百分之三十的界线,低于这个值的一律不视为百合,只是高于此值的百合番并不多,看完之后就降低标准到百分之二十,然后又降低到百分之十,现在这条线也快要失守了...

确实如你所说,不少百合标签多的番其实并不百合.不过比起参照一些外部的标准(如你所说的「感情交流」「心理活动」「告白」「接吻」「sex」等)给某部动画测定的百合度,这些统计方法更适合在各个百合番内部进行百合度的相对比较,如果说百合度低的番都能有不少百合标签,那么百合度高的番不就会有更多的百合标签吗?

发表于 2019-1-2 15:03 | 显示全部楼层
yuzhan1990 发表于 2019-1-2 14:00
我自己在刚开始使用统计方法的时候,也遇到了你所说的这个问题,当时我的解决方法,是划定一条百合值百分之 ...
然而作品的标签多只能证明看得人多,或者说关注度高,而关注的人多了,给的标签就多,百合标签的比例自然会上去的,但是逻辑上和百合度的高低完全没有关系,所以统计「百合」标签和测定百合度从逻辑上说不能成立
头像被屏蔽
 楼主| 发表于 2019-1-2 19:10 | 显示全部楼层
琳玛奥 发表于 2019-1-1 21:58
其实用标签数据来判断百合度。。。。。。。倒不如说可以用数据来判断下普通观众对片的感受还差不多
你说到点子上了~实际上这种统计方法的隐含前提,就是把百合度视为类似于萌度啊燃度啊之类的主观感受,你自身的体验与普通观众越接近,那么数据的参考价值就越大~
发表于 2019-1-2 20:39 来自手机 | 显示全部楼层
做替身式的六维表吧
发表于 2019-1-2 23:02 | 显示全部楼层
本帖最后由 mazda 于 2019-1-2 23:07 编辑

這種方法算出來的值應只能當作類似降雨機率的數值,只能用來當作讓懶的爬掃雷文的人可以快速大致分辨該作是否是百合作機率的參考數據,畢竟變數太多,也不太客觀

要客觀且量化的話應該要計算該作品描寫 同性(男)友誼 / 同性(男)戀愛 / 異性友誼 / 異性戀愛 / 同性(女)友誼 / 同性(女)戀愛 / 第三性友情 / 第三性戀愛 的  秒數/頁數/分鏡數(分別是動畫/小說/漫畫的單位) 分別除以該作品總長度,每個數值可以大概分為 以OO為主軸/OO為該作主要元素之一/該作具有OO成分/該作沒有OO元素 四種區間,然後經過一些整理.加權和條件式大概就就可以知道這部是不是百合作與大致上的百合度了

應該用試算表就可以做的出來吧,百合度計算機

不過這也沒有到很精確,可能在設計的複雜一些會更好

補充:影響加權或條件的包括:主角性別.主角性向.男性角色比例.女性角色比例.第三性角色比例.結局……等等


头像被屏蔽
 楼主| 发表于 2019-1-3 06:33 | 显示全部楼层
神隐 发表于 2019-1-2 15:03
然而作品的标签多只能证明看得人多,或者说关注度高,而关注的人多了,给的标签就多,百合标签的比例自然会 ...
从逻辑上说,除了关注人数外,作品本身的百合度,发行日期,制作公司等因素都会影响标签,准确的说法是,标签与百合度的相关性随着关注人数的上升而下降,但这不意味着完全不相关.
从我自己对占比法的使用经历来看,固然百分之二十的作品未必就比百分之十的作品百合度更高,但百分之五十的作品肯定比百分之十的作品百合度更高,因此也不能说标签与百合度完全不相关.显然,用来比较的两部作品间的差值越大,结论就越可信.各人可以根据自己的情况划定一个差值作为参照,以兼顾效率与可信度.

头像被屏蔽
 楼主| 发表于 2019-1-3 12:30 | 显示全部楼层
mazda 发表于 2019-1-2 23:02
這種方法算出來的值應只能當作類似降雨機率的數值,只能用來當作讓懶的爬掃雷文的人可以快速大致分辨該作是 ...
有趣的类比,确实得出的是概率而不是确定的结果~不爬扫雷文除了懒以外,其实还有避免剧透的原因~
这个百合值计算器,由于把各项标准罗列了出来,因此可能会使观众看过计算结果后,对被计算的作品产生预期,严格来说这也算一种剧透~而统计方法的优点就在于,你不需要知道作品的内容,甚至根本不需要知道百合是什么,也能在一定程度上挑选出百合度高的作品~
您需要登录后才可以回帖 登录 | 成为会员

本版积分规则

Archiver|手机版|小黑屋|百合会 ( 苏公网安备 32030302000123号 )

GMT+8, 2025-2-2 17:53 , Processed in 0.101131 second(s), 28 queries , Gzip On.

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表