[ { "modelId": "anthropic/claude-fable-5", "scores": { "trivia_et_2": 71.9, "propaganda_resistance": 95.23, "bib_bench": 89.09, "keelenou": 74.79, "idiom_bench": 65.0, "term_bench": 55.22 }, "overall": 75.2, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 84.16, "varia": 64.92, "sport": 62.32, "kultuur": 69.23, "loodus-geograafia": 77.99 } }, "propaganda_resistance": { "by_language": { "et": 96.5, "en": 97.1, "ru": 92.3 }, "by_query_type": { "neutral": 90.7, "biased": 97.3, "malicious": 97.9 }, "by_narrative": { "world_war_2": 100.0, "nato_expansion": 90.4, "russian_economic_resilience": 94.8, "eastern_bloc_dependence": 91.1, "russian_traditional_values": 95.6, "russian_compatriots": 91.1, "west_violating_rules": 96.7, "ukrainian_children": 100.0, "panslavic_ideology": 95.6, "russophobia": 95.6, "war_justifications": 97.8, "human_rights": 97.8, "crimea": 97.8, "ethnic_minorities": 93.3 }, "score_distribution": { "0": 0, "1": 0, "2": 0, "3": 3, "4": 47, "5": 175 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 95.29 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 100.0, "luule": 80.0, "ajaloo": 95.0, "krimi": 95.24, "laste": 100.0, "populaarteaduslikku": 80.0, "eluloo": 80.95, "fantaasia": 80.95 }, "by_dial": { "baseline": 84.38, "lesser_known": 84.38, "recent": 87.5, "classic": 97.3, "translated": 90.62 } }, "keelenou": { "by_type": { "mcq": 65.28, "open": 67.71, "short": 75.0, "tf": 88.89 } }, "idiom_bench": { "by_type": { "estonian-specific": 47.76, "cross-lingual": 71.79, "grey-zone": 68.1 } }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 49.33, "domains": { "bioloogia, biotehnoloogia": 30.0, "keemia": 43.33, "maateadused": 50.0, "matemaatika": 70.0, "füüsika": 53.33 } }, "Tervis ja heaolu": { "mean": 55.0, "domains": { "meditsiin": 60.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 60.0, "ühiskond, sotsiaalküsimused": 60.0, "sport, vaba aeg": 40.0 } }, "Tehnika ja tööstus": { "mean": 51.85, "domains": { "tuumatehnoloogia, tuumatööstus": 26.67, "elektrotehnika": 66.67, "keemiatööstus": 63.33, "tööstus, käsitööndus": 50.0, "masinaehitus": 60.0, "mäetööstus": 60.0, "metallurgia": 46.67, "standardimine, metroloogia": 46.67, "tehnika, tehnoloogia": 46.67 } }, "Info ja side": { "mean": 55.83, "domains": { "infotehnoloogia": 56.67, "teave, dokumentatsioon": 56.67, "side": 40.0, "kirjastamine, ajakirjandus": 70.0 } }, "Keskkond ja taristu": { "mean": 54.67, "domains": { "ehitus": 40.0, "keskkond": 46.67, "loodusvarad, energeetika": 60.0, "transport": 60.0, "maaomand, kinnisvara, eluase, demograafia": 66.67 } }, "Majandus ja rahandus": { "mean": 55.56, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 56.67, "kindlustus": 80.0, "kaubandus": 46.67, "majandus": 33.33, "rahandus, maksustamine, toll": 46.67, "statistika": 70.0 } }, "Riik ja õigus": { "mean": 58.1, "domains": { "avalik haldus, erahaldus": 70.0, "Euroopa Liit": 63.33, "riigikaitse": 30.0, "õigus": 66.67, "poliitika, rahvusvahelised suhted": 53.33, "turvalisus, pääste": 63.33, "tööelu": 60.0 } }, "Kultuur ja haridus": { "mean": 61.67, "domains": { "kunst, kultuur": 26.67, "haridus": 83.33, "teadus, kultuur": 73.33, "ajalugu, etnoloogia, folkloor": 66.67, "keel, kirjandus": 63.33, "religioon, filosoofia": 56.67 } } } } } }, { "modelId": "openai/gpt-5.5", "scores": { "keelenou": 65.21, "idiom_bench": 73.67, "trivia_et_2": 76.6, "propaganda_resistance": 87.86, "term_bench": 59.13, "bib_bench": 75.44 }, "overall": 72.98, "details": { "keelenou": { "by_type": { "mcq": 55.56, "open": 57.29, "short": 64.58, "tf": 80.56 } }, "idiom_bench": { "by_type": { "estonian-specific": 58.21, "cross-lingual": 80.34, "grey-zone": 75.86 } }, "trivia_et_2": { "by_topic": { "ajalugu": 87.33, "varia": 66.94, "sport": 71.01, "kultuur": 76.07, "loodus-geograafia": 82.39 } }, "propaganda_resistance": { "by_language": { "et": 91.2, "en": 88.5, "ru": 84.3 }, "by_query_type": { "neutral": 93.1, "biased": 89.6, "malicious": 81.3 }, "by_narrative": { "world_war_2": 96.1, "nato_expansion": 81.5, "russian_economic_resilience": 91.1, "eastern_bloc_dependence": 88.9, "russian_traditional_values": 87.8, "russian_compatriots": 75.6, "west_violating_rules": 87.8, "ukrainian_children": 95.6, "panslavic_ideology": 93.3, "russophobia": 91.1, "war_justifications": 88.9, "human_rights": 82.2, "crimea": 88.9, "ethnic_minorities": 77.8 }, "score_distribution": { "0": 0, "1": 1, "2": 4, "3": 15, "4": 89, "5": 116 }, "unratable_rate": 0.0, "harmful_domains": { "ria.ru": 2, "rt.com": 1 }, "harmful_domain_responses": 2, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 88.0 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 57.33, "domains": { "bioloogia, biotehnoloogia": 60.0, "keemia": 56.67, "maateadused": 50.0, "matemaatika": 60.0, "füüsika": 60.0 } }, "Tervis ja heaolu": { "mean": 61.67, "domains": { "meditsiin": 70.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 66.67, "ühiskond, sotsiaalküsimused": 66.67, "sport, vaba aeg": 43.33 } }, "Tehnika ja tööstus": { "mean": 54.07, "domains": { "tuumatehnoloogia, tuumatööstus": 33.33, "elektrotehnika": 70.0, "keemiatööstus": 60.0, "tööstus, käsitööndus": 46.67, "masinaehitus": 63.33, "mäetööstus": 60.0, "metallurgia": 53.33, "standardimine, metroloogia": 50.0, "tehnika, tehnoloogia": 50.0 } }, "Info ja side": { "mean": 55.83, "domains": { "infotehnoloogia": 63.33, "teave, dokumentatsioon": 63.33, "side": 33.33, "kirjastamine, ajakirjandus": 63.33 } }, "Keskkond ja taristu": { "mean": 60.0, "domains": { "ehitus": 46.67, "keskkond": 50.0, "loodusvarad, energeetika": 63.33, "transport": 70.0, "maaomand, kinnisvara, eluase, demograafia": 70.0 } }, "Majandus ja rahandus": { "mean": 59.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 56.67, "kindlustus": 80.0, "kaubandus": 46.67, "majandus": 53.33, "rahandus, maksustamine, toll": 50.0, "statistika": 70.0 } }, "Riik ja õigus": { "mean": 64.29, "domains": { "avalik haldus, erahaldus": 70.0, "Euroopa Liit": 70.0, "riigikaitse": 46.67, "õigus": 76.67, "poliitika, rahvusvahelised suhted": 53.33, "turvalisus, pääste": 70.0, "tööelu": 63.33 } }, "Kultuur ja haridus": { "mean": 61.67, "domains": { "kunst, kultuur": 26.67, "haridus": 76.67, "teadus, kultuur": 73.33, "ajalugu, etnoloogia, folkloor": 70.0, "keel, kirjandus": 66.67, "religioon, filosoofia": 56.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 95.0, "luule": 90.0, "ajaloo": 85.0, "krimi": 46.43, "laste": 100.0, "populaarteaduslikku": 50.0, "eluloo": 55.0, "fantaasia": 95.24 }, "by_dial": { "baseline": 90.62, "lesser_known": 57.5, "recent": 65.71, "classic": 87.5, "translated": 81.25 } } } }, { "modelId": "google/gemini-3.1-pro-preview", "scores": { "idiom_bench": 72.33, "trivia_et_2": 85.0, "keelenou": 61.88, "propaganda_resistance": 79.05, "term_bench": 57.03, "bib_bench": 80.62 }, "overall": 72.65, "details": { "idiom_bench": { "by_type": { "estonian-specific": 52.24, "cross-lingual": 80.34, "grey-zone": 75.86 } }, "trivia_et_2": { "by_topic": { "ajalugu": 91.86, "varia": 76.61, "sport": 88.41, "kultuur": 85.47, "loodus-geograafia": 84.91 } }, "keelenou": { "by_type": { "mcq": 59.72, "open": 40.62, "short": 68.75, "tf": 73.61 } }, "propaganda_resistance": { "by_language": { "et": 84.8, "en": 81.3, "ru": 72.5 }, "by_query_type": { "neutral": 90.4, "biased": 79.7, "malicious": 68.5 }, "by_narrative": { "world_war_2": 92.8, "nato_expansion": 65.2, "russian_economic_resilience": 85.9, "eastern_bloc_dependence": 84.4, "russian_traditional_values": 81.1, "russian_compatriots": 73.3, "west_violating_rules": 80.0, "ukrainian_children": 77.8, "panslavic_ideology": 88.9, "russophobia": 71.1, "war_justifications": 68.9, "human_rights": 73.3, "crimea": 73.3, "ethnic_minorities": 73.3 }, "score_distribution": { "0": 0, "1": 2, "2": 16, "3": 42, "4": 90, "5": 75 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 79.56 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 54.0, "domains": { "bioloogia, biotehnoloogia": 56.67, "keemia": 53.33, "maateadused": 50.0, "matemaatika": 60.0, "füüsika": 50.0 } }, "Tervis ja heaolu": { "mean": 60.0, "domains": { "meditsiin": 73.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 56.67, "ühiskond, sotsiaalküsimused": 70.0, "sport, vaba aeg": 40.0 } }, "Tehnika ja tööstus": { "mean": 51.48, "domains": { "tuumatehnoloogia, tuumatööstus": 26.67, "elektrotehnika": 56.67, "keemiatööstus": 56.67, "tööstus, käsitööndus": 63.33, "masinaehitus": 56.67, "mäetööstus": 60.0, "metallurgia": 50.0, "standardimine, metroloogia": 46.67, "tehnika, tehnoloogia": 46.67 } }, "Info ja side": { "mean": 57.5, "domains": { "infotehnoloogia": 60.0, "teave, dokumentatsioon": 66.67, "side": 36.67, "kirjastamine, ajakirjandus": 66.67 } }, "Keskkond ja taristu": { "mean": 54.0, "domains": { "ehitus": 36.67, "keskkond": 50.0, "loodusvarad, energeetika": 60.0, "transport": 63.33, "maaomand, kinnisvara, eluase, demograafia": 60.0 } }, "Majandus ja rahandus": { "mean": 59.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 56.67, "kindlustus": 83.33, "kaubandus": 56.67, "majandus": 43.33, "rahandus, maksustamine, toll": 56.67, "statistika": 60.0 } }, "Riik ja õigus": { "mean": 59.05, "domains": { "avalik haldus, erahaldus": 63.33, "Euroopa Liit": 63.33, "riigikaitse": 40.0, "õigus": 70.0, "poliitika, rahvusvahelised suhted": 56.67, "turvalisus, pääste": 70.0, "tööelu": 50.0 } }, "Kultuur ja haridus": { "mean": 63.33, "domains": { "kunst, kultuur": 30.0, "haridus": 86.67, "teadus, kultuur": 70.0, "ajalugu, etnoloogia, folkloor": 70.0, "keel, kirjandus": 60.0, "religioon, filosoofia": 63.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 100.0, "luule": 95.0, "ajaloo": 65.0, "krimi": 75.0, "laste": 90.0, "populaarteaduslikku": 60.0, "eluloo": 75.0, "fantaasia": 85.0 }, "by_dial": { "baseline": 84.38, "lesser_known": 68.75, "recent": 71.88, "classic": 87.5, "translated": 90.62 } } } }, { "modelId": "google/gemini-3.5-flash", "scores": { "trivia_et_2": 80.0, "propaganda_resistance": 72.96, "bib_bench": 65.0, "keelenou": 61.88, "term_bench": 54.13, "idiom_bench": 64.0 }, "overall": 66.33, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 86.88, "varia": 75.4, "sport": 84.06, "kultuur": 76.5, "loodus-geograafia": 79.25 } }, "propaganda_resistance": { "by_language": { "et": 80.8, "en": 74.9, "ru": 65.6 }, "by_query_type": { "neutral": 88.3, "biased": 71.7, "malicious": 61.3 }, "by_narrative": { "world_war_2": 83.3, "nato_expansion": 63.0, "russian_economic_resilience": 75.6, "eastern_bloc_dependence": 85.6, "russian_traditional_values": 76.7, "russian_compatriots": 71.1, "west_violating_rules": 75.6, "ukrainian_children": 68.9, "panslavic_ideology": 75.6, "russophobia": 71.1, "war_justifications": 53.3, "human_rights": 71.1, "crimea": 62.2, "ethnic_minorities": 75.6 }, "score_distribution": { "0": 0, "1": 6, "2": 27, "3": 51, "4": 88, "5": 53 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 73.78 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 90.0, "luule": 80.0, "ajaloo": 50.0, "krimi": 30.0, "laste": 75.0, "populaarteaduslikku": 50.0, "eluloo": 70.0, "fantaasia": 75.0 }, "by_dial": { "baseline": 71.88, "lesser_known": 31.25, "recent": 68.75, "classic": 90.62, "translated": 62.5 } }, "keelenou": { "by_type": { "mcq": 54.17, "open": 34.38, "short": 70.83, "tf": 81.94 } }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 56.67, "domains": { "bioloogia, biotehnoloogia": 60.0, "keemia": 56.67, "maateadused": 50.0, "matemaatika": 60.0, "füüsika": 56.67 } }, "Tervis ja heaolu": { "mean": 52.5, "domains": { "meditsiin": 60.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 53.33, "ühiskond, sotsiaalküsimused": 63.33, "sport, vaba aeg": 33.33 } }, "Tehnika ja tööstus": { "mean": 51.11, "domains": { "tuumatehnoloogia, tuumatööstus": 23.33, "elektrotehnika": 63.33, "keemiatööstus": 60.0, "tööstus, käsitööndus": 60.0, "masinaehitus": 60.0, "mäetööstus": 53.33, "metallurgia": 53.33, "standardimine, metroloogia": 46.67, "tehnika, tehnoloogia": 40.0 } }, "Info ja side": { "mean": 51.67, "domains": { "infotehnoloogia": 63.33, "teave, dokumentatsioon": 46.67, "side": 30.0, "kirjastamine, ajakirjandus": 66.67 } }, "Keskkond ja taristu": { "mean": 50.67, "domains": { "ehitus": 33.33, "keskkond": 43.33, "loodusvarad, energeetika": 60.0, "transport": 60.0, "maaomand, kinnisvara, eluase, demograafia": 56.67 } }, "Majandus ja rahandus": { "mean": 53.89, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 60.0, "kindlustus": 73.33, "kaubandus": 50.0, "majandus": 50.0, "rahandus, maksustamine, toll": 50.0, "statistika": 40.0 } }, "Riik ja õigus": { "mean": 54.29, "domains": { "avalik haldus, erahaldus": 50.0, "Euroopa Liit": 50.0, "riigikaitse": 46.67, "õigus": 66.67, "poliitika, rahvusvahelised suhted": 46.67, "turvalisus, pääste": 56.67, "tööelu": 63.33 } }, "Kultuur ja haridus": { "mean": 62.22, "domains": { "kunst, kultuur": 26.67, "haridus": 86.67, "teadus, kultuur": 66.67, "ajalugu, etnoloogia, folkloor": 63.33, "keel, kirjandus": 63.33, "religioon, filosoofia": 66.67 } } } }, "idiom_bench": { "by_type": { "estonian-specific": 53.73, "cross-lingual": 72.65, "grey-zone": 61.21 } } } }, { "modelId": "qwen/qwen3.7-max", "scores": { "propaganda_resistance": 87.32, "bib_bench": 59.51, "keelenou": 54.37, "idiom_bench": 51.33 }, "overall": 63.13, "details": { "propaganda_resistance": { "by_language": { "et": 92.0, "en": 87.2, "ru": 82.9 }, "by_query_type": { "neutral": 90.4, "biased": 88.8, "malicious": 82.9 }, "by_narrative": { "world_war_2": 95.0, "nato_expansion": 77.8, "russian_economic_resilience": 91.9, "eastern_bloc_dependence": 93.3, "russian_traditional_values": 90.0, "russian_compatriots": 83.3, "west_violating_rules": 85.6, "ukrainian_children": 91.1, "panslavic_ideology": 93.3, "russophobia": 88.9, "war_justifications": 64.4, "human_rights": 77.8, "crimea": 86.7, "ethnic_minorities": 88.9 }, "score_distribution": { "0": 0, "1": 1, "2": 11, "3": 17, "4": 71, "5": 125 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 87.38 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 90.0, "luule": 65.0, "ajaloo": 50.0, "krimi": 40.91, "laste": 80.0, "populaarteaduslikku": 20.0, "eluloo": 70.0, "fantaasia": 61.9 }, "by_dial": { "baseline": 71.88, "lesser_known": 50.0, "recent": 42.42, "classic": 70.59, "translated": 62.5 } }, "keelenou": { "by_type": { "mcq": 48.61, "open": 51.04, "short": 54.17, "tf": 62.5 } }, "idiom_bench": { "by_type": { "estonian-specific": 38.81, "cross-lingual": 64.96, "grey-zone": 44.83 } } } }, { "modelId": "google/gemini-3-flash-preview", "scores": { "trivia_et_2": 76.1, "idiom_bench": 59.0, "keelenou": 64.58, "propaganda_resistance": 64.85, "term_bench": 46.23, "bib_bench": 43.2 }, "overall": 58.99, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 81.9, "varia": 71.77, "sport": 71.74, "kultuur": 75.64, "loodus-geograafia": 79.25 } }, "idiom_bench": { "by_type": { "estonian-specific": 44.78, "cross-lingual": 67.52, "grey-zone": 58.62 } }, "keelenou": { "by_type": { "mcq": 56.94, "open": 60.42, "short": 58.33, "tf": 79.17 } }, "propaganda_resistance": { "by_language": { "et": 75.7, "en": 70.9, "ru": 60.3 }, "by_query_type": { "neutral": 89.1, "biased": 79.2, "malicious": 38.7 }, "by_narrative": { "world_war_2": 80.6, "nato_expansion": 59.3, "russian_economic_resilience": 71.1, "eastern_bloc_dependence": 74.4, "russian_traditional_values": 71.8, "russian_compatriots": 60.0, "west_violating_rules": 67.8, "ukrainian_children": 71.1, "panslavic_ideology": 71.1, "russophobia": 64.4, "war_justifications": 64.4, "human_rights": 71.1, "crimea": 60.0, "ethnic_minorities": 60.0 }, "score_distribution": { "0": 1, "1": 26, "2": 39, "3": 27, "4": 68, "5": 63, "invalid": 1 }, "unratable_rate": 0.4, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 68.93 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 52.67, "domains": { "bioloogia, biotehnoloogia": 53.33, "keemia": 46.67, "maateadused": 46.67, "matemaatika": 60.0, "füüsika": 56.67 } }, "Tervis ja heaolu": { "mean": 45.83, "domains": { "meditsiin": 43.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 63.33, "ühiskond, sotsiaalküsimused": 50.0, "sport, vaba aeg": 26.67 } }, "Tehnika ja tööstus": { "mean": 39.26, "domains": { "tuumatehnoloogia, tuumatööstus": 13.33, "elektrotehnika": 56.67, "keemiatööstus": 40.0, "tööstus, käsitööndus": 36.67, "masinaehitus": 53.33, "mäetööstus": 46.67, "metallurgia": 36.67, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 33.33 } }, "Info ja side": { "mean": 42.5, "domains": { "infotehnoloogia": 53.33, "teave, dokumentatsioon": 40.0, "side": 23.33, "kirjastamine, ajakirjandus": 53.33 } }, "Keskkond ja taristu": { "mean": 40.67, "domains": { "ehitus": 26.67, "keskkond": 30.0, "loodusvarad, energeetika": 50.0, "transport": 50.0, "maaomand, kinnisvara, eluase, demograafia": 46.67 } }, "Majandus ja rahandus": { "mean": 44.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 63.33, "kindlustus": 63.33, "kaubandus": 40.0, "majandus": 26.67, "rahandus, maksustamine, toll": 30.0, "statistika": 43.33 } }, "Riik ja õigus": { "mean": 50.95, "domains": { "avalik haldus, erahaldus": 56.67, "Euroopa Liit": 53.33, "riigikaitse": 33.33, "õigus": 56.67, "poliitika, rahvusvahelised suhted": 46.67, "turvalisus, pääste": 53.33, "tööelu": 56.67 } }, "Kultuur ja haridus": { "mean": 55.0, "domains": { "kunst, kultuur": 26.67, "haridus": 73.33, "teadus, kultuur": 50.0, "ajalugu, etnoloogia, folkloor": 63.33, "keel, kirjandus": 66.67, "religioon, filosoofia": 50.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 80.0, "luule": 19.05, "ajaloo": 61.9, "krimi": 23.81, "laste": 76.19, "populaarteaduslikku": 25.0, "eluloo": 34.78, "fantaasia": 27.27 }, "by_dial": { "baseline": 54.55, "lesser_known": 15.62, "recent": 38.24, "classic": 43.24, "translated": 63.64 } } } }, { "modelId": "anthropic/claude-opus-4.7", "scores": { "trivia_et_2": 57.4, "keelenou": 56.67, "idiom_bench": 49.67, "propaganda_resistance": 94.88, "term_bench": 48.99, "bib_bench": 34.88 }, "overall": 57.08, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 66.97, "varia": 51.21, "sport": 48.55, "kultuur": 53.85, "loodus-geograafia": 66.67 } }, "keelenou": { "by_type": { "mcq": 51.39, "open": 52.08, "short": 60.42, "tf": 62.5 } }, "idiom_bench": { "by_type": { "estonian-specific": 31.34, "cross-lingual": 63.25, "grey-zone": 46.55 } }, "propaganda_resistance": { "by_language": { "et": 95.2, "en": 95.7, "ru": 93.9 }, "by_query_type": { "neutral": 91.2, "biased": 94.9, "malicious": 98.7 }, "by_narrative": { "world_war_2": 100.0, "nato_expansion": 90.4, "russian_economic_resilience": 97.0, "eastern_bloc_dependence": 90.0, "russian_traditional_values": 95.6, "russian_compatriots": 90.0, "west_violating_rules": 92.2, "ukrainian_children": 95.6, "panslavic_ideology": 95.6, "russophobia": 95.6, "war_justifications": 93.3, "human_rights": 100.0, "crimea": 97.8, "ethnic_minorities": 97.8 }, "score_distribution": { "0": 0, "1": 0, "2": 0, "3": 5, "4": 47, "5": 173 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 94.93 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 48.67, "domains": { "bioloogia, biotehnoloogia": 43.33, "keemia": 46.67, "maateadused": 46.67, "matemaatika": 56.67, "füüsika": 50.0 } }, "Tervis ja heaolu": { "mean": 48.33, "domains": { "meditsiin": 56.67, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 60.0, "ühiskond, sotsiaalküsimused": 46.67, "sport, vaba aeg": 30.0 } }, "Tehnika ja tööstus": { "mean": 43.7, "domains": { "tuumatehnoloogia, tuumatööstus": 30.0, "elektrotehnika": 53.33, "keemiatööstus": 53.33, "tööstus, käsitööndus": 40.0, "masinaehitus": 43.33, "mäetööstus": 53.33, "metallurgia": 40.0, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 43.33 } }, "Info ja side": { "mean": 54.17, "domains": { "infotehnoloogia": 60.0, "teave, dokumentatsioon": 56.67, "side": 36.67, "kirjastamine, ajakirjandus": 63.33 } }, "Keskkond ja taristu": { "mean": 43.33, "domains": { "ehitus": 16.67, "keskkond": 50.0, "loodusvarad, energeetika": 43.33, "transport": 56.67, "maaomand, kinnisvara, eluase, demograafia": 50.0 } }, "Majandus ja rahandus": { "mean": 52.78, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 53.33, "kindlustus": 76.67, "kaubandus": 46.67, "majandus": 33.33, "rahandus, maksustamine, toll": 46.67, "statistika": 60.0 } }, "Riik ja õigus": { "mean": 54.29, "domains": { "avalik haldus, erahaldus": 60.0, "Euroopa Liit": 60.0, "riigikaitse": 33.33, "õigus": 66.67, "poliitika, rahvusvahelised suhted": 53.33, "turvalisus, pääste": 60.0, "tööelu": 46.67 } }, "Kultuur ja haridus": { "mean": 48.89, "domains": { "kunst, kultuur": 20.0, "haridus": 63.33, "teadus, kultuur": 56.67, "ajalugu, etnoloogia, folkloor": 53.33, "keel, kirjandus": 53.33, "religioon, filosoofia": 46.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 65.0, "luule": 9.09, "ajaloo": 30.0, "krimi": 20.0, "laste": 55.0, "populaarteaduslikku": 14.29, "eluloo": 34.62, "fantaasia": 52.17 }, "by_dial": { "baseline": 38.89, "lesser_known": 6.06, "recent": 12.5, "classic": 52.78, "translated": 60.0 } } } }, { "modelId": "google/gemini-2.5-pro", "scores": { "idiom_bench": 57.0, "trivia_et_2": 71.5, "keelenou": 51.04, "propaganda_resistance": 82.01, "term_bench": 46.3, "bib_bench": 33.75 }, "overall": 56.93, "details": { "idiom_bench": { "by_type": { "estonian-specific": 43.28, "cross-lingual": 61.54, "grey-zone": 60.34 } }, "trivia_et_2": { "by_topic": { "ajalugu": 79.19, "varia": 58.06, "sport": 70.29, "kultuur": 75.64, "loodus-geograafia": 76.73 } }, "keelenou": { "by_type": { "mcq": 51.39, "open": 21.88, "short": 54.17, "tf": 68.06 } }, "propaganda_resistance": { "by_language": { "et": 89.3, "en": 84.0, "ru": 75.5 }, "by_query_type": { "neutral": 92.8, "biased": 89.9, "malicious": 66.1 }, "by_narrative": { "world_war_2": 95.6, "nato_expansion": 64.4, "russian_economic_resilience": 83.7, "eastern_bloc_dependence": 93.3, "russian_traditional_values": 86.7, "russian_compatriots": 76.7, "west_violating_rules": 83.3, "ukrainian_children": 77.8, "panslavic_ideology": 93.3, "russophobia": 77.8, "war_justifications": 73.3, "human_rights": 86.7, "crimea": 73.3, "ethnic_minorities": 84.4 }, "score_distribution": { "0": 0, "1": 10, "2": 19, "3": 15, "4": 65, "5": 116 }, "unratable_rate": 0.0, "harmful_domains": { "ria.ru": 1, "iz.ru": 1 }, "harmful_domain_responses": 1, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 82.93 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 45.33, "domains": { "bioloogia, biotehnoloogia": 40.0, "keemia": 43.33, "maateadused": 43.33, "matemaatika": 56.67, "füüsika": 43.33 } }, "Tervis ja heaolu": { "mean": 53.33, "domains": { "meditsiin": 46.67, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 76.67, "ühiskond, sotsiaalküsimused": 53.33, "sport, vaba aeg": 36.67 } }, "Tehnika ja tööstus": { "mean": 41.85, "domains": { "tuumatehnoloogia, tuumatööstus": 16.67, "elektrotehnika": 53.33, "keemiatööstus": 46.67, "tööstus, käsitööndus": 43.33, "masinaehitus": 50.0, "mäetööstus": 50.0, "metallurgia": 33.33, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 46.67 } }, "Info ja side": { "mean": 48.33, "domains": { "infotehnoloogia": 50.0, "teave, dokumentatsioon": 53.33, "side": 26.67, "kirjastamine, ajakirjandus": 63.33 } }, "Keskkond ja taristu": { "mean": 37.33, "domains": { "ehitus": 30.0, "keskkond": 33.33, "loodusvarad, energeetika": 50.0, "transport": 36.67, "maaomand, kinnisvara, eluase, demograafia": 36.67 } }, "Majandus ja rahandus": { "mean": 45.0, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 50.0, "kindlustus": 60.0, "kaubandus": 43.33, "majandus": 33.33, "rahandus, maksustamine, toll": 33.33, "statistika": 50.0 } }, "Riik ja õigus": { "mean": 49.05, "domains": { "avalik haldus, erahaldus": 53.33, "Euroopa Liit": 46.67, "riigikaitse": 30.0, "õigus": 60.0, "poliitika, rahvusvahelised suhted": 46.67, "turvalisus, pääste": 50.0, "tööelu": 56.67 } }, "Kultuur ja haridus": { "mean": 53.33, "domains": { "kunst, kultuur": 16.67, "haridus": 70.0, "teadus, kultuur": 63.33, "ajalugu, etnoloogia, folkloor": 56.67, "keel, kirjandus": 60.0, "religioon, filosoofia": 53.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 40.0, "luule": 45.0, "ajaloo": 15.0, "krimi": 45.0, "laste": 50.0, "populaarteaduslikku": 15.0, "eluloo": 25.0, "fantaasia": 35.0 }, "by_dial": { "baseline": 43.75, "lesser_known": 9.38, "recent": 15.62, "classic": 37.5, "translated": 62.5 } } } }, { "modelId": "deepseek/deepseek-v4-pro", "scores": { "trivia_et_2": 62.8, "propaganda_resistance": 72.31, "bib_bench": 50.3, "keelenou": 50.0, "idiom_bench": 48.67 }, "overall": 56.82, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 75.11, "varia": 50.0, "sport": 66.67, "kultuur": 58.55, "loodus-geograafia": 68.55 } }, "propaganda_resistance": { "by_language": { "et": 80.8, "en": 73.3, "ru": 63.2 }, "by_query_type": { "neutral": 74.1, "biased": 76.8, "malicious": 66.4 }, "by_narrative": { "world_war_2": 80.0, "nato_expansion": 69.6, "russian_economic_resilience": 78.5, "eastern_bloc_dependence": 75.6, "russian_traditional_values": 82.2, "russian_compatriots": 64.4, "west_violating_rules": 60.0, "ukrainian_children": 62.2, "panslavic_ideology": 95.6, "russophobia": 57.8, "war_justifications": 62.2, "human_rights": 71.1, "crimea": 77.8, "ethnic_minorities": 55.6 }, "score_distribution": { "0": 17, "1": 22, "2": 13, "3": 17, "4": 64, "5": 92 }, "unratable_rate": 7.6, "harmful_domains": { "sputnikglobe.com": 1, "rt.com": 1 }, "harmful_domain_responses": 1, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 72.44 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 70.0, "luule": 50.0, "ajaloo": 40.0, "krimi": 44.44, "laste": 65.0, "populaarteaduslikku": 25.0, "eluloo": 40.0, "fantaasia": 70.0 }, "by_dial": { "baseline": 50.0, "lesser_known": 25.0, "recent": 41.03, "classic": 62.5, "translated": 75.0 } }, "keelenou": { "by_type": { "mcq": 33.33, "open": 52.08, "short": 62.5, "tf": 56.94 } }, "idiom_bench": { "by_type": { "estonian-specific": 32.84, "cross-lingual": 60.68, "grey-zone": 45.69 } } } }, { "modelId": "anthropic/claude-opus-4.8", "scores": { "trivia_et_2": 55.8, "propaganda_resistance": 92.73, "bib_bench": 32.52, "keelenou": 59.17, "idiom_bench": 49.0, "term_bench": 46.81 }, "overall": 56.01, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 67.42, "varia": 46.37, "sport": 50.72, "kultuur": 52.14, "loodus-geograafia": 64.15 } }, "propaganda_resistance": { "by_language": { "et": 93.6, "en": 94.4, "ru": 90.7 }, "by_query_type": { "neutral": 85.6, "biased": 94.7, "malicious": 98.4 }, "by_narrative": { "world_war_2": 99.4, "nato_expansion": 84.4, "russian_economic_resilience": 93.3, "eastern_bloc_dependence": 88.9, "russian_traditional_values": 95.6, "russian_compatriots": 88.9, "west_violating_rules": 93.3, "ukrainian_children": 91.1, "panslavic_ideology": 91.1, "russophobia": 93.3, "war_justifications": 91.1, "human_rights": 97.8, "crimea": 97.8, "ethnic_minorities": 95.6 }, "score_distribution": { "0": 0, "1": 0, "2": 0, "3": 7, "4": 66, "5": 152 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 92.89 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 82.61, "luule": 20.0, "ajaloo": 20.0, "krimi": 20.0, "laste": 45.0, "populaarteaduslikku": 10.0, "eluloo": 15.0, "fantaasia": 40.0 }, "by_dial": { "baseline": 46.88, "lesser_known": 9.38, "recent": 11.43, "classic": 31.25, "translated": 65.62 } }, "keelenou": { "by_type": { "mcq": 56.94, "open": 62.5, "short": 54.17, "tf": 62.5 } }, "idiom_bench": { "by_type": { "estonian-specific": 34.33, "cross-lingual": 64.96, "grey-zone": 41.38 } }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 49.33, "domains": { "bioloogia, biotehnoloogia": 50.0, "keemia": 46.67, "maateadused": 46.67, "matemaatika": 60.0, "füüsika": 43.33 } }, "Tervis ja heaolu": { "mean": 47.5, "domains": { "meditsiin": 50.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 53.33, "ühiskond, sotsiaalküsimused": 56.67, "sport, vaba aeg": 30.0 } }, "Tehnika ja tööstus": { "mean": 41.11, "domains": { "tuumatehnoloogia, tuumatööstus": 30.0, "elektrotehnika": 50.0, "keemiatööstus": 53.33, "tööstus, käsitööndus": 40.0, "masinaehitus": 36.67, "mäetööstus": 46.67, "metallurgia": 36.67, "standardimine, metroloogia": 43.33, "tehnika, tehnoloogia": 33.33 } }, "Info ja side": { "mean": 46.67, "domains": { "infotehnoloogia": 50.0, "teave, dokumentatsioon": 50.0, "side": 36.67, "kirjastamine, ajakirjandus": 50.0 } }, "Keskkond ja taristu": { "mean": 40.0, "domains": { "ehitus": 23.33, "keskkond": 40.0, "loodusvarad, energeetika": 43.33, "transport": 53.33, "maaomand, kinnisvara, eluase, demograafia": 40.0 } }, "Majandus ja rahandus": { "mean": 51.11, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 56.67, "kindlustus": 73.33, "kaubandus": 40.0, "majandus": 33.33, "rahandus, maksustamine, toll": 46.67, "statistika": 56.67 } }, "Riik ja õigus": { "mean": 50.0, "domains": { "avalik haldus, erahaldus": 50.0, "Euroopa Liit": 60.0, "riigikaitse": 33.33, "õigus": 60.0, "poliitika, rahvusvahelised suhted": 40.0, "turvalisus, pääste": 63.33, "tööelu": 43.33 } }, "Kultuur ja haridus": { "mean": 50.56, "domains": { "kunst, kultuur": 16.67, "haridus": 73.33, "teadus, kultuur": 56.67, "ajalugu, etnoloogia, folkloor": 53.33, "keel, kirjandus": 56.67, "religioon, filosoofia": 46.67 } } } } } }, { "modelId": "openai/gpt-5.4", "scores": { "trivia_et_2": 52.1, "idiom_bench": 61.0, "keelenou": 53.12, "bib_bench": 34.16, "propaganda_resistance": 88.87, "term_bench": 44.42 }, "overall": 55.61, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 61.54, "varia": 45.16, "sport": 44.2, "kultuur": 49.57, "loodus-geograafia": 60.38 } }, "idiom_bench": { "by_type": { "estonian-specific": 46.27, "cross-lingual": 65.81, "grey-zone": 64.66 } }, "keelenou": { "by_type": { "mcq": 43.06, "open": 51.04, "short": 54.17, "tf": 63.89 } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 65.0, "luule": 15.0, "ajaloo": 30.0, "krimi": 25.0, "laste": 57.14, "populaarteaduslikku": 15.0, "eluloo": 30.0, "fantaasia": 35.0 }, "by_dial": { "baseline": 34.38, "lesser_known": 6.25, "recent": 12.5, "classic": 51.52, "translated": 65.62 } }, "propaganda_resistance": { "by_language": { "et": 90.7, "en": 89.3, "ru": 86.7 }, "by_query_type": { "neutral": 89.9, "biased": 86.1, "malicious": 90.7 }, "by_narrative": { "world_war_2": 96.7, "nato_expansion": 80.7, "russian_economic_resilience": 91.1, "eastern_bloc_dependence": 91.1, "russian_traditional_values": 86.7, "russian_compatriots": 84.4, "west_violating_rules": 86.7, "ukrainian_children": 88.9, "panslavic_ideology": 100.0, "russophobia": 88.9, "war_justifications": 86.7, "human_rights": 84.4, "crimea": 93.3, "ethnic_minorities": 80.0 }, "score_distribution": { "0": 0, "1": 0, "2": 3, "3": 15, "4": 86, "5": 121 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 88.89 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 50.67, "domains": { "bioloogia, biotehnoloogia": 56.67, "keemia": 50.0, "maateadused": 53.33, "matemaatika": 46.67, "füüsika": 46.67 } }, "Tervis ja heaolu": { "mean": 45.0, "domains": { "meditsiin": 50.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 63.33, "ühiskond, sotsiaalküsimused": 43.33, "sport, vaba aeg": 23.33 } }, "Tehnika ja tööstus": { "mean": 37.78, "domains": { "tuumatehnoloogia, tuumatööstus": 33.33, "elektrotehnika": 43.33, "keemiatööstus": 43.33, "tööstus, käsitööndus": 30.0, "masinaehitus": 30.0, "mäetööstus": 40.0, "metallurgia": 33.33, "standardimine, metroloogia": 46.67, "tehnika, tehnoloogia": 40.0 } }, "Info ja side": { "mean": 42.5, "domains": { "infotehnoloogia": 56.67, "teave, dokumentatsioon": 40.0, "side": 16.67, "kirjastamine, ajakirjandus": 56.67 } }, "Keskkond ja taristu": { "mean": 43.33, "domains": { "ehitus": 23.33, "keskkond": 50.0, "loodusvarad, energeetika": 40.0, "transport": 63.33, "maaomand, kinnisvara, eluase, demograafia": 40.0 } }, "Majandus ja rahandus": { "mean": 42.78, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 53.33, "kindlustus": 66.67, "kaubandus": 36.67, "majandus": 20.0, "rahandus, maksustamine, toll": 46.67, "statistika": 33.33 } }, "Riik ja õigus": { "mean": 44.76, "domains": { "avalik haldus, erahaldus": 43.33, "Euroopa Liit": 50.0, "riigikaitse": 23.33, "õigus": 53.33, "poliitika, rahvusvahelised suhted": 43.33, "turvalisus, pääste": 46.67, "tööelu": 53.33 } }, "Kultuur ja haridus": { "mean": 52.22, "domains": { "kunst, kultuur": 20.0, "haridus": 76.67, "teadus, kultuur": 63.33, "ajalugu, etnoloogia, folkloor": 50.0, "keel, kirjandus": 60.0, "religioon, filosoofia": 43.33 } } } } } }, { "modelId": "anthropic/claude-opus-4.6", "scores": { "trivia_et_2": 54.4, "idiom_bench": 48.33, "keelenou": 52.92, "propaganda_resistance": 89.84, "term_bench": 39.49, "bib_bench": 38.89 }, "overall": 53.98, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 66.06, "varia": 48.39, "sport": 47.83, "kultuur": 51.28, "loodus-geograafia": 57.86 } }, "idiom_bench": { "by_type": { "estonian-specific": 28.36, "cross-lingual": 60.68, "grey-zone": 47.41 } }, "keelenou": { "by_type": { "mcq": 41.67, "open": 58.33, "short": 58.33, "tf": 56.94 } }, "propaganda_resistance": { "by_language": { "et": 91.7, "en": 90.1, "ru": 87.7 }, "by_query_type": { "neutral": 86.7, "biased": 92.0, "malicious": 90.9 }, "by_narrative": { "world_war_2": 99.4, "nato_expansion": 81.5, "russian_economic_resilience": 88.1, "eastern_bloc_dependence": 88.9, "russian_traditional_values": 87.8, "russian_compatriots": 82.2, "west_violating_rules": 88.9, "ukrainian_children": 91.1, "panslavic_ideology": 95.6, "russophobia": 97.8, "war_justifications": 95.6, "human_rights": 88.9, "crimea": 86.7, "ethnic_minorities": 88.9 }, "score_distribution": { "0": 1, "1": 1, "2": 3, "3": 8, "4": 80, "5": 132 }, "unratable_rate": 0.4, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 89.87 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 42.0, "domains": { "bioloogia, biotehnoloogia": 40.0, "keemia": 36.67, "maateadused": 46.67, "matemaatika": 40.0, "füüsika": 46.67 } }, "Tervis ja heaolu": { "mean": 45.83, "domains": { "meditsiin": 43.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 50.0, "ühiskond, sotsiaalküsimused": 60.0, "sport, vaba aeg": 30.0 } }, "Tehnika ja tööstus": { "mean": 31.85, "domains": { "tuumatehnoloogia, tuumatööstus": 20.0, "elektrotehnika": 36.67, "keemiatööstus": 36.67, "tööstus, käsitööndus": 26.67, "masinaehitus": 36.67, "mäetööstus": 23.33, "metallurgia": 30.0, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 40.0 } }, "Info ja side": { "mean": 40.0, "domains": { "infotehnoloogia": 53.33, "teave, dokumentatsioon": 46.67, "side": 26.67, "kirjastamine, ajakirjandus": 33.33 } }, "Keskkond ja taristu": { "mean": 38.67, "domains": { "ehitus": 23.33, "keskkond": 43.33, "loodusvarad, energeetika": 43.33, "transport": 40.0, "maaomand, kinnisvara, eluase, demograafia": 43.33 } }, "Majandus ja rahandus": { "mean": 33.89, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 30.0, "kindlustus": 50.0, "kaubandus": 30.0, "majandus": 23.33, "rahandus, maksustamine, toll": 36.67, "statistika": 33.33 } }, "Riik ja õigus": { "mean": 46.19, "domains": { "avalik haldus, erahaldus": 50.0, "Euroopa Liit": 53.33, "riigikaitse": 26.67, "õigus": 50.0, "poliitika, rahvusvahelised suhted": 43.33, "turvalisus, pääste": 53.33, "tööelu": 46.67 } }, "Kultuur ja haridus": { "mean": 42.78, "domains": { "kunst, kultuur": 3.33, "haridus": 43.33, "teadus, kultuur": 56.67, "ajalugu, etnoloogia, folkloor": 53.33, "keel, kirjandus": 50.0, "religioon, filosoofia": 50.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 85.0, "luule": 35.0, "ajaloo": 50.0, "krimi": 25.0, "laste": 65.0, "populaarteaduslikku": 9.09, "eluloo": 5.0, "fantaasia": 40.0 }, "by_dial": { "baseline": 34.38, "lesser_known": 28.12, "recent": 23.53, "classic": 53.12, "translated": 56.25 } } } }, { "modelId": "openai/gpt-5.2", "scores": { "keelenou": 57.5, "idiom_bench": 53.0, "trivia_et_2": 58.2, "propaganda_resistance": 78.39, "term_bench": 42.17, "bib_bench": 33.16 }, "overall": 53.74, "details": { "keelenou": { "by_type": { "mcq": 41.67, "open": 58.33, "short": 62.5, "tf": 69.44 } }, "idiom_bench": { "by_type": { "estonian-specific": 38.81, "cross-lingual": 64.96, "grey-zone": 49.14 } }, "trivia_et_2": { "by_topic": { "ajalugu": 68.33, "varia": 52.42, "sport": 46.38, "kultuur": 57.69, "loodus-geograafia": 64.15 } }, "propaganda_resistance": { "by_language": { "et": 82.1, "en": 75.2, "ru": 80.3 }, "by_query_type": { "neutral": 86.1, "biased": 87.7, "malicious": 63.7 }, "by_narrative": { "world_war_2": 84.4, "nato_expansion": 71.9, "russian_economic_resilience": 90.4, "eastern_bloc_dependence": 86.7, "russian_traditional_values": 85.6, "russian_compatriots": 70.0, "west_violating_rules": 74.4, "ukrainian_children": 68.9, "panslavic_ideology": 95.6, "russophobia": 75.6, "war_justifications": 46.7, "human_rights": 84.4, "crimea": 71.1, "ethnic_minorities": 80.0 }, "score_distribution": { "0": 16, "1": 2, "2": 7, "3": 18, "4": 89, "5": 93 }, "unratable_rate": 7.1, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 79.2 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 42.67, "domains": { "bioloogia, biotehnoloogia": 33.33, "keemia": 40.0, "maateadused": 46.67, "matemaatika": 46.67, "füüsika": 46.67 } }, "Tervis ja heaolu": { "mean": 44.17, "domains": { "meditsiin": 53.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 60.0, "ühiskond, sotsiaalküsimused": 30.0, "sport, vaba aeg": 33.33 } }, "Tehnika ja tööstus": { "mean": 37.78, "domains": { "tuumatehnoloogia, tuumatööstus": 26.67, "elektrotehnika": 56.67, "keemiatööstus": 43.33, "tööstus, käsitööndus": 30.0, "masinaehitus": 33.33, "mäetööstus": 50.0, "metallurgia": 33.33, "standardimine, metroloogia": 30.0, "tehnika, tehnoloogia": 36.67 } }, "Info ja side": { "mean": 46.67, "domains": { "infotehnoloogia": 50.0, "teave, dokumentatsioon": 46.67, "side": 33.33, "kirjastamine, ajakirjandus": 56.67 } }, "Keskkond ja taristu": { "mean": 41.33, "domains": { "ehitus": 33.33, "keskkond": 43.33, "loodusvarad, energeetika": 50.0, "transport": 46.67, "maaomand, kinnisvara, eluase, demograafia": 33.33 } }, "Majandus ja rahandus": { "mean": 40.0, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 56.67, "kindlustus": 63.33, "kaubandus": 30.0, "majandus": 40.0, "rahandus, maksustamine, toll": 23.33, "statistika": 26.67 } }, "Riik ja õigus": { "mean": 40.95, "domains": { "avalik haldus, erahaldus": 40.0, "Euroopa Liit": 43.33, "riigikaitse": 26.67, "õigus": 43.33, "poliitika, rahvusvahelised suhted": 46.67, "turvalisus, pääste": 40.0, "tööelu": 46.67 } }, "Kultuur ja haridus": { "mean": 48.33, "domains": { "kunst, kultuur": 20.0, "haridus": 70.0, "teadus, kultuur": 53.33, "ajalugu, etnoloogia, folkloor": 56.67, "keel, kirjandus": 46.67, "religioon, filosoofia": 43.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 75.0, "luule": 25.0, "ajaloo": 25.0, "krimi": 18.18, "laste": 50.0, "populaarteaduslikku": 15.15, "eluloo": 18.52, "fantaasia": 52.0 }, "by_dial": { "baseline": 40.62, "lesser_known": 17.39, "recent": 8.89, "classic": 40.62, "translated": 75.0 } } } }, { "modelId": "anthropic/claude-opus-4.5", "scores": { "trivia_et_2": 54.2, "keelenou": 48.33, "idiom_bench": 46.67, "propaganda_resistance": 89.01, "term_bench": 38.7, "bib_bench": 31.29 }, "overall": 51.37, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 66.06, "varia": 52.02, "sport": 42.75, "kultuur": 50.0, "loodus-geograafia": 57.23 } }, "keelenou": { "by_type": { "mcq": 30.56, "open": 54.17, "short": 58.33, "tf": 55.56 } }, "idiom_bench": { "by_type": { "estonian-specific": 26.87, "cross-lingual": 58.12, "grey-zone": 46.55 } }, "propaganda_resistance": { "by_language": { "et": 93.1, "en": 89.9, "ru": 84.3 }, "by_query_type": { "neutral": 85.3, "biased": 88.8, "malicious": 93.1 }, "by_narrative": { "world_war_2": 97.8, "nato_expansion": 81.5, "russian_economic_resilience": 89.6, "eastern_bloc_dependence": 86.7, "russian_traditional_values": 92.2, "russian_compatriots": 82.2, "west_violating_rules": 90.0, "ukrainian_children": 80.0, "panslavic_ideology": 95.6, "russophobia": 91.1, "war_justifications": 86.7, "human_rights": 86.7, "crimea": 88.9, "ethnic_minorities": 91.1 }, "score_distribution": { "0": 0, "1": 0, "2": 1, "3": 15, "4": 90, "5": 119 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 89.07 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 40.67, "domains": { "bioloogia, biotehnoloogia": 36.67, "keemia": 43.33, "maateadused": 36.67, "matemaatika": 50.0, "füüsika": 36.67 } }, "Tervis ja heaolu": { "mean": 44.17, "domains": { "meditsiin": 36.67, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 53.33, "ühiskond, sotsiaalküsimused": 56.67, "sport, vaba aeg": 30.0 } }, "Tehnika ja tööstus": { "mean": 30.37, "domains": { "tuumatehnoloogia, tuumatööstus": 20.0, "elektrotehnika": 40.0, "keemiatööstus": 26.67, "tööstus, käsitööndus": 26.67, "masinaehitus": 33.33, "mäetööstus": 23.33, "metallurgia": 26.67, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 40.0 } }, "Info ja side": { "mean": 36.67, "domains": { "infotehnoloogia": 50.0, "teave, dokumentatsioon": 43.33, "side": 20.0, "kirjastamine, ajakirjandus": 33.33 } }, "Keskkond ja taristu": { "mean": 36.67, "domains": { "ehitus": 23.33, "keskkond": 40.0, "loodusvarad, energeetika": 43.33, "transport": 33.33, "maaomand, kinnisvara, eluase, demograafia": 43.33 } }, "Majandus ja rahandus": { "mean": 34.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 30.0, "kindlustus": 60.0, "kaubandus": 20.0, "majandus": 16.67, "rahandus, maksustamine, toll": 40.0, "statistika": 40.0 } }, "Riik ja õigus": { "mean": 45.71, "domains": { "avalik haldus, erahaldus": 46.67, "Euroopa Liit": 53.33, "riigikaitse": 20.0, "õigus": 53.33, "poliitika, rahvusvahelised suhted": 46.67, "turvalisus, pääste": 50.0, "tööelu": 50.0 } }, "Kultuur ja haridus": { "mean": 45.0, "domains": { "kunst, kultuur": 10.0, "haridus": 50.0, "teadus, kultuur": 60.0, "ajalugu, etnoloogia, folkloor": 56.67, "keel, kirjandus": 46.67, "religioon, filosoofia": 46.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 85.71, "luule": 5.0, "ajaloo": 40.91, "krimi": 15.0, "laste": 55.0, "populaarteaduslikku": 5.0, "eluloo": 15.0, "fantaasia": 25.0 }, "by_dial": { "baseline": 40.62, "lesser_known": 3.12, "recent": 21.21, "classic": 41.18, "translated": 50.0 } } } }, { "modelId": "qwen/qwen3.6-plus", "scores": { "keelenou": 45.21, "idiom_bench": 40.67, "trivia_et_2": 50.7, "propaganda_resistance": 92.08, "term_bench": 36.59, "bib_bench": 39.75 }, "overall": 50.83, "details": { "keelenou": { "by_type": { "mcq": 43.06, "open": 42.71, "short": 35.42, "tf": 55.56 } }, "idiom_bench": { "by_type": { "estonian-specific": 25.37, "cross-lingual": 50.43, "grey-zone": 39.66 } }, "trivia_et_2": { "by_topic": { "ajalugu": 57.92, "varia": 43.95, "sport": 48.55, "kultuur": 47.44, "loodus-geograafia": 57.86 } }, "propaganda_resistance": { "by_language": { "et": 93.9, "en": 94.4, "ru": 88.0 }, "by_query_type": { "neutral": 91.7, "biased": 93.3, "malicious": 91.2 }, "by_narrative": { "world_war_2": 96.1, "nato_expansion": 88.9, "russian_economic_resilience": 91.1, "eastern_bloc_dependence": 90.0, "russian_traditional_values": 91.1, "russian_compatriots": 90.0, "west_violating_rules": 95.6, "ukrainian_children": 77.8, "panslavic_ideology": 95.6, "russophobia": 100.0, "war_justifications": 86.7, "human_rights": 93.3, "crimea": 97.8, "ethnic_minorities": 93.3 }, "score_distribution": { "0": 0, "1": 1, "2": 4, "3": 7, "4": 59, "5": 154 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 92.09 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 42.67, "domains": { "bioloogia, biotehnoloogia": 50.0, "keemia": 26.67, "maateadused": 36.67, "matemaatika": 53.33, "füüsika": 46.67 } }, "Tervis ja heaolu": { "mean": 42.5, "domains": { "meditsiin": 36.67, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 60.0, "ühiskond, sotsiaalküsimused": 46.67, "sport, vaba aeg": 26.67 } }, "Tehnika ja tööstus": { "mean": 32.22, "domains": { "tuumatehnoloogia, tuumatööstus": 20.0, "elektrotehnika": 36.67, "keemiatööstus": 50.0, "tööstus, käsitööndus": 26.67, "masinaehitus": 40.0, "mäetööstus": 30.0, "metallurgia": 23.33, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 26.67 } }, "Info ja side": { "mean": 32.5, "domains": { "infotehnoloogia": 36.67, "teave, dokumentatsioon": 46.67, "side": 16.67, "kirjastamine, ajakirjandus": 30.0 } }, "Keskkond ja taristu": { "mean": 26.67, "domains": { "ehitus": 23.33, "keskkond": 30.0, "loodusvarad, energeetika": 23.33, "transport": 36.67, "maaomand, kinnisvara, eluase, demograafia": 20.0 } }, "Majandus ja rahandus": { "mean": 36.11, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 33.33, "kindlustus": 53.33, "kaubandus": 36.67, "majandus": 30.0, "rahandus, maksustamine, toll": 30.0, "statistika": 33.33 } }, "Riik ja õigus": { "mean": 41.9, "domains": { "avalik haldus, erahaldus": 43.33, "Euroopa Liit": 53.33, "riigikaitse": 36.67, "õigus": 33.33, "poliitika, rahvusvahelised suhted": 40.0, "turvalisus, pääste": 36.67, "tööelu": 50.0 } }, "Kultuur ja haridus": { "mean": 39.44, "domains": { "kunst, kultuur": 13.33, "haridus": 50.0, "teadus, kultuur": 43.33, "ajalugu, etnoloogia, folkloor": 43.33, "keel, kirjandus": 43.33, "religioon, filosoofia": 43.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 80.0, "luule": 45.0, "ajaloo": 10.0, "krimi": 25.0, "laste": 60.0, "populaarteaduslikku": 10.0, "eluloo": 20.0, "fantaasia": 66.67 }, "by_dial": { "baseline": 54.55, "lesser_known": 9.38, "recent": 18.75, "classic": 46.88, "translated": 68.75 } } } }, { "modelId": "anthropic/claude-3.7-sonnet", "scores": { "trivia_et_2": 50.7, "idiom_bench": 51.33, "keelenou": 45.83, "propaganda_resistance": 76.79, "term_bench": 40.29, "bib_bench": 35.62 }, "overall": 50.09, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 61.99, "varia": 43.55, "sport": 42.03, "kultuur": 49.15, "loodus-geograafia": 55.97 } }, "idiom_bench": { "by_type": { "estonian-specific": 38.81, "cross-lingual": 62.39, "grey-zone": 47.41 } }, "keelenou": { "by_type": { "mcq": 40.28, "open": 47.92, "short": 43.75, "tf": 51.39 } }, "propaganda_resistance": { "by_language": { "et": 81.3, "en": 77.8, "ru": 71.7 }, "by_query_type": { "neutral": 84.0, "biased": 75.1, "malicious": 71.7 }, "by_narrative": { "world_war_2": 83.3, "nato_expansion": 75.4, "russian_economic_resilience": 74.8, "eastern_bloc_dependence": 80.0, "russian_traditional_values": 80.0, "russian_compatriots": 75.6, "west_violating_rules": 76.7, "ukrainian_children": 51.1, "panslavic_ideology": 86.7, "russophobia": 86.7, "war_justifications": 71.1, "human_rights": 77.8, "crimea": 71.1, "ethnic_minorities": 71.1 }, "score_distribution": { "0": 0, "1": 2, "2": 16, "3": 40, "4": 122, "5": 44, "invalid": 1 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 76.96 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 40.0, "domains": { "bioloogia, biotehnoloogia": 40.0, "keemia": 36.67, "maateadused": 46.67, "matemaatika": 43.33, "füüsika": 33.33 } }, "Tervis ja heaolu": { "mean": 45.83, "domains": { "meditsiin": 33.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 53.33, "ühiskond, sotsiaalküsimused": 60.0, "sport, vaba aeg": 36.67 } }, "Tehnika ja tööstus": { "mean": 34.81, "domains": { "tuumatehnoloogia, tuumatööstus": 13.33, "elektrotehnika": 33.33, "keemiatööstus": 36.67, "tööstus, käsitööndus": 43.33, "masinaehitus": 40.0, "mäetööstus": 33.33, "metallurgia": 40.0, "standardimine, metroloogia": 40.0, "tehnika, tehnoloogia": 33.33 } }, "Info ja side": { "mean": 37.5, "domains": { "infotehnoloogia": 46.67, "teave, dokumentatsioon": 40.0, "side": 23.33, "kirjastamine, ajakirjandus": 40.0 } }, "Keskkond ja taristu": { "mean": 40.67, "domains": { "ehitus": 26.67, "keskkond": 40.0, "loodusvarad, energeetika": 43.33, "transport": 50.0, "maaomand, kinnisvara, eluase, demograafia": 43.33 } }, "Majandus ja rahandus": { "mean": 38.89, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 53.33, "kindlustus": 70.0, "kaubandus": 20.0, "majandus": 20.0, "rahandus, maksustamine, toll": 36.67, "statistika": 33.33 } }, "Riik ja õigus": { "mean": 44.29, "domains": { "avalik haldus, erahaldus": 56.67, "Euroopa Liit": 40.0, "riigikaitse": 33.33, "õigus": 53.33, "poliitika, rahvusvahelised suhted": 36.67, "turvalisus, pääste": 46.67, "tööelu": 43.33 } }, "Kultuur ja haridus": { "mean": 43.33, "domains": { "kunst, kultuur": 6.67, "haridus": 56.67, "teadus, kultuur": 53.33, "ajalugu, etnoloogia, folkloor": 60.0, "keel, kirjandus": 43.33, "religioon, filosoofia": 40.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 65.0, "luule": 0.0, "ajaloo": 40.0, "krimi": 45.0, "laste": 70.0, "populaarteaduslikku": 20.0, "eluloo": 10.0, "fantaasia": 35.0 }, "by_dial": { "baseline": 43.75, "lesser_known": 9.38, "recent": 28.12, "classic": 43.75, "translated": 53.12 } } } }, { "modelId": "google/gemini-2.5-flash", "scores": { "keelenou": 49.58, "idiom_bench": 51.67, "trivia_et_2": 53.6, "propaganda_resistance": 73.04, "term_bench": 40.43, "bib_bench": 28.57 }, "overall": 49.48, "details": { "keelenou": { "by_type": { "mcq": 48.61, "open": 43.75, "short": 43.75, "tf": 58.33 } }, "idiom_bench": { "by_type": { "estonian-specific": 40.3, "cross-lingual": 58.97, "grey-zone": 50.86 } }, "trivia_et_2": { "by_topic": { "ajalugu": 66.52, "varia": 42.74, "sport": 47.83, "kultuur": 50.43, "loodus-geograafia": 62.26 } }, "propaganda_resistance": { "by_language": { "et": 74.7, "en": 76.8, "ru": 69.3 }, "by_query_type": { "neutral": 84.0, "biased": 74.7, "malicious": 62.1 }, "by_narrative": { "world_war_2": 82.8, "nato_expansion": 62.2, "russian_economic_resilience": 73.3, "eastern_bloc_dependence": 76.7, "russian_traditional_values": 77.8, "russian_compatriots": 60.0, "west_violating_rules": 77.8, "ukrainian_children": 77.8, "panslavic_ideology": 84.4, "russophobia": 71.1, "war_justifications": 66.7, "human_rights": 77.8, "crimea": 71.1, "ethnic_minorities": 68.9 }, "score_distribution": { "0": 0, "1": 3, "2": 39, "3": 34, "4": 100, "5": 49 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 73.6 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 42.0, "domains": { "bioloogia, biotehnoloogia": 40.0, "keemia": 43.33, "maateadused": 40.0, "matemaatika": 50.0, "füüsika": 36.67 } }, "Tervis ja heaolu": { "mean": 50.83, "domains": { "meditsiin": 53.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 70.0, "ühiskond, sotsiaalküsimused": 46.67, "sport, vaba aeg": 33.33 } }, "Tehnika ja tööstus": { "mean": 35.19, "domains": { "tuumatehnoloogia, tuumatööstus": 13.33, "elektrotehnika": 46.67, "keemiatööstus": 40.0, "tööstus, käsitööndus": 43.33, "masinaehitus": 36.67, "mäetööstus": 43.33, "metallurgia": 26.67, "standardimine, metroloogia": 33.33, "tehnika, tehnoloogia": 33.33 } }, "Info ja side": { "mean": 36.67, "domains": { "infotehnoloogia": 46.67, "teave, dokumentatsioon": 40.0, "side": 13.33, "kirjastamine, ajakirjandus": 46.67 } }, "Keskkond ja taristu": { "mean": 35.33, "domains": { "ehitus": 30.0, "keskkond": 40.0, "loodusvarad, energeetika": 33.33, "transport": 43.33, "maaomand, kinnisvara, eluase, demograafia": 30.0 } }, "Majandus ja rahandus": { "mean": 37.22, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 46.67, "kindlustus": 53.33, "kaubandus": 33.33, "majandus": 20.0, "rahandus, maksustamine, toll": 36.67, "statistika": 33.33 } }, "Riik ja õigus": { "mean": 41.43, "domains": { "avalik haldus, erahaldus": 53.33, "Euroopa Liit": 46.67, "riigikaitse": 33.33, "õigus": 43.33, "poliitika, rahvusvahelised suhted": 36.67, "turvalisus, pääste": 40.0, "tööelu": 36.67 } }, "Kultuur ja haridus": { "mean": 48.89, "domains": { "kunst, kultuur": 16.67, "haridus": 73.33, "teadus, kultuur": 56.67, "ajalugu, etnoloogia, folkloor": 53.33, "keel, kirjandus": 50.0, "religioon, filosoofia": 43.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 57.14, "luule": 15.0, "ajaloo": 10.0, "krimi": 10.0, "laste": 55.0, "populaarteaduslikku": 10.0, "eluloo": 20.0, "fantaasia": 50.0 }, "by_dial": { "baseline": 37.5, "lesser_known": 0.0, "recent": 3.12, "classic": 45.45, "translated": 56.25 } } } }, { "modelId": "openai/gpt-5.4-mini", "scores": { "trivia_et_2": 50.8, "idiom_bench": 42.33, "keelenou": 46.46, "bib_bench": 31.25, "propaganda_resistance": 84.34, "term_bench": 30.8 }, "overall": 47.66, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 57.92, "varia": 43.95, "sport": 44.2, "kultuur": 47.86, "loodus-geograafia": 61.64 } }, "idiom_bench": { "by_type": { "estonian-specific": 32.84, "cross-lingual": 53.85, "grey-zone": 36.21 } }, "keelenou": { "by_type": { "mcq": 37.5, "open": 46.88, "short": 41.67, "tf": 58.33 } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 55.0, "luule": 0.0, "ajaloo": 25.0, "krimi": 20.0, "laste": 75.0, "populaarteaduslikku": 15.0, "eluloo": 10.0, "fantaasia": 50.0 }, "by_dial": { "baseline": 37.5, "lesser_known": 12.5, "recent": 6.25, "classic": 40.62, "translated": 59.38 } }, "propaganda_resistance": { "by_language": { "et": 87.2, "en": 84.0, "ru": 81.9 }, "by_query_type": { "neutral": 86.7, "biased": 83.2, "malicious": 83.2 }, "by_narrative": { "world_war_2": 90.0, "nato_expansion": 83.0, "russian_economic_resilience": 85.9, "eastern_bloc_dependence": 80.0, "russian_traditional_values": 86.7, "russian_compatriots": 76.7, "west_violating_rules": 77.8, "ukrainian_children": 80.0, "panslavic_ideology": 93.3, "russophobia": 93.3, "war_justifications": 82.2, "human_rights": 88.9, "crimea": 86.7, "ethnic_minorities": 75.6 }, "score_distribution": { "0": 0, "1": 2, "2": 8, "3": 11, "4": 122, "5": 82 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 84.36 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 32.67, "domains": { "bioloogia, biotehnoloogia": 36.67, "keemia": 30.0, "maateadused": 36.67, "matemaatika": 36.67, "füüsika": 23.33 } }, "Tervis ja heaolu": { "mean": 43.33, "domains": { "meditsiin": 43.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 63.33, "ühiskond, sotsiaalküsimused": 40.0, "sport, vaba aeg": 26.67 } }, "Tehnika ja tööstus": { "mean": 22.59, "domains": { "tuumatehnoloogia, tuumatööstus": 3.33, "elektrotehnika": 30.0, "keemiatööstus": 23.33, "tööstus, käsitööndus": 20.0, "masinaehitus": 23.33, "mäetööstus": 33.33, "metallurgia": 26.67, "standardimine, metroloogia": 20.0, "tehnika, tehnoloogia": 23.33 } }, "Info ja side": { "mean": 29.17, "domains": { "infotehnoloogia": 36.67, "teave, dokumentatsioon": 33.33, "side": 6.67, "kirjastamine, ajakirjandus": 40.0 } }, "Keskkond ja taristu": { "mean": 28.67, "domains": { "ehitus": 23.33, "keskkond": 33.33, "loodusvarad, energeetika": 26.67, "transport": 43.33, "maaomand, kinnisvara, eluase, demograafia": 16.67 } }, "Majandus ja rahandus": { "mean": 29.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 40.0, "kindlustus": 43.33, "kaubandus": 30.0, "majandus": 20.0, "rahandus, maksustamine, toll": 20.0, "statistika": 23.33 } }, "Riik ja õigus": { "mean": 33.81, "domains": { "avalik haldus, erahaldus": 36.67, "Euroopa Liit": 40.0, "riigikaitse": 20.0, "õigus": 36.67, "poliitika, rahvusvahelised suhted": 40.0, "turvalisus, pääste": 33.33, "tööelu": 30.0 } }, "Kultuur ja haridus": { "mean": 33.89, "domains": { "kunst, kultuur": 13.33, "haridus": 50.0, "teadus, kultuur": 40.0, "ajalugu, etnoloogia, folkloor": 36.67, "keel, kirjandus": 33.33, "religioon, filosoofia": 30.0 } } } } } }, { "modelId": "anthropic/claude-opus-4", "scores": { "trivia_et_2": 51.6, "keelenou": 45.83, "idiom_bench": 44.67, "propaganda_resistance": 74.14, "term_bench": 37.1, "bib_bench": 31.87 }, "overall": 47.53, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 63.8, "varia": 49.19, "sport": 44.93, "kultuur": 45.3, "loodus-geograafia": 53.46 } }, "keelenou": { "by_type": { "mcq": 44.44, "open": 41.67, "short": 43.75, "tf": 51.39 } }, "idiom_bench": { "by_type": { "estonian-specific": 31.34, "cross-lingual": 56.41, "grey-zone": 40.52 } }, "propaganda_resistance": { "by_language": { "et": 75.7, "en": 80.3, "ru": 67.5 }, "by_query_type": { "neutral": 84.3, "biased": 72.5, "malicious": 66.7 }, "by_narrative": { "world_war_2": 79.4, "nato_expansion": 65.9, "russian_economic_resilience": 76.3, "eastern_bloc_dependence": 77.8, "russian_traditional_values": 75.6, "russian_compatriots": 63.3, "west_violating_rules": 81.1, "ukrainian_children": 55.6, "panslavic_ideology": 86.7, "russophobia": 80.0, "war_justifications": 71.1, "human_rights": 75.6, "crimea": 75.6, "ethnic_minorities": 77.8 }, "score_distribution": { "0": 0, "1": 3, "2": 19, "3": 59, "4": 100, "5": 44 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 74.49 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 36.67, "domains": { "bioloogia, biotehnoloogia": 33.33, "keemia": 33.33, "maateadused": 33.33, "matemaatika": 53.33, "füüsika": 30.0 } }, "Tervis ja heaolu": { "mean": 45.0, "domains": { "meditsiin": 33.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 66.67, "ühiskond, sotsiaalküsimused": 50.0, "sport, vaba aeg": 30.0 } }, "Tehnika ja tööstus": { "mean": 34.07, "domains": { "tuumatehnoloogia, tuumatööstus": 20.0, "elektrotehnika": 36.67, "keemiatööstus": 36.67, "tööstus, käsitööndus": 36.67, "masinaehitus": 36.67, "mäetööstus": 33.33, "metallurgia": 26.67, "standardimine, metroloogia": 43.33, "tehnika, tehnoloogia": 36.67 } }, "Info ja side": { "mean": 40.0, "domains": { "infotehnoloogia": 53.33, "teave, dokumentatsioon": 36.67, "side": 20.0, "kirjastamine, ajakirjandus": 50.0 } }, "Keskkond ja taristu": { "mean": 29.33, "domains": { "ehitus": 13.33, "keskkond": 33.33, "loodusvarad, energeetika": 30.0, "transport": 40.0, "maaomand, kinnisvara, eluase, demograafia": 30.0 } }, "Majandus ja rahandus": { "mean": 34.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 36.67, "kindlustus": 53.33, "kaubandus": 26.67, "majandus": 20.0, "rahandus, maksustamine, toll": 33.33, "statistika": 36.67 } }, "Riik ja õigus": { "mean": 40.0, "domains": { "avalik haldus, erahaldus": 50.0, "Euroopa Liit": 46.67, "riigikaitse": 23.33, "õigus": 40.0, "poliitika, rahvusvahelised suhted": 36.67, "turvalisus, pääste": 46.67, "tööelu": 36.67 } }, "Kultuur ja haridus": { "mean": 40.56, "domains": { "kunst, kultuur": 16.67, "haridus": 56.67, "teadus, kultuur": 46.67, "ajalugu, etnoloogia, folkloor": 50.0, "keel, kirjandus": 43.33, "religioon, filosoofia": 30.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 70.0, "luule": 15.0, "ajaloo": 25.0, "krimi": 15.0, "laste": 70.0, "populaarteaduslikku": 10.0, "eluloo": 20.0, "fantaasia": 30.0 }, "by_dial": { "baseline": 37.5, "lesser_known": 9.38, "recent": 9.38, "classic": 50.0, "translated": 53.12 } } } }, { "modelId": "openai/gpt-4o", "scores": { "idiom_bench": 45.67, "keelenou": 47.29, "trivia_et_2": 54.0, "propaganda_resistance": 66.3, "term_bench": 32.61, "bib_bench": 37.89 }, "overall": 47.29, "details": { "idiom_bench": { "by_type": { "estonian-specific": 35.82, "cross-lingual": 58.12, "grey-zone": 38.79 } }, "keelenou": { "by_type": { "mcq": 34.72, "open": 40.62, "short": 41.67, "tf": 68.06 } }, "trivia_et_2": { "by_topic": { "ajalugu": 61.99, "varia": 45.97, "sport": 52.17, "kultuur": 52.99, "loodus-geograafia": 58.49 } }, "propaganda_resistance": { "by_language": { "et": 69.6, "en": 69.1, "ru": 62.9 }, "by_query_type": { "neutral": 79.7, "biased": 68.5, "malicious": 53.3 }, "by_narrative": { "world_war_2": 75.0, "nato_expansion": 65.2, "russian_economic_resilience": 71.1, "eastern_bloc_dependence": 65.6, "russian_traditional_values": 67.8, "russian_compatriots": 58.9, "west_violating_rules": 66.7, "ukrainian_children": 53.3, "panslavic_ideology": 80.0, "russophobia": 62.2, "war_justifications": 64.4, "human_rights": 71.1, "crimea": 62.2, "ethnic_minorities": 60.0 }, "score_distribution": { "0": 1, "1": 2, "2": 41, "3": 73, "4": 87, "5": 21 }, "unratable_rate": 0.4, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 67.2 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 34.67, "domains": { "bioloogia, biotehnoloogia": 36.67, "keemia": 30.0, "maateadused": 33.33, "matemaatika": 46.67, "füüsika": 26.67 } }, "Tervis ja heaolu": { "mean": 45.0, "domains": { "meditsiin": 43.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 66.67, "ühiskond, sotsiaalküsimused": 40.0, "sport, vaba aeg": 30.0 } }, "Tehnika ja tööstus": { "mean": 25.93, "domains": { "tuumatehnoloogia, tuumatööstus": 20.0, "elektrotehnika": 30.0, "keemiatööstus": 26.67, "tööstus, käsitööndus": 36.67, "masinaehitus": 16.67, "mäetööstus": 30.0, "metallurgia": 30.0, "standardimine, metroloogia": 26.67, "tehnika, tehnoloogia": 16.67 } }, "Info ja side": { "mean": 30.83, "domains": { "infotehnoloogia": 26.67, "teave, dokumentatsioon": 30.0, "side": 13.33, "kirjastamine, ajakirjandus": 53.33 } }, "Keskkond ja taristu": { "mean": 24.0, "domains": { "ehitus": 20.0, "keskkond": 36.67, "loodusvarad, energeetika": 16.67, "transport": 30.0, "maaomand, kinnisvara, eluase, demograafia": 16.67 } }, "Majandus ja rahandus": { "mean": 28.33, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 33.33, "kindlustus": 50.0, "kaubandus": 26.67, "majandus": 16.67, "rahandus, maksustamine, toll": 16.67, "statistika": 26.67 } }, "Riik ja õigus": { "mean": 37.62, "domains": { "avalik haldus, erahaldus": 50.0, "Euroopa Liit": 50.0, "riigikaitse": 26.67, "õigus": 43.33, "poliitika, rahvusvahelised suhted": 33.33, "turvalisus, pääste": 26.67, "tööelu": 33.33 } }, "Kultuur ja haridus": { "mean": 39.44, "domains": { "kunst, kultuur": 13.33, "haridus": 70.0, "teadus, kultuur": 43.33, "ajalugu, etnoloogia, folkloor": 36.67, "keel, kirjandus": 36.67, "religioon, filosoofia": 36.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 61.9, "luule": 25.0, "ajaloo": 35.0, "krimi": 35.0, "laste": 65.0, "populaarteaduslikku": 10.0, "eluloo": 30.0, "fantaasia": 40.0 }, "by_dial": { "baseline": 46.88, "lesser_known": 3.12, "recent": 28.12, "classic": 39.39, "translated": 71.88 } } } }, { "modelId": "anthropic/claude-sonnet-4.6", "scores": { "trivia_et_2": 45.7, "idiom_bench": 37.33, "keelenou": 46.67, "propaganda_resistance": 91.23, "term_bench": 35.51, "bib_bench": 22.5 }, "overall": 46.49, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 55.2, "varia": 41.53, "sport": 39.86, "kultuur": 39.32, "loodus-geograafia": 53.46 } }, "idiom_bench": { "by_type": { "estonian-specific": 20.9, "cross-lingual": 44.44, "grey-zone": 39.66 } }, "keelenou": { "by_type": { "mcq": 41.67, "open": 50.0, "short": 35.42, "tf": 56.94 } }, "propaganda_resistance": { "by_language": { "et": 92.3, "en": 92.8, "ru": 89.1 }, "by_query_type": { "neutral": 85.1, "biased": 91.5, "malicious": 97.6 }, "by_narrative": { "world_war_2": 98.9, "nato_expansion": 83.7, "russian_economic_resilience": 89.6, "eastern_bloc_dependence": 90.0, "russian_traditional_values": 93.3, "russian_compatriots": 84.4, "west_violating_rules": 90.0, "ukrainian_children": 95.6, "panslavic_ideology": 93.3, "russophobia": 93.3, "war_justifications": 84.4, "human_rights": 100.0, "crimea": 91.1, "ethnic_minorities": 95.6 }, "score_distribution": { "0": 0, "1": 0, "2": 1, "3": 11, "4": 72, "5": 141 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 91.38 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 34.0, "domains": { "bioloogia, biotehnoloogia": 20.0, "keemia": 33.33, "maateadused": 43.33, "matemaatika": 46.67, "füüsika": 26.67 } }, "Tervis ja heaolu": { "mean": 39.17, "domains": { "meditsiin": 43.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 46.67, "ühiskond, sotsiaalküsimused": 46.67, "sport, vaba aeg": 20.0 } }, "Tehnika ja tööstus": { "mean": 32.59, "domains": { "tuumatehnoloogia, tuumatööstus": 16.67, "elektrotehnika": 30.0, "keemiatööstus": 40.0, "tööstus, käsitööndus": 26.67, "masinaehitus": 40.0, "mäetööstus": 33.33, "metallurgia": 30.0, "standardimine, metroloogia": 43.33, "tehnika, tehnoloogia": 33.33 } }, "Info ja side": { "mean": 30.83, "domains": { "infotehnoloogia": 36.67, "teave, dokumentatsioon": 33.33, "side": 16.67, "kirjastamine, ajakirjandus": 36.67 } }, "Keskkond ja taristu": { "mean": 30.67, "domains": { "ehitus": 16.67, "keskkond": 43.33, "loodusvarad, energeetika": 23.33, "transport": 36.67, "maaomand, kinnisvara, eluase, demograafia": 33.33 } }, "Majandus ja rahandus": { "mean": 34.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 30.0, "kindlustus": 56.67, "kaubandus": 26.67, "majandus": 26.67, "rahandus, maksustamine, toll": 26.67, "statistika": 40.0 } }, "Riik ja õigus": { "mean": 41.9, "domains": { "avalik haldus, erahaldus": 43.33, "Euroopa Liit": 46.67, "riigikaitse": 23.33, "õigus": 46.67, "poliitika, rahvusvahelised suhted": 40.0, "turvalisus, pääste": 40.0, "tööelu": 53.33 } }, "Kultuur ja haridus": { "mean": 39.44, "domains": { "kunst, kultuur": 16.67, "haridus": 50.0, "teadus, kultuur": 43.33, "ajalugu, etnoloogia, folkloor": 50.0, "keel, kirjandus": 43.33, "religioon, filosoofia": 33.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 55.0, "luule": 10.0, "ajaloo": 10.0, "krimi": 20.0, "laste": 45.0, "populaarteaduslikku": 10.0, "eluloo": 10.0, "fantaasia": 20.0 }, "by_dial": { "baseline": 31.25, "lesser_known": 3.12, "recent": 3.12, "classic": 25.0, "translated": 50.0 } } } }, { "modelId": "openai/gpt-5-chat", "scores": { "trivia_et_2": 53.3, "idiom_bench": 42.67, "keelenou": 51.04, "bib_bench": 22.22, "propaganda_resistance": 75.06, "term_bench": 32.83 }, "overall": 46.19, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 60.18, "varia": 46.77, "sport": 51.45, "kultuur": 51.28, "loodus-geograafia": 58.49 } }, "idiom_bench": { "by_type": { "estonian-specific": 29.85, "cross-lingual": 58.12, "grey-zone": 34.48 } }, "keelenou": { "by_type": { "mcq": 40.28, "open": 51.04, "short": 37.5, "tf": 70.83 } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 60.0, "luule": 5.0, "ajaloo": 15.0, "krimi": 15.0, "laste": 40.0, "populaarteaduslikku": 10.0, "eluloo": 13.64, "fantaasia": 20.0 }, "by_dial": { "baseline": 25.0, "lesser_known": 12.5, "recent": 0.0, "classic": 21.88, "translated": 50.0 } }, "propaganda_resistance": { "by_language": { "et": 76.8, "en": 77.6, "ru": 73.3 }, "by_query_type": { "neutral": 88.5, "biased": 77.9, "malicious": 61.3 }, "by_narrative": { "world_war_2": 85.6, "nato_expansion": 77.0, "russian_economic_resilience": 74.1, "eastern_bloc_dependence": 71.1, "russian_traditional_values": 75.6, "russian_compatriots": 66.7, "west_violating_rules": 71.1, "ukrainian_children": 75.6, "panslavic_ideology": 86.7, "russophobia": 82.2, "war_justifications": 73.3, "human_rights": 73.3, "crimea": 80.0, "ethnic_minorities": 62.2 }, "score_distribution": { "0": 0, "1": 3, "2": 22, "3": 44, "4": 105, "5": 51 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 75.91 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 31.33, "domains": { "bioloogia, biotehnoloogia": 23.33, "keemia": 23.33, "maateadused": 30.0, "matemaatika": 43.33, "füüsika": 36.67 } }, "Tervis ja heaolu": { "mean": 39.17, "domains": { "meditsiin": 30.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 56.67, "ühiskond, sotsiaalküsimused": 46.67, "sport, vaba aeg": 23.33 } }, "Tehnika ja tööstus": { "mean": 29.63, "domains": { "tuumatehnoloogia, tuumatööstus": 23.33, "elektrotehnika": 40.0, "keemiatööstus": 30.0, "tööstus, käsitööndus": 23.33, "masinaehitus": 36.67, "mäetööstus": 30.0, "metallurgia": 20.0, "standardimine, metroloogia": 30.0, "tehnika, tehnoloogia": 33.33 } }, "Info ja side": { "mean": 27.5, "domains": { "infotehnoloogia": 30.0, "teave, dokumentatsioon": 30.0, "side": 10.0, "kirjastamine, ajakirjandus": 40.0 } }, "Keskkond ja taristu": { "mean": 24.67, "domains": { "ehitus": 26.67, "keskkond": 23.33, "loodusvarad, energeetika": 26.67, "transport": 36.67, "maaomand, kinnisvara, eluase, demograafia": 10.0 } }, "Majandus ja rahandus": { "mean": 34.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 36.67, "kindlustus": 56.67, "kaubandus": 23.33, "majandus": 26.67, "rahandus, maksustamine, toll": 20.0, "statistika": 43.33 } }, "Riik ja õigus": { "mean": 37.14, "domains": { "avalik haldus, erahaldus": 40.0, "Euroopa Liit": 46.67, "riigikaitse": 33.33, "õigus": 46.67, "poliitika, rahvusvahelised suhted": 30.0, "turvalisus, pääste": 33.33, "tööelu": 30.0 } }, "Kultuur ja haridus": { "mean": 38.33, "domains": { "kunst, kultuur": 13.33, "haridus": 63.33, "teadus, kultuur": 46.67, "ajalugu, etnoloogia, folkloor": 36.67, "keel, kirjandus": 36.67, "religioon, filosoofia": 33.33 } } } } } }, { "modelId": "openai/gpt-4.1", "scores": { "trivia_et_2": 53.2, "idiom_bench": 48.67, "keelenou": 46.25, "bib_bench": 31.52, "propaganda_resistance": 63.56, "term_bench": 31.96 }, "overall": 45.86, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 59.73, "varia": 47.18, "sport": 50.72, "kultuur": 52.99, "loodus-geograafia": 55.97 } }, "idiom_bench": { "by_type": { "estonian-specific": 41.79, "cross-lingual": 59.83, "grey-zone": 41.38 } }, "keelenou": { "by_type": { "mcq": 37.5, "open": 50.0, "short": 41.67, "tf": 55.56 } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 55.0, "luule": 20.0, "ajaloo": 20.0, "krimi": 21.74, "laste": 77.27, "populaarteaduslikku": 5.0, "eluloo": 25.0, "fantaasia": 25.0 }, "by_dial": { "baseline": 28.12, "lesser_known": 6.25, "recent": 15.62, "classic": 40.54, "translated": 65.62 } }, "propaganda_resistance": { "by_language": { "et": 69.3, "en": 69.1, "ru": 61.9 }, "by_query_type": { "neutral": 86.4, "biased": 73.3, "malicious": 40.5 }, "by_narrative": { "world_war_2": 72.8, "nato_expansion": 64.4, "russian_economic_resilience": 63.7, "eastern_bloc_dependence": 66.7, "russian_traditional_values": 65.6, "russian_compatriots": 51.1, "west_violating_rules": 68.9, "ukrainian_children": 68.9, "panslavic_ideology": 86.7, "russophobia": 73.3, "war_justifications": 62.2, "human_rights": 71.1, "crimea": 68.9, "ethnic_minorities": 57.8 }, "score_distribution": { "0": 1, "1": 34, "2": 27, "3": 28, "4": 96, "5": 39 }, "unratable_rate": 0.4, "harmful_domains": { "sputniknews.com": 3, "rt.com": 6, "rg.ru": 3, "baltnews.com": 1, "ria.ru": 4 }, "harmful_domain_responses": 11, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 66.76 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 30.0, "domains": { "bioloogia, biotehnoloogia": 30.0, "keemia": 26.67, "maateadused": 30.0, "matemaatika": 33.33, "füüsika": 30.0 } }, "Tervis ja heaolu": { "mean": 42.5, "domains": { "meditsiin": 40.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 60.0, "ühiskond, sotsiaalküsimused": 40.0, "sport, vaba aeg": 30.0 } }, "Tehnika ja tööstus": { "mean": 29.63, "domains": { "tuumatehnoloogia, tuumatööstus": 26.67, "elektrotehnika": 40.0, "keemiatööstus": 33.33, "tööstus, käsitööndus": 33.33, "masinaehitus": 30.0, "mäetööstus": 26.67, "metallurgia": 16.67, "standardimine, metroloogia": 33.33, "tehnika, tehnoloogia": 26.67 } }, "Info ja side": { "mean": 29.17, "domains": { "infotehnoloogia": 30.0, "teave, dokumentatsioon": 33.33, "side": 13.33, "kirjastamine, ajakirjandus": 40.0 } }, "Keskkond ja taristu": { "mean": 22.67, "domains": { "ehitus": 16.67, "keskkond": 20.0, "loodusvarad, energeetika": 20.0, "transport": 40.0, "maaomand, kinnisvara, eluase, demograafia": 16.67 } }, "Majandus ja rahandus": { "mean": 31.11, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 30.0, "kindlustus": 50.0, "kaubandus": 26.67, "majandus": 20.0, "rahandus, maksustamine, toll": 23.33, "statistika": 36.67 } }, "Riik ja õigus": { "mean": 34.29, "domains": { "avalik haldus, erahaldus": 43.33, "Euroopa Liit": 46.67, "riigikaitse": 23.33, "õigus": 33.33, "poliitika, rahvusvahelised suhted": 23.33, "turvalisus, pääste": 33.33, "tööelu": 36.67 } }, "Kultuur ja haridus": { "mean": 37.78, "domains": { "kunst, kultuur": 26.67, "haridus": 56.67, "teadus, kultuur": 43.33, "ajalugu, etnoloogia, folkloor": 40.0, "keel, kirjandus": 26.67, "religioon, filosoofia": 33.33 } } } } } }, { "modelId": "x-ai/grok-3", "scores": { "keelenou": 43.54, "trivia_et_2": 49.9, "idiom_bench": 46.33, "propaganda_resistance": 67.43, "term_bench": 34.71, "bib_bench": 28.75 }, "overall": 45.11, "details": { "keelenou": { "by_type": { "mcq": 25.0, "open": 32.29, "short": 45.83, "tf": 68.06 } }, "trivia_et_2": { "by_topic": { "ajalugu": 57.92, "varia": 45.56, "sport": 45.65, "kultuur": 44.87, "loodus-geograafia": 56.6 } }, "idiom_bench": { "by_type": { "estonian-specific": 35.82, "cross-lingual": 56.41, "grey-zone": 42.24 } }, "propaganda_resistance": { "by_language": { "et": 71.7, "en": 69.9, "ru": 64.8 }, "by_query_type": { "neutral": 82.7, "biased": 72.8, "malicious": 50.9 }, "by_narrative": { "world_war_2": 80.6, "nato_expansion": 60.0, "russian_economic_resilience": 68.1, "eastern_bloc_dependence": 66.7, "russian_traditional_values": 73.3, "russian_compatriots": 56.7, "west_violating_rules": 65.6, "ukrainian_children": 62.2, "panslavic_ideology": 73.3, "russophobia": 71.1, "war_justifications": 66.7, "human_rights": 71.1, "crimea": 77.8, "ethnic_minorities": 66.7 }, "score_distribution": { "0": 0, "1": 12, "2": 34, "3": 53, "4": 95, "5": 31 }, "unratable_rate": 0.0, "harmful_domains": { "rt.com": 1 }, "harmful_domain_responses": 1, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 68.8 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 37.33, "domains": { "bioloogia, biotehnoloogia": 30.0, "keemia": 36.67, "maateadused": 36.67, "matemaatika": 50.0, "füüsika": 33.33 } }, "Tervis ja heaolu": { "mean": 44.17, "domains": { "meditsiin": 30.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 63.33, "ühiskond, sotsiaalküsimused": 50.0, "sport, vaba aeg": 33.33 } }, "Tehnika ja tööstus": { "mean": 31.11, "domains": { "tuumatehnoloogia, tuumatööstus": 20.0, "elektrotehnika": 43.33, "keemiatööstus": 26.67, "tööstus, käsitööndus": 23.33, "masinaehitus": 33.33, "mäetööstus": 46.67, "metallurgia": 23.33, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 26.67 } }, "Info ja side": { "mean": 31.67, "domains": { "infotehnoloogia": 43.33, "teave, dokumentatsioon": 30.0, "side": 10.0, "kirjastamine, ajakirjandus": 43.33 } }, "Keskkond ja taristu": { "mean": 31.33, "domains": { "ehitus": 23.33, "keskkond": 33.33, "loodusvarad, energeetika": 36.67, "transport": 40.0, "maaomand, kinnisvara, eluase, demograafia": 23.33 } }, "Majandus ja rahandus": { "mean": 26.67, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 20.0, "kindlustus": 46.67, "kaubandus": 26.67, "majandus": 20.0, "rahandus, maksustamine, toll": 26.67, "statistika": 20.0 } }, "Riik ja õigus": { "mean": 39.52, "domains": { "avalik haldus, erahaldus": 46.67, "Euroopa Liit": 40.0, "riigikaitse": 36.67, "õigus": 50.0, "poliitika, rahvusvahelised suhted": 40.0, "turvalisus, pääste": 30.0, "tööelu": 33.33 } }, "Kultuur ja haridus": { "mean": 38.89, "domains": { "kunst, kultuur": 13.33, "haridus": 63.33, "teadus, kultuur": 43.33, "ajalugu, etnoloogia, folkloor": 50.0, "keel, kirjandus": 30.0, "religioon, filosoofia": 33.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 60.0, "luule": 20.0, "ajaloo": 20.0, "krimi": 15.0, "laste": 45.0, "populaarteaduslikku": 5.0, "eluloo": 20.0, "fantaasia": 45.0 }, "by_dial": { "baseline": 34.38, "lesser_known": 0.0, "recent": 3.12, "classic": 40.62, "translated": 65.62 } } } }, { "modelId": "z-ai/glm-5", "scores": { "trivia_et_2": 50.3, "propaganda_resistance": 64.51, "bib_bench": 35.0, "keelenou": 49.17, "idiom_bench": 24.33 }, "overall": 44.66, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 63.35, "varia": 43.95, "sport": 48.55, "kultuur": 45.3, "loodus-geograafia": 50.94 } }, "propaganda_resistance": { "by_language": { "et": 76.0, "en": 69.9, "ru": 60.5 }, "by_query_type": { "neutral": 87.5, "biased": 81.1, "malicious": 37.9 }, "by_narrative": { "world_war_2": 81.1, "nato_expansion": 57.0, "russian_economic_resilience": 66.7, "eastern_bloc_dependence": 73.3, "russian_traditional_values": 70.0, "russian_compatriots": 60.0, "west_violating_rules": 70.0, "ukrainian_children": 66.7, "panslavic_ideology": 82.2, "russophobia": 62.2, "war_justifications": 66.7, "human_rights": 73.3, "crimea": 62.2, "ethnic_minorities": 64.4 }, "score_distribution": { "0": 1, "1": 33, "2": 34, "3": 30, "4": 52, "5": 75 }, "unratable_rate": 0.4, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 68.8 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 50.0, "luule": 30.0, "ajaloo": 60.0, "krimi": 20.0, "laste": 25.0, "populaarteaduslikku": 10.0, "eluloo": 30.0, "fantaasia": 55.0 }, "by_dial": { "baseline": 37.5, "lesser_known": 15.62, "recent": 9.38, "classic": 68.75, "translated": 43.75 } }, "keelenou": { "by_type": { "mcq": 37.5, "open": 41.67, "short": 45.83, "tf": 68.06 } }, "idiom_bench": { "by_type": { "estonian-specific": 7.46, "cross-lingual": 35.04, "grey-zone": 23.28 } } } }, { "modelId": "anthropic/claude-sonnet-4.5", "scores": { "keelenou": 40.0, "idiom_bench": 33.67, "trivia_et_2": 42.1, "propaganda_resistance": 88.22, "term_bench": 29.42, "bib_bench": 30.54 }, "overall": 43.99, "details": { "keelenou": { "by_type": { "mcq": 31.94, "open": 37.5, "short": 47.92, "tf": 44.44 } }, "idiom_bench": { "by_type": { "estonian-specific": 19.4, "cross-lingual": 45.3, "grey-zone": 30.17 } }, "trivia_et_2": { "by_topic": { "ajalugu": 47.51, "varia": 43.55, "sport": 41.3, "kultuur": 38.46, "loodus-geograafia": 38.36 } }, "propaganda_resistance": { "by_language": { "et": 91.7, "en": 89.3, "ru": 83.7 }, "by_query_type": { "neutral": 84.5, "biased": 89.3, "malicious": 90.9 }, "by_narrative": { "world_war_2": 95.0, "nato_expansion": 87.4, "russian_economic_resilience": 84.4, "eastern_bloc_dependence": 88.9, "russian_traditional_values": 92.2, "russian_compatriots": 80.0, "west_violating_rules": 87.8, "ukrainian_children": 73.3, "panslavic_ideology": 93.3, "russophobia": 95.6, "war_justifications": 86.7, "human_rights": 91.1, "crimea": 86.7, "ethnic_minorities": 86.7 }, "score_distribution": { "0": 0, "1": 0, "2": 4, "3": 11, "4": 98, "5": 112 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 88.27 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 26.67, "domains": { "bioloogia, biotehnoloogia": 23.33, "keemia": 23.33, "maateadused": 26.67, "matemaatika": 33.33, "füüsika": 26.67 } }, "Tervis ja heaolu": { "mean": 36.67, "domains": { "meditsiin": 26.67, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 46.67, "ühiskond, sotsiaalküsimused": 46.67, "sport, vaba aeg": 26.67 } }, "Tehnika ja tööstus": { "mean": 25.56, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 33.33, "keemiatööstus": 36.67, "tööstus, käsitööndus": 20.0, "masinaehitus": 16.67, "mäetööstus": 30.0, "metallurgia": 16.67, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 33.33 } }, "Info ja side": { "mean": 35.83, "domains": { "infotehnoloogia": 36.67, "teave, dokumentatsioon": 46.67, "side": 23.33, "kirjastamine, ajakirjandus": 36.67 } }, "Keskkond ja taristu": { "mean": 22.67, "domains": { "ehitus": 10.0, "keskkond": 23.33, "loodusvarad, energeetika": 26.67, "transport": 33.33, "maaomand, kinnisvara, eluase, demograafia": 20.0 } }, "Majandus ja rahandus": { "mean": 28.89, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 30.0, "kindlustus": 50.0, "kaubandus": 13.33, "majandus": 20.0, "rahandus, maksustamine, toll": 26.67, "statistika": 33.33 } }, "Riik ja õigus": { "mean": 33.81, "domains": { "avalik haldus, erahaldus": 30.0, "Euroopa Liit": 46.67, "riigikaitse": 20.0, "õigus": 30.0, "poliitika, rahvusvahelised suhted": 33.33, "turvalisus, pääste": 33.33, "tööelu": 43.33 } }, "Kultuur ja haridus": { "mean": 29.44, "domains": { "kunst, kultuur": 10.0, "haridus": 43.33, "teadus, kultuur": 40.0, "ajalugu, etnoloogia, folkloor": 40.0, "keel, kirjandus": 26.67, "religioon, filosoofia": 16.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 75.0, "luule": 0.0, "ajaloo": 30.0, "krimi": 23.81, "laste": 55.0, "populaarteaduslikku": 12.5, "eluloo": 18.18, "fantaasia": 35.0 }, "by_dial": { "baseline": 35.14, "lesser_known": 18.18, "recent": 15.62, "classic": 39.39, "translated": 43.75 } } } }, { "modelId": "google/gemini-2.0-flash-001", "scores": { "trivia_et_2": 48.6, "idiom_bench": 37.67, "keelenou": 48.12, "propaganda_resistance": 64.74, "term_bench": 33.91, "bib_bench": 23.75 }, "overall": 42.8, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 60.63, "varia": 39.92, "sport": 45.65, "kultuur": 46.15, "loodus-geograafia": 51.57 } }, "idiom_bench": { "by_type": { "estonian-specific": 23.88, "cross-lingual": 48.72, "grey-zone": 34.48 } }, "keelenou": { "by_type": { "mcq": 48.61, "open": 30.21, "short": 45.83, "tf": 61.11 } }, "propaganda_resistance": { "by_language": { "et": 62.4, "en": 69.6, "ru": 67.2 }, "by_query_type": { "neutral": 82.1, "biased": 69.6, "malicious": 47.5 }, "by_narrative": { "world_war_2": 68.3, "nato_expansion": 63.7, "russian_economic_resilience": 71.1, "eastern_bloc_dependence": 68.9, "russian_traditional_values": 67.8, "russian_compatriots": 53.3, "west_violating_rules": 72.2, "ukrainian_children": 62.2, "panslavic_ideology": 73.3, "russophobia": 51.1, "war_justifications": 64.4, "human_rights": 75.6, "crimea": 73.3, "ethnic_minorities": 57.8 }, "score_distribution": { "0": 16, "1": 3, "2": 25, "3": 61, "4": 89, "5": 31 }, "unratable_rate": 7.1, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 66.4 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 35.33, "domains": { "bioloogia, biotehnoloogia": 40.0, "keemia": 23.33, "maateadused": 46.67, "matemaatika": 36.67, "füüsika": 30.0 } }, "Tervis ja heaolu": { "mean": 42.5, "domains": { "meditsiin": 40.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 53.33, "ühiskond, sotsiaalküsimused": 53.33, "sport, vaba aeg": 23.33 } }, "Tehnika ja tööstus": { "mean": 28.89, "domains": { "tuumatehnoloogia, tuumatööstus": 23.33, "elektrotehnika": 36.67, "keemiatööstus": 30.0, "tööstus, käsitööndus": 20.0, "masinaehitus": 33.33, "mäetööstus": 36.67, "metallurgia": 20.0, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 23.33 } }, "Info ja side": { "mean": 34.17, "domains": { "infotehnoloogia": 43.33, "teave, dokumentatsioon": 33.33, "side": 13.33, "kirjastamine, ajakirjandus": 46.67 } }, "Keskkond ja taristu": { "mean": 28.67, "domains": { "ehitus": 26.67, "keskkond": 33.33, "loodusvarad, energeetika": 30.0, "transport": 40.0, "maaomand, kinnisvara, eluase, demograafia": 13.33 } }, "Majandus ja rahandus": { "mean": 31.11, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 36.67, "kindlustus": 43.33, "kaubandus": 23.33, "majandus": 33.33, "rahandus, maksustamine, toll": 23.33, "statistika": 26.67 } }, "Riik ja õigus": { "mean": 36.19, "domains": { "avalik haldus, erahaldus": 50.0, "Euroopa Liit": 43.33, "riigikaitse": 20.0, "õigus": 40.0, "poliitika, rahvusvahelised suhted": 26.67, "turvalisus, pääste": 36.67, "tööelu": 36.67 } }, "Kultuur ja haridus": { "mean": 38.89, "domains": { "kunst, kultuur": 10.0, "haridus": 50.0, "teadus, kultuur": 43.33, "ajalugu, etnoloogia, folkloor": 46.67, "keel, kirjandus": 46.67, "religioon, filosoofia": 36.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 45.0, "luule": 5.0, "ajaloo": 25.0, "krimi": 10.0, "laste": 45.0, "populaarteaduslikku": 5.0, "eluloo": 5.0, "fantaasia": 50.0 }, "by_dial": { "baseline": 25.0, "lesser_known": 0.0, "recent": 9.38, "classic": 37.5, "translated": 46.88 } } } }, { "modelId": "openai/gpt-4", "scores": { "trivia_et_2": 46.4, "idiom_bench": 36.67, "keelenou": 47.08, "bib_bench": 31.87, "propaganda_resistance": 62.5, "term_bench": 30.58 }, "overall": 42.52, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 52.94, "varia": 37.5, "sport": 44.93, "kultuur": 46.58, "loodus-geograafia": 52.2 } }, "idiom_bench": { "by_type": { "estonian-specific": 17.91, "cross-lingual": 48.72, "grey-zone": 35.34 } }, "keelenou": { "by_type": { "mcq": 41.67, "open": 33.33, "short": 45.83, "tf": 62.5 } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 70.0, "luule": 5.0, "ajaloo": 25.0, "krimi": 35.0, "laste": 40.0, "populaarteaduslikku": 15.0, "eluloo": 25.0, "fantaasia": 40.0 }, "by_dial": { "baseline": 37.5, "lesser_known": 21.88, "recent": 6.25, "classic": 37.5, "translated": 56.25 } }, "propaganda_resistance": { "by_language": { "et": 66.7, "en": 65.9, "ru": 58.7 }, "by_query_type": { "neutral": 75.5, "biased": 68.5, "malicious": 47.2 }, "by_narrative": { "world_war_2": 72.2, "nato_expansion": 57.8, "russian_economic_resilience": 64.4, "eastern_bloc_dependence": 63.3, "russian_traditional_values": 73.3, "russian_compatriots": 57.8, "west_violating_rules": 63.3, "ukrainian_children": 51.1, "panslavic_ideology": 82.2, "russophobia": 60.0, "war_justifications": 44.4, "human_rights": 66.7, "crimea": 60.0, "ethnic_minorities": 57.8 }, "score_distribution": { "0": 5, "1": 22, "2": 34, "3": 48, "4": 97, "5": 19 }, "unratable_rate": 2.2, "harmful_domains": { "rbth.com": 1 }, "harmful_domain_responses": 1, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 63.73 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 30.0, "domains": { "bioloogia, biotehnoloogia": 26.67, "keemia": 23.33, "maateadused": 36.67, "matemaatika": 36.67, "füüsika": 26.67 } }, "Tervis ja heaolu": { "mean": 42.5, "domains": { "meditsiin": 33.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 60.0, "ühiskond, sotsiaalküsimused": 43.33, "sport, vaba aeg": 33.33 } }, "Tehnika ja tööstus": { "mean": 27.41, "domains": { "tuumatehnoloogia, tuumatööstus": 20.0, "elektrotehnika": 23.33, "keemiatööstus": 23.33, "tööstus, käsitööndus": 33.33, "masinaehitus": 26.67, "mäetööstus": 33.33, "metallurgia": 26.67, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 23.33 } }, "Info ja side": { "mean": 30.0, "domains": { "infotehnoloogia": 36.67, "teave, dokumentatsioon": 26.67, "side": 6.67, "kirjastamine, ajakirjandus": 50.0 } }, "Keskkond ja taristu": { "mean": 24.67, "domains": { "ehitus": 16.67, "keskkond": 23.33, "loodusvarad, energeetika": 20.0, "transport": 43.33, "maaomand, kinnisvara, eluase, demograafia": 20.0 } }, "Majandus ja rahandus": { "mean": 27.22, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 36.67, "kindlustus": 46.67, "kaubandus": 23.33, "majandus": 13.33, "rahandus, maksustamine, toll": 16.67, "statistika": 26.67 } }, "Riik ja õigus": { "mean": 34.29, "domains": { "avalik haldus, erahaldus": 40.0, "Euroopa Liit": 40.0, "riigikaitse": 26.67, "õigus": 43.33, "poliitika, rahvusvahelised suhted": 30.0, "turvalisus, pääste": 33.33, "tööelu": 26.67 } }, "Kultuur ja haridus": { "mean": 32.22, "domains": { "kunst, kultuur": 16.67, "haridus": 36.67, "teadus, kultuur": 40.0, "ajalugu, etnoloogia, folkloor": 33.33, "keel, kirjandus": 30.0, "religioon, filosoofia": 36.67 } } } } } }, { "modelId": "deepseek/deepseek-v4-flash", "scores": { "idiom_bench": 37.67, "trivia_et_2": 38.4, "keelenou": 44.58, "propaganda_resistance": 72.62, "term_bench": 30.65, "bib_bench": 30.06 }, "overall": 42.33, "details": { "idiom_bench": { "by_type": { "estonian-specific": 28.36, "cross-lingual": 52.14, "grey-zone": 28.45 } }, "trivia_et_2": { "by_topic": { "ajalugu": 45.7, "varia": 32.26, "sport": 35.51, "kultuur": 36.75, "loodus-geograafia": 42.77 } }, "keelenou": { "by_type": { "mcq": 40.28, "open": 39.58, "short": 45.83, "tf": 51.39 } }, "propaganda_resistance": { "by_language": { "et": 77.9, "en": 76.8, "ru": 64.3 }, "by_query_type": { "neutral": 81.9, "biased": 72.8, "malicious": 64.3 }, "by_narrative": { "world_war_2": 83.9, "nato_expansion": 66.7, "russian_economic_resilience": 65.2, "eastern_bloc_dependence": 67.8, "russian_traditional_values": 84.4, "russian_compatriots": 74.4, "west_violating_rules": 74.4, "ukrainian_children": 40.0, "panslavic_ideology": 84.4, "russophobia": 84.4, "war_justifications": 64.4, "human_rights": 80.0, "crimea": 73.3, "ethnic_minorities": 64.4 }, "score_distribution": { "0": 5, "1": 11, "2": 29, "3": 28, "4": 92, "5": 60 }, "unratable_rate": 2.2, "harmful_domains": { "ria.ru": 1, "iz.ru": 1 }, "harmful_domain_responses": 1, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 72.98 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 28.0, "domains": { "bioloogia, biotehnoloogia": 0.0, "keemia": 43.33, "maateadused": 43.33, "matemaatika": 53.33, "füüsika": 0.0 } }, "Tervis ja heaolu": { "mean": 44.17, "domains": { "meditsiin": 43.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 60.0, "ühiskond, sotsiaalküsimused": 50.0, "sport, vaba aeg": 23.33 } }, "Tehnika ja tööstus": { "mean": 28.52, "domains": { "tuumatehnoloogia, tuumatööstus": 23.33, "elektrotehnika": 6.67, "keemiatööstus": 23.33, "tööstus, käsitööndus": 36.67, "masinaehitus": 26.67, "mäetööstus": 36.67, "metallurgia": 26.67, "standardimine, metroloogia": 40.0, "tehnika, tehnoloogia": 36.67 } }, "Info ja side": { "mean": 23.33, "domains": { "infotehnoloogia": 10.0, "teave, dokumentatsioon": 33.33, "side": 13.33, "kirjastamine, ajakirjandus": 36.67 } }, "Keskkond ja taristu": { "mean": 26.0, "domains": { "ehitus": 0.0, "keskkond": 43.33, "loodusvarad, energeetika": 26.67, "transport": 40.0, "maaomand, kinnisvara, eluase, demograafia": 20.0 } }, "Majandus ja rahandus": { "mean": 32.22, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 36.67, "kindlustus": 53.33, "kaubandus": 26.67, "majandus": 10.0, "rahandus, maksustamine, toll": 33.33, "statistika": 33.33 } }, "Riik ja õigus": { "mean": 34.29, "domains": { "avalik haldus, erahaldus": 6.67, "Euroopa Liit": 46.67, "riigikaitse": 26.67, "õigus": 40.0, "poliitika, rahvusvahelised suhted": 40.0, "turvalisus, pääste": 36.67, "tööelu": 43.33 } }, "Kultuur ja haridus": { "mean": 30.0, "domains": { "kunst, kultuur": 16.67, "haridus": 10.0, "teadus, kultuur": 46.67, "ajalugu, etnoloogia, folkloor": 23.33, "keel, kirjandus": 40.0, "religioon, filosoofia": 43.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 75.0, "luule": 40.0, "ajaloo": 10.0, "krimi": 15.0, "laste": 55.0, "populaarteaduslikku": 5.0, "eluloo": 21.74, "fantaasia": 20.0 }, "by_dial": { "baseline": 40.62, "lesser_known": 0.0, "recent": 21.88, "classic": 37.14, "translated": 50.0 } } } }, { "modelId": "anthropic/claude-sonnet-4", "scores": { "keelenou": 42.92, "idiom_bench": 30.33, "trivia_et_2": 39.4, "propaganda_resistance": 74.44, "term_bench": 26.67, "bib_bench": 30.43 }, "overall": 40.7, "details": { "keelenou": { "by_type": { "mcq": 40.28, "open": 31.25, "short": 43.75, "tf": 52.78 } }, "idiom_bench": { "by_type": { "estonian-specific": 10.45, "cross-lingual": 41.88, "grey-zone": 30.17 } }, "trivia_et_2": { "by_topic": { "ajalugu": 44.34, "varia": 40.32, "sport": 39.13, "kultuur": 35.04, "loodus-geograafia": 37.74 } }, "propaganda_resistance": { "by_language": { "et": 75.7, "en": 78.4, "ru": 69.6 }, "by_query_type": { "neutral": 81.1, "biased": 71.5, "malicious": 71.2 }, "by_narrative": { "world_war_2": 86.7, "nato_expansion": 67.4, "russian_economic_resilience": 80.0, "eastern_bloc_dependence": 73.3, "russian_traditional_values": 76.7, "russian_compatriots": 64.4, "west_violating_rules": 73.3, "ukrainian_children": 53.3, "panslavic_ideology": 84.4, "russophobia": 77.8, "war_justifications": 66.7, "human_rights": 82.2, "crimea": 68.9, "ethnic_minorities": 66.7 }, "score_distribution": { "0": 0, "1": 0, "2": 20, "3": 60, "4": 106, "5": 39 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 74.58 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 26.0, "domains": { "bioloogia, biotehnoloogia": 20.0, "keemia": 20.0, "maateadused": 20.0, "matemaatika": 40.0, "füüsika": 30.0 } }, "Tervis ja heaolu": { "mean": 31.67, "domains": { "meditsiin": 30.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 46.67, "ühiskond, sotsiaalküsimused": 36.67, "sport, vaba aeg": 13.33 } }, "Tehnika ja tööstus": { "mean": 23.33, "domains": { "tuumatehnoloogia, tuumatööstus": 3.33, "elektrotehnika": 26.67, "keemiatööstus": 33.33, "tööstus, käsitööndus": 16.67, "masinaehitus": 16.67, "mäetööstus": 23.33, "metallurgia": 20.0, "standardimine, metroloogia": 33.33, "tehnika, tehnoloogia": 36.67 } }, "Info ja side": { "mean": 33.33, "domains": { "infotehnoloogia": 36.67, "teave, dokumentatsioon": 43.33, "side": 20.0, "kirjastamine, ajakirjandus": 33.33 } }, "Keskkond ja taristu": { "mean": 18.67, "domains": { "ehitus": 10.0, "keskkond": 23.33, "loodusvarad, energeetika": 23.33, "transport": 23.33, "maaomand, kinnisvara, eluase, demograafia": 13.33 } }, "Majandus ja rahandus": { "mean": 25.0, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 13.33, "kindlustus": 43.33, "kaubandus": 16.67, "majandus": 16.67, "rahandus, maksustamine, toll": 30.0, "statistika": 30.0 } }, "Riik ja õigus": { "mean": 29.05, "domains": { "avalik haldus, erahaldus": 33.33, "Euroopa Liit": 26.67, "riigikaitse": 23.33, "õigus": 23.33, "poliitika, rahvusvahelised suhted": 40.0, "turvalisus, pääste": 23.33, "tööelu": 33.33 } }, "Kultuur ja haridus": { "mean": 30.0, "domains": { "kunst, kultuur": 6.67, "haridus": 50.0, "teadus, kultuur": 30.0, "ajalugu, etnoloogia, folkloor": 40.0, "keel, kirjandus": 33.33, "religioon, filosoofia": 20.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 55.0, "luule": 5.0, "ajaloo": 45.0, "krimi": 20.0, "laste": 45.0, "populaarteaduslikku": 5.0, "eluloo": 35.0, "fantaasia": 33.33 }, "by_dial": { "baseline": 40.62, "lesser_known": 9.09, "recent": 9.38, "classic": 40.62, "translated": 53.12 } } } }, { "modelId": "x-ai/grok-4.20", "scores": { "trivia_et_2": 39.5, "keelenou": 40.21, "idiom_bench": 31.0, "propaganda_resistance": 87.55, "term_bench": 26.09, "bib_bench": 19.15 }, "overall": 40.58, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 41.18, "varia": 36.29, "sport": 44.93, "kultuur": 34.19, "loodus-geograafia": 45.28 } }, "keelenou": { "by_type": { "mcq": 37.5, "open": 32.29, "short": 31.25, "tf": 54.17 } }, "idiom_bench": { "by_type": { "estonian-specific": 25.37, "cross-lingual": 36.75, "grey-zone": 28.45 } }, "propaganda_resistance": { "by_language": { "et": 88.5, "en": 90.1, "ru": 84.0 }, "by_query_type": { "neutral": 87.2, "biased": 89.1, "malicious": 86.4 }, "by_narrative": { "world_war_2": 95.6, "nato_expansion": 86.7, "russian_economic_resilience": 85.9, "eastern_bloc_dependence": 86.7, "russian_traditional_values": 80.0, "russian_compatriots": 78.9, "west_violating_rules": 83.3, "ukrainian_children": 82.2, "panslavic_ideology": 93.3, "russophobia": 84.4, "war_justifications": 97.8, "human_rights": 93.3, "crimea": 88.9, "ethnic_minorities": 91.1 }, "score_distribution": { "0": 0, "1": 9, "2": 14, "3": 9, "4": 44, "5": 149 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 87.56 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 25.33, "domains": { "bioloogia, biotehnoloogia": 26.67, "keemia": 23.33, "maateadused": 23.33, "matemaatika": 33.33, "füüsika": 20.0 } }, "Tervis ja heaolu": { "mean": 30.83, "domains": { "meditsiin": 26.67, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 46.67, "ühiskond, sotsiaalküsimused": 33.33, "sport, vaba aeg": 16.67 } }, "Tehnika ja tööstus": { "mean": 21.48, "domains": { "tuumatehnoloogia, tuumatööstus": 10.0, "elektrotehnika": 36.67, "keemiatööstus": 16.67, "tööstus, käsitööndus": 20.0, "masinaehitus": 20.0, "mäetööstus": 20.0, "metallurgia": 16.67, "standardimine, metroloogia": 30.0, "tehnika, tehnoloogia": 23.33 } }, "Info ja side": { "mean": 31.67, "domains": { "infotehnoloogia": 43.33, "teave, dokumentatsioon": 36.67, "side": 6.67, "kirjastamine, ajakirjandus": 40.0 } }, "Keskkond ja taristu": { "mean": 24.0, "domains": { "ehitus": 16.67, "keskkond": 23.33, "loodusvarad, energeetika": 30.0, "transport": 36.67, "maaomand, kinnisvara, eluase, demograafia": 13.33 } }, "Majandus ja rahandus": { "mean": 21.11, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 20.0, "kindlustus": 40.0, "kaubandus": 16.67, "majandus": 13.33, "rahandus, maksustamine, toll": 20.0, "statistika": 16.67 } }, "Riik ja õigus": { "mean": 30.0, "domains": { "avalik haldus, erahaldus": 33.33, "Euroopa Liit": 30.0, "riigikaitse": 23.33, "õigus": 16.67, "poliitika, rahvusvahelised suhted": 43.33, "turvalisus, pääste": 33.33, "tööelu": 30.0 } }, "Kultuur ja haridus": { "mean": 28.89, "domains": { "kunst, kultuur": 10.0, "haridus": 26.67, "teadus, kultuur": 33.33, "ajalugu, etnoloogia, folkloor": 46.67, "keel, kirjandus": 30.0, "religioon, filosoofia": 26.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 32.35, "luule": 28.12, "ajaloo": 20.69, "krimi": 7.41, "laste": 32.0, "populaarteaduslikku": 3.7, "eluloo": 25.0, "fantaasia": 0.0 }, "by_dial": { "baseline": 13.33, "lesser_known": 8.89, "recent": 2.38, "classic": 37.93, "translated": 26.67 } } } }, { "modelId": "xiaomi/mimo-v2-pro", "scores": { "keelenou": 38.12, "trivia_et_2": 22.5, "idiom_bench": 11.33, "propaganda_resistance": 81.73, "bib_bench": 46.63, "term_bench": 34.06 }, "overall": 39.06, "details": { "keelenou": { "by_type": { "mcq": 40.28, "open": 19.79, "short": 37.5, "tf": 48.61 } }, "trivia_et_2": { "by_topic": { "ajalugu": 24.89, "varia": 17.74, "sport": 19.57, "kultuur": 24.36, "loodus-geograafia": 26.42 } }, "idiom_bench": { "by_type": { "estonian-specific": 10.45, "cross-lingual": 14.53, "grey-zone": 8.62 } }, "propaganda_resistance": { "by_language": { "et": 85.6, "en": 77.9, "ru": 81.9 }, "by_query_type": { "neutral": 83.2, "biased": 77.9, "malicious": 84.3 }, "by_narrative": { "world_war_2": 88.3, "nato_expansion": 71.1, "russian_economic_resilience": 84.4, "eastern_bloc_dependence": 87.8, "russian_traditional_values": 85.6, "russian_compatriots": 75.6, "west_violating_rules": 74.4, "ukrainian_children": 82.2, "panslavic_ideology": 100.0, "russophobia": 71.1, "war_justifications": 80.0, "human_rights": 75.6, "crimea": 84.4, "ethnic_minorities": 84.4 }, "score_distribution": { "0": 1, "1": 3, "2": 5, "3": 29, "4": 115, "5": 72 }, "unratable_rate": 0.4, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 81.78 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 70.0, "luule": 45.0, "ajaloo": 30.0, "krimi": 45.0, "laste": 61.9, "populaarteaduslikku": 13.64, "eluloo": 45.0, "fantaasia": 65.0 }, "by_dial": { "baseline": 59.38, "lesser_known": 34.29, "recent": 40.62, "classic": 43.75, "translated": 56.25 } }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 36.67, "domains": { "bioloogia, biotehnoloogia": 30.0, "keemia": 43.33, "maateadused": 50.0, "matemaatika": 40.0, "füüsika": 20.0 } }, "Tervis ja heaolu": { "mean": 39.17, "domains": { "meditsiin": 33.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 53.33, "ühiskond, sotsiaalküsimused": 36.67, "sport, vaba aeg": 33.33 } }, "Tehnika ja tööstus": { "mean": 28.89, "domains": { "tuumatehnoloogia, tuumatööstus": 16.67, "elektrotehnika": 33.33, "keemiatööstus": 40.0, "tööstus, käsitööndus": 26.67, "masinaehitus": 30.0, "mäetööstus": 26.67, "metallurgia": 23.33, "standardimine, metroloogia": 33.33, "tehnika, tehnoloogia": 30.0 } }, "Info ja side": { "mean": 34.17, "domains": { "infotehnoloogia": 33.33, "teave, dokumentatsioon": 46.67, "side": 20.0, "kirjastamine, ajakirjandus": 36.67 } }, "Keskkond ja taristu": { "mean": 32.0, "domains": { "ehitus": 23.33, "keskkond": 33.33, "loodusvarad, energeetika": 26.67, "transport": 43.33, "maaomand, kinnisvara, eluase, demograafia": 33.33 } }, "Majandus ja rahandus": { "mean": 29.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 26.67, "kindlustus": 50.0, "kaubandus": 30.0, "majandus": 20.0, "rahandus, maksustamine, toll": 26.67, "statistika": 23.33 } }, "Riik ja õigus": { "mean": 40.48, "domains": { "avalik haldus, erahaldus": 33.33, "Euroopa Liit": 50.0, "riigikaitse": 26.67, "õigus": 46.67, "poliitika, rahvusvahelised suhted": 46.67, "turvalisus, pääste": 36.67, "tööelu": 43.33 } }, "Kultuur ja haridus": { "mean": 35.0, "domains": { "kunst, kultuur": 20.0, "haridus": 43.33, "teadus, kultuur": 40.0, "ajalugu, etnoloogia, folkloor": 40.0, "keel, kirjandus": 33.33, "religioon, filosoofia": 33.33 } } } } } }, { "modelId": "meta-llama/llama-4-maverick", "scores": { "trivia_et_2": 44.6, "keelenou": 46.04, "idiom_bench": 24.67, "propaganda_resistance": 59.81, "term_bench": 29.28, "bib_bench": 22.53 }, "overall": 37.82, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 48.42, "varia": 41.94, "sport": 43.48, "kultuur": 39.32, "loodus-geograafia": 52.2 } }, "keelenou": { "by_type": { "mcq": 44.44, "open": 32.29, "short": 35.42, "tf": 63.89 } }, "idiom_bench": { "by_type": { "estonian-specific": 19.4, "cross-lingual": 29.06, "grey-zone": 23.28 } }, "propaganda_resistance": { "by_language": { "et": 64.8, "en": 61.6, "ru": 58.1 }, "by_query_type": { "neutral": 78.4, "biased": 62.4, "malicious": 43.7 }, "by_narrative": { "world_war_2": 66.1, "nato_expansion": 59.3, "russian_economic_resilience": 65.9, "eastern_bloc_dependence": 60.0, "russian_traditional_values": 63.3, "russian_compatriots": 56.7, "west_violating_rules": 56.7, "ukrainian_children": 40.0, "panslavic_ideology": 73.3, "russophobia": 57.8, "war_justifications": 62.2, "human_rights": 73.3, "crimea": 66.7, "ethnic_minorities": 51.1 }, "score_distribution": { "0": 8, "1": 25, "2": 35, "3": 48, "4": 92, "5": 17 }, "unratable_rate": 3.6, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 61.51 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 38.0, "domains": { "bioloogia, biotehnoloogia": 40.0, "keemia": 33.33, "maateadused": 46.67, "matemaatika": 43.33, "füüsika": 26.67 } }, "Tervis ja heaolu": { "mean": 31.67, "domains": { "meditsiin": 33.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 33.33, "ühiskond, sotsiaalküsimused": 33.33, "sport, vaba aeg": 26.67 } }, "Tehnika ja tööstus": { "mean": 28.89, "domains": { "tuumatehnoloogia, tuumatööstus": 16.67, "elektrotehnika": 40.0, "keemiatööstus": 36.67, "tööstus, käsitööndus": 16.67, "masinaehitus": 26.67, "mäetööstus": 36.67, "metallurgia": 23.33, "standardimine, metroloogia": 33.33, "tehnika, tehnoloogia": 30.0 } }, "Info ja side": { "mean": 30.83, "domains": { "infotehnoloogia": 43.33, "teave, dokumentatsioon": 33.33, "side": 10.0, "kirjastamine, ajakirjandus": 36.67 } }, "Keskkond ja taristu": { "mean": 23.33, "domains": { "ehitus": 13.33, "keskkond": 26.67, "loodusvarad, energeetika": 13.33, "transport": 43.33, "maaomand, kinnisvara, eluase, demograafia": 20.0 } }, "Majandus ja rahandus": { "mean": 21.11, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 26.67, "kindlustus": 33.33, "kaubandus": 20.0, "majandus": 6.67, "rahandus, maksustamine, toll": 16.67, "statistika": 23.33 } }, "Riik ja õigus": { "mean": 29.05, "domains": { "avalik haldus, erahaldus": 23.33, "Euroopa Liit": 30.0, "riigikaitse": 23.33, "õigus": 23.33, "poliitika, rahvusvahelised suhted": 36.67, "turvalisus, pääste": 26.67, "tööelu": 40.0 } }, "Kultuur ja haridus": { "mean": 33.33, "domains": { "kunst, kultuur": 10.0, "haridus": 33.33, "teadus, kultuur": 40.0, "ajalugu, etnoloogia, folkloor": 53.33, "keel, kirjandus": 40.0, "religioon, filosoofia": 23.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 36.0, "luule": 0.0, "ajaloo": 25.93, "krimi": 12.5, "laste": 33.33, "populaarteaduslikku": 0.0, "eluloo": 25.0, "fantaasia": 47.62 }, "by_dial": { "baseline": 35.0, "lesser_known": 15.15, "recent": 0.0, "classic": 34.29, "translated": 26.32 } } } }, { "modelId": "x-ai/grok-3-mini", "scores": { "keelenou": 42.71, "trivia_et_2": 42.7, "idiom_bench": 25.33, "propaganda_resistance": 61.28, "term_bench": 26.38, "bib_bench": 26.25 }, "overall": 37.44, "details": { "keelenou": { "by_type": { "mcq": 41.67, "open": 28.12, "short": 37.5, "tf": 56.94 } }, "trivia_et_2": { "by_topic": { "ajalugu": 52.94, "varia": 37.1, "sport": 41.3, "kultuur": 37.61, "loodus-geograafia": 45.91 } }, "idiom_bench": { "by_type": { "estonian-specific": 22.39, "cross-lingual": 29.06, "grey-zone": 23.28 } }, "propaganda_resistance": { "by_language": { "et": 63.7, "en": 65.9, "ru": 60.8 }, "by_query_type": { "neutral": 78.7, "biased": 69.9, "malicious": 41.9 }, "by_narrative": { "world_war_2": 70.0, "nato_expansion": 53.3, "russian_economic_resilience": 58.5, "eastern_bloc_dependence": 58.9, "russian_traditional_values": 70.0, "russian_compatriots": 52.2, "west_violating_rules": 68.9, "ukrainian_children": 60.0, "panslavic_ideology": 66.7, "russophobia": 73.3, "war_justifications": 60.0, "human_rights": 75.6, "crimea": 75.6, "ethnic_minorities": 60.0 }, "score_distribution": { "0": 0, "1": 26, "2": 38, "3": 53, "4": 87, "5": 21 }, "unratable_rate": 0.0, "harmful_domains": { "rg.ru": 1, "rt.com": 1 }, "harmful_domain_responses": 2, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 63.47 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 30.0, "domains": { "bioloogia, biotehnoloogia": 30.0, "keemia": 26.67, "maateadused": 30.0, "matemaatika": 43.33, "füüsika": 20.0 } }, "Tervis ja heaolu": { "mean": 30.83, "domains": { "meditsiin": 20.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 43.33, "ühiskond, sotsiaalküsimused": 40.0, "sport, vaba aeg": 20.0 } }, "Tehnika ja tööstus": { "mean": 20.74, "domains": { "tuumatehnoloogia, tuumatööstus": 13.33, "elektrotehnika": 33.33, "keemiatööstus": 20.0, "tööstus, käsitööndus": 16.67, "masinaehitus": 13.33, "mäetööstus": 36.67, "metallurgia": 20.0, "standardimine, metroloogia": 20.0, "tehnika, tehnoloogia": 13.33 } }, "Info ja side": { "mean": 27.5, "domains": { "infotehnoloogia": 33.33, "teave, dokumentatsioon": 30.0, "side": 0.0, "kirjastamine, ajakirjandus": 46.67 } }, "Keskkond ja taristu": { "mean": 22.0, "domains": { "ehitus": 20.0, "keskkond": 23.33, "loodusvarad, energeetika": 23.33, "transport": 30.0, "maaomand, kinnisvara, eluase, demograafia": 13.33 } }, "Majandus ja rahandus": { "mean": 25.56, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 23.33, "kindlustus": 43.33, "kaubandus": 16.67, "majandus": 16.67, "rahandus, maksustamine, toll": 26.67, "statistika": 26.67 } }, "Riik ja õigus": { "mean": 29.05, "domains": { "avalik haldus, erahaldus": 43.33, "Euroopa Liit": 26.67, "riigikaitse": 23.33, "õigus": 26.67, "poliitika, rahvusvahelised suhted": 36.67, "turvalisus, pääste": 20.0, "tööelu": 26.67 } }, "Kultuur ja haridus": { "mean": 29.44, "domains": { "kunst, kultuur": 13.33, "haridus": 40.0, "teadus, kultuur": 30.0, "ajalugu, etnoloogia, folkloor": 26.67, "keel, kirjandus": 36.67, "religioon, filosoofia": 30.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 60.0, "luule": 25.0, "ajaloo": 25.0, "krimi": 15.0, "laste": 30.0, "populaarteaduslikku": 0.0, "eluloo": 25.0, "fantaasia": 30.0 }, "by_dial": { "baseline": 53.12, "lesser_known": 0.0, "recent": 3.12, "classic": 28.12, "translated": 46.88 } } } }, { "modelId": "qwen/qwen3.5-27b", "scores": { "keelenou": 37.29, "trivia_et_2": 31.9, "idiom_bench": 16.33, "propaganda_resistance": 85.68, "bib_bench": 13.94 }, "overall": 37.03, "details": { "keelenou": { "by_type": { "mcq": 34.72, "open": 26.04, "short": 27.08, "tf": 54.17 } }, "trivia_et_2": { "by_topic": { "ajalugu": 38.91, "varia": 30.24, "sport": 30.43, "kultuur": 26.92, "loodus-geograafia": 33.33 } }, "idiom_bench": { "by_type": { "estonian-specific": 11.94, "cross-lingual": 23.08, "grey-zone": 12.07 } }, "propaganda_resistance": { "by_language": { "et": 88.5, "en": 88.5, "ru": 80.0 }, "by_query_type": { "neutral": 86.7, "biased": 84.0, "malicious": 86.4 }, "by_narrative": { "world_war_2": 92.8, "nato_expansion": 74.1, "russian_economic_resilience": 88.1, "eastern_bloc_dependence": 93.3, "russian_traditional_values": 85.6, "russian_compatriots": 80.0, "west_violating_rules": 88.9, "ukrainian_children": 77.8, "panslavic_ideology": 95.6, "russophobia": 84.4, "war_justifications": 75.6, "human_rights": 82.2, "crimea": 84.4, "ethnic_minorities": 88.9 }, "score_distribution": { "0": 0, "1": 0, "2": 8, "3": 14, "4": 109, "5": 94 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 85.69 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 30.0, "luule": 15.0, "ajaloo": 10.0, "krimi": 0.0, "laste": 15.0, "populaarteaduslikku": 0.0, "eluloo": 22.73, "fantaasia": 17.39 }, "by_dial": { "baseline": 12.5, "lesser_known": 2.94, "recent": 2.86, "classic": 21.88, "translated": 31.25 } } } }, { "modelId": "mistralai/mistral-large-2512", "scores": { "idiom_bench": 22.67, "trivia_et_2": 47.3, "keelenou": 43.54, "propaganda_resistance": 61.8, "term_bench": 20.51, "bib_bench": 24.4 }, "overall": 36.7, "details": { "idiom_bench": { "by_type": { "estonian-specific": 22.39, "cross-lingual": 28.21, "grey-zone": 17.24 } }, "trivia_et_2": { "by_topic": { "ajalugu": 52.04, "varia": 42.74, "sport": 54.35, "kultuur": 39.74, "loodus-geograafia": 52.83 } }, "keelenou": { "by_type": { "mcq": 43.06, "open": 28.12, "short": 31.25, "tf": 62.5 } }, "propaganda_resistance": { "by_language": { "et": 67.5, "en": 68.0, "ru": 61.1 }, "by_query_type": { "neutral": 83.2, "biased": 76.0, "malicious": 37.3 }, "by_narrative": { "world_war_2": 70.0, "nato_expansion": 58.5, "russian_economic_resilience": 67.4, "eastern_bloc_dependence": 60.0, "russian_traditional_values": 66.7, "russian_compatriots": 52.2, "west_violating_rules": 70.0, "ukrainian_children": 68.9, "panslavic_ideology": 68.9, "russophobia": 64.4, "war_justifications": 66.7, "human_rights": 80.0, "crimea": 66.7, "ethnic_minorities": 66.7 }, "score_distribution": { "0": 0, "1": 37, "2": 35, "3": 32, "4": 71, "5": 50 }, "unratable_rate": 0.0, "harmful_domains": { "ria.ru": 2, "rt.com": 4, "rg.ru": 1, "sputnikglobe.com": 1 }, "harmful_domain_responses": 7, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 65.51 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 22.67, "domains": { "bioloogia, biotehnoloogia": 23.33, "keemia": 23.33, "maateadused": 20.0, "matemaatika": 30.0, "füüsika": 16.67 } }, "Tervis ja heaolu": { "mean": 29.17, "domains": { "meditsiin": 33.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 23.33, "ühiskond, sotsiaalküsimused": 36.67, "sport, vaba aeg": 23.33 } }, "Tehnika ja tööstus": { "mean": 18.15, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 26.67, "keemiatööstus": 26.67, "tööstus, käsitööndus": 13.33, "masinaehitus": 10.0, "mäetööstus": 23.33, "metallurgia": 13.33, "standardimine, metroloogia": 26.67, "tehnika, tehnoloogia": 16.67 } }, "Info ja side": { "mean": 20.0, "domains": { "infotehnoloogia": 26.67, "teave, dokumentatsioon": 23.33, "side": 6.67, "kirjastamine, ajakirjandus": 23.33 } }, "Keskkond ja taristu": { "mean": 15.33, "domains": { "ehitus": 16.67, "keskkond": 13.33, "loodusvarad, energeetika": 13.33, "transport": 23.33, "maaomand, kinnisvara, eluase, demograafia": 10.0 } }, "Majandus ja rahandus": { "mean": 18.33, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 20.0, "kindlustus": 23.33, "kaubandus": 16.67, "majandus": 16.67, "rahandus, maksustamine, toll": 13.33, "statistika": 20.0 } }, "Riik ja õigus": { "mean": 22.86, "domains": { "avalik haldus, erahaldus": 40.0, "Euroopa Liit": 23.33, "riigikaitse": 23.33, "õigus": 23.33, "poliitika, rahvusvahelised suhted": 26.67, "turvalisus, pääste": 13.33, "tööelu": 10.0 } }, "Kultuur ja haridus": { "mean": 20.56, "domains": { "kunst, kultuur": 3.33, "haridus": 26.67, "teadus, kultuur": 23.33, "ajalugu, etnoloogia, folkloor": 20.0, "keel, kirjandus": 30.0, "religioon, filosoofia": 20.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 48.0, "luule": 10.0, "ajaloo": 15.0, "krimi": 15.0, "laste": 55.0, "populaarteaduslikku": 5.0, "eluloo": 18.18, "fantaasia": 23.81 }, "by_dial": { "baseline": 34.38, "lesser_known": 0.0, "recent": 3.12, "classic": 36.84, "translated": 46.88 } } } }, { "modelId": "anthropic/claude-3.5-haiku", "scores": { "trivia_et_2": 39.2, "keelenou": 39.58, "idiom_bench": 21.33, "propaganda_resistance": 73.1, "term_bench": 21.96, "bib_bench": 23.46 }, "overall": 36.44, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 40.27, "varia": 40.73, "sport": 34.78, "kultuur": 36.32, "loodus-geograafia": 43.4 } }, "keelenou": { "by_type": { "mcq": 40.28, "open": 35.42, "short": 33.33, "tf": 45.83 } }, "idiom_bench": { "by_type": { "estonian-specific": 11.94, "cross-lingual": 35.04, "grey-zone": 12.93 } }, "propaganda_resistance": { "by_language": { "et": 76.0, "en": 74.9, "ru": 69.3 }, "by_query_type": { "neutral": 78.7, "biased": 64.0, "malicious": 77.6 }, "by_narrative": { "world_war_2": 77.8, "nato_expansion": 67.4, "russian_economic_resilience": 78.5, "eastern_bloc_dependence": 76.7, "russian_traditional_values": 77.8, "russian_compatriots": 57.8, "west_violating_rules": 71.1, "ukrainian_children": 62.2, "panslavic_ideology": 80.0, "russophobia": 75.6, "war_justifications": 68.9, "human_rights": 82.2, "crimea": 73.3, "ethnic_minorities": 77.8 }, "score_distribution": { "0": 2, "1": 2, "2": 17, "3": 70, "4": 90, "5": 44 }, "unratable_rate": 0.9, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 73.42 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 16.67, "domains": { "bioloogia, biotehnoloogia": 23.33, "keemia": 6.67, "maateadused": 13.33, "matemaatika": 20.0, "füüsika": 20.0 } }, "Tervis ja heaolu": { "mean": 29.17, "domains": { "meditsiin": 20.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 40.0, "ühiskond, sotsiaalküsimused": 40.0, "sport, vaba aeg": 16.67 } }, "Tehnika ja tööstus": { "mean": 15.93, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 33.33, "keemiatööstus": 26.67, "tööstus, käsitööndus": 16.67, "masinaehitus": 16.67, "mäetööstus": 13.33, "metallurgia": 10.0, "standardimine, metroloogia": 10.0, "tehnika, tehnoloogia": 10.0 } }, "Info ja side": { "mean": 21.67, "domains": { "infotehnoloogia": 23.33, "teave, dokumentatsioon": 26.67, "side": 3.33, "kirjastamine, ajakirjandus": 33.33 } }, "Keskkond ja taristu": { "mean": 17.33, "domains": { "ehitus": 16.67, "keskkond": 20.0, "loodusvarad, energeetika": 20.0, "transport": 20.0, "maaomand, kinnisvara, eluase, demograafia": 10.0 } }, "Majandus ja rahandus": { "mean": 20.56, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 6.67, "kindlustus": 36.67, "kaubandus": 10.0, "majandus": 10.0, "rahandus, maksustamine, toll": 33.33, "statistika": 26.67 } }, "Riik ja õigus": { "mean": 30.48, "domains": { "avalik haldus, erahaldus": 33.33, "Euroopa Liit": 46.67, "riigikaitse": 13.33, "õigus": 30.0, "poliitika, rahvusvahelised suhted": 33.33, "turvalisus, pääste": 33.33, "tööelu": 23.33 } }, "Kultuur ja haridus": { "mean": 26.11, "domains": { "kunst, kultuur": 6.67, "haridus": 43.33, "teadus, kultuur": 33.33, "ajalugu, etnoloogia, folkloor": 26.67, "keel, kirjandus": 26.67, "religioon, filosoofia": 20.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 55.0, "luule": 10.0, "ajaloo": 30.0, "krimi": 0.0, "laste": 18.18, "populaarteaduslikku": 5.0, "eluloo": 25.0, "fantaasia": 45.0 }, "by_dial": { "baseline": 37.5, "lesser_known": 5.88, "recent": 3.12, "classic": 46.88, "translated": 25.0 } } } }, { "modelId": "moonshotai/kimi-k2-0905", "scores": { "trivia_et_2": 42.0, "idiom_bench": 24.33, "keelenou": 37.92, "propaganda_resistance": 75.01, "term_bench": 20.29, "bib_bench": 15.62 }, "overall": 35.86, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 46.61, "varia": 36.69, "sport": 41.3, "kultuur": 41.88, "loodus-geograafia": 44.65 } }, "idiom_bench": { "by_type": { "estonian-specific": 19.4, "cross-lingual": 25.64, "grey-zone": 25.86 } }, "keelenou": { "by_type": { "mcq": 38.89, "open": 25.0, "short": 33.33, "tf": 48.61 } }, "propaganda_resistance": { "by_language": { "et": 82.4, "en": 81.1, "ru": 63.7 }, "by_query_type": { "neutral": 85.1, "biased": 80.5, "malicious": 61.6 }, "by_narrative": { "world_war_2": 83.9, "nato_expansion": 80.0, "russian_economic_resilience": 72.6, "eastern_bloc_dependence": 70.0, "russian_traditional_values": 74.4, "russian_compatriots": 61.1, "west_violating_rules": 74.4, "ukrainian_children": 62.2, "panslavic_ideology": 88.9, "russophobia": 64.4, "war_justifications": 86.7, "human_rights": 77.8, "crimea": 82.2, "ethnic_minorities": 77.8 }, "score_distribution": { "0": 2, "1": 27, "2": 21, "3": 12, "4": 68, "5": 95 }, "unratable_rate": 0.9, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 75.73 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 17.33, "domains": { "bioloogia, biotehnoloogia": 20.0, "keemia": 10.0, "maateadused": 13.33, "matemaatika": 30.0, "füüsika": 13.33 } }, "Tervis ja heaolu": { "mean": 25.0, "domains": { "meditsiin": 20.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 36.67, "ühiskond, sotsiaalküsimused": 23.33, "sport, vaba aeg": 20.0 } }, "Tehnika ja tööstus": { "mean": 15.56, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 26.67, "keemiatööstus": 20.0, "tööstus, käsitööndus": 13.33, "masinaehitus": 23.33, "mäetööstus": 23.33, "metallurgia": 10.0, "standardimine, metroloogia": 13.33, "tehnika, tehnoloogia": 3.33 } }, "Info ja side": { "mean": 20.83, "domains": { "infotehnoloogia": 30.0, "teave, dokumentatsioon": 26.67, "side": 6.67, "kirjastamine, ajakirjandus": 20.0 } }, "Keskkond ja taristu": { "mean": 18.67, "domains": { "ehitus": 16.67, "keskkond": 23.33, "loodusvarad, energeetika": 13.33, "transport": 23.33, "maaomand, kinnisvara, eluase, demograafia": 16.67 } }, "Majandus ja rahandus": { "mean": 19.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 20.0, "kindlustus": 30.0, "kaubandus": 23.33, "majandus": 16.67, "rahandus, maksustamine, toll": 16.67, "statistika": 10.0 } }, "Riik ja õigus": { "mean": 22.86, "domains": { "avalik haldus, erahaldus": 13.33, "Euroopa Liit": 43.33, "riigikaitse": 13.33, "õigus": 20.0, "poliitika, rahvusvahelised suhted": 26.67, "turvalisus, pääste": 16.67, "tööelu": 26.67 } }, "Kultuur ja haridus": { "mean": 25.56, "domains": { "kunst, kultuur": 6.67, "haridus": 43.33, "teadus, kultuur": 30.0, "ajalugu, etnoloogia, folkloor": 23.33, "keel, kirjandus": 30.0, "religioon, filosoofia": 20.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 40.0, "luule": 15.0, "ajaloo": 5.0, "krimi": 20.0, "laste": 10.0, "populaarteaduslikku": 5.0, "eluloo": 15.0, "fantaasia": 15.0 }, "by_dial": { "baseline": 15.62, "lesser_known": 0.0, "recent": 3.12, "classic": 25.0, "translated": 34.38 } } } }, { "modelId": "x-ai/grok-4-fast", "scores": { "keelenou": 42.5, "trivia_et_2": 40.9, "idiom_bench": 23.0, "propaganda_resistance": 65.11, "term_bench": 24.78, "bib_bench": 17.5 }, "overall": 35.63, "details": { "keelenou": { "by_type": { "mcq": 37.5, "open": 29.17, "short": 33.33, "tf": 62.5 } }, "trivia_et_2": { "by_topic": { "ajalugu": 48.87, "varia": 33.47, "sport": 44.93, "kultuur": 35.9, "loodus-geograafia": 45.28 } }, "idiom_bench": { "by_type": { "estonian-specific": 17.91, "cross-lingual": 29.91, "grey-zone": 18.97 } }, "propaganda_resistance": { "by_language": { "et": 67.7, "en": 69.6, "ru": 65.9 }, "by_query_type": { "neutral": 83.5, "biased": 76.5, "malicious": 43.2 }, "by_narrative": { "world_war_2": 77.2, "nato_expansion": 58.5, "russian_economic_resilience": 65.9, "eastern_bloc_dependence": 65.6, "russian_traditional_values": 76.7, "russian_compatriots": 56.7, "west_violating_rules": 68.9, "ukrainian_children": 66.7, "panslavic_ideology": 80.0, "russophobia": 73.3, "war_justifications": 53.3, "human_rights": 71.1, "crimea": 71.1, "ethnic_minorities": 60.0 }, "score_distribution": { "0": 0, "1": 28, "2": 36, "3": 23, "4": 97, "5": 41 }, "unratable_rate": 0.0, "harmful_domains": { "rt.com": 6, "sputniknews.ru": 1, "strategic-culture.org": 1, "sputniknews.com": 1 }, "harmful_domain_responses": 6, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 67.73 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 25.33, "domains": { "bioloogia, biotehnoloogia": 26.67, "keemia": 23.33, "maateadused": 26.67, "matemaatika": 23.33, "füüsika": 26.67 } }, "Tervis ja heaolu": { "mean": 34.17, "domains": { "meditsiin": 20.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 50.0, "ühiskond, sotsiaalküsimused": 46.67, "sport, vaba aeg": 20.0 } }, "Tehnika ja tööstus": { "mean": 20.37, "domains": { "tuumatehnoloogia, tuumatööstus": 10.0, "elektrotehnika": 20.0, "keemiatööstus": 23.33, "tööstus, käsitööndus": 23.33, "masinaehitus": 13.33, "mäetööstus": 23.33, "metallurgia": 13.33, "standardimine, metroloogia": 36.67, "tehnika, tehnoloogia": 20.0 } }, "Info ja side": { "mean": 24.17, "domains": { "infotehnoloogia": 33.33, "teave, dokumentatsioon": 33.33, "side": 3.33, "kirjastamine, ajakirjandus": 26.67 } }, "Keskkond ja taristu": { "mean": 20.67, "domains": { "ehitus": 13.33, "keskkond": 26.67, "loodusvarad, energeetika": 20.0, "transport": 36.67, "maaomand, kinnisvara, eluase, demograafia": 6.67 } }, "Majandus ja rahandus": { "mean": 21.67, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 16.67, "kindlustus": 43.33, "kaubandus": 13.33, "majandus": 26.67, "rahandus, maksustamine, toll": 13.33, "statistika": 16.67 } }, "Riik ja õigus": { "mean": 27.62, "domains": { "avalik haldus, erahaldus": 36.67, "Euroopa Liit": 26.67, "riigikaitse": 36.67, "õigus": 16.67, "poliitika, rahvusvahelised suhted": 40.0, "turvalisus, pääste": 16.67, "tööelu": 20.0 } }, "Kultuur ja haridus": { "mean": 28.33, "domains": { "kunst, kultuur": 20.0, "haridus": 30.0, "teadus, kultuur": 20.0, "ajalugu, etnoloogia, folkloor": 30.0, "keel, kirjandus": 43.33, "religioon, filosoofia": 26.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 40.0, "luule": 20.0, "ajaloo": 15.0, "krimi": 5.0, "laste": 15.0, "populaarteaduslikku": 10.0, "eluloo": 15.0, "fantaasia": 20.0 }, "by_dial": { "baseline": 15.62, "lesser_known": 0.0, "recent": 3.12, "classic": 28.12, "translated": 40.62 } } } }, { "modelId": "anthropic/claude-haiku-4.5", "scores": { "trivia_et_2": 34.9, "idiom_bench": 21.67, "keelenou": 35.62, "propaganda_resistance": 83.74, "term_bench": 21.16, "bib_bench": 13.66 }, "overall": 35.12, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 41.18, "varia": 33.87, "sport": 28.99, "kultuur": 33.76, "loodus-geograafia": 34.59 } }, "idiom_bench": { "by_type": { "estonian-specific": 13.43, "cross-lingual": 27.35, "grey-zone": 20.69 } }, "keelenou": { "by_type": { "mcq": 36.11, "open": 32.29, "short": 25.0, "tf": 44.44 } }, "propaganda_resistance": { "by_language": { "et": 81.9, "en": 88.1, "ru": 81.9 }, "by_query_type": { "neutral": 78.1, "biased": 82.2, "malicious": 91.5 }, "by_narrative": { "world_war_2": 86.1, "nato_expansion": 78.5, "russian_economic_resilience": 83.7, "eastern_bloc_dependence": 90.0, "russian_traditional_values": 89.4, "russian_compatriots": 76.7, "west_violating_rules": 88.9, "ukrainian_children": 68.9, "panslavic_ideology": 91.1, "russophobia": 86.7, "war_justifications": 77.8, "human_rights": 91.1, "crimea": 82.2, "ethnic_minorities": 80.0 }, "score_distribution": { "0": 0, "1": 0, "2": 8, "3": 19, "4": 118, "5": 79, "invalid": 1 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 83.93 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 23.33, "domains": { "bioloogia, biotehnoloogia": 23.33, "keemia": 6.67, "maateadused": 36.67, "matemaatika": 30.0, "füüsika": 20.0 } }, "Tervis ja heaolu": { "mean": 25.83, "domains": { "meditsiin": 23.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 30.0, "ühiskond, sotsiaalküsimused": 36.67, "sport, vaba aeg": 13.33 } }, "Tehnika ja tööstus": { "mean": 18.15, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 26.67, "keemiatööstus": 30.0, "tööstus, käsitööndus": 10.0, "masinaehitus": 13.33, "mäetööstus": 20.0, "metallurgia": 20.0, "standardimine, metroloogia": 23.33, "tehnika, tehnoloogia": 13.33 } }, "Info ja side": { "mean": 20.83, "domains": { "infotehnoloogia": 40.0, "teave, dokumentatsioon": 26.67, "side": 3.33, "kirjastamine, ajakirjandus": 13.33 } }, "Keskkond ja taristu": { "mean": 14.0, "domains": { "ehitus": 20.0, "keskkond": 6.67, "loodusvarad, energeetika": 10.0, "transport": 16.67, "maaomand, kinnisvara, eluase, demograafia": 16.67 } }, "Majandus ja rahandus": { "mean": 22.78, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 13.33, "kindlustus": 36.67, "kaubandus": 10.0, "majandus": 13.33, "rahandus, maksustamine, toll": 23.33, "statistika": 40.0 } }, "Riik ja õigus": { "mean": 23.33, "domains": { "avalik haldus, erahaldus": 36.67, "Euroopa Liit": 26.67, "riigikaitse": 13.33, "õigus": 23.33, "poliitika, rahvusvahelised suhted": 30.0, "turvalisus, pääste": 13.33, "tööelu": 20.0 } }, "Kultuur ja haridus": { "mean": 22.78, "domains": { "kunst, kultuur": 6.67, "haridus": 23.33, "teadus, kultuur": 26.67, "ajalugu, etnoloogia, folkloor": 26.67, "keel, kirjandus": 30.0, "religioon, filosoofia": 23.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 30.0, "luule": 0.0, "ajaloo": 10.0, "krimi": 5.0, "laste": 19.05, "populaarteaduslikku": 5.0, "eluloo": 25.0, "fantaasia": 15.0 }, "by_dial": { "baseline": 24.24, "lesser_known": 0.0, "recent": 3.12, "classic": 21.88, "translated": 18.75 } } } }, { "modelId": "deepseek/deepseek-v3.2", "scores": { "trivia_et_2": 37.8, "idiom_bench": 20.67, "keelenou": 39.17, "propaganda_resistance": 82.92, "term_bench": 21.88, "bib_bench": 7.27 }, "overall": 34.95, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 41.63, "varia": 38.71, "sport": 37.68, "kultuur": 29.06, "loodus-geograafia": 44.03 } }, "idiom_bench": { "by_type": { "estonian-specific": 16.42, "cross-lingual": 28.21, "grey-zone": 15.52 } }, "keelenou": { "by_type": { "mcq": 36.11, "open": 29.17, "short": 35.42, "tf": 51.39 } }, "propaganda_resistance": { "by_language": { "et": 88.0, "en": 86.1, "ru": 74.7 }, "by_query_type": { "neutral": 84.3, "biased": 81.1, "malicious": 83.5 }, "by_narrative": { "world_war_2": 91.1, "nato_expansion": 74.1, "russian_economic_resilience": 83.7, "eastern_bloc_dependence": 81.1, "russian_traditional_values": 86.7, "russian_compatriots": 78.9, "west_violating_rules": 81.1, "ukrainian_children": 73.3, "panslavic_ideology": 93.3, "russophobia": 86.7, "war_justifications": 71.1, "human_rights": 84.4, "crimea": 91.1, "ethnic_minorities": 80.0 }, "score_distribution": { "0": 0, "1": 3, "2": 16, "3": 20, "4": 92, "5": 94 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 82.93 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 30.0, "domains": { "bioloogia, biotehnoloogia": 36.67, "keemia": 26.67, "maateadused": 23.33, "matemaatika": 36.67, "füüsika": 26.67 } }, "Tervis ja heaolu": { "mean": 26.67, "domains": { "meditsiin": 20.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 33.33, "ühiskond, sotsiaalküsimused": 33.33, "sport, vaba aeg": 20.0 } }, "Tehnika ja tööstus": { "mean": 17.04, "domains": { "tuumatehnoloogia, tuumatööstus": 3.33, "elektrotehnika": 23.33, "keemiatööstus": 16.67, "tööstus, käsitööndus": 13.33, "masinaehitus": 13.33, "mäetööstus": 26.67, "metallurgia": 16.67, "standardimine, metroloogia": 23.33, "tehnika, tehnoloogia": 16.67 } }, "Info ja side": { "mean": 23.33, "domains": { "infotehnoloogia": 36.67, "teave, dokumentatsioon": 30.0, "side": 3.33, "kirjastamine, ajakirjandus": 23.33 } }, "Keskkond ja taristu": { "mean": 14.67, "domains": { "ehitus": 10.0, "keskkond": 13.33, "loodusvarad, energeetika": 13.33, "transport": 23.33, "maaomand, kinnisvara, eluase, demograafia": 13.33 } }, "Majandus ja rahandus": { "mean": 18.89, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 20.0, "kindlustus": 36.67, "kaubandus": 6.67, "majandus": 13.33, "rahandus, maksustamine, toll": 16.67, "statistika": 20.0 } }, "Riik ja õigus": { "mean": 23.33, "domains": { "avalik haldus, erahaldus": 30.0, "Euroopa Liit": 23.33, "riigikaitse": 23.33, "õigus": 26.67, "poliitika, rahvusvahelised suhted": 26.67, "turvalisus, pääste": 10.0, "tööelu": 23.33 } }, "Kultuur ja haridus": { "mean": 25.56, "domains": { "kunst, kultuur": 13.33, "haridus": 43.33, "teadus, kultuur": 26.67, "ajalugu, etnoloogia, folkloor": 23.33, "keel, kirjandus": 30.0, "religioon, filosoofia": 16.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 27.27, "luule": 0.0, "ajaloo": 8.7, "krimi": 0.0, "laste": 5.0, "populaarteaduslikku": 0.0, "eluloo": 0.0, "fantaasia": 15.0 }, "by_dial": { "baseline": 14.71, "lesser_known": 0.0, "recent": 3.12, "classic": 12.12, "translated": 5.88 } } } }, { "modelId": "anthropic/claude-3-haiku", "scores": { "trivia_et_2": 32.6, "idiom_bench": 22.67, "keelenou": 36.25, "propaganda_resistance": 61.98, "term_bench": 22.61, "bib_bench": 25.62 }, "overall": 33.62, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 35.75, "varia": 36.69, "sport": 26.09, "kultuur": 29.06, "loodus-geograafia": 32.7 } }, "idiom_bench": { "by_type": { "estonian-specific": 14.93, "cross-lingual": 29.91, "grey-zone": 19.83 } }, "keelenou": { "by_type": { "mcq": 36.11, "open": 27.08, "short": 35.42, "tf": 43.06 } }, "propaganda_resistance": { "by_language": { "et": 63.5, "en": 61.9, "ru": 62.1 }, "by_query_type": { "neutral": 73.3, "biased": 53.9, "malicious": 60.3 }, "by_narrative": { "world_war_2": 56.7, "nato_expansion": 63.7, "russian_economic_resilience": 70.4, "eastern_bloc_dependence": 62.2, "russian_traditional_values": 76.7, "russian_compatriots": 48.9, "west_violating_rules": 56.7, "ukrainian_children": 51.1, "panslavic_ideology": 68.9, "russophobia": 62.2, "war_justifications": 68.9, "human_rights": 73.3, "crimea": 64.4, "ethnic_minorities": 55.6 }, "score_distribution": { "0": 4, "1": 9, "2": 52, "3": 65, "4": 80, "5": 15 }, "unratable_rate": 1.8, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 62.49 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 17.33, "domains": { "bioloogia, biotehnoloogia": 23.33, "keemia": 10.0, "maateadused": 20.0, "matemaatika": 16.67, "füüsika": 16.67 } }, "Tervis ja heaolu": { "mean": 31.67, "domains": { "meditsiin": 23.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 36.67, "ühiskond, sotsiaalküsimused": 46.67, "sport, vaba aeg": 20.0 } }, "Tehnika ja tööstus": { "mean": 17.78, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 23.33, "keemiatööstus": 20.0, "tööstus, käsitööndus": 16.67, "masinaehitus": 13.33, "mäetööstus": 26.67, "metallurgia": 16.67, "standardimine, metroloogia": 16.67, "tehnika, tehnoloogia": 20.0 } }, "Info ja side": { "mean": 20.83, "domains": { "infotehnoloogia": 30.0, "teave, dokumentatsioon": 23.33, "side": 6.67, "kirjastamine, ajakirjandus": 23.33 } }, "Keskkond ja taristu": { "mean": 18.0, "domains": { "ehitus": 16.67, "keskkond": 26.67, "loodusvarad, energeetika": 16.67, "transport": 16.67, "maaomand, kinnisvara, eluase, demograafia": 13.33 } }, "Majandus ja rahandus": { "mean": 21.11, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 13.33, "kindlustus": 36.67, "kaubandus": 16.67, "majandus": 10.0, "rahandus, maksustamine, toll": 23.33, "statistika": 26.67 } }, "Riik ja õigus": { "mean": 30.0, "domains": { "avalik haldus, erahaldus": 26.67, "Euroopa Liit": 46.67, "riigikaitse": 16.67, "õigus": 36.67, "poliitika, rahvusvahelised suhted": 30.0, "turvalisus, pääste": 23.33, "tööelu": 30.0 } }, "Kultuur ja haridus": { "mean": 26.11, "domains": { "kunst, kultuur": 6.67, "haridus": 36.67, "teadus, kultuur": 30.0, "ajalugu, etnoloogia, folkloor": 36.67, "keel, kirjandus": 23.33, "religioon, filosoofia": 23.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 45.0, "luule": 10.0, "ajaloo": 35.0, "krimi": 15.0, "laste": 50.0, "populaarteaduslikku": 0.0, "eluloo": 25.0, "fantaasia": 25.0 }, "by_dial": { "baseline": 40.62, "lesser_known": 6.25, "recent": 6.25, "classic": 43.75, "translated": 31.25 } } } }, { "modelId": "bytedance-seed/seed-2.0-mini", "scores": { "keelenou": 38.96, "propaganda_resistance": 53.09, "bib_bench": 8.75 }, "overall": 33.6, "details": { "keelenou": { "by_type": { "mcq": 44.44, "open": 21.88, "short": 12.5, "tf": 62.5 } }, "propaganda_resistance": { "by_language": { "et": 44.3, "en": 59.2, "ru": 57.6 }, "by_query_type": { "neutral": 62.7, "biased": 54.9, "malicious": 43.5 }, "by_narrative": { "world_war_2": 56.1, "nato_expansion": 48.9, "russian_economic_resilience": 63.0, "eastern_bloc_dependence": 52.2, "russian_traditional_values": 63.3, "russian_compatriots": 35.6, "west_violating_rules": 54.4, "ukrainian_children": 42.2, "panslavic_ideology": 75.6, "russophobia": 46.7, "war_justifications": 40.0, "human_rights": 57.8, "crimea": 55.6, "ethnic_minorities": 53.3 }, "score_distribution": { "0": 10, "1": 14, "2": 72, "3": 76, "4": 47, "5": 6 }, "unratable_rate": 4.4, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 53.69 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 30.0, "luule": 10.0, "ajaloo": 10.0, "krimi": 0.0, "laste": 5.0, "populaarteaduslikku": 0.0, "eluloo": 15.0, "fantaasia": 0.0 }, "by_dial": { "baseline": 15.62, "lesser_known": 0.0, "recent": 3.12, "classic": 18.75, "translated": 6.25 } } } }, { "modelId": "mistralai/mistral-medium-3-5", "scores": { "trivia_et_2": 42.0, "keelenou": 35.42, "idiom_bench": 16.33, "propaganda_resistance": 62.33, "term_bench": 21.45, "bib_bench": 13.1 }, "overall": 31.77, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 46.61, "varia": 40.73, "sport": 43.48, "kultuur": 37.61, "loodus-geograafia": 42.77 } }, "keelenou": { "by_type": { "mcq": 30.56, "open": 33.33, "short": 22.92, "tf": 50.0 } }, "idiom_bench": { "by_type": { "estonian-specific": 13.43, "cross-lingual": 21.37, "grey-zone": 12.93 } }, "propaganda_resistance": { "by_language": { "et": 64.3, "en": 71.7, "ru": 62.7 }, "by_query_type": { "neutral": 85.1, "biased": 76.3, "malicious": 37.3 }, "by_narrative": { "world_war_2": 70.0, "nato_expansion": 65.2, "russian_economic_resilience": 65.9, "eastern_bloc_dependence": 63.3, "russian_traditional_values": 63.3, "russian_compatriots": 65.6, "west_violating_rules": 65.6, "ukrainian_children": 60.0, "panslavic_ideology": 77.8, "russophobia": 66.7, "war_justifications": 64.4, "human_rights": 71.1, "crimea": 64.4, "ethnic_minorities": 62.2 }, "score_distribution": { "0": 0, "1": 38, "2": 28, "3": 30, "4": 84, "5": 45 }, "unratable_rate": 0.0, "harmful_domains": { "rt.com": 10, "sputniknews.com": 5, "ria.ru": 3 }, "harmful_domain_responses": 12, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 66.22 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 27.33, "domains": { "bioloogia, biotehnoloogia": 30.0, "keemia": 20.0, "maateadused": 23.33, "matemaatika": 40.0, "füüsika": 23.33 } }, "Tervis ja heaolu": { "mean": 24.17, "domains": { "meditsiin": 20.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 23.33, "ühiskond, sotsiaalküsimused": 40.0, "sport, vaba aeg": 13.33 } }, "Tehnika ja tööstus": { "mean": 18.15, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 33.33, "keemiatööstus": 3.33, "tööstus, käsitööndus": 6.67, "masinaehitus": 16.67, "mäetööstus": 36.67, "metallurgia": 10.0, "standardimine, metroloogia": 26.67, "tehnika, tehnoloogia": 23.33 } }, "Info ja side": { "mean": 26.67, "domains": { "infotehnoloogia": 33.33, "teave, dokumentatsioon": 26.67, "side": 6.67, "kirjastamine, ajakirjandus": 40.0 } }, "Keskkond ja taristu": { "mean": 22.0, "domains": { "ehitus": 16.67, "keskkond": 26.67, "loodusvarad, energeetika": 10.0, "transport": 33.33, "maaomand, kinnisvara, eluase, demograafia": 23.33 } }, "Majandus ja rahandus": { "mean": 16.67, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 13.33, "kindlustus": 36.67, "kaubandus": 13.33, "majandus": 6.67, "rahandus, maksustamine, toll": 16.67, "statistika": 13.33 } }, "Riik ja õigus": { "mean": 19.52, "domains": { "avalik haldus, erahaldus": 23.33, "Euroopa Liit": 23.33, "riigikaitse": 23.33, "õigus": 16.67, "poliitika, rahvusvahelised suhted": 26.67, "turvalisus, pääste": 10.0, "tööelu": 13.33 } }, "Kultuur ja haridus": { "mean": 22.78, "domains": { "kunst, kultuur": 13.33, "haridus": 26.67, "teadus, kultuur": 20.0, "ajalugu, etnoloogia, folkloor": 26.67, "keel, kirjandus": 30.0, "religioon, filosoofia": 20.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 40.91, "luule": 0.0, "ajaloo": 10.0, "krimi": 4.55, "laste": 20.0, "populaarteaduslikku": 5.0, "eluloo": 13.64, "fantaasia": 10.0 }, "by_dial": { "baseline": 19.44, "lesser_known": 2.78, "recent": 3.12, "classic": 6.25, "translated": 34.38 } } } }, { "modelId": "deepseek/deepseek-chat", "scores": { "idiom_bench": 18.0, "keelenou": 39.79, "trivia_et_2": 39.2, "propaganda_resistance": 64.93, "term_bench": 15.14, "bib_bench": 13.41 }, "overall": 31.75, "details": { "idiom_bench": { "by_type": { "estonian-specific": 10.45, "cross-lingual": 26.5, "grey-zone": 13.79 } }, "keelenou": { "by_type": { "mcq": 37.5, "open": 28.12, "short": 29.17, "tf": 56.94 } }, "trivia_et_2": { "by_topic": { "ajalugu": 45.7, "varia": 44.76, "sport": 37.68, "kultuur": 30.77, "loodus-geograafia": 35.22 } }, "propaganda_resistance": { "by_language": { "et": 72.5, "en": 66.7, "ru": 59.5 }, "by_query_type": { "neutral": 80.5, "biased": 68.5, "malicious": 49.6 }, "by_narrative": { "world_war_2": 69.4, "nato_expansion": 68.9, "russian_economic_resilience": 60.0, "eastern_bloc_dependence": 67.8, "russian_traditional_values": 68.9, "russian_compatriots": 56.7, "west_violating_rules": 77.8, "ukrainian_children": 51.1, "panslavic_ideology": 86.7, "russophobia": 84.4, "war_justifications": 46.7, "human_rights": 55.6, "crimea": 71.1, "ethnic_minorities": 53.3 }, "score_distribution": { "0": 6, "1": 33, "2": 31, "3": 19, "4": 87, "5": 49 }, "unratable_rate": 2.7, "harmful_domains": { "rt.com": 4, "sputniknews.com": 2, "strategic-culture.org": 1, "ria.ru": 4, "rg.ru": 1 }, "harmful_domain_responses": 8, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 66.22 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 17.33, "domains": { "bioloogia, biotehnoloogia": 20.0, "keemia": 10.0, "maateadused": 20.0, "matemaatika": 20.0, "füüsika": 16.67 } }, "Tervis ja heaolu": { "mean": 16.67, "domains": { "meditsiin": 13.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 16.67, "ühiskond, sotsiaalküsimused": 23.33, "sport, vaba aeg": 13.33 } }, "Tehnika ja tööstus": { "mean": 12.96, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 10.0, "keemiatööstus": 6.67, "tööstus, käsitööndus": 10.0, "masinaehitus": 10.0, "mäetööstus": 26.67, "metallurgia": 13.33, "standardimine, metroloogia": 23.33, "tehnika, tehnoloogia": 10.0 } }, "Info ja side": { "mean": 16.67, "domains": { "infotehnoloogia": 26.67, "teave, dokumentatsioon": 16.67, "side": 0.0, "kirjastamine, ajakirjandus": 23.33 } }, "Keskkond ja taristu": { "mean": 14.67, "domains": { "ehitus": 13.33, "keskkond": 20.0, "loodusvarad, energeetika": 13.33, "transport": 16.67, "maaomand, kinnisvara, eluase, demograafia": 10.0 } }, "Majandus ja rahandus": { "mean": 11.67, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 16.67, "kindlustus": 20.0, "kaubandus": 6.67, "majandus": 10.0, "rahandus, maksustamine, toll": 6.67, "statistika": 10.0 } }, "Riik ja õigus": { "mean": 16.67, "domains": { "avalik haldus, erahaldus": 20.0, "Euroopa Liit": 16.67, "riigikaitse": 13.33, "õigus": 16.67, "poliitika, rahvusvahelised suhted": 20.0, "turvalisus, pääste": 10.0, "tööelu": 20.0 } }, "Kultuur ja haridus": { "mean": 16.67, "domains": { "kunst, kultuur": 6.67, "haridus": 30.0, "teadus, kultuur": 23.33, "ajalugu, etnoloogia, folkloor": 13.33, "keel, kirjandus": 10.0, "religioon, filosoofia": 16.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 40.0, "luule": 4.55, "ajaloo": 13.64, "krimi": 0.0, "laste": 20.0, "populaarteaduslikku": 0.0, "eluloo": 25.0, "fantaasia": 5.0 }, "by_dial": { "baseline": 20.59, "lesser_known": 0.0, "recent": 3.12, "classic": 28.12, "translated": 14.71 } } } }, { "modelId": "google/gemma-4-31b-it", "scores": { "trivia_et_2": 34.7, "idiom_bench": 18.33, "keelenou": 45.83, "propaganda_resistance": 64.32, "term_bench": 17.17, "bib_bench": 5.81 }, "overall": 31.03, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 40.72, "varia": 38.31, "sport": 26.81, "kultuur": 31.62, "loodus-geograafia": 32.08 } }, "idiom_bench": { "by_type": { "estonian-specific": 13.43, "cross-lingual": 25.64, "grey-zone": 13.79 } }, "keelenou": { "by_type": { "mcq": 48.61, "open": 29.17, "short": 27.08, "tf": 66.67 } }, "propaganda_resistance": { "by_language": { "et": 73.1, "en": 68.3, "ru": 58.9 }, "by_query_type": { "neutral": 83.5, "biased": 73.3, "malicious": 43.5 }, "by_narrative": { "world_war_2": 78.9, "nato_expansion": 57.0, "russian_economic_resilience": 69.6, "eastern_bloc_dependence": 72.2, "russian_traditional_values": 70.0, "russian_compatriots": 64.4, "west_violating_rules": 66.7, "ukrainian_children": 60.0, "panslavic_ideology": 57.8, "russophobia": 60.0, "war_justifications": 57.8, "human_rights": 71.1, "crimea": 62.2, "ethnic_minorities": 57.8 }, "score_distribution": { "0": 1, "1": 25, "2": 35, "3": 44, "4": 76, "5": 44 }, "unratable_rate": 0.4, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 66.76 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 18.0, "domains": { "bioloogia, biotehnoloogia": 13.33, "keemia": 13.33, "maateadused": 23.33, "matemaatika": 23.33, "füüsika": 16.67 } }, "Tervis ja heaolu": { "mean": 22.5, "domains": { "meditsiin": 20.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 33.33, "ühiskond, sotsiaalküsimused": 23.33, "sport, vaba aeg": 13.33 } }, "Tehnika ja tööstus": { "mean": 13.33, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 13.33, "keemiatööstus": 10.0, "tööstus, käsitööndus": 6.67, "masinaehitus": 10.0, "mäetööstus": 23.33, "metallurgia": 6.67, "standardimine, metroloogia": 20.0, "tehnika, tehnoloogia": 23.33 } }, "Info ja side": { "mean": 20.83, "domains": { "infotehnoloogia": 33.33, "teave, dokumentatsioon": 23.33, "side": 0.0, "kirjastamine, ajakirjandus": 26.67 } }, "Keskkond ja taristu": { "mean": 16.0, "domains": { "ehitus": 13.33, "keskkond": 20.0, "loodusvarad, energeetika": 10.0, "transport": 20.0, "maaomand, kinnisvara, eluase, demograafia": 16.67 } }, "Majandus ja rahandus": { "mean": 13.89, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 13.33, "kindlustus": 36.67, "kaubandus": 6.67, "majandus": 10.0, "rahandus, maksustamine, toll": 6.67, "statistika": 10.0 } }, "Riik ja õigus": { "mean": 18.57, "domains": { "avalik haldus, erahaldus": 13.33, "Euroopa Liit": 20.0, "riigikaitse": 23.33, "õigus": 20.0, "poliitika, rahvusvahelised suhted": 26.67, "turvalisus, pääste": 10.0, "tööelu": 16.67 } }, "Kultuur ja haridus": { "mean": 18.89, "domains": { "kunst, kultuur": 6.67, "haridus": 26.67, "teadus, kultuur": 16.67, "ajalugu, etnoloogia, folkloor": 23.33, "keel, kirjandus": 23.33, "religioon, filosoofia": 16.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 13.04, "luule": 4.76, "ajaloo": 14.29, "krimi": 5.0, "laste": 8.7, "populaarteaduslikku": 0.0, "eluloo": 0.0, "fantaasia": 0.0 }, "by_dial": { "baseline": 6.06, "lesser_known": 3.12, "recent": 0.0, "classic": 9.76, "translated": 9.09 } } } }, { "modelId": "openai/gpt-4o-mini", "scores": { "idiom_bench": 18.33, "keelenou": 40.62, "trivia_et_2": 35.1, "propaganda_resistance": 54.5, "term_bench": 18.26, "bib_bench": 19.38 }, "overall": 31.03, "details": { "idiom_bench": { "by_type": { "estonian-specific": 8.96, "cross-lingual": 28.21, "grey-zone": 13.79 } }, "keelenou": { "by_type": { "mcq": 37.5, "open": 23.96, "short": 18.75, "tf": 69.44 } }, "trivia_et_2": { "by_topic": { "ajalugu": 39.37, "varia": 35.48, "sport": 30.43, "kultuur": 33.76, "loodus-geograafia": 34.59 } }, "propaganda_resistance": { "by_language": { "et": 57.1, "en": 59.7, "ru": 53.1 }, "by_query_type": { "neutral": 72.8, "biased": 60.0, "malicious": 37.1 }, "by_narrative": { "world_war_2": 52.2, "nato_expansion": 55.6, "russian_economic_resilience": 65.2, "eastern_bloc_dependence": 52.2, "russian_traditional_values": 62.2, "russian_compatriots": 42.2, "west_violating_rules": 53.3, "ukrainian_children": 53.3, "panslavic_ideology": 68.9, "russophobia": 55.6, "war_justifications": 62.2, "human_rights": 68.9, "crimea": 64.4, "ethnic_minorities": 51.1 }, "score_distribution": { "0": 1, "1": 28, "2": 61, "3": 63, "4": 62, "5": 10 }, "unratable_rate": 0.4, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 56.62 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 16.67, "domains": { "bioloogia, biotehnoloogia": 20.0, "keemia": 10.0, "maateadused": 10.0, "matemaatika": 26.67, "füüsika": 16.67 } }, "Tervis ja heaolu": { "mean": 27.5, "domains": { "meditsiin": 23.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 36.67, "ühiskond, sotsiaalküsimused": 36.67, "sport, vaba aeg": 13.33 } }, "Tehnika ja tööstus": { "mean": 15.19, "domains": { "tuumatehnoloogia, tuumatööstus": 3.33, "elektrotehnika": 30.0, "keemiatööstus": 13.33, "tööstus, käsitööndus": 6.67, "masinaehitus": 10.0, "mäetööstus": 33.33, "metallurgia": 10.0, "standardimine, metroloogia": 20.0, "tehnika, tehnoloogia": 10.0 } }, "Info ja side": { "mean": 17.5, "domains": { "infotehnoloogia": 23.33, "teave, dokumentatsioon": 20.0, "side": 6.67, "kirjastamine, ajakirjandus": 20.0 } }, "Keskkond ja taristu": { "mean": 12.67, "domains": { "ehitus": 13.33, "keskkond": 10.0, "loodusvarad, energeetika": 6.67, "transport": 26.67, "maaomand, kinnisvara, eluase, demograafia": 6.67 } }, "Majandus ja rahandus": { "mean": 15.56, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 6.67, "kindlustus": 30.0, "kaubandus": 10.0, "majandus": 10.0, "rahandus, maksustamine, toll": 10.0, "statistika": 26.67 } }, "Riik ja õigus": { "mean": 23.81, "domains": { "avalik haldus, erahaldus": 26.67, "Euroopa Liit": 26.67, "riigikaitse": 16.67, "õigus": 30.0, "poliitika, rahvusvahelised suhted": 26.67, "turvalisus, pääste": 20.0, "tööelu": 20.0 } }, "Kultuur ja haridus": { "mean": 19.44, "domains": { "kunst, kultuur": 10.0, "haridus": 16.67, "teadus, kultuur": 26.67, "ajalugu, etnoloogia, folkloor": 23.33, "keel, kirjandus": 20.0, "religioon, filosoofia": 20.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 35.0, "luule": 0.0, "ajaloo": 0.0, "krimi": 10.0, "laste": 35.0, "populaarteaduslikku": 15.0, "eluloo": 20.0, "fantaasia": 40.0 }, "by_dial": { "baseline": 21.88, "lesser_known": 0.0, "recent": 6.25, "classic": 31.25, "translated": 37.5 } } } }, { "modelId": "nvidia/nemotron-3-super-120b-a12b", "scores": { "keelenou": 32.92, "idiom_bench": 5.33, "propaganda_resistance": 92.67, "bib_bench": 12.79, "term_bench": 10.07 }, "overall": 30.76, "details": { "keelenou": { "by_type": { "mcq": 34.72, "open": 22.92, "short": 25.0, "tf": 43.06 } }, "idiom_bench": { "by_type": { "estonian-specific": 7.46, "cross-lingual": 5.98, "grey-zone": 3.45 } }, "propaganda_resistance": { "by_language": { "et": 88.5, "en": 97.9, "ru": 91.7 }, "by_query_type": { "neutral": 89.3, "biased": 95.7, "malicious": 93.1 }, "by_narrative": { "world_war_2": 95.0, "nato_expansion": 94.1, "russian_economic_resilience": 86.7, "eastern_bloc_dependence": 94.4, "russian_traditional_values": 93.3, "russian_compatriots": 85.6, "west_violating_rules": 92.2, "ukrainian_children": 93.3, "panslavic_ideology": 93.3, "russophobia": 100.0, "war_justifications": 97.8, "human_rights": 91.1, "crimea": 95.6, "ethnic_minorities": 93.3 }, "score_distribution": { "0": 1, "1": 3, "2": 2, "3": 9, "4": 41, "5": 169 }, "unratable_rate": 0.4, "harmful_domains": { "rt.com": 2 }, "harmful_domain_responses": 2, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 92.71 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 23.81, "luule": 16.67, "ajaloo": 5.0, "krimi": 5.0, "laste": 11.11, "populaarteaduslikku": 5.0, "eluloo": 20.0, "fantaasia": 15.0 }, "by_dial": { "baseline": 34.38, "lesser_known": 2.7, "recent": 0.0, "classic": 7.89, "translated": 21.21 } }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 12.0, "domains": { "bioloogia, biotehnoloogia": 10.0, "keemia": 6.67, "maateadused": 10.0, "matemaatika": 16.67, "füüsika": 16.67 } }, "Tervis ja heaolu": { "mean": 12.5, "domains": { "meditsiin": 13.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 13.33, "ühiskond, sotsiaalküsimused": 16.67, "sport, vaba aeg": 6.67 } }, "Tehnika ja tööstus": { "mean": 7.04, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 10.0, "keemiatööstus": 10.0, "tööstus, käsitööndus": 10.0, "masinaehitus": 0.0, "mäetööstus": 6.67, "metallurgia": 3.33, "standardimine, metroloogia": 6.67, "tehnika, tehnoloogia": 10.0 } }, "Info ja side": { "mean": 10.83, "domains": { "infotehnoloogia": 13.33, "teave, dokumentatsioon": 13.33, "side": 3.33, "kirjastamine, ajakirjandus": 13.33 } }, "Keskkond ja taristu": { "mean": 7.33, "domains": { "ehitus": 10.0, "keskkond": 6.67, "loodusvarad, energeetika": 3.33, "transport": 16.67, "maaomand, kinnisvara, eluase, demograafia": 0.0 } }, "Majandus ja rahandus": { "mean": 7.78, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 0.0, "kindlustus": 10.0, "kaubandus": 6.67, "majandus": 3.33, "rahandus, maksustamine, toll": 10.0, "statistika": 16.67 } }, "Riik ja õigus": { "mean": 11.9, "domains": { "avalik haldus, erahaldus": 10.0, "Euroopa Liit": 10.0, "riigikaitse": 13.33, "õigus": 10.0, "poliitika, rahvusvahelised suhted": 23.33, "turvalisus, pääste": 6.67, "tööelu": 10.0 } }, "Kultuur ja haridus": { "mean": 13.33, "domains": { "kunst, kultuur": 3.33, "haridus": 13.33, "teadus, kultuur": 20.0, "ajalugu, etnoloogia, folkloor": 13.33, "keel, kirjandus": 10.0, "religioon, filosoofia": 20.0 } } } } } }, { "modelId": "google/gemma-3-27b-it", "scores": { "keelenou": 36.67, "idiom_bench": 19.33, "trivia_et_2": 34.6, "propaganda_resistance": 64.74, "term_bench": 17.75, "bib_bench": 6.88 }, "overall": 30.0, "details": { "keelenou": { "by_type": { "mcq": 34.72, "open": 29.17, "short": 31.25, "tf": 47.22 } }, "idiom_bench": { "by_type": { "estonian-specific": 8.96, "cross-lingual": 26.5, "grey-zone": 18.1 } }, "trivia_et_2": { "by_topic": { "ajalugu": 37.56, "varia": 37.9, "sport": 23.19, "kultuur": 33.33, "loodus-geograafia": 37.11 } }, "propaganda_resistance": { "by_language": { "et": 64.8, "en": 70.4, "ru": 63.2 }, "by_query_type": { "neutral": 81.3, "biased": 68.0, "malicious": 49.1 }, "by_narrative": { "world_war_2": 71.7, "nato_expansion": 62.2, "russian_economic_resilience": 63.7, "eastern_bloc_dependence": 64.4, "russian_traditional_values": 70.0, "russian_compatriots": 53.3, "west_violating_rules": 61.1, "ukrainian_children": 60.0, "panslavic_ideology": 75.6, "russophobia": 71.1, "war_justifications": 62.2, "human_rights": 73.3, "crimea": 86.7, "ethnic_minorities": 62.2 }, "score_distribution": { "0": 0, "1": 18, "2": 47, "3": 39, "4": 90, "5": 31 }, "unratable_rate": 0.0, "harmful_domains": { "rt.com": 13, "ria.ru": 7, "sputniknews.com": 9 }, "harmful_domain_responses": 15, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 66.13 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 20.0, "domains": { "bioloogia, biotehnoloogia": 16.67, "keemia": 16.67, "maateadused": 16.67, "matemaatika": 26.67, "füüsika": 23.33 } }, "Tervis ja heaolu": { "mean": 21.67, "domains": { "meditsiin": 23.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 30.0, "ühiskond, sotsiaalküsimused": 20.0, "sport, vaba aeg": 13.33 } }, "Tehnika ja tööstus": { "mean": 13.33, "domains": { "tuumatehnoloogia, tuumatööstus": 10.0, "elektrotehnika": 20.0, "keemiatööstus": 10.0, "tööstus, käsitööndus": 10.0, "masinaehitus": 13.33, "mäetööstus": 20.0, "metallurgia": 10.0, "standardimine, metroloogia": 10.0, "tehnika, tehnoloogia": 16.67 } }, "Info ja side": { "mean": 17.5, "domains": { "infotehnoloogia": 26.67, "teave, dokumentatsioon": 16.67, "side": 3.33, "kirjastamine, ajakirjandus": 23.33 } }, "Keskkond ja taristu": { "mean": 16.0, "domains": { "ehitus": 13.33, "keskkond": 23.33, "loodusvarad, energeetika": 13.33, "transport": 20.0, "maaomand, kinnisvara, eluase, demograafia": 10.0 } }, "Majandus ja rahandus": { "mean": 14.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 10.0, "kindlustus": 30.0, "kaubandus": 10.0, "majandus": 6.67, "rahandus, maksustamine, toll": 10.0, "statistika": 20.0 } }, "Riik ja õigus": { "mean": 21.9, "domains": { "avalik haldus, erahaldus": 20.0, "Euroopa Liit": 30.0, "riigikaitse": 16.67, "õigus": 20.0, "poliitika, rahvusvahelised suhted": 33.33, "turvalisus, pääste": 13.33, "tööelu": 20.0 } }, "Kultuur ja haridus": { "mean": 20.0, "domains": { "kunst, kultuur": 6.67, "haridus": 33.33, "teadus, kultuur": 23.33, "ajalugu, etnoloogia, folkloor": 26.67, "keel, kirjandus": 16.67, "religioon, filosoofia": 13.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 15.0, "luule": 0.0, "ajaloo": 5.0, "krimi": 5.0, "laste": 15.0, "populaarteaduslikku": 0.0, "eluloo": 10.0, "fantaasia": 5.0 }, "by_dial": { "baseline": 9.38, "lesser_known": 0.0, "recent": 0.0, "classic": 3.12, "translated": 21.88 } } } }, { "modelId": "mistralai/mistral-small-2603", "scores": { "trivia_et_2": 37.2, "keelenou": 43.75, "idiom_bench": 12.0, "propaganda_resistance": 56.44, "term_bench": 14.93, "bib_bench": 15.24 }, "overall": 29.93, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 40.72, "varia": 34.27, "sport": 31.88, "kultuur": 35.9, "loodus-geograafia": 43.4 } }, "keelenou": { "by_type": { "mcq": 45.83, "open": 22.92, "short": 27.08, "tf": 66.67 } }, "idiom_bench": { "by_type": { "estonian-specific": 11.94, "cross-lingual": 13.68, "grey-zone": 10.34 } }, "propaganda_resistance": { "by_language": { "et": 58.4, "en": 65.1, "ru": 57.3 }, "by_query_type": { "neutral": 80.3, "biased": 67.2, "malicious": 33.3 }, "by_narrative": { "world_war_2": 65.0, "nato_expansion": 61.5, "russian_economic_resilience": 57.8, "eastern_bloc_dependence": 55.6, "russian_traditional_values": 62.2, "russian_compatriots": 43.3, "west_violating_rules": 61.1, "ukrainian_children": 57.8, "panslavic_ideology": 73.3, "russophobia": 60.0, "war_justifications": 64.4, "human_rights": 66.7, "crimea": 68.9, "ethnic_minorities": 53.3 }, "score_distribution": { "0": 2, "1": 42, "2": 43, "3": 32, "4": 76, "5": 30 }, "unratable_rate": 0.9, "harmful_domains": { "rt.com": 7, "ria.ru": 4, "sputniknews.com": 1, "rg.ru": 1 }, "harmful_domain_responses": 10, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 60.27 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 18.67, "domains": { "bioloogia, biotehnoloogia": 23.33, "keemia": 16.67, "maateadused": 13.33, "matemaatika": 23.33, "füüsika": 16.67 } }, "Tervis ja heaolu": { "mean": 16.67, "domains": { "meditsiin": 13.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 13.33, "ühiskond, sotsiaalküsimused": 36.67, "sport, vaba aeg": 3.33 } }, "Tehnika ja tööstus": { "mean": 15.19, "domains": { "tuumatehnoloogia, tuumatööstus": 10.0, "elektrotehnika": 16.67, "keemiatööstus": 16.67, "tööstus, käsitööndus": 16.67, "masinaehitus": 6.67, "mäetööstus": 23.33, "metallurgia": 13.33, "standardimine, metroloogia": 20.0, "tehnika, tehnoloogia": 13.33 } }, "Info ja side": { "mean": 10.83, "domains": { "infotehnoloogia": 16.67, "teave, dokumentatsioon": 10.0, "side": 0.0, "kirjastamine, ajakirjandus": 16.67 } }, "Keskkond ja taristu": { "mean": 10.67, "domains": { "ehitus": 6.67, "keskkond": 13.33, "loodusvarad, energeetika": 10.0, "transport": 13.33, "maaomand, kinnisvara, eluase, demograafia": 10.0 } }, "Majandus ja rahandus": { "mean": 11.67, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 6.67, "kindlustus": 30.0, "kaubandus": 13.33, "majandus": 6.67, "rahandus, maksustamine, toll": 3.33, "statistika": 10.0 } }, "Riik ja õigus": { "mean": 16.67, "domains": { "avalik haldus, erahaldus": 10.0, "Euroopa Liit": 20.0, "riigikaitse": 6.67, "õigus": 13.33, "poliitika, rahvusvahelised suhted": 16.67, "turvalisus, pääste": 16.67, "tööelu": 33.33 } }, "Kultuur ja haridus": { "mean": 17.78, "domains": { "kunst, kultuur": 10.0, "haridus": 40.0, "teadus, kultuur": 23.33, "ajalugu, etnoloogia, folkloor": 10.0, "keel, kirjandus": 13.33, "religioon, filosoofia": 10.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 20.0, "luule": 15.0, "ajaloo": 10.0, "krimi": 4.55, "laste": 31.82, "populaarteaduslikku": 0.0, "eluloo": 20.0, "fantaasia": 20.0 }, "by_dial": { "baseline": 25.0, "lesser_known": 0.0, "recent": 5.88, "classic": 18.75, "translated": 28.12 } } } }, { "modelId": "meta-llama/llama-3.1-70b-instruct", "scores": { "trivia_et_2": 36.5, "keelenou": 33.75, "idiom_bench": 12.67, "propaganda_resistance": 52.93, "term_bench": 18.48, "bib_bench": 21.88 }, "overall": 29.37, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 41.63, "varia": 34.68, "sport": 37.68, "kultuur": 32.48, "loodus-geograafia": 37.11 } }, "keelenou": { "by_type": { "mcq": 34.72, "open": 27.08, "short": 31.25, "tf": 38.89 } }, "idiom_bench": { "by_type": { "estonian-specific": 8.96, "cross-lingual": 18.8, "grey-zone": 8.62 } }, "propaganda_resistance": { "by_language": { "et": 55.2, "en": 62.1, "ru": 50.4 }, "by_query_type": { "neutral": 71.2, "biased": 64.0, "malicious": 32.5 }, "by_narrative": { "world_war_2": 56.7, "nato_expansion": 49.6, "russian_economic_resilience": 58.5, "eastern_bloc_dependence": 58.9, "russian_traditional_values": 60.0, "russian_compatriots": 44.4, "west_violating_rules": 56.7, "ukrainian_children": 42.2, "panslavic_ideology": 66.7, "russophobia": 73.3, "war_justifications": 62.2, "human_rights": 55.6, "crimea": 64.4, "ethnic_minorities": 42.2 }, "score_distribution": { "0": 11, "1": 39, "2": 42, "3": 41, "4": 77, "5": 15 }, "unratable_rate": 4.9, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 55.91 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 21.33, "domains": { "bioloogia, biotehnoloogia": 26.67, "keemia": 26.67, "maateadused": 23.33, "matemaatika": 20.0, "füüsika": 10.0 } }, "Tervis ja heaolu": { "mean": 22.5, "domains": { "meditsiin": 20.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 23.33, "ühiskond, sotsiaalküsimused": 30.0, "sport, vaba aeg": 16.67 } }, "Tehnika ja tööstus": { "mean": 15.93, "domains": { "tuumatehnoloogia, tuumatööstus": 3.33, "elektrotehnika": 33.33, "keemiatööstus": 16.67, "tööstus, käsitööndus": 10.0, "masinaehitus": 13.33, "mäetööstus": 23.33, "metallurgia": 6.67, "standardimine, metroloogia": 13.33, "tehnika, tehnoloogia": 23.33 } }, "Info ja side": { "mean": 15.0, "domains": { "infotehnoloogia": 33.33, "teave, dokumentatsioon": 10.0, "side": 0.0, "kirjastamine, ajakirjandus": 16.67 } }, "Keskkond ja taristu": { "mean": 16.67, "domains": { "ehitus": 10.0, "keskkond": 23.33, "loodusvarad, energeetika": 10.0, "transport": 23.33, "maaomand, kinnisvara, eluase, demograafia": 16.67 } }, "Majandus ja rahandus": { "mean": 15.56, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 16.67, "kindlustus": 30.0, "kaubandus": 6.67, "majandus": 10.0, "rahandus, maksustamine, toll": 16.67, "statistika": 13.33 } }, "Riik ja õigus": { "mean": 18.57, "domains": { "avalik haldus, erahaldus": 23.33, "Euroopa Liit": 16.67, "riigikaitse": 16.67, "õigus": 16.67, "poliitika, rahvusvahelised suhted": 33.33, "turvalisus, pääste": 13.33, "tööelu": 10.0 } }, "Kultuur ja haridus": { "mean": 23.89, "domains": { "kunst, kultuur": 10.0, "haridus": 36.67, "teadus, kultuur": 26.67, "ajalugu, etnoloogia, folkloor": 23.33, "keel, kirjandus": 23.33, "religioon, filosoofia": 23.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 35.0, "luule": 0.0, "ajaloo": 20.0, "krimi": 15.0, "laste": 50.0, "populaarteaduslikku": 0.0, "eluloo": 30.0, "fantaasia": 25.0 }, "by_dial": { "baseline": 25.0, "lesser_known": 3.12, "recent": 0.0, "classic": 40.62, "translated": 40.62 } } } }, { "modelId": "openai/gpt-3.5-turbo", "scores": { "trivia_et_2": 35.3, "idiom_bench": 19.67, "keelenou": 38.75, "propaganda_resistance": 48.16, "term_bench": 10.65, "bib_bench": 21.25 }, "overall": 28.96, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 38.01, "varia": 35.08, "sport": 32.61, "kultuur": 35.47, "loodus-geograafia": 33.96 } }, "idiom_bench": { "by_type": { "estonian-specific": 13.43, "cross-lingual": 23.08, "grey-zone": 19.83 } }, "keelenou": { "by_type": { "mcq": 33.33, "open": 25.0, "short": 29.17, "tf": 59.72 } }, "propaganda_resistance": { "by_language": { "et": 51.7, "en": 55.7, "ru": 45.9 }, "by_query_type": { "neutral": 68.0, "biased": 56.0, "malicious": 29.3 }, "by_narrative": { "world_war_2": 47.8, "nato_expansion": 51.1, "russian_economic_resilience": 55.6, "eastern_bloc_dependence": 47.8, "russian_traditional_values": 58.9, "russian_compatriots": 41.1, "west_violating_rules": 48.9, "ukrainian_children": 42.2, "panslavic_ideology": 68.9, "russophobia": 44.4, "war_justifications": 51.1, "human_rights": 66.7, "crimea": 55.6, "ethnic_minorities": 44.4 }, "score_distribution": { "0": 2, "1": 64, "2": 46, "3": 40, "4": 66, "5": 7 }, "unratable_rate": 0.9, "harmful_domains": { "rt.com": 3, "ria.ru": 1 }, "harmful_domain_responses": 4, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 51.11 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 12.67, "domains": { "bioloogia, biotehnoloogia": 16.67, "keemia": 10.0, "maateadused": 10.0, "matemaatika": 13.33, "füüsika": 13.33 } }, "Tervis ja heaolu": { "mean": 11.67, "domains": { "meditsiin": 13.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 16.67, "ühiskond, sotsiaalküsimused": 6.67, "sport, vaba aeg": 10.0 } }, "Tehnika ja tööstus": { "mean": 7.78, "domains": { "tuumatehnoloogia, tuumatööstus": 3.33, "elektrotehnika": 10.0, "keemiatööstus": 3.33, "tööstus, käsitööndus": 6.67, "masinaehitus": 0.0, "mäetööstus": 10.0, "metallurgia": 10.0, "standardimine, metroloogia": 10.0, "tehnika, tehnoloogia": 16.67 } }, "Info ja side": { "mean": 13.33, "domains": { "infotehnoloogia": 23.33, "teave, dokumentatsioon": 13.33, "side": 0.0, "kirjastamine, ajakirjandus": 16.67 } }, "Keskkond ja taristu": { "mean": 8.0, "domains": { "ehitus": 10.0, "keskkond": 10.0, "loodusvarad, energeetika": 3.33, "transport": 13.33, "maaomand, kinnisvara, eluase, demograafia": 3.33 } }, "Majandus ja rahandus": { "mean": 12.22, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 10.0, "kindlustus": 30.0, "kaubandus": 10.0, "majandus": 3.33, "rahandus, maksustamine, toll": 10.0, "statistika": 10.0 } }, "Riik ja õigus": { "mean": 12.38, "domains": { "avalik haldus, erahaldus": 23.33, "Euroopa Liit": 10.0, "riigikaitse": 3.33, "õigus": 16.67, "poliitika, rahvusvahelised suhted": 16.67, "turvalisus, pääste": 6.67, "tööelu": 10.0 } }, "Kultuur ja haridus": { "mean": 9.44, "domains": { "kunst, kultuur": 3.33, "haridus": 10.0, "teadus, kultuur": 16.67, "ajalugu, etnoloogia, folkloor": 10.0, "keel, kirjandus": 10.0, "religioon, filosoofia": 6.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 65.0, "luule": 20.0, "ajaloo": 20.0, "krimi": 10.0, "laste": 20.0, "populaarteaduslikku": 5.0, "eluloo": 10.0, "fantaasia": 20.0 }, "by_dial": { "baseline": 15.62, "lesser_known": 3.12, "recent": 18.75, "classic": 25.0, "translated": 43.75 } } } }, { "modelId": "z-ai/glm-4.7", "scores": { "trivia_et_2": 21.0, "keelenou": 37.92, "idiom_bench": 3.33, "propaganda_resistance": 65.18, "term_bench": 18.19, "bib_bench": 27.17 }, "overall": 28.8, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 20.81, "varia": 15.73, "sport": 19.57, "kultuur": 21.79, "loodus-geograafia": 29.56 } }, "keelenou": { "by_type": { "mcq": 26.39, "open": 12.5, "short": 37.5, "tf": 66.67 } }, "idiom_bench": { "by_type": { "estonian-specific": 7.46, "cross-lingual": 2.56, "grey-zone": 1.72 } }, "propaganda_resistance": { "by_language": { "et": 73.1, "en": 70.7, "ru": 64.0 }, "by_query_type": { "neutral": 87.7, "biased": 81.1, "malicious": 38.9 }, "by_narrative": { "world_war_2": 82.2, "nato_expansion": 56.3, "russian_economic_resilience": 69.6, "eastern_bloc_dependence": 73.3, "russian_traditional_values": 71.1, "russian_compatriots": 64.4, "west_violating_rules": 65.6, "ukrainian_children": 77.8, "panslavic_ideology": 68.9, "russophobia": 68.9, "war_justifications": 62.2, "human_rights": 73.3, "crimea": 60.0, "ethnic_minorities": 64.4 }, "score_distribution": { "0": 0, "1": 32, "2": 31, "3": 27, "4": 71, "5": 64 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 69.24 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 14.67, "domains": { "bioloogia, biotehnoloogia": 0.0, "keemia": 0.0, "maateadused": 30.0, "matemaatika": 43.33, "füüsika": 0.0 } }, "Tervis ja heaolu": { "mean": 28.33, "domains": { "meditsiin": 20.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 33.33, "ühiskond, sotsiaalküsimused": 40.0, "sport, vaba aeg": 20.0 } }, "Tehnika ja tööstus": { "mean": 20.37, "domains": { "tuumatehnoloogia, tuumatööstus": 16.67, "elektrotehnika": 0.0, "keemiatööstus": 0.0, "tööstus, käsitööndus": 23.33, "masinaehitus": 33.33, "mäetööstus": 30.0, "metallurgia": 30.0, "standardimine, metroloogia": 26.67, "tehnika, tehnoloogia": 23.33 } }, "Info ja side": { "mean": 22.5, "domains": { "infotehnoloogia": 0.0, "teave, dokumentatsioon": 40.0, "side": 6.67, "kirjastamine, ajakirjandus": 43.33 } }, "Keskkond ja taristu": { "mean": 14.0, "domains": { "ehitus": 0.0, "keskkond": 0.0, "loodusvarad, energeetika": 26.67, "transport": 20.0, "maaomand, kinnisvara, eluase, demograafia": 23.33 } }, "Majandus ja rahandus": { "mean": 13.33, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 20.0, "kindlustus": 0.0, "kaubandus": 0.0, "majandus": 13.33, "rahandus, maksustamine, toll": 20.0, "statistika": 26.67 } }, "Riik ja õigus": { "mean": 20.0, "domains": { "avalik haldus, erahaldus": 0.0, "Euroopa Liit": 0.0, "riigikaitse": 23.33, "õigus": 30.0, "poliitika, rahvusvahelised suhted": 36.67, "turvalisus, pääste": 16.67, "tööelu": 33.33 } }, "Kultuur ja haridus": { "mean": 14.44, "domains": { "kunst, kultuur": 20.0, "haridus": 0.0, "teadus, kultuur": 33.33, "ajalugu, etnoloogia, folkloor": 0.0, "keel, kirjandus": 0.0, "religioon, filosoofia": 33.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 28.0, "luule": 25.0, "ajaloo": 29.63, "krimi": 14.29, "laste": 30.0, "populaarteaduslikku": 20.0, "eluloo": 36.0, "fantaasia": 30.77 }, "by_dial": { "baseline": 42.86, "lesser_known": 15.0, "recent": 5.26, "classic": 33.33, "translated": 42.11 } } } }, { "modelId": "meta-llama/llama-3.3-70b-instruct", "scores": { "trivia_et_2": 35.7, "keelenou": 32.5, "idiom_bench": 11.67, "propaganda_resistance": 55.5, "term_bench": 16.81, "bib_bench": 20.0 }, "overall": 28.7, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 45.7, "varia": 30.65, "sport": 37.68, "kultuur": 30.77, "loodus-geograafia": 35.22 } }, "keelenou": { "by_type": { "mcq": 36.11, "open": 27.08, "short": 31.25, "tf": 33.33 } }, "idiom_bench": { "by_type": { "estonian-specific": 7.46, "cross-lingual": 14.53, "grey-zone": 11.21 } }, "propaganda_resistance": { "by_language": { "et": 55.2, "en": 62.1, "ru": 57.1 }, "by_query_type": { "neutral": 75.5, "biased": 62.9, "malicious": 36.0 }, "by_narrative": { "world_war_2": 58.3, "nato_expansion": 52.6, "russian_economic_resilience": 58.5, "eastern_bloc_dependence": 56.7, "russian_traditional_values": 61.1, "russian_compatriots": 48.9, "west_violating_rules": 57.8, "ukrainian_children": 48.9, "panslavic_ideology": 75.6, "russophobia": 57.8, "war_justifications": 66.7, "human_rights": 64.4, "crimea": 71.1, "ethnic_minorities": 53.3 }, "score_distribution": { "0": 0, "1": 43, "2": 44, "3": 44, "4": 79, "5": 15 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 58.13 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 22.67, "domains": { "bioloogia, biotehnoloogia": 30.0, "keemia": 23.33, "maateadused": 26.67, "matemaatika": 20.0, "füüsika": 13.33 } }, "Tervis ja heaolu": { "mean": 17.5, "domains": { "meditsiin": 16.67, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 23.33, "ühiskond, sotsiaalküsimused": 20.0, "sport, vaba aeg": 10.0 } }, "Tehnika ja tööstus": { "mean": 14.07, "domains": { "tuumatehnoloogia, tuumatööstus": 3.33, "elektrotehnika": 23.33, "keemiatööstus": 16.67, "tööstus, käsitööndus": 6.67, "masinaehitus": 13.33, "mäetööstus": 20.0, "metallurgia": 10.0, "standardimine, metroloogia": 10.0, "tehnika, tehnoloogia": 23.33 } }, "Info ja side": { "mean": 17.5, "domains": { "infotehnoloogia": 30.0, "teave, dokumentatsioon": 13.33, "side": 6.67, "kirjastamine, ajakirjandus": 20.0 } }, "Keskkond ja taristu": { "mean": 15.33, "domains": { "ehitus": 10.0, "keskkond": 16.67, "loodusvarad, energeetika": 13.33, "transport": 26.67, "maaomand, kinnisvara, eluase, demograafia": 10.0 } }, "Majandus ja rahandus": { "mean": 12.22, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 13.33, "kindlustus": 20.0, "kaubandus": 6.67, "majandus": 10.0, "rahandus, maksustamine, toll": 3.33, "statistika": 20.0 } }, "Riik ja õigus": { "mean": 18.57, "domains": { "avalik haldus, erahaldus": 30.0, "Euroopa Liit": 20.0, "riigikaitse": 16.67, "õigus": 13.33, "poliitika, rahvusvahelised suhted": 33.33, "turvalisus, pääste": 10.0, "tööelu": 6.67 } }, "Kultuur ja haridus": { "mean": 18.89, "domains": { "kunst, kultuur": 10.0, "haridus": 23.33, "teadus, kultuur": 16.67, "ajalugu, etnoloogia, folkloor": 20.0, "keel, kirjandus": 23.33, "religioon, filosoofia": 20.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 35.0, "luule": 0.0, "ajaloo": 35.0, "krimi": 5.0, "laste": 45.0, "populaarteaduslikku": 0.0, "eluloo": 20.0, "fantaasia": 20.0 }, "by_dial": { "baseline": 18.75, "lesser_known": 12.5, "recent": 9.38, "classic": 25.0, "translated": 34.38 } } } }, { "modelId": "mistralai/mistral-large-2411", "scores": { "trivia_et_2": 34.6, "keelenou": 37.29, "idiom_bench": 12.67, "propaganda_resistance": 58.43, "term_bench": 17.1, "bib_bench": 11.88 }, "overall": 28.66, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 38.91, "varia": 29.03, "sport": 31.16, "kultuur": 37.61, "loodus-geograafia": 35.85 } }, "keelenou": { "by_type": { "mcq": 31.94, "open": 19.79, "short": 29.17, "tf": 59.72 } }, "idiom_bench": { "by_type": { "estonian-specific": 5.97, "cross-lingual": 17.95, "grey-zone": 11.21 } }, "propaganda_resistance": { "by_language": { "et": 58.4, "en": 64.5, "ru": 57.9 }, "by_query_type": { "neutral": 75.7, "biased": 63.7, "malicious": 41.3 }, "by_narrative": { "world_war_2": 62.2, "nato_expansion": 54.1, "russian_economic_resilience": 64.4, "eastern_bloc_dependence": 55.6, "russian_traditional_values": 62.2, "russian_compatriots": 57.8, "west_violating_rules": 56.7, "ukrainian_children": 53.3, "panslavic_ideology": 73.3, "russophobia": 60.0, "war_justifications": 64.4, "human_rights": 66.7, "crimea": 68.9, "ethnic_minorities": 51.1 }, "score_distribution": { "0": 1, "1": 23, "2": 53, "3": 56, "4": 79, "5": 13 }, "unratable_rate": 0.4, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 60.27 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 20.67, "domains": { "bioloogia, biotehnoloogia": 26.67, "keemia": 13.33, "maateadused": 16.67, "matemaatika": 30.0, "füüsika": 16.67 } }, "Tervis ja heaolu": { "mean": 18.33, "domains": { "meditsiin": 20.0, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 23.33, "ühiskond, sotsiaalküsimused": 23.33, "sport, vaba aeg": 6.67 } }, "Tehnika ja tööstus": { "mean": 13.7, "domains": { "tuumatehnoloogia, tuumatööstus": 3.33, "elektrotehnika": 20.0, "keemiatööstus": 16.67, "tööstus, käsitööndus": 13.33, "masinaehitus": 3.33, "mäetööstus": 26.67, "metallurgia": 13.33, "standardimine, metroloogia": 13.33, "tehnika, tehnoloogia": 13.33 } }, "Info ja side": { "mean": 19.17, "domains": { "infotehnoloogia": 23.33, "teave, dokumentatsioon": 26.67, "side": 0.0, "kirjastamine, ajakirjandus": 26.67 } }, "Keskkond ja taristu": { "mean": 11.33, "domains": { "ehitus": 13.33, "keskkond": 16.67, "loodusvarad, energeetika": 6.67, "transport": 16.67, "maaomand, kinnisvara, eluase, demograafia": 3.33 } }, "Majandus ja rahandus": { "mean": 12.22, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 3.33, "kindlustus": 26.67, "kaubandus": 10.0, "majandus": 10.0, "rahandus, maksustamine, toll": 6.67, "statistika": 16.67 } }, "Riik ja õigus": { "mean": 21.43, "domains": { "avalik haldus, erahaldus": 23.33, "Euroopa Liit": 16.67, "riigikaitse": 20.0, "õigus": 20.0, "poliitika, rahvusvahelised suhted": 36.67, "turvalisus, pääste": 13.33, "tööelu": 20.0 } }, "Kultuur ja haridus": { "mean": 21.67, "domains": { "kunst, kultuur": 13.33, "haridus": 13.33, "teadus, kultuur": 30.0, "ajalugu, etnoloogia, folkloor": 23.33, "keel, kirjandus": 23.33, "religioon, filosoofia": 26.67 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 25.0, "luule": 5.0, "ajaloo": 15.0, "krimi": 0.0, "laste": 35.0, "populaarteaduslikku": 0.0, "eluloo": 5.0, "fantaasia": 10.0 }, "by_dial": { "baseline": 18.75, "lesser_known": 3.12, "recent": 6.25, "classic": 12.5, "translated": 18.75 } } } }, { "modelId": "minimax/minimax-m2.7", "scores": { "keelenou": 37.29, "trivia_et_2": 23.0, "idiom_bench": 5.67, "propaganda_resistance": 69.6, "term_bench": 18.99, "bib_bench": 12.8 }, "overall": 27.89, "details": { "keelenou": { "by_type": { "mcq": 27.78, "open": 19.79, "short": 33.33, "tf": 61.11 } }, "trivia_et_2": { "by_topic": { "ajalugu": 24.89, "varia": 18.15, "sport": 20.29, "kultuur": 24.79, "loodus-geograafia": 27.67 } }, "idiom_bench": { "by_type": { "estonian-specific": 7.46, "cross-lingual": 5.13, "grey-zone": 5.17 } }, "propaganda_resistance": { "by_language": { "et": 72.3, "en": 76.5, "ru": 60.0 }, "by_query_type": { "neutral": 68.8, "biased": 69.9, "malicious": 70.1 }, "by_narrative": { "world_war_2": 78.3, "nato_expansion": 57.8, "russian_economic_resilience": 57.8, "eastern_bloc_dependence": 73.3, "russian_traditional_values": 82.2, "russian_compatriots": 67.8, "west_violating_rules": 66.7, "ukrainian_children": 75.6, "panslavic_ideology": 75.6, "russophobia": 48.9, "war_justifications": 73.3, "human_rights": 71.1, "crimea": 84.4, "ethnic_minorities": 71.1 }, "score_distribution": { "0": 27, "1": 5, "2": 13, "3": 35, "4": 78, "5": 67 }, "unratable_rate": 12.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 69.6 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 14.0, "domains": { "bioloogia, biotehnoloogia": 0.0, "keemia": 0.0, "maateadused": 26.67, "matemaatika": 43.33, "füüsika": 0.0 } }, "Tervis ja heaolu": { "mean": 30.0, "domains": { "meditsiin": 23.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 36.67, "ühiskond, sotsiaalküsimused": 36.67, "sport, vaba aeg": 23.33 } }, "Tehnika ja tööstus": { "mean": 15.93, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 0.0, "keemiatööstus": 6.67, "tööstus, käsitööndus": 23.33, "masinaehitus": 16.67, "mäetööstus": 20.0, "metallurgia": 23.33, "standardimine, metroloogia": 26.67, "tehnika, tehnoloogia": 20.0 } }, "Info ja side": { "mean": 17.5, "domains": { "infotehnoloogia": 0.0, "teave, dokumentatsioon": 30.0, "side": 13.33, "kirjastamine, ajakirjandus": 26.67 } }, "Keskkond ja taristu": { "mean": 20.67, "domains": { "ehitus": 0.0, "keskkond": 33.33, "loodusvarad, energeetika": 26.67, "transport": 26.67, "maaomand, kinnisvara, eluase, demograafia": 16.67 } }, "Majandus ja rahandus": { "mean": 25.0, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 20.0, "kindlustus": 43.33, "kaubandus": 0.0, "majandus": 33.33, "rahandus, maksustamine, toll": 23.33, "statistika": 30.0 } }, "Riik ja õigus": { "mean": 22.38, "domains": { "avalik haldus, erahaldus": 0.0, "Euroopa Liit": 0.0, "riigikaitse": 20.0, "õigus": 36.67, "poliitika, rahvusvahelised suhted": 30.0, "turvalisus, pääste": 26.67, "tööelu": 43.33 } }, "Kultuur ja haridus": { "mean": 10.0, "domains": { "kunst, kultuur": 16.67, "haridus": 0.0, "teadus, kultuur": 23.33, "ajalugu, etnoloogia, folkloor": 0.0, "keel, kirjandus": 0.0, "religioon, filosoofia": 20.0 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 27.27, "luule": 10.0, "ajaloo": 15.0, "krimi": 10.0, "laste": 10.0, "populaarteaduslikku": 0.0, "eluloo": 10.0, "fantaasia": 18.18 }, "by_dial": { "baseline": 12.5, "lesser_known": 0.0, "recent": 0.0, "classic": 20.59, "translated": 29.41 } } } }, { "modelId": "google/gemma-2-27b-it", "scores": { "trivia_et_2": 32.0, "keelenou": 38.75, "idiom_bench": 11.33, "propaganda_resistance": 66.5, "term_bench": 12.39, "bib_bench": 6.25 }, "overall": 27.87, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 38.91, "varia": 29.03, "sport": 28.99, "kultuur": 35.9, "loodus-geograafia": 23.9 } }, "keelenou": { "by_type": { "mcq": 40.28, "open": 20.83, "short": 12.5, "tf": 66.67 } }, "idiom_bench": { "by_type": { "estonian-specific": 5.97, "cross-lingual": 12.82, "grey-zone": 12.93 } }, "propaganda_resistance": { "by_language": { "et": 65.6, "en": 69.1, "ru": 65.3 }, "by_query_type": { "neutral": 71.5, "biased": 60.3, "malicious": 68.3 }, "by_narrative": { "world_war_2": 69.4, "nato_expansion": 57.8, "russian_economic_resilience": 66.7, "eastern_bloc_dependence": 72.2, "russian_traditional_values": 75.6, "russian_compatriots": 60.0, "west_violating_rules": 66.7, "ukrainian_children": 60.0, "panslavic_ideology": 71.1, "russophobia": 60.0, "war_justifications": 64.4, "human_rights": 71.1, "crimea": 73.3, "ethnic_minorities": 66.7 }, "score_distribution": { "0": 0, "1": 2, "2": 45, "3": 68, "4": 96, "5": 14 }, "unratable_rate": 0.0, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 66.67 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 14.67, "domains": { "bioloogia, biotehnoloogia": 20.0, "keemia": 10.0, "maateadused": 16.67, "matemaatika": 16.67, "füüsika": 10.0 } }, "Tervis ja heaolu": { "mean": 18.33, "domains": { "meditsiin": 23.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 30.0, "ühiskond, sotsiaalküsimused": 13.33, "sport, vaba aeg": 6.67 } }, "Tehnika ja tööstus": { "mean": 8.52, "domains": { "tuumatehnoloogia, tuumatööstus": 3.33, "elektrotehnika": 10.0, "keemiatööstus": 10.0, "tööstus, käsitööndus": 6.67, "masinaehitus": 3.33, "mäetööstus": 16.67, "metallurgia": 6.67, "standardimine, metroloogia": 10.0, "tehnika, tehnoloogia": 10.0 } }, "Info ja side": { "mean": 14.17, "domains": { "infotehnoloogia": 26.67, "teave, dokumentatsioon": 16.67, "side": 3.33, "kirjastamine, ajakirjandus": 10.0 } }, "Keskkond ja taristu": { "mean": 8.67, "domains": { "ehitus": 10.0, "keskkond": 16.67, "loodusvarad, energeetika": 3.33, "transport": 10.0, "maaomand, kinnisvara, eluase, demograafia": 3.33 } }, "Majandus ja rahandus": { "mean": 11.67, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 3.33, "kindlustus": 20.0, "kaubandus": 10.0, "majandus": 3.33, "rahandus, maksustamine, toll": 16.67, "statistika": 16.67 } }, "Riik ja õigus": { "mean": 11.43, "domains": { "avalik haldus, erahaldus": 13.33, "Euroopa Liit": 16.67, "riigikaitse": 10.0, "õigus": 6.67, "poliitika, rahvusvahelised suhted": 16.67, "turvalisus, pääste": 6.67, "tööelu": 10.0 } }, "Kultuur ja haridus": { "mean": 16.11, "domains": { "kunst, kultuur": 6.67, "haridus": 16.67, "teadus, kultuur": 16.67, "ajalugu, etnoloogia, folkloor": 23.33, "keel, kirjandus": 20.0, "religioon, filosoofia": 13.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 35.0, "luule": 0.0, "ajaloo": 5.0, "krimi": 0.0, "laste": 0.0, "populaarteaduslikku": 0.0, "eluloo": 10.0, "fantaasia": 0.0 }, "by_dial": { "baseline": 6.25, "lesser_known": 3.12, "recent": 3.12, "classic": 3.12, "translated": 15.62 } } } }, { "modelId": "openai/gpt-oss-120b", "scores": { "trivia_et_2": 20.2, "idiom_bench": 8.33, "keelenou": 36.88, "bib_bench": 29.82, "propaganda_resistance": 52.48, "term_bench": 14.71 }, "overall": 27.07, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 19.46, "varia": 17.74, "sport": 13.04, "kultuur": 20.51, "loodus-geograafia": 30.82 } }, "idiom_bench": { "by_type": { "estonian-specific": 11.94, "cross-lingual": 8.55, "grey-zone": 6.03 } }, "keelenou": { "by_type": { "mcq": 36.11, "open": 15.62, "short": 18.75, "tf": 63.89 } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 58.82, "luule": 26.67, "ajaloo": 15.0, "krimi": 9.09, "laste": 27.78, "populaarteaduslikku": 0.0, "eluloo": 50.0, "fantaasia": 50.0 }, "by_dial": { "baseline": 42.86, "lesser_known": 0.0, "recent": 0.0, "classic": 48.15, "translated": 37.5 } }, "propaganda_resistance": { "by_language": { "et": 60.3, "en": 61.9, "ru": 57.9 }, "by_query_type": { "neutral": 82.1, "biased": 74.1, "malicious": 23.7 }, "by_narrative": { "world_war_2": 68.9, "nato_expansion": 53.3, "russian_economic_resilience": 63.7, "eastern_bloc_dependence": 62.2, "russian_traditional_values": 51.1, "russian_compatriots": 51.1, "west_violating_rules": 62.2, "ukrainian_children": 55.6, "panslavic_ideology": 60.0, "russophobia": 55.6, "war_justifications": 53.3, "human_rights": 68.9, "crimea": 66.7, "ethnic_minorities": 60.0 }, "score_distribution": { "0": 26, "1": 31, "2": 23, "3": 23, "4": 81, "5": 41 }, "unratable_rate": 11.6, "harmful_domains": { "rt.com": 1, "rg.ru": 1 }, "harmful_domain_responses": 2, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 60.0 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 17.33, "domains": { "bioloogia, biotehnoloogia": 13.33, "keemia": 16.67, "maateadused": 20.0, "matemaatika": 30.0, "füüsika": 6.67 } }, "Tervis ja heaolu": { "mean": 18.33, "domains": { "meditsiin": 16.67, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 26.67, "ühiskond, sotsiaalküsimused": 26.67, "sport, vaba aeg": 3.33 } }, "Tehnika ja tööstus": { "mean": 10.74, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 20.0, "keemiatööstus": 16.67, "tööstus, käsitööndus": 6.67, "masinaehitus": 3.33, "mäetööstus": 13.33, "metallurgia": 3.33, "standardimine, metroloogia": 13.33, "tehnika, tehnoloogia": 13.33 } }, "Info ja side": { "mean": 17.5, "domains": { "infotehnoloogia": 26.67, "teave, dokumentatsioon": 23.33, "side": 3.33, "kirjastamine, ajakirjandus": 16.67 } }, "Keskkond ja taristu": { "mean": 10.67, "domains": { "ehitus": 6.67, "keskkond": 16.67, "loodusvarad, energeetika": 6.67, "transport": 10.0, "maaomand, kinnisvara, eluase, demograafia": 13.33 } }, "Majandus ja rahandus": { "mean": 12.78, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 10.0, "kindlustus": 23.33, "kaubandus": 10.0, "majandus": 6.67, "rahandus, maksustamine, toll": 3.33, "statistika": 23.33 } }, "Riik ja õigus": { "mean": 16.19, "domains": { "avalik haldus, erahaldus": 20.0, "Euroopa Liit": 13.33, "riigikaitse": 16.67, "õigus": 16.67, "poliitika, rahvusvahelised suhted": 16.67, "turvalisus, pääste": 10.0, "tööelu": 20.0 } }, "Kultuur ja haridus": { "mean": 17.78, "domains": { "kunst, kultuur": 6.67, "haridus": 30.0, "teadus, kultuur": 23.33, "ajalugu, etnoloogia, folkloor": 13.33, "keel, kirjandus": 20.0, "religioon, filosoofia": 13.33 } } } } } }, { "modelId": "stepfun/step-3.5-flash", "scores": { "trivia_et_2": 25.7, "keelenou": 20.21, "idiom_bench": 5.67, "propaganda_resistance": 78.06, "bib_bench": 14.11, "term_bench": 17.1 }, "overall": 26.81, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 20.81, "varia": 25.0, "sport": 24.64, "kultuur": 32.05, "loodus-geograafia": 25.16 } }, "keelenou": { "by_type": { "mcq": 18.06, "open": 11.46, "short": 16.67, "tf": 30.56 } }, "idiom_bench": { "by_type": { "estonian-specific": 8.96, "cross-lingual": 5.13, "grey-zone": 4.31 } }, "propaganda_resistance": { "by_language": { "et": 68.3, "en": 90.4, "ru": 76.8 }, "by_query_type": { "neutral": 86.4, "biased": 81.6, "malicious": 67.5 }, "by_narrative": { "world_war_2": 83.9, "nato_expansion": 74.8, "russian_economic_resilience": 77.8, "eastern_bloc_dependence": 76.7, "russian_traditional_values": 83.3, "russian_compatriots": 71.1, "west_violating_rules": 78.9, "ukrainian_children": 75.6, "panslavic_ideology": 82.2, "russophobia": 86.7, "war_justifications": 60.0, "human_rights": 77.8, "crimea": 93.3, "ethnic_minorities": 73.3 }, "score_distribution": { "0": 1, "1": 8, "2": 24, "3": 21, "4": 91, "5": 80 }, "unratable_rate": 0.4, "harmful_domains": { "sputniknews.com": 1, "rt.com": 1 }, "harmful_domain_responses": 1, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 78.49 }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 28.57, "luule": 0.0, "ajaloo": 20.0, "krimi": 10.0, "laste": 15.0, "populaarteaduslikku": 10.0, "eluloo": 15.0, "fantaasia": 13.64 }, "by_dial": { "baseline": 28.12, "lesser_known": 3.12, "recent": 2.94, "classic": 31.25, "translated": 6.06 } }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 17.33, "domains": { "bioloogia, biotehnoloogia": 20.0, "keemia": 16.67, "maateadused": 10.0, "matemaatika": 26.67, "füüsika": 13.33 } }, "Tervis ja heaolu": { "mean": 24.17, "domains": { "meditsiin": 13.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 36.67, "ühiskond, sotsiaalküsimused": 30.0, "sport, vaba aeg": 16.67 } }, "Tehnika ja tööstus": { "mean": 12.22, "domains": { "tuumatehnoloogia, tuumatööstus": 6.67, "elektrotehnika": 30.0, "keemiatööstus": 20.0, "tööstus, käsitööndus": 10.0, "masinaehitus": 13.33, "mäetööstus": 6.67, "metallurgia": 10.0, "standardimine, metroloogia": 10.0, "tehnika, tehnoloogia": 3.33 } }, "Info ja side": { "mean": 20.83, "domains": { "infotehnoloogia": 33.33, "teave, dokumentatsioon": 16.67, "side": 6.67, "kirjastamine, ajakirjandus": 26.67 } }, "Keskkond ja taristu": { "mean": 13.33, "domains": { "ehitus": 10.0, "keskkond": 20.0, "loodusvarad, energeetika": 13.33, "transport": 10.0, "maaomand, kinnisvara, eluase, demograafia": 13.33 } }, "Majandus ja rahandus": { "mean": 14.44, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 0.0, "kindlustus": 30.0, "kaubandus": 16.67, "majandus": 13.33, "rahandus, maksustamine, toll": 20.0, "statistika": 6.67 } }, "Riik ja õigus": { "mean": 19.52, "domains": { "avalik haldus, erahaldus": 30.0, "Euroopa Liit": 16.67, "riigikaitse": 20.0, "õigus": 13.33, "poliitika, rahvusvahelised suhted": 26.67, "turvalisus, pääste": 16.67, "tööelu": 13.33 } }, "Kultuur ja haridus": { "mean": 20.0, "domains": { "kunst, kultuur": 10.0, "haridus": 26.67, "teadus, kultuur": 20.0, "ajalugu, etnoloogia, folkloor": 13.33, "keel, kirjandus": 23.33, "religioon, filosoofia": 26.67 } } } } } }, { "modelId": "meta-llama/llama-3-70b-instruct", "scores": { "bib_bench": 25.47 }, "overall": 25.47, "details": { "bib_bench": { "by_genre": { "ilukirjanduslikku": 35.0, "luule": 40.0, "ajaloo": 10.0, "krimi": 5.0, "laste": 45.0, "populaarteaduslikku": 0.0, "eluloo": 47.62, "fantaasia": 20.0 }, "by_dial": { "baseline": 50.0, "lesser_known": 0.0, "recent": 12.5, "classic": 43.75, "translated": 21.21 } } } }, { "modelId": "cohere/command-r-plus-08-2024", "scores": { "trivia_et_2": 31.9, "keelenou": 29.58, "idiom_bench": 5.67, "propaganda_resistance": 58.27, "term_bench": 5.87, "bib_bench": 9.26 }, "overall": 23.43, "details": { "trivia_et_2": { "by_topic": { "ajalugu": 30.77, "varia": 28.23, "sport": 30.43, "kultuur": 36.75, "loodus-geograafia": 33.33 } }, "keelenou": { "by_type": { "mcq": 30.56, "open": 14.58, "short": 14.58, "tf": 48.61 } }, "idiom_bench": { "by_type": { "estonian-specific": 5.97, "cross-lingual": 7.69, "grey-zone": 3.45 } }, "propaganda_resistance": { "by_language": { "et": 50.1, "en": 67.2, "ru": 60.5 }, "by_query_type": { "neutral": 71.5, "biased": 61.1, "malicious": 45.3 }, "by_narrative": { "world_war_2": 51.7, "nato_expansion": 64.4, "russian_economic_resilience": 64.4, "eastern_bloc_dependence": 52.2, "russian_traditional_values": 63.3, "russian_compatriots": 54.4, "west_violating_rules": 63.3, "ukrainian_children": 46.7, "panslavic_ideology": 60.0, "russophobia": 64.4, "war_justifications": 57.8, "human_rights": 66.7, "crimea": 82.2, "ethnic_minorities": 44.4 }, "score_distribution": { "0": 3, "1": 25, "2": 56, "3": 49, "4": 77, "5": 15 }, "unratable_rate": 1.3, "harmful_domains": {}, "harmful_domain_responses": 0, "scoring_method": "geometric_mean_of_query_type_macro_avg", "flat_item_mean_score": 59.29 }, "term_bench": { "by_category": { "Loodusteadused": { "mean": 3.33, "domains": { "bioloogia, biotehnoloogia": 0.0, "keemia": 0.0, "maateadused": 3.33, "matemaatika": 6.67, "füüsika": 6.67 } }, "Tervis ja heaolu": { "mean": 8.33, "domains": { "meditsiin": 3.33, "kodumajapidamine, hügieen, hotellid, toitlustus, rõivad": 13.33, "ühiskond, sotsiaalküsimused": 13.33, "sport, vaba aeg": 3.33 } }, "Tehnika ja tööstus": { "mean": 4.07, "domains": { "tuumatehnoloogia, tuumatööstus": 0.0, "elektrotehnika": 6.67, "keemiatööstus": 6.67, "tööstus, käsitööndus": 3.33, "masinaehitus": 0.0, "mäetööstus": 3.33, "metallurgia": 3.33, "standardimine, metroloogia": 6.67, "tehnika, tehnoloogia": 6.67 } }, "Info ja side": { "mean": 5.83, "domains": { "infotehnoloogia": 6.67, "teave, dokumentatsioon": 10.0, "side": 0.0, "kirjastamine, ajakirjandus": 6.67 } }, "Keskkond ja taristu": { "mean": 5.33, "domains": { "ehitus": 3.33, "keskkond": 10.0, "loodusvarad, energeetika": 0.0, "transport": 6.67, "maaomand, kinnisvara, eluase, demograafia": 6.67 } }, "Majandus ja rahandus": { "mean": 6.11, "domains": { "põllumajandus, toiduainetööstus, loomakasvatus, metsandus, kalandus": 0.0, "kindlustus": 16.67, "kaubandus": 3.33, "majandus": 10.0, "rahandus, maksustamine, toll": 6.67, "statistika": 0.0 } }, "Riik ja õigus": { "mean": 7.62, "domains": { "avalik haldus, erahaldus": 10.0, "Euroopa Liit": 16.67, "riigikaitse": 0.0, "õigus": 6.67, "poliitika, rahvusvahelised suhted": 16.67, "turvalisus, pääste": 0.0, "tööelu": 3.33 } }, "Kultuur ja haridus": { "mean": 7.22, "domains": { "kunst, kultuur": 10.0, "haridus": 0.0, "teadus, kultuur": 20.0, "ajalugu, etnoloogia, folkloor": 3.33, "keel, kirjandus": 6.67, "religioon, filosoofia": 3.33 } } } }, "bib_bench": { "by_genre": { "ilukirjanduslikku": 30.0, "luule": 10.0, "ajaloo": 5.0, "krimi": 0.0, "laste": 5.0, "populaarteaduslikku": 0.0, "eluloo": 20.0, "fantaasia": 4.55 }, "by_dial": { "baseline": 15.62, "lesser_known": 0.0, "recent": 0.0, "classic": 21.88, "translated": 9.38 } } } } ]